Team Lead Data Engineer (Scala) (удаленная работа)

19 сентября 2024

Уровень зарплаты:
от 350 000 до 350 000 руб.
Требуемый опыт работы:
Не указан

Вакансия: Team Lead Data Engineer (Scala)

Описание вакансии

Компания одно из крупнейших Бюро кредитных историй в России. В числе клиентов более 4 миллионов физических лиц, 600 банков, МФО, страховых компаний и операторов сотовой связи.

Что мы делаем?

  • Мы храним и обрабатываем кредитные истории более 100 миллионов россиян, уделяя большое внимание не только количеству данных, но и качеству их обработки.
  • Предоставляем b2b клиентам данные и аналитику по потенциальным заемщикам, которая помогает им в принятии решения о предоставлении или не предоставлении кредита.
  • Даем возможность физ. лицам ознакомиться со своей кредитной историей, получить выгодные предодобренные предложения от банков.

Проект

Мы строим современную платформу больших данных Data Lakehouse на базе Hadoop и GreenPlum. Платформа объединяет в себе мировые технологии загрузки, обработки, распределенных вычислений и хранения данных, а также обеспечивает полный жизненный цикл разработки аналитических продуктов и ML сервисов.

Команда

14 data engineer (команда загрузки данных и команда разработки витрин данных), Team Lead команды разработки витрин данных (вакансия), Team Lead команды загрузки данных, Tech Head of Data, архитектор.

Основными стейкхолдерами команды являются аналитики, DS, владельцы аналитических продуктов.

В составе департамента платформы данных есть еще несколько команд: системные аналитики, 2 data ops (занимаются CI/CD дата-пайплайнов) и команда SRE-инженеров (администрирование Hadoop + Greenplum).

Чем предстоит заниматься

  • Управлять командой из 6 DE (распределение и постановка задач, контроль исполнения всех задач команды DE, участие в найме, развитие сотрудников).
  • Разрабатывать пайплайны загрузки данных из различных источников (РСУБД, NoSQL, files, streaming, REST API) в Datalake.
  • Разрабатывать пайплайны построения витрин данных.
  • Разрабатывать структуру хранилища по парадигме Data Vault 2.0.
  • Реализовать PoC (MVP) с использованием новых инструментов и технологий.
  • Тестировать пайплайны обработки данных.
  • Разрабатывать мониторинг работы пайплайнов в продуктивном контуре.
  • Оптимизировать процессы хранения и обработки данных с использованием современных технологий и подходов.
  • Реализовывать распределенные алгоритмы на больших данных.
  • Продукционализировать и оптимизировать признаки для моделей машинного обучения.
  • Строить CDC на базе Debezium (источники Oracle, Postgres, Redis).

Что ожидаем от тебя

  • Опыт работы на позиции DE от 3х лет.
  • Опыт работы на позиции Team Lead DE от 2х лет.
  • Опыт разработки на Scala от 1 года.
  • Опыт обработки данных с помощью Apache Spark (основной фреймворк платформы), Apache Spark structured streaming, Apache Kafka.
  • Экспертные навыки SQL (аналитические функции, оконные функции, триггеры).
  • Опыт работы с манипуляцией данными в распределённых файловых хранилищах HDFS, Ceph, S3.
  • Опыт работы с экосистемой кластера Hadoop (Yarn, Spark History server).
  • Опыт работы с БД: PostgreSQL, Redis, Greenplum.
  • Опыт оптимизации Apache Spark задач (понимание работы изнутри, подбор параметров).
  • Опыт разработки дагов Apache Airflow (все пайплайны оркестрируются).

Будет плюсом

  • Опыт работы с табличным форматом хранения данных Delta lake.
  • Опыт работы с Data science в части доставки данных и продукционализации признаков для моделей машинного обучения.
  • Опыт построения Data lineage (DataHub), качество данных (Great Expectation).
  • Опыт работы с Feast (Feature Store).

Что готовы предложить

  • Оформление по ТК РФ: оклад + годовой бонус (10% от годового дохода) определяется по итогу собеседований.
  • Компания входит в реестр аккредитованных ИТ компаний.
  • Удаленный формат работы . При желании можно работать в офисе класса А (г. Москва, ст. м. Павелецкая, Шлюзовая набережная).
  • График работы 5/2, с 9 до 18 по Московскому времени.
  • ДМС со стоматологией (с 1 рабочего дня + полис путешественника).
  • Частичная компенсация фитнеса / обучения / доп. мед. услуг (лимит - 25 тыс. рублей в год).
  • Льготная ипотека (от Сбербанк), в том числе рефинансирование (ставка по ипотеке на 2 пункта ниже).
  • Дополнительные дни к ежегодному отпуску (всего 31 день в году).
  • Современное оборудование (Lenovo ThinkPad на Windows).

Как мы проводим собеседования

  1. 15-20 минут - общение с рекрутером (в аудио-формате).

  2. 60-90 минут - техническое интервью с Team Lead команды загрузки данных и Tech Head of Data (google meet, видео встреча).

  3. 60 минут - интервью с руководителем направления разработки хранилищ данных (google meet, видео встреча).

  4. Проверка документов 1-2 дня (анкета в электронном виде).

  5. Оффер, обсуждение даты выхода на работу.

Мы стараемся как можно быстрее принимать решения.



Посмотрите похожие вакансии

Senior Data Scientist
Компания: Астор
Зарплата: з.п. не указана
Principal Software Engineer
Компания: Lenkep recruitment
Зарплата: от 601 681 до 601 681 руб.
System Analyst FinTech, Payments
Компания: Payler
Зарплата: от 0 до 240 000 руб.
Technical Lead, Back-end (Remote/Relocation)
Компания: CoverGo
Зарплата: от 898 225 руб.