Вакансия: Team Lead Data Engineer (Scala)
Описание вакансии
Компания одно из крупнейших Бюро кредитных историй в России. В числе клиентов более 4 миллионов физических лиц, 600 банков, МФО, страховых компаний и операторов сотовой связи.
Что мы делаем?
- Мы храним и обрабатываем кредитные истории более 100 миллионов россиян, уделяя большое внимание не только количеству данных, но и качеству их обработки.
- Предоставляем b2b клиентам данные и аналитику по потенциальным заемщикам, которая помогает им в принятии решения о предоставлении или не предоставлении кредита.
- Даем возможность физ. лицам ознакомиться со своей кредитной историей, получить выгодные предодобренные предложения от банков.
Проект
Мы строим современную платформу больших данных Data Lakehouse на базе Hadoop и GreenPlum. Платформа объединяет в себе мировые технологии загрузки, обработки, распределенных вычислений и хранения данных, а также обеспечивает полный жизненный цикл разработки аналитических продуктов и ML сервисов.
Команда
14 data engineer (команда загрузки данных и команда разработки витрин данных), Team Lead команды разработки витрин данных (вакансия), Team Lead команды загрузки данных, Tech Head of Data, архитектор.
Основными стейкхолдерами команды являются аналитики, DS, владельцы аналитических продуктов.
В составе департамента платформы данных есть еще несколько команд: системные аналитики, 2 data ops (занимаются CI/CD дата-пайплайнов) и команда SRE-инженеров (администрирование Hadoop + Greenplum).
Чем предстоит заниматься
- Управлять командой из 6 DE (распределение и постановка задач, контроль исполнения всех задач команды DE, участие в найме, развитие сотрудников).
- Разрабатывать пайплайны загрузки данных из различных источников (РСУБД, NoSQL, files, streaming, REST API) в Datalake.
- Разрабатывать пайплайны построения витрин данных.
- Разрабатывать структуру хранилища по парадигме Data Vault 2.0.
- Реализовать PoC (MVP) с использованием новых инструментов и технологий.
- Тестировать пайплайны обработки данных.
- Разрабатывать мониторинг работы пайплайнов в продуктивном контуре.
- Оптимизировать процессы хранения и обработки данных с использованием современных технологий и подходов.
- Реализовывать распределенные алгоритмы на больших данных.
- Продукционализировать и оптимизировать признаки для моделей машинного обучения.
- Строить CDC на базе Debezium (источники Oracle, Postgres, Redis).
Что ожидаем от тебя
- Опыт работы на позиции DE от 3х лет.
- Опыт работы на позиции Team Lead DE от 2х лет.
- Опыт разработки на Scala от 1 года.
- Опыт обработки данных с помощью Apache Spark (основной фреймворк платформы), Apache Spark structured streaming, Apache Kafka.
- Экспертные навыки SQL (аналитические функции, оконные функции, триггеры).
- Опыт работы с манипуляцией данными в распределённых файловых хранилищах HDFS, Ceph, S3.
- Опыт работы с экосистемой кластера Hadoop (Yarn, Spark History server).
- Опыт работы с БД: PostgreSQL, Redis, Greenplum.
- Опыт оптимизации Apache Spark задач (понимание работы изнутри, подбор параметров).
- Опыт разработки дагов Apache Airflow (все пайплайны оркестрируются).
Будет плюсом
- Опыт работы с табличным форматом хранения данных Delta lake.
- Опыт работы с Data science в части доставки данных и продукционализации признаков для моделей машинного обучения.
- Опыт построения Data lineage (DataHub), качество данных (Great Expectation).
- Опыт работы с Feast (Feature Store).
Что готовы предложить
- Оформление по ТК РФ: оклад + годовой бонус (10% от годового дохода) определяется по итогу собеседований.
- Компания входит в реестр аккредитованных ИТ компаний.
- Удаленный формат работы . При желании можно работать в офисе класса А (г. Москва, ст. м. Павелецкая, Шлюзовая набережная).
- График работы 5/2, с 9 до 18 по Московскому времени.
- ДМС со стоматологией (с 1 рабочего дня + полис путешественника).
- Частичная компенсация фитнеса / обучения / доп. мед. услуг (лимит - 25 тыс. рублей в год).
- Льготная ипотека (от Сбербанк), в том числе рефинансирование (ставка по ипотеке на 2 пункта ниже).
- Дополнительные дни к ежегодному отпуску (всего 31 день в году).
- Современное оборудование (Lenovo ThinkPad на Windows).
Как мы проводим собеседования
-
15-20 минут - общение с рекрутером (в аудио-формате).
-
60-90 минут - техническое интервью с Team Lead команды загрузки данных и Tech Head of Data (google meet, видео встреча).
-
60 минут - интервью с руководителем направления разработки хранилищ данных (google meet, видео встреча).
-
Проверка документов 1-2 дня (анкета в электронном виде).
-
Оффер, обсуждение даты выхода на работу.
Мы стараемся как можно быстрее принимать решения.