- Разработка и поддержка ETL/ELT пайплайнов для сбора и обработки данных из новых источников с мониторингом и логированием;
- Оптимизация/изменение существующих пайплайнов;
- Обеспечение SLA, контроля качества и полноты данных (ручные и автоматические DQ тесты);
- Формулирование требований к новым источникам данных и интегрирование их в существующие модели данных;
- Построение, оптимизация/автоматизация подготовки витрин данных для отчетности ;
- Быть ключевой точкой контакта между аналитиком данных / дата стюардом / архитектором решений и владельцами продуктов данных;
- Предоставление экспертной поддержки;
- Документирование разработанных решений;
Требования:- От 3-х лет лет профессионального опыта в качестве инженера данных / инженера хранилища данных;
- Опыт работы с облачными платформами Yandex Cloud Platform больше 2 двух лет;
- Опыт и понимание устройства Big Data технологий (Hadoop, Spark, Kafka и т. д.);
- Уверенное знание Python (включая библиотеки для парсинга и обработки данных) и SQL;
- Подтвержденный опыт работы с Airflow в реальных проектах;
- Опыт обработки объёмных файлов (json, csv);
- Понимание основных концепций DWH;
- Понимание основных принципов работы с Git;
- Чтение технической документации на английском языке;
- Способность писать чистый, оптимальный код, который легко поддерживать и тестировать;
- Стремление к саморазвитию и изучению новых технологий и инструментов;
- Готовность принимать решения и брать на себя ответственность;
- Сильные устные и письменные коммуникативные навыки.
Стек : Airflow, HDFS, Postgres, Kafka, Docker, Jira, Confluence, GitLab, Scala;
Языки : Python, PySpark, SQL.
Будет плюсом:
- Опыт работы дата инженером в FMCG компаниях;
- Опыт работы с данными на Scala;
- Построение предметно ориентированного хранилища по методологии Data Mesh.
Условия: - Трудоустройство в штат на основании ТК;
- Удаленная работа по времени Мск, любой город;
- Уровень дохода в соответствии с навыками, по результатам встреч.