Вакансия: Data engineer (Middle/Senor)
Что и как мы делаем?
Мы создаем продвинутое аналитическое хранилище (Data Lake) по принципам Data Mesh. Все данные мы описываем в каталоге, чтобы их можно было легко находить и переиспользовать. Для каждого куска данных мы определяем владельца, который относится к ним, как к продукту.
Для этого в каждом подразделении должны быть люди с навыками data engineer, погруженные в предметную область. Под эту задачу мы сейчас активно набираем людей.
Наши преимущества:
- Мы развиваем свое сообщество DE. Сейчас в нем состоит 300 человек с разным уровнем навыков от Junior до Senior. Инженеры помогают друг другу бороться с трудностями и развиваться, делятся друг с другом кодом, всякими лайфхаками;
- Мы проводим митапы по инфраструктурным и софтовым темам. Коллеги делятся опытом, помогают разобраться в востребованных темах;
- Мы даем все инструменты для обучения и развития (в том числе, платные). Конференции, подписки, книги, курсы все что помогает расти профессионально;
- Мы даем возможность выбрать удобный формат работы: удаленный или гибридный.
Типовые задачи DE:
- Анализ требований к витринам данных (взаимодействие с владельцем продукта, BI-разработчиками, data scientist-ами);
- Поиск и исследование источников данных для последующей интеграции;
- Оценка пригодности, качества исходных данных;
- Разработка ETL процессов на Spark;
- Оркестрация ETL процессов в Airflow;
- Проектирование баз данных;
- Создание конвейеров данных NiFi.
Мы понимаем, что каждый DE индивидуален. Поэтому даем описание как бы выглядел идеальный кандидат.
DE в Билайн:
- Любит работать в команде и умеет это делать;
- Знает SQL на высоком уровне (в т. ч. DDL, табличные выражения, оконные функции);
- Работал с Hive, PostgreSQL;
- Умеет разрабатывать ETL процессы Spark на Scala (потоковая обработка как преимущество);
- Пользовался AirFlow или другими оркестраторами Oozie, Luigi, ну или cron;
- Может что-то написать на Python в объеме чтобы пользоваться AirFlow или еще круче;
- Имеет опыт потоковой разработки конвейеров данных в NiFi или Flink;
- Интересуется Flink, пробовал применять его в проектах;
- Умеет проектировать базы данных (знает Data Vault 2.0 например);
- Понимает принципы работы реляционных СУБД и HDFS;
- Имеет представление о колоночных и NoSQL СУБД;
- Понимает подходы к работе с качеством данных;
- Применяет системный подход к работе, думает о конечной бизнес-задаче, мыслит логически, уделяет внимание деталям.
Наши проекты
У нас все организовано в виде продуктов, имеющих бесконечный срок жизни. Продуктов очень много несколько сотен.
Если делить их по группам получится так:
Клиентский опыт:
- обобщаем все клиентские взаимодействия с компанией в одну историю, под одним универсальным идентификатором;
- прогнозируем и корректируем общую выручку от клиента на всем периоде жизни с компанией;
- боремся с фродом на стороне клиентских устройств сотовой связи;
- предсказываем отток и next-best-action для клиентов.
Управление оборудованием и качеством услуг связи:
- собираем и анализируем метрики качества предоставления связи;
- выполняем интеллектуальное планирование постройки базовых станций;
- осуществляем предиктивное обслуживание оборудования.
Для продуктовых команд:
- создаем для себя фреймворки и утилиты;
- развиваем сервис мониторинга как единую точку сбора и просмотра метрик.
Стек и технологии
В своей работе DE используют следующий стек технологий:
- Экосистема Hadoop HDFS, YARN, Hive, HBase;
- ETL-процессы Spark (Scala);
- Потоковая обработка NiFi, Flink;
- Брокер сообщений Kafka;
- Оркестрация ETL процессов Airflow;
- СУБД PostgreSQL, Greenplum, Aerospike, Oracle, SQL Server;
- CI/CD GitLab.
Присоединяйся к лучшей команде в качестве Data Engineer !
В Билайн мы развиваем и поддерживаем здоровую и безопасную рабочую среду. Каждый сотрудник соблюдает Кодекс поведения, внутренние правила компании и придерживается принципов деловой этики. Мы поступаем честно и этично как по отношению к друг другу, так и к нашим внешним партнерам.