28 августа 2025
Разработка и внедрение Платформы Данных в новой парадигме DataMesh.
В рамках платформы создан Домен данных Розницы.
В нем будут использованы инструменты и сервисы, поставляемые платформой.
А также часть инструментов будет дорабатываться внедряться командой Домена.
Домен является поставщиком(основная функция) и потребителем данных других доменов (типа орг. структура, НСИ и т.п.).
Стек:
Spark, SparkStreaming, Scala, как язык для перекладки и обработки данных (ETL).
Хранение данных:
ClickHouse - зона витрин и для отчетов BI;
GreenPlum - публичная зона для обмена данными между доменами;
IceBerg, HDFS, S3, - детальные данные Домена;
На развитие в плане использование Tarantool, Cassandra. Оркестраторы:из пула Argo, Dagster, AirFlow.
BI: FineBI, PowerBI, SuperSet;
Среда доступа к данным через SQL: Trino.
Обязанности:
Разработка кода загрузки данных из источников в модель данных;
Домена, разработка кода загрузки Витрин;
Проработка с архитектором решений по загрузке и архитектуре кода загрузки;
Подготовка комплекта поставки (релиз) для тестирования и передачи в пром-среду;
Анализ ошибок при возникновении и подготовка баг-фиксов;
Участие в приемо-сдаточных испытания при необходимости;
Рост в сторону Тех. Лида по разработке дата-продуктов с передачей знаний по разработке новым разработчикам;
Требования:
Опыт работы с Linux на достаточном уровне для работы с файлами, каталогами, основными операциями. Чтение логов, bash-скриптов;
Работа с пакетами (установка, обновление и т.п.), настройка cron, cgroups, работа с процессами (нагрузка, порты, kill..);
Опыт работы с GIT, BitBucket - работа в команде разработчиков, ревью кода, pull request, merge, clone, commit, pull, push, stash;
Опыт работы с Docker/K8s;
Опыт работы с системами логирования и мониторинга - Kibana, Grafana, OpenSearch, Splunk, Elasticsearch, Logstash;
Опыт работы с Devops-процессами: Jenkins, Teamcity, опыт в формировании поставки релизов с применением CI/CD подходовж
Опыт работы с SQL - понимание как работает сервер БД с данными, запросами, грантами, транзакциями, индексами и т.п.;
Опыт в разработке ETL/ELT кода либо на инструменте ETL, либо на SQL и процедурном языке БД. Оптимизация запросов;
Опыт работы с NoSQL - архитектура, принцип работы сервера, особенности работы с данными;
Опыт в разработке на Spark / Spark Streaming / pySpark;
Опыт работы с большими объемами данных, применение необходимых подходов и библиотек для загрузки/выгрузки/обработки данных
Жевательные требования:
Знание / опыт работы с Iceberg, Hudi, Deltalake.
Опыт работы с оркестраторами потоков данных, например Argo, Dagster, AirFlow.
Условия:
Оформление по ТК РФ, оплачиваемые больничные листы; Работа в комфортных современных офисах в локациях нашего присутствия или в частично/полностью удаленном формате; Спортивные и корпоративные мероприятия; Программа обучения и сертификация, доступ к электронной библиотеке; Добровольное медицинское страхование; И многое другое.