29 марта 2025
Мы технологичная и быстрорастущая компания, строим умную, гибкую и масштабируемую data-инфраструктуру с нуля. В команде ML-инженеры, аналитики, продуктовые команды. Мы уже понимаем, насколько критична роль Data Engineering и хотим, чтобы этой системой управлял человек с опытом и архитектурным мышлением.
Что предстоит делать:
Спроектировать и реализовать архитектуру единого профиля клиента (Customer360): все данные о пользователях в одном месте, доступные в near real-time.
Построить и развивать Data Lake как центральную точку хранения сырых и обработанных данных.
Создать и поддерживать Data Warehouse и витрины под нужды ML, BI и продуктовых команд.
Разрабатывать надежные ETL/ELT пайплайны (Python / Airflow / Spark / dbt).
Выстраивать многоуровневую структуру данных: raw staging curated feature layers.
Настроить мониторинг качества данных, отслеживание метрик и алерты.
Участвовать в выборе технологий, постановке архитектуры хранения данных.
Технологический стек:
Data Lake: S3 / MinIO + Parquet / DeltaLake
Хранилища: PostgreSQL, ClickHouse
ETL: Python, Airflow, dbt
Оркестрация: Airflow, Prefect (по выбору)
CI/CD и инфраструктура: GitLab, Docker, Kubernetes
Стриминг: Kafka, RabbitMQ
ML-инфраструктура: Feature Store, Model Monitoring (совместно с ML-инженерами)
Мониторинг и алерты: Prometheus, Grafana, кастомные метрики
Требования:
Опыт проектирования и реализации Data Lake / Data Warehouse с нуля.
Продвинутые знания SQL (PostgreSQL, ClickHouse).
Опыт построения ETL/ELT пайплайнов на Python, уверенное владение pandas, pyarrow, SQLAlchemy и т.п.
Понимание подходов к дата-моделированию: star/snowflake schemas, partitioning, schema evolution.
Знание CI/CD, Docker
Опыт работы с стриминговой обработкой данных (Kafka, Spark Streaming, Flink и/или RabbitMQ).
Будет плюсом:
Опыт работы с Lakehouse архитектурой (например, DeltaLake, Iceberg, Hudi)
Опыт в совместной работе с ML-командами (feature engineering, пайплайны, мониторинг моделей)
Опыт работы с векторными базами данных (Faiss, Qdrant, Pinecone и др.)
Участие в построении Feature Store, реализации data contracts, Data Quality слоёв
Почему это интересно:
Возможность заложить архитектуру данных с нуля под реальный рост и масштаб.
Работаете в связке с ML и backend-инженерами, внедряя реальные ML-решения в продакшн.
Свобода выбора инструментов и подходов, минимум бюрократии.
Влияние на стек, процессы, культуру вы не просто исполнитель, вы архитектор системы.
Хочешь строить data-инфраструктуру, которая реально влияет на бизнес?
Пиши обсудим, расскажем подробнее!