Мы АТОМ. Разрабатываем электромобиль-гаджет и его версии для семьи, такси, каршеринга и службы доставки, а также собственный маркетплейс приложений и другие сервисы.
Мы ищем Lead / Senior Data Engineer (Python) в команду Data , которая создает Data Platform и работает с данными.
Чем предстоит заниматься:
Построение моделей данных и разработка схем для новых источников данных.
Авто-мониторинг, устранение проблем и оптимизация пайплайнов данных.
Проведение code review для поддержания стандартов написания кода и улучшения codebase.
Написание и автоматизация ETL/ELT пайплайнов для извлечения или преобразования новых и существующих данных из нескольких источников.
Написание пайплайнов для пакетной обработки и обработки в реальном времени из различных источников.
Разработка платформенных решений для сбора, хранения и анализа данных безопасным, стабильным и масштабируемым способом.
Автоматизация процесса контроля доступа к данным и выбор эффективных механизмов Data Management и Data Governance.
Для нас важно:
Опыт написания Python не менее 5 лет.
Опыт работы с технологиями ETL (такими как Apache Spark или оркестровка с Apache Airflow) не менее 2 лет.
Уверенное знание SQL.
Опыт работы с данными (традиционные базы данных, такие как PostgreSQL, Clickhouse и MongoDB, а также решения для хранения больших объемов данных, такие как HDFS с Hive, S3, форматы хранения данных Parquet, Avro, Apache Iceberg, delta lake).
Опыт работы с Kubernetes (в части запуска spark заданий, поднятия сессии/приложения Flink).
Опыт реализации модели данных (Инмон, Кимбалл, dava vault, anchor).
Опыт работы в роли технического ментора в команде по разработке данных. Стремление делать других лучше с помощью code review, внимания к документации и техническим рекомендациям.
Способность регулярно брать сложные проекты, поддерживать codebase и улучшать / упрощать ее.
Выступать в качестве ресурса, к которому обращаются команды за техническими советами, и иметь способность взвешивать технические решения, которые также влияют на другие команды.
Глубокое понимание лучших отраслевых практик в области стандартов, качества и стремление к постоянному совершенствованию в области Data Engineering.
Понимание компромисса между техническими и бизнес-потребностями, способность взаимодействовать и вести переговоры с ключевыми stakeholders, а также предлагать решения, учитывающие все эти потребности.
Будет плюсом:
Опыт в software engineering (настроить интеграции между сервисами, подготовить API).
Опыт участия в разработке архитектуры поставки данных от концепции до запуска основных компонентов в продакшене.
Опыт работы с BigData DWH (Cassandra, Hbase).
Понимание use cases использования Data Lakes vs Data Warehouses.
Опыт и знание современных практик в software delivery, включая CI/CD и DevOps практики.
Опыт работы с крупномасштабными решениями потоковой передачи данных (Spark Streaming, Kinesis и Pulsar).
Опыт работы с подходами Data-as-a-code.
Знание Kubernetes deployments и infrastructure provisioning (Terraform).
Мы предлагаем:
Как будем общаться:
Пройди вместе с нами крутой кейс по созданию электромобиля с нуля!