1 марта 2026
Мы многопрофильный холдинг ИТР, один из наших проектов аналитическая платформа рыночных данных на базе ИИ для стратегического планирования и оптимизации расходов, времени и ресурсов. Сейчас мы в поиске Data Engineer в нашу команду.
Твои задачи:
Создание и поддержка DAG в Apache Airflow для автоматической обработки входящих файлов (PDF, XLSX, CSV) в количестве 55 000+ единиц.
Парсинг сложных документов, написание скриптов на Python для обработки Excel-файлов с мультилистами, объединенными ячейками и нестандартными сдвигами по годам.
Очистка данных, приведение временных срезов к единому формату, извлечение и обогащение метаданных для последующего анализа.
Организация загрузки данных в PostgreSQL с использованием модели schema-per-tenant. Автоматизация создания и клонирования шаблонов схем при подключении (onboarding) нового клиента.
Обеспечение взаимодействия пайплайнов с enterprise-хранилищами (MinIO / S3) для чтения исходных файлов и сохранения результатов обработки.
Что важно для нас:
Уверенное владение Python и библиотеками для работы с данными (Pandas, OpenPyXL, PyPDF2 и аналоги).
Понимание архитектуры Airflow, умение проектировать DAG, настраивать сенсоры (file sensors) и работать с очередями задач.
Опыт управления схемами (schema-per-tenant), понимание процессов резервного копирования и восстановления (pg dump/pg restore) на уровне схем.
Готовность разбираться в нестандартных структурах таблиц, умение писать устойчивый к ошибкам код для парсинга сложных Excel-отчетов.
Опыт с Docker / Docker Compose для развертывания и локального тестирования сервисов.
Условия и возможности:
График 5/2, гибридный формат работы (возможна полная удаленка).
Работа с передовыми технологиями: Реальные задачи ИИ и аналитики, работа с большим объемом данных и современным стеком.
Конкурентная заработная плата, обсуждаемая по итогам собеседования с учетом ваших компетенций.