17 августа 2025
Анализ источников данных для их использования в моделях AutoML;
Разработка сервисов и ETL процессов обработки данных для их использования в моделях AutoML;
Изучение и внедрение методов автоматизированного построения признаков (фичей) для моделей машинного обучения;
Эффективное взаимодействие в составе команды со специалистами по анализу данных и специалистами по развитию инфраструктуры.
Высокий уровень знаний языка программирования Python структуры данных, итераторы и декораторы, параллельное и асинхронное программирование, объектно-ориентированное и функциональное программирование;
Опыт работы в среде JupyterLab/JupyterHub;
Опыт реализации промышленных отказоустойчивых сервисов на Python сервисы пакетной загрузки и трансформации данных (ETL) на платформах Apache Airflow, Argo Workflows; веб-сервисы на основе библиотеки FastAPI;
Понимание принципов микросервисной архитектуры;
Понимание принципов распределенных вычислений и обработки данных;
Понимание принципов потоковой обработки данных;
Хорошие знания платформы Apache Spark опыт использования библиотеки pyspark, влияние конфигурации приложения pyspark на производительность и эффективность обработки данных, отладка и анализ эффективности приложений pyspark с помощью Spark History Server;
Опыт асинхронного программного взаимодействия с веб-сервисами по REST API с использованием библиотек aiohttp, httpx;
Отличные знания SQL создание сложных запросов с использованием табличных выражений (CTE) и оконных функций;
Хорошие знания и опыт использования реляционных баз данных Oracle, PostgreSQL;
Понимание особенностей обработки и хранения аналитических данных (OLAP), понимание отличий колоночных баз данных от строковых, знание колоночных форматов хранения данных parquet, orc;
Хорошие знания и опыт использования хранилищ больших данных Hadoop/HDFS, S3, форматы таблиц Hive, Iceberg.
Проактивный подход к работе способность и желание искать и предлагать методы и варианты решения задач;
Общий позитивный настрой и активная жизненная позиция;
Умение и желание работать в команде, делиться опытом с коллегами и учиться новым практикам;
Открытость в коммуникации трудностей, препятствующих решению задач.
Базовые знания языков программирования Scala, Java, Groovy;
Знание и опыт использования платформ потоковой обработки данных Apache Kafka, Apache Flink чтение и запись потока данных Apache Kafka с помощью библиотек aiokafka, confluent-kafka, kafka-python, разработка потоковых приложений Apache Flink;
Знание базовых принципов обработки естественных языков (NLP);
Общее представление о нейросетевых моделях машинного обучения и о больших языковых моделях LLM.
Работу в атмосфере взаимопонимания и творческого сотрудничества увлеченных своим делом профессионалов, готовых всегда прийти на помощь.
Интересные и нетривиальные задачи.
Возможность принять участие в создании и развитии инновационного программного продукта.
Оформление по ТК РФ.
График работы 5/2 c возможностью частичной или полностью удаленной работы.
Достойную и полностью белую заработную плата (уровень заработной платы обсуждается с успешным кандидатом).