Data Engineer в команду платформы данных (ML) (удаленная работа)

RWB (Wildberries & Russ)

16 июня 2026

Если информация в вакансии не соответствует действительности, или эта вакансия является мошенничеством, сообщите, пожалуйста, модератору, используя кнопку . Спасибо.

Уровень зарплаты:
з.п. не указана

Требуемый опыт работы:
Не указан

Вакансия: Data Engineer в команду платформы данных (ML)

Описание вакансии

Мы - команда платформы данных в направлении Trust & Safety. Делаем данные и признаки для моделей машинного обучения, которые используются в антифроде, модерации контента и других продуктах. У нас есть как потоковая платформа (Databus/Kafka + Flink + Redis/Cassandra), так и озеро данных на S3/Apache Iceberg с доступом через Trino. Мы ищем дата-инженера, который обеспечит расчёт и поставку признаков для ML-моделей от чтения сырых событий до записи финальных значений в онлайн- и офлайн-хранилища.

Вам предстоит:

Проектировать и разрабатывать потоковые процессы, которые читают события из Databus/Kafka и считают онлайн признаки, записывая их в Redis и Cassandra;
Проектировать и разрабатывать пакетные процессы, которые читают данные из S3/Iceberg через Trino, считают офлайн признаки и пишут результаты обратно в S3/Iceberg и/или ClickHouse;
Следить за тем, чтобы один и тот же признак был согласован между обучением и продакшеном (одна логика расчёта, единый контракт);
Настраивать расписания, пересчёты и бэки, чтобы признаки обновлялись вовремя и выдерживали SLA по свежести;
Работать с качеством данных: добавлять проверки, мониторить аномалии, разбирать инциденты, когда признак поехал ;
Совместно с DS и аналитиками придумывать новые признаки и помогать перевести их из экспериментальных скриптов в стабильные пайплайны.

Вы нам подходите, если у вас есть:

4-5+ лет опыта в роли Data Engineer / Backend+Data;
Уверенный опыт работы с Kafka подобными очередями (Databus/Kafka): продюсеры/консьюмеры, партиционирование, ключи, обработка ошибок;
Практический опыт со streaming движком (желательно Flink; Spark Structured Streaming подойдёт, если есть реальный прод опыт);
Опыт работы с Redis или Cassandra как онлайновым хранилищем данных/признаков;
Опыт работы с S3 подобным хранилищем и табличным форматом (Iceberg/Delta/Hudi) и доступа к ним через SQL движок (Trino/Presto/Spark SQL);
Отличное знание SQL и опыт работы с ClickHouse;
Python на уровне уверенной разработки data скриптов и сервисной логики;
Опыт настройки и сопровождения пайплайнов в Airflow;
Понимание задач ML пайплайнов: train/serve skew, пересчёты признаков, влияние задержек и потерь событий.

Откликнуться на вакансию

Количество просмотров: 2

Посмотрите похожие вакансии

Data Engineer (Oracle/Hadoop)
Компания: ВСК
Зарплата: з.п. не указана

Data Engineer / Analytics Engineer (Junior+ /Middle)
Компания: МТТ (MTC Exolve)
Зарплата: з.п. не указана

Senior Data Engineer / Tech Lead
Компания: Coral Club
Зарплата: з.п. не указана

Software Engineer/Data Engineer
Компания: Adviva
Зарплата: з.п. не указана

Добавить в закладки

Подтвердите действие

Список регионов

Data Engineer в команду платформы данных (ML) (удаленная работа)

RWB (Wildberries & Russ)

Вакансия: Data Engineer в команду платформы данных (ML)

Описание вакансии

Посмотрите похожие вакансии