8 сентября 2024
У нас есть core команда это data домен, который предоставляет для других продуктовых команд возможности по самостоятельной работе с данными.
Дата домен состоит из трех команд:
- Data Platform - развитие и поддержка дата платформы на 400 ТБ данных и более 150 баз данных.
- Data Management - интеграция источников в платформу, предоставление BI инструментов и DQ/DG.
- Data Accelerator - разработка дата продуктов - моделей или алгоритмов, которые помогают нам или экономить и зарабатывать как компании.
Кроме Data Domain в Леруа Мерлен есть ещё 19 доменов, и почти в каждом из них есть дата команда, в которой есть DE, DS, DA, DataOps.
ОБЯЗАННОСТИ:
Автоматизация процесса обработки больших данных с использованием машинного обучения для решения практических задач компании.
Разработка моделей как с использованием алгоритмов машинного обучения так и без, их внедрение в бизнес процессы компании, повышение их точности прогнозирования.
Взаимодействие с заказчиками моделей, дата-инженерами и дата-аналитиками в рамках задачи по разработке и внедрению моделей. Задачи включают разработку модели любой сложности (логистические регрессии, классификации, нейросети, AI и т.д.).
Формализация требований к сбору обучающей выборки.
Генерация и проверка гипотез.
Проведение исследований алгоритмов машинного обучения.
Дизайн, разработка и тюнинг моделей машинного обучения.
Построение и оптимизация пайплайнов от признаков до обучения моделей.
Продуктивизация ML-решений.
Проведение аналитических исследований и R&D на больших данных с применением ML.
Нахождение оптимального архитектурного решения для удовлетворения потребностей бизнеса.
Поддержка работоспособности решений, контроль качества получаемых данных.
ТРЕБОВАНИЯ:
Техническое образование (можно неполное высшее)
Опыт работы в аналитике/ data science от 1 года
Знание Теории вероятности, Мат. анализа и линейной алгебры, достаточного для чтения научных статей и проведения экспериментов
Умение проверять статистические гипотезы, знание основных критериев
Знание и понимание основных метрик и принципов оценки качества моделей и получаемого с их помощью результата, способов валидации моделей
Уверенное знание python (+ классический набор библиотек для анализа данных/ машинного обучения: scikit-learn, numpy, pandas, plotly/ matplotlib/ seaborn
Опыт обучения моделей градиентного бустинга, использования одной из библиотек (Catboost, LightGBM, XGBoost)
Знание SQL, опыт работы с реляционными СУБД на уровне пользователя
Умение работать с Git
Мы предлагаем:
Гибкую систему премирования;
расширенный социальный пакет: ДМС со стоматологией с первого месяца работы, психолог и страхование жизни, компенсация питания и оплата мобильной связи;
работу в компании с развитой инженерной культурой;
автономность работы, возможность менять правила, ошибаться и создавать новое;
возможность профессионального роста, программы развития для сотрудников;
корпоративное обучение и доступ к базе знаний;
внутренние профессиональные сообщества и мероприятия;
гибридный формат работы;
современный офис в 2 минутах ходьбы от МЦК ЗИЛ.
С каждым годом, на выбор сотрудника становится доступно больше дополнительных опций. Например, частичная компенсация путешествий, затрат на обучение, спортивных занятий.