Вакансия: Data Analyst
Описание вакансии
Требования
- Уверенное знание python (numpy, pandas, sklearn);
- Уверенное знание SQL;
- Умение визуализировать данные большим количеством способов;
- Знание статистики и теории вероятностей на уверенном уровне;
- Опыт продуктовой аналитики, знание как считать продуктовые метрики (Retention, MAU, DAU, Sticky Factor, K-factor, ARPU, etc);
- Понимание классических алгоритмов и структур данных;
- Умение строить и проверять статистические гипотезы, проводить AB-тесты (boostrap, CUPED, stratification, MDE, etc);
- Практический опыт работы в ML.
Желательно
- Опыт работы с ClickHouse;
- Опыт работы с высоконагруженными системами;
- Опыт поиска аномалий в данных;
- Опыт аналитики финансовых и экономических данных;
- Умение писать production код (python 3.9+);
Задачи
- Метрики и ad hoc аналитика. Приложение активно развивается, быстро появляются новые фичи. Мы хотим постоянно замерять что происходит с приложением с разных точек зрения. Надо будет придумывать метрики, обсуждать их с product owner'ами, реализовывать в виде онлайн метрик с помощью SQL и python. Для реализации потребуется глубокое погружение в продукт и то как он работает.
- Построение дашбордов. Для отображения метрик мы используем Yandex Datalens. Чтобы метрики строились быстрее - нужно будет проектировать различные Aggregating Merge Trees. Писать SQL, делать визуализацию, презентовать бизнесу.
- Анализ данных и поиск аномалий. В приложении много разных игровых механик с использованием крипто-валюты. Надо будет смотреть на пользовательское поведение с разных сторон, искать аномалии и возможных мошенников. Взаимодействовать с финансовым отделом и делать экономическую аналитику.
- Участие в проведении АБ-тестов. Мы строим свою систему АБ-тестирования. Уже есть первая версия, использующая такие подходы как stratification, CUPED, linearization, bootstrap, delta method, итд. Нужно расширять количество целевых метрик, участвовать в разработке системы АБ-тестирования, участвовать в планировании и анализе АБ-тестов.
- Построение ETL и DWH. Надо будет разобраться в том, что за данные, придумать как их будем складывать в ClickHouse, учитывая то, как потом их надо будет использовать. Писать ETL пайплайны и схемы миграций для загрузки сообщений из Kafka в ClickHouse. На основе этих данных мы будем строить различные метрики.
Условия
- GPU/CPU сервера в облаке;
- Топовое оборудование и весь необходимый софт;
- Офис в шаговой доступности от метро Добрынинская / Серпуховская;
- Возможность удаленной работы;
- Возможность получения опциона;
- Гибкий график.
Команда
Mы - команда R&D, которая занимается всем что связано с данными и машинным обучением. Нас в команде 6 человек и среди нас: Data Analysts, ML Engineers и Software Engineers - кросс-функциональная команда про данные, ML и инженерку.
Мы отвечаем за полный цикл своих разработок. Т.е. сами строим модели, заворачиваем в сервисы и выкатываем в прод. Сами мониторим. Сами несем ответственность за отказоустойчивость.
Наша команда занимается следующими задачами: рекомендательная система, автомодерация контента, антифрод, продуктовая и маркетинговая аналитика.
Стремимся вырастить всех внутри команды full-stack. Т.е. учим дата саентистов и дата аналитиков писать продакшн код. Инженеры учатся обучать модели. МЛ инженеры понимают как устроен продукт и продуктовая аналитика.
У нашей команды нет проджект менеджера или системного аналитика, кто писал бы нам ТЗ. Мы сами понимаем приоритеты бизнеса, синхронизируемся с бизнесом. Сами формулируем задачи, декомпозируем их и распределяем внутри команды. Зачастую сами приходим к бизнесу с новыми решениями и идеями.
Технологии
Пишем сервисы на python (FastAPI, Faust), go и C++.
Все крутится в AWS. Легкие сервисы разворачиваем в k8s-кластере, ML сервисы в AWS Sagemaker. Раскатываем через Gitlab CI. В питоне активно используем mypy, pylint, flake, isort, bandit - без прохождения линтеров пайплайн не пропустит merge request.
Пользовательские события отправляются сервисами на бэкенде в kafka. Из кафки мы собираем все в ClickHouse используя движок kafka в самом CH. Любое изменение схемы в БД версионируем через миграции. Продуктовые метрики и дашборды строим в Datalens.
Еще используем self-hosted Redis Stack и PostgreSQL
Мониторинг с помощью: prometheus, grafana, sentry, kibana.
Рост
При желании, можно будет попробовать себя в разных задачах: аналитика, разработка, машинное обучение. В продакшн коде мы проводим подробное код ревью. Готовим статьи на habr. Планируем выступить на конференциях. На регулярных 1to1 мы фокусируемся на профессиональном росте - поэтому каждый занимается помимо того, что тем что нужно бизнесу - еще и тем, что ему интересно и драйвит.