Data Analyst (удаленная работа)

5 мая 2024

Уровень зарплаты:
з.п. не указана
Требуемый опыт работы:
Не указан

Вакансия: Data Analyst

Описание вакансии

Требования

  • Уверенное знание python (numpy, pandas, sklearn);
  • Уверенное знание SQL;
  • Умение визуализировать данные большим количеством способов;
  • Знание статистики и теории вероятностей на уверенном уровне;
  • Опыт продуктовой аналитики, знание как считать продуктовые метрики (Retention, MAU, DAU, Sticky Factor, K-factor, ARPU, etc);
  • Понимание классических алгоритмов и структур данных;
  • Умение строить и проверять статистические гипотезы, проводить AB-тесты (boostrap, CUPED, stratification, MDE, etc);
  • Практический опыт работы в ML.

Желательно

  • Опыт работы с ClickHouse;
  • Опыт работы с высоконагруженными системами;
  • Опыт поиска аномалий в данных;
  • Опыт аналитики финансовых и экономических данных;
  • Умение писать production код (python 3.9+);

Задачи

  • Метрики и ad hoc аналитика. Приложение активно развивается, быстро появляются новые фичи. Мы хотим постоянно замерять что происходит с приложением с разных точек зрения. Надо будет придумывать метрики, обсуждать их с product owner'ами, реализовывать в виде онлайн метрик с помощью SQL и python. Для реализации потребуется глубокое погружение в продукт и то как он работает.
  • Построение дашбордов. Для отображения метрик мы используем Yandex Datalens. Чтобы метрики строились быстрее - нужно будет проектировать различные Aggregating Merge Trees. Писать SQL, делать визуализацию, презентовать бизнесу.
  • Анализ данных и поиск аномалий. В приложении много разных игровых механик с использованием крипто-валюты. Надо будет смотреть на пользовательское поведение с разных сторон, искать аномалии и возможных мошенников. Взаимодействовать с финансовым отделом и делать экономическую аналитику.
  • Участие в проведении АБ-тестов. Мы строим свою систему АБ-тестирования. Уже есть первая версия, использующая такие подходы как stratification, CUPED, linearization, bootstrap, delta method, итд. Нужно расширять количество целевых метрик, участвовать в разработке системы АБ-тестирования, участвовать в планировании и анализе АБ-тестов.
  • Построение ETL и DWH. Надо будет разобраться в том, что за данные, придумать как их будем складывать в ClickHouse, учитывая то, как потом их надо будет использовать. Писать ETL пайплайны и схемы миграций для загрузки сообщений из Kafka в ClickHouse. На основе этих данных мы будем строить различные метрики.

Условия

  • GPU/CPU сервера в облаке;
  • Топовое оборудование и весь необходимый софт;
  • Офис в шаговой доступности от метро Добрынинская / Серпуховская;
  • Возможность удаленной работы;
  • Возможность получения опциона;
  • Гибкий график.

Команда

Mы - команда R&D, которая занимается всем что связано с данными и машинным обучением. Нас в команде 6 человек и среди нас: Data Analysts, ML Engineers и Software Engineers - кросс-функциональная команда про данные, ML и инженерку.

Мы отвечаем за полный цикл своих разработок. Т.е. сами строим модели, заворачиваем в сервисы и выкатываем в прод. Сами мониторим. Сами несем ответственность за отказоустойчивость.

Наша команда занимается следующими задачами: рекомендательная система, автомодерация контента, антифрод, продуктовая и маркетинговая аналитика.

Стремимся вырастить всех внутри команды full-stack. Т.е. учим дата саентистов и дата аналитиков писать продакшн код. Инженеры учатся обучать модели. МЛ инженеры понимают как устроен продукт и продуктовая аналитика.

У нашей команды нет проджект менеджера или системного аналитика, кто писал бы нам ТЗ. Мы сами понимаем приоритеты бизнеса, синхронизируемся с бизнесом. Сами формулируем задачи, декомпозируем их и распределяем внутри команды. Зачастую сами приходим к бизнесу с новыми решениями и идеями.

Технологии

Пишем сервисы на python (FastAPI, Faust), go и C++.

Все крутится в AWS. Легкие сервисы разворачиваем в k8s-кластере, ML сервисы в AWS Sagemaker. Раскатываем через Gitlab CI. В питоне активно используем mypy, pylint, flake, isort, bandit - без прохождения линтеров пайплайн не пропустит merge request.

Пользовательские события отправляются сервисами на бэкенде в kafka. Из кафки мы собираем все в ClickHouse используя движок kafka в самом CH. Любое изменение схемы в БД версионируем через миграции. Продуктовые метрики и дашборды строим в Datalens.

Еще используем self-hosted Redis Stack и PostgreSQL

Мониторинг с помощью: prometheus, grafana, sentry, kibana.

Рост

При желании, можно будет попробовать себя в разных задачах: аналитика, разработка, машинное обучение. В продакшн коде мы проводим подробное код ревью. Готовим статьи на habr. Планируем выступить на конференциях. На регулярных 1to1 мы фокусируемся на профессиональном росте - поэтому каждый занимается помимо того, что тем что нужно бизнесу - еще и тем, что ему интересно и драйвит.



Посмотрите похожие вакансии

Product data analyst
Компания: Centerex
Зарплата: з.п. не указана
Data Analyst
Компания: Neskin Games
Зарплата: от 3 000 до 400 000 руб.
Data Analyst (Поиск)
Компания: Wildberries
Зарплата: з.п. не указана