Data Scientist (удаленная работа)

3 марта 2026

Уровень зарплаты:
з.п. не указана
Требуемый опыт работы:
Не указан

Вакансия: Data Scientist

Описание вакансии

О компании
Мы аккредитованная IT-компания ИТ-Центр (Summit Group), ТОП-15 МФО, > 400 сотрудников, кредитный рейтинг Эксперт РА ruBB.

В отделе внедрения ИИ создаем практические AI-решения для бизнеса:

  • Сервис анализа телефонных переговоров (суммаризация, классификация нарушений/тональности, RAG)

  • Автоматический анализ видео собеседований (ключевые кадры, транскрипты, когортный анализ)

  • Аналитика просроченной задолженности (модели вероятности и срока дефолта, сегментация)

  • Автоматизация ручных действий и внедрение ИИ-агентов

Чем предстоит заниматься

  • Формулировать и проверять гипотезы, планировать эксперименты и оценку влияния на бизнес-метрики.

  • Собирать, очищать и обогащать данные (ETL), проектировать признаки, документировать датасеты.

  • Строить и обучать модели ML/DL (классификация/регрессия/ранжирование, anomaly/segmentation).

  • Решать NLP/LLM-задачи: суммаризация, классификация, извлечение сущностей, RAG/эмбеддинги.

  • Работать с временными рядами и риск-моделями для финтех-кейсов (PD/LGD/transition/скоринг).

  • Проводить offline-оценку (AUC/PR, F1, NDCG, uplift и др.), устраивать A/B/ABC-тесты.

  • Совместно с бэкендом оборачивать модели в сервисы (FastAPI), организовывать инференс, версионирование и мониторинг качества.

  • Вести ML-наблюдаемость (дрейф данных/предсказаний, алерты), планировать переобучение.

  • Поддерживать стандарты reproducibility (MLflow/DVC), экспериментов и документации.

Наш стек

  • Python 3.10+, pandas, NumPy, scikit-learn, XGBoost/LightGBM

  • PyTorch и/или TensorFlow; HuggingFace Transformers

  • SQL (PostgreSQL), аналитические запросы; Polars как плюс

  • Airflow/Prefect, MLflow, DVC; LangChain/LangGraph, LangFuse

  • Векторный поиск: pgvector/Postgres, FAISS, Elasticsearch/OpenSearch

  • Whisper/STT/TTS, OpenAI API/LLM; OpenCV/ffmpeg для медиа как плюс

  • Docker, Linux, GitLab CI/CD; мониторинг Prometheus/Grafana/Sentry

Требования

  • 3+ лет коммерческого опыта в Data Science, продакшен-цикл от данных до внедрения.

  • Сильный Python для анализа данных и продакшена: pandas/NumPy, типовой ML-стек.

  • Практика построения и валидации моделей (CV для текстов/аудио/видео плюс).

  • Уверенный SQL (PostgreSQL), оптимизация запросов, аккуратность в данных.

  • Опыт продакшен-интеграций: FastAPI/инференс, Docker, базовый CI/CD.

  • Навыки офлайн-оценки и онлайн-экспериментов (A/B), интерпретация результатов.

  • Практический опыт с LLM (OpenAI API/аналоги/локальные модели): промпт-инжиниринг, RAG, оценка качества, дообучение, finetuning.

  • Коммуникация и продуктовый фокус: умеете объяснить решения, аргументировать выбор методов и метрик.

  • Опыт использования современных инструментов искусственного интеллекта.

Будет преимуществом

  • Финтех-контекст, опыт риск-моделей, требования безопасности и регуляторика (ЦБ РФ).

  • Опыт построения пайплайнов в Airflow/Prefect, фичесторы (Feast) и др.

  • Эксперимент-трекинг/наблюдаемость: MLflow/Weights & Biases, LangFuse.

  • Векторные БД и быстрый поиск (pgvector/FAISS), RAG-архитектуры.

  • Whisper/STT/TTS, OpenCV/ffmpeg; работа с шумными данными и длинным контекстом.

  • Kubernetes/Helm, продвинутая MLOps-практика как плюс.

Что сделаешь в первые 90 дней

  • За 2 4 недели: аудит источников данных, сбор базовых метрик качества; baseline-модель/пайплайн оценки для одного из продуктов.

  • За 4 8 недель: улучшение метрик на 5 15% по офлайн-оценке; подготовка инференса и мониторинга; пилот в стейджинге.

  • За 8 12 недель: продакшен-внедрение улучшений или нового кейса (скоринг/риск или NLP-модуль), дашборды наблюдаемости, план переобучения.

Условия

  • Удаленная работа или гибрид; гибкий график, 5/2.

  • Зарплата всегда вовремя; прозрачная вилка, регулярный пересмотр.

  • Индивидуальный план развития, менторство, обмен опытом.

  • Обучение (курсы, корпоративная библиотека), компенсация ИИ-инструментов (Cursor, Copilot, Windsurf).

  • Минимум бюрократии, влияние на решения и техстек.

Как откликнуться
Отправьте резюме и ссылки на GitHub/портфолио/ноутбуки.
Коротко ответьте: Какую модель/подход вы внедрили в прод и как улучшили ключевые метрики? Опишите данные, метрики и контроль эксперимента .

Теги: Python, pandas, NumPy, scikit-learn, XGBoost, LightGBM, PyTorch, TensorFlow, Transformers, NLP, LLM, RAG, LangChain, LangGraph, LangFuse, SQL, PostgreSQL, Airflow, MLflow, DVC, pgvector, FAISS, Elasticsearch, Whisper, OpenCV, ffmpeg, FastAPI, Docker, CI/CD, Prometheus, Grafana, Sentry, FinTech.



Посмотрите похожие вакансии

Data Scientist
Компания: Ит-Финанс
Зарплата: з.п. не указана
Аналитик-математик / Data Scientist (без ML)
Компания: AppMagic
Зарплата: з.п. не указана
Middle Data Scientist/Онлайн оценка залогов
Компания: СБЕР
Зарплата: от 200 000 до 200 000 руб.