Ищем Middle+/Senior Data Scientist в команду Умного поиска Самоката.
Основной фокус: улучшение качества ответов и выдачи, работа с поисковым пайплайном, LLM/RAG и аналитикой качества, плюс реализация изменений в Python-коде сервиса.
Задачи:
Улучшение качества поиска и ответов: разбор ошибок, поиск паттернов, предложение гипотез;
Улучшение и доработка RAG;
Доработка эмбеддинг-моделей;
Настройка и улучшение метрик качества (precision/recall, offline eval, LLM-as-judge);
Проведение offline-экспериментов и подготовка изменений в продовом пайплайне;
Написание production-кода на Python (FastAPI, asyncio), тестов, бенчмарков;
Анализ влияния изменений на latency/качество/стоимость LLM;
Написание промптов.
Дообучение эмбеддинг-моделей, классификаторов и PEFT-адаптеров.
Наши ожидания:
2+ года в DS / NLP.
Хороший Python (чистый код, тесты, работа с продовым кодом).
Сильная база в метриках и экспериментах.
LLM, RAG, prompt engineering.
Опыт с эмбеддингами для поиска
Умение проводить error analysis и превращать его в продуктовые гипотезы.