Руководитель аналитики метрик качества GigaChat (LLM Evaluation) (удаленная работа)

1 марта 2026

Уровень зарплаты:
з.п. не указана
Требуемый опыт работы:
Не указан

Вакансия: Руководитель аналитики метрик качества GigaChat (LLM Evaluation)

Описание вакансии

Мы команда GigaChat ML. Делаем полный цикл обучения модели, от претрейна до алайнмента. Нам нужен руководитель, который будет фултайм владеть системой метрик качества GigaChat:

  • Измерять качество на бенчмарках и реальных логах.
  • Находить слабые места и причины деградаций.
  • Развивать метрики и процессы, ускорять внедрение новых бенчмарков и системы замера.

Эта роль про фунадментальное качество модели и измерения (не про продуктовые метрики DAU/Retention и не про сбор данных как основной фокус).

Обязанности

Владение системой качества и метрик (end-to-end ownership)

  • Определять и поддерживать quality scorecard для GigaChat: что считаем качеством, какие метрики ключевые, какие нет.
  • Держать фокус на эффективности системы и снижать стоимость измерений.

Бенчмарки и регрессионное тестирование

  • Постоянно актуализировать пакет бенчмарков под ключевые сценарии, чтобы успевать за быстро развивающейся сферой LLM.
  • Внедрить регулярное сравнительное тестирование версий модели и конкурентов по единой.

Аналитика логов и диагностика слабых мест

  • Анализировать логи и пользовательский фидбэк с позиции качества: кластеризация проблем, тематические срезы, частотность, тяжесть.
  • Связывать проблемы в логах с бенчмарками: проблемы должны быть измеримы.

Разработка и внедрение метрик качества

  • Разрабатывать новые метрики/прокси метрики (автоматические и полуавтоматические), калибровать их против эталонных оценок.
  • Продумывать, где нужна человеческая оценка, где достаточно автоматики, как снижать стоимость измерений без потери достоверности.
  • Внедрять метрики в процессы: CI/релизные проверки, мониторинг качества, алерты.

Эксперименты и принятие решений

  • Проектировать и анализировать A/B-эксперименты качества (в онлайне и/или в контролируемых тестах), делать выводы: что улучшилось/ухудшилось , почему , что делать дальше , можно ли катить в прод .

Требования

  • Сильный Python (pandas, NumPy), уверенная аналитика данных, умение быстро превращать сырые логи в выводы.
  • Хорошее понимание оценки качества LLM: какие типы метрик бывают, где они ломаются, как валидировать метрику, как избегать gaming .
  • Понимание статистики и экспериментов: доверительные интервалы, тесты, множественные сравнения, дизайн A/B, интерпретация результатов.
  • Практический опыт работы с LLM (Open Source и/или proprietary): понимание специфики инструкционного поведения, галлюцинаций, safety ограничений.
  • Навыки продуктового и инженерного мышления: формулировать критерии качества так, чтобы они становились механизмом управления.

Будет плюсом

  • Опыт построения evaluation фреймворков и evaluation harness (любые внутренние/внешние тулзы), интеграция оценок в CI/CD.
  • Опыт с LLM based evaluation (LLM judge) и методами калибровки/контроля смещения судьи.
  • Знание систем аналитики и хранилищ (SQL, ClickHouse/BigQuery/Spark/S3), мониторинг/дашборды (Grafana/Superset/Looker и аналоги).

Условия

  • Удалённо
  • Возможность оформления в аккредитованную IT-компанию.
  • Годовая премия по итогам работы до 6 окладов.
  • Регулярный пересмотр зарплат.
  • Корпоративный спортзал и зоны отдыха.
  • Более 400 программ СберУниверситета для роста.
  • Программа адаптации и помощь руководителя на старте.
  • Крупнейшее DS&AI community более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы.
  • Расширенный ДМС, льготное страхование для семьи, корпоративная пенсионная программа.
  • Ипотека для сотрудников по дисконтной программе.
  • СберПрайм+ и скидки у партнёров.
  • Бонус за рекомендации в команду.