2 июля 2025
Автоматизированная валидация промтов
писать на Python скрипты, которые:
берут тестовые сценарии (JSON/CSV);
вызывают актуальные промт-инструкции (через API LLM или локальный сервер);
сохраняют ответы, метаданные и оценки (rouge/BLEU/LLM-as-judge/ручные метки);
формируют отчёты (Markdown/CSV/DB) и алерты при деградации качества;
поддерживать пайплайн с дифф-тестами при каждом изменении промта.
Подготовка тестовых датасетов
собирать и курировать сценарии (user stories, edge-cases, негативные примеры);
анонимизировать, версионировать и документировать выборку.
Аналитические дашборды (Redash)
писать SQL-запросы и визуализации;
настраивать auto-refresh и рассылку отчётов.
Сотрудничество
работать с продакт-менеджером и дизайнером промтов;
помогать формулировать метрики качества (precision@k, hallucination rate, UX CSAT)
Python-бэкграунд (3+ года) асинхронность или multiprocessing, pandas / polars.
Работа с LLM-стеком и промт-инженерией вызов моделей, управление параметрами температуры, топ-p; понимание RAG-архитектуры и ограничений больших языковых моделей.
Автоматизированная оценка качества модели разработка скриптов pairwise / LLM-as-Judge, метрики ROUGE / BLEU / BERTScore / hallucination rate, отчёты о деградациях.
Дашборды и аналитика создание информативных визуализаций.
Английский не ниже B2 чтение технических статей, ведение переписки и созвонов с международными коллегами.
Желательно иметь
опыт с LLM-as-Judge подходами (gpt-4-o scoring и т.д.);
знание Grafana/Prometheus для runtime-метрик;
опыт A/B-экспериментов или онлайн-валидиции моделей.
Условия: