Data Scientist (LLM/NLP) (удаленная работа)
(вакансия не опубликована)

10 августа 2025

Уровень зарплаты:
з.п. не указана
Требуемый опыт работы:
Не указан

Вакансия: Data Scientist (LLM/NLP)

Описание вакансии

Мы создаём интеллектуального AI-консультанта нового поколения, который способен:
Отвечать на сложные бизнес-вопросы на основе внутренних документов (RAG),
Помогать пользователям через диалоговую систему,
Генерировать специализированный код
Проект совмещает передовые LLM-технологии , архитектуру Retrieval-Augmented Generation (RAG) и code generation models

Обязанности:

  • Разработка и оптимизация RAG-архитектуры (retriever + generator)
  • Интеграция LLM с векторными БД (FAISS, Qdrant, Weaviate и др.)
  • Обработка и семантический поиск по корпоративным базам знаний, PDF, Wiki, API-документации и т.д.
  • Разработка бота-помощника по генерации кода на основе user prompt'ов
  • Подбор и настройка моделей генерации кода (CodeLlama, Starcoder, DeepSeekCoder и др.)
  • Тестирование качества генерации: relevance, correctness, hallucination rate
  • Построение пайплайнов для извлечения, разметки и дообучения на кастомных датасетах
  • Визуализация результатов и сбор фидбэка от пользователей
  • Участие в A/B тестировании LLM-решений и построении метрик качества

Требования:

Обязательные:

  • Опыт в работе с LLM
  • Навыки разработки RAG-систем: опыт с LangChain, LlamaIndex или аналогичными
  • Знание Python, особенно в контексте NLP / ML / AI
  • Опыт работы с embedding-моделями (sentence-transformers, Instructor, E5, text-embedding)
  • Умение работать с векторными хранилищами (FAISS / Qdrant / Chroma)
  • Знание архитектуры генерации кода (CodeLlama, Codex, StarCoder и пр.)
  • Навыки работы с Rest API и умение работать с форматами JSON, Markdown, YAML
  • Знание Git, Docker, Linux ЮГ1 , Flask / FastAPI

Желательно:

  • Опыт fine-tuning или LoRA-донастройки моделей
  • Знания в области Information Retrieval: BM25, hybrid search
  • Опыт работы с CI/CD, оркестрацией на Airflow или Dagster.
  • Опыт генерации и тестирования кода LLM-моделями (unit tests, code quality metrics)
  • Знание английского языка на уровне чтения технической документации и общения

Мы предлагаем:

  • Участие в прикладных и исследовательских LLM-проектах
  • Гибкий график, удалённую работу и команду, открытую к экспериментам
  • Поддержку в обучении: менторство, материалы, доступ к GPU
  • Быстрый рост и развитие компетенций


Посмотрите похожие вакансии

ML Engineer / Data Scientist (NLP, CV)
Компания: Цифровые привычки
Зарплата: з.п. не указана
Data Scientist (NLP)
Компания: Ростелеком
Зарплата: з.п. не указана
Data Scientist (LLM)
Компания: Лига Цифровой Экономики
Зарплата: з.п. не указана
Data Scientist (RAG)
Компания: Ростелеком
Зарплата: з.п. не указана