Формирование технического видения, архитектуры и дорожной карты развития систем инференса (LLM, эмбеддинги, реранкеры).
Проектирование масштабируемой, отказоустойчивой микросервисной архитектуры с низкой задержкой и высокой пропускной способностью.
Принятие ключевых архитектурных решений по сервингу моделей (vLLM, Triton, Ray Serve и др.), оркестрации (Kubernetes), API-дизайну (REST/gRPC) и управлению нагрузкой.
Контроль оптимизации инференса: квантование, дистилляция, компиляция, батчинг, кэширование, gracefull degradation.
Совместно с DevOps и смежными командами развитие ML-инфраструктуры, мониторинга (Prometheus, Grafana, ELK), CI/CD пайплайнов, MLOps-практик и RAG-компонентов (векторные БД, ретриверы, реранкеры)
Совместная с владельцем продукта проработка долгосрочных целей по качеству и доступности AI-сервисов.
Исследование и внедрение лучших практик и инструментов для развёртывания и эксплуатации LLM/RAG в production-масштабе.
Развитие инженерного бренда команды: участие в технических конференциях, написание статей, открытые митапы (опционально).
Управление командой и процессами:
Непосредственное руководство командой ML-инженеров: найм, онбординг, менторинг, регулярная обратная связь, планы развития.
Организация рабочего процесса (спринты, планирование, ретроспективы), приоритизация задач в соответствии с бизнес-целями и техническими рисками.
Обеспечение высокого инженерного стандарта: код-ревью, тестирование, документирование, версионирование моделей и данных.
Построение культуры ответственности за сервисы от идеи до эксплуатации, ориентации на SLA и постоянного улучшения производительности и надёжности.
Кросс-функциональное взаимодействие: быть связующим звеном между инженерами, дата-сайентистами, продакт-менеджерами и DevOps, транслировать технические требования и ограничения
Требования:
Высшее техническое образование (профильное, например: Computer Science, прикладная математика, Software Engineering).
Уверенное знание Python и экосистемы ML/инжиниринга.
Глубокое понимание принципов построения высоконагруженных, отказоустойчивых распределённых систем.
Опыт руководства командой разработки/ML-инженеров от 2 лет (тимлид, техлид) с прямым менеджментом людей.
Желательный опыт:
5+ лет в индустрии, из них от 3 лет в роли ML-инженера / MLOps-инженера или аналогичной, с production-опытом развёртывания ML-моделей.
Практический опыт внедрения и эксплуатации инструментов сервинга моделей: Ray Serve, Triton Inference Server, KServe, vLLM, TGI.
Глубокое знание инфраструктурного стека:
Контейнеризация и оркестрация: продвинутый Docker, Kubernetes (Deployments, Services, HPA, requests/limits).
Мониторинг и логирование: настройка Prometheus, Grafana, ELK для ML-сервисов.
Проектирование API: REST/gRPC, идемпотентность, стратегии retry и circuit breaker.
Навыки оптимизации инференса: опыт профилирования GPU/CPU, использование CUDA, TensorRT, ONNX Runtime, PyTorch Profiler.
Практический опыт с полным циклом LLM/RAG (большое преимущество):
Дообучение (fine-tuning, LoRA), промпт-инжиниринг, обслуживание LLM в production.
Создание производительных RAG-систем (векторные БД, гибридный поиск, ранжирование).
Опыт построения или масштабирования ML-инфраструктуры с нуля (MLOps, Feature Store, Model Registry).
Базовые знания Big Data-стека (Spark) и фреймворков глубокого обучения (PyTorch, Hugging Face Transformers)
Условия:
трудоустройство в соответствии с ТК РФ
Премии - по результатам работы
Медицинское страхование (ДМС)
Возможность профессионального развития и карьерного роста
Доброжелательная, демократичная и творческая атмосфера в коллективе
Офис в шаговой доступности от метро (работа удаленно)