29 декабря 2024
Обязанности:
Организация и поддержка инфраструктуры для развертывания ML/AI моделей
Автоматизация процессов поставки ML/AI-моделей: настройка пайплайнов CI/CD для обучения, тестирования и деплоя
Мониторинг производительности: разработка и внедрение системы мониторинга, отслеживание метрик точности, задержек и отказоустойчивости
Обеспечение повторяемости обучения моделей через управление версиями данных и моделей (например, с использованием DVC или аналогов)
Настройка и управление окружением для обучения и тестирования моделей
Взаимодействие с разработчиками, аналитиками данных и DevOps-инженерами для интеграции моделей в общий продукт
Документирование пайплайнов и процедур, чтобы обеспечить прозрачность и поддержку системы
Требования:
Опыт работы в ML Ops или DevOps со специализацией в области машинного обучения
Опыт развертывания и сопровождения ML-моделей
Понимание всего жизненного цикла модели машинного обучения: от подготовки данных до внедрения в продакшен и мониторинга
Технические навыки:
Владение инструментами для работы с ML-моделями: TensorFlow, PyTorch
Опыт работы с системами контейнеризации (Docker) и оркестрации контейнеров (Kubernetes)
Знание инструментов для мониторинга производительности, таких как Prometheus, Grafana, или аналогов
Опыт работы с пайплайнами GitLab CI/CD
Умение работать с системами управления версиями данных и моделей, такими как DVC, MLflow, или аналогами
Глубокое знание Linux и опыт работы с виртуальными машинами или GPU-инстансами для обучения моделей
Знание языков программирования: Python (для работы с ML-библиотеками) и Bash (для автоматизации процессов)
Умение разрабатывать и внедрять системы мониторинга
Опыт работы с Inference серверами (vLLM, TGI, Triton)
Владение инструментами для работы с ML-моделями: TensorFlow, PyTorch, Transformers
Условия: