Анализ задач заказчика (LLM, CV, recommender, classical ML и др.) и требований к качеству/скорости
Проектирование целевой архитектуры ML решения с учетом ограничений инфраструктуры и продуктов
Взаимодействие с ML командами заказчика
Анализ задач заказчика (LLM, CV, recommender, classical ML и др.) и требований к качеству/скорости
Выбор и обоснование стека: фреймворки (PyTorch, TensorFlow и др.), библиотеки, runtime, форматы моделей, схемы шардирования/параллелизма
Определение требований к ресурсам (число GPU, тип/объем памяти, сеть, хранилище)
Решение проблем на стыке GPU Граус и прикладных бизнес задач
Разработка рекомендаций по конфигурации моделей (batch size, quantization, pipeline параллелизм и др.) для достижения SLA по задержке и пропускной
Участие в настройке мониторинга метрик ML сервисов: latency, throughput, quality, drift, resource utilization
Подготовка эксплуатационных best practices и шаблонов архитектур для типовых сценариев
Требования:
Опыт проектирования Архитектуры ML решения
Понимание GPU архитектуры, ограничений памяти, пропускной способности и влияния архитектуры модели на загрузку ресурсов
Знание современных ML/Deep Learning подходов (LLM, CV, NLP, recommender и др.)
Знание фреймворков: PyTorch, TensorFlow и др.
Архитектура inference сервисов (on prem, Kubernetes, микросервисы, сервинговые фреймворки)
Знание основ оптимизации моделей (quantization, pruning, distillation, tensor/ pipeline/ data parallelism)
Опыт работы с Python, Jupyter/VS Code, ML фреймворки (PyTorch, TensorFlow и др.), системы оркестрации (Kubernetes), CI/CD, системы мониторинга и логирования, инструменты профилирования и оптимизации моделей