ML/DL Engineer (AUDIO) (удаленная работа)

5 декабря 2025

Уровень зарплаты:
от 100 000 до 250 000 руб.
Требуемый опыт работы:
Не указан

Вакансия: ML/DL Engineer (AUDIO)

Описание вакансии

Добрый день!

Мы "VICTORY group" являемся одним из лидирующих рекламных агентств России . Наши клиенты это крупнейшие автохолдинги, застройщики, медицинские центры и другие компании различных отраслей.

Более 15 000 компаний каждый месяц доверяют нам!

Ведём работу по двум направлениям:

1. Управление репутацией

Мы более пяти лет работаем в сфере репутационного маркетинга в интернете.
Лучше всех в России понимаем, как работать с негативом.
Помогаем в создании положительного образа компании с гарантией.

2. Лидогенерация

Можем найти заинтересованных клиентов в любой сфере.
Применяем инновационные решения в интернет-маркетинге, показываем лучшие результаты на рынке.

Обязанности:

  • Разработка и обучение ML-моделей для реального времени для классификации аудио (человек/робот) по первым секундам звонка ;
  • Создание и оптимизация пайплайна инференса с задержками в десятки миллисекунд;
  • Построение и поддержка пайплайна подготовки датасетов (агрегация, аугментация, работа с "грязными" данными).
  • Разработка модуля для обнаружения начала речи и отсечения гудков ;
  • Реализация контура обратной связи (Human-in-the-loop / Reinforcement Learning) для непрерывного дообучения модели на основе ошибок;
  • Интеграция ML-моделей в продакшен-окружение (написание сервисов на FastAPI/gRPC);
  • Оптимизация моделей для производительности (батчинг, квантизация, использование ONNX/TensorRT);
  • Ведение технической документации.

Требования:

  • Опыт работы с аудио/спичем: VAD, ASR, классификация аудио, Speaker Detection, Keyword Detection;
  • Умение работать с сырым аудио (гудки, шумы, нечёткое начало речи);
  • Уверенное владение PyTorch (умение не только запускать, но и писать и обучать модели);
  • Опыт оптимизации пайплайна инференса для реального времени (задержки, батчинг);
  • Опыт подготовки датасетов: агрегация, аугментация, работа с грязными данными;
  • Понимание онлайн-сценариев (streaming inference);
  • Опыт или глубокое понимание построения петель Reinforcement Learning / Active Learning для непрерывного дообучения моделей .

Будет плюсом:

  • Опыт с конкретными инструментами: WebRTC VAD, Silero VAD, Whisper, Nemo, Vosk ;
  • Опыт оптимизации для продакшена: ONNX / TensorRT / TorchScript ;
  • Опыт интеграции с бэкендом: FastAPI/gRPC ;
  • Опыт с телефонией и спецификой телефонного аудио ;
  • Опыт построения Active Learning Pipeline .

Условия:

  • Удаленный формат работы, полный рабочий день;
  • Уровень заработной платы от 100 000 рублей (25 000 - 50 000 руб/неделя), выплаты каждую неделю ;
  • Перспектива профессионального и карьерного роста.