Инженер по распознаванию речи / Специалист по SpeechKit и аудиовидеоданным ( удалённо)
(вакансия не опубликована)

7 мая 2025

Уровень зарплаты:
от 342 864 до 342 864 руб.
Требуемый опыт работы:
Не указан

Вакансия: Инженер по распознаванию речи / Специалист по SpeechKit и аудиовидеоданным ( удалённо)

Описание вакансии

Мы ищем специалиста, который поможет нам глубже интегрировать и эффективно использовать технологии распознавания речи на базе Яндекс SpeechKit, а также обеспечит качественную работу с аудио- и видеофайлами: конвертацией, предварительной обработкой, извлечением аудиодорожек и др.

Что предстоит делать:

Настраивать и оптимизировать работу с Яндекс SpeechKit (streaming API, speaker diarization, punctuation и др.);

Консультировать команду по архитектуре решения с распознаванием речи;

Обрабатывать аудио- и видеоконтент: извлекать аудио, проводить конвертацию в нужные форматы, обеспечивать нужное качество звука;

Помогать в разработке пайплайна: аудио текст структурированные данные;

Работать в связке с разработчиками, аналитиками.

Что мы ожидаем:

Опыт работы с Яндекс SpeechKit или аналогичными сервисами (Google, Azure, Whisper и др.);

Понимание принципов распознавания речи, работы с аудиоданными (частота дискретизации, кодеки, шумоподавление и пр.);

Уверенное владение инструментами обработки аудио и видео (ffmpeg, Audacity, sox, и др.);

Навыки работы с Python, Bash или другим скриптовым языком для автоматизации обработки медиафайлов;

Грамотная коммуникация, умение объяснять сложное простыми словами.

Будет плюсом:

Опыт работы с diarization, word-level timestamps, классификацией спикеров;

Знание систем ASR, NLP, опыт в построении дата-пайплайнов;

Понимание задач машинного обучения и аналитики речи.

Формат работы: удаленно частичная занятость.

Чем мы занимаемся:

Наша команда разрабатывает сервис, который сочетает искусственный интеллект и живых операторов для удалённого контроля сотрудников. Мы хотим масштабировать решение и ищем эксперта, который усилит нашу технологическую основу в части речи и звука.