Специалист по работе с системами ИИ

Уровень зарплаты: от 60 000 руб.
Местоположение: Россия, Рязанская область (МСК +0ч)

Резюме: Специалист по работе с системами ИИ

Начинающий разработчик на Python с опытом создания мультимодальных приложений, объединяющих компьютерное зрение, обработку речи и машинное обучение. Самостоятельно реализовал голосового ассистента с нуля — от выбора архитектурных решений до отладки на реальном оборудовании. Умею разбираться в чужом коде, работать с документацией и доводить задачи до рабочего состояния.

Языки и технологии:
Python 3 (уверенное владение: ООП, многопоточность, работа с API)
NumPy, SciPy, scikit-learn (матричные операции, обработка сигналов)
OpenCV, DeepFace (компьютерное зрение, распознавание эмоций)
Sherpa-ONNX, NeMo (распознавание речи, работа с ONNX-моделями)
requests (работа с REST API, интеграция с внешними сервисами)
win32com / SAPI5 (работа с нативными API Windows)

Инструменты:
PyCharm, Git, виртуальные окружения (venv)
PyAudio, python_speech_features (обработка аудио)
Работа с TensorFlow, ONNX-моделями, MFCC-признаками

Soft skills:
Самостоятельный поиск и устранение ошибок (отладка по логам)
Работа с технической документацией на английском
Умение декомпозировать сложные задачи на подзадачи

Основной проект: Голосовой ассистент с компьютерным зрением
Стек: Python, OpenCV, DeepFace, TensorFlow, Sherpa-ONNX, PyAudio, SAPI5, scikit-learn, requests
Описание: Персональный голосовой ассистент, который видит пользователя через веб-камеру, распознаёт его эмоции, идентифицирует по голосу и адаптирует ответы под настроение.
Реализованный функционал:
1. Распознавание эмоций в реальном времени
Интеграция DeepFace + MTCNN для анализа 7 базовых эмоций (радость, грусть, гнев, удивление, страх, отвращение, нейтрально)
Обработка видеопотока в отдельном потоке (threading) без блокировки основного цикла
2. Распознавание и синтез речи
Подключение оффлайн-модели NeMo CTC (GigaAM) для распознавания русской речи через Sherpa-ONNX
Реализация режима ожидания голоса с детектором пауз (2.5 сек)
Интеграция с Windows SAPI5 через win32com.client для стабильного синтеза речи (после отказа от pyttsx3 из-за проблем с многопоточностью)
3. Идентификация диктора по голосу
Извлечение MFCC-признаков из аудиосигнала
Реализация алгоритма распознавания через косинусное сходство средних векторов признаков (порог 0.70)
Система профилей пользователей с сохранением в .pkl
4. Адаптивное общение
Система реагирует на эмоции пользователя при приветствии («Привет, Сергей! Вижу, у вас отличное настроение»)
Интеграция с бесплатным AI-сервисом Pollinations для ответов на произвольные вопросы
Управление VK Video голосовыми командами («включи музыку [название]»)
5. Автоматизация развёртывания
Скрипт самостоятельно устанавливает ~12 зависимостей, разрешая конфликты версий (TensorFlow 2.15 + tf-keras)
Автоматическое скачивание ASR и VAD моделей (~100 МБ)
Диагностика микрофона и голосов системы при первом запуске


Образование
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ДОПОЛНИТЕЛЬНОГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ "ИНСТИТУТ РАЗВИТИЯ ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ"
специалист по работе с системами ИИ,

Дополнительное обучение:
Самостоятельное изучение Python, машинного обучения, обработки сигналов
Работа с документацией TensorFlow, OpenCV, Sherpa-ONNX

Дополнительно
Английский язык: базовый