Senior ML-разработчик (NLP / Обработка документов) (удаленная работа)

7 мая 2025

Уровень зарплаты:
от 200 000 до 200 000 руб.
Требуемый опыт работы:
Не указан

Вакансия: Senior ML-разработчик (NLP / Обработка документов)

Описание вакансии

Мы ищем Senior ML-разработчика с опытом в NLP и обработке текстовых данных для работы над системой электронного документооборота (СЭД). Вам предстоит разрабатывать и внедрять ML-модели для анализа документов, автоматизации извлечения информации и улучшения поиска в больших массивах текстов.

Основные задачи:
Разработка и оптимизация NLP-моделей для обработки документов (классификация, извлечение сущностей, NER, summarization, question answering).

Работа с полуструктурированными данными (PDF, сканы, таблицы) распознавание текстов, разметка, нормализация.

Построение ML-пайплайнов для обработки и анализа больших объёмов текстовых данных.

Интеграция моделей в продакшен (Docker, FastAPI, Kubernetes).

Разработка метрик качества и A/B-тестирование решений.

Оптимизация работы с векторными базами данных для семантического поиска.

Требования:
Опыт от 3+ лет в ML с фокусом на NLP.

Глубокое знание:

Python, PyTorch/TensorFlow (включая трансформеры: BERT, GPT, T5, и т. д.).

Библиотеки для NLP (SpaCy, NLTK, Hugging Face, LangChain).

Работа с текстами (токенизация, лемматизация, TF-IDF, word2vec, BERT-эмбеддинги).

Обработка PDF/сканов (OCR: Tesseract, EasyOCR, или аналоги).

Основы SQL/NoSQL (PostgreSQL, Elasticsearch).

Опыт деплоя ML-моделей (Docker, REST API, Airflow).

Понимание современных подходов в NLP (LLM, RAG, fine-tuning, prompt engineering).

Будет плюсом:
Базовые навыки в Computer Vision (например, для обработки сканов документов или таблиц) но это не обязательное требование.

Опыт работы с графами знаний или онтологиями.

Знание Rust или C++ для оптимизации высоконагруженных NLP-моделей.

Публикации на ACL, EMNLP, NeurIPS или аналогичных конференциях.

Опыт в госсекторе (ФЗ-44, ФЗ-223) или финтехе (где важна обработка документов).

Условия:

Мы предлагаем:
Оклад от 250 000 (обсуждается индивидуально).

Гибкий график (сдвиг +-2 часа).

Удалённую работу с редкими офисными встречами.

Проект с реальным impact на процессы документооборота.

Команду экспертов в ML и data engineering.