ML/AI-инженер (ML/AI Engineer LLM, CV)

Уровень зарплаты: от 3 000 руб.
Местоположение: Россия, Москва и область (МСК +0ч)

Резюме: ML/AI-инженер (ML/AI Engineer LLM, CV)

Опыт работы
TerraAI
1 год и 10 месяцев
ML-инженер
Февраль 2024 — Ноябрь 2025

Разработка и внедрение систем обработки данных с помощью AI инструментов.
Выполнил комплекс работ по компьютерному зрению, NLP, LLM и интеграции AI-моделей в реальные продукты.
1. Компьютерное зрение (детекция повреждений дорог и мостовых конструкции).

Задачи и достижения:

1. Разработал и обучил модель обнаружения и классификации дефектов мостовых конструкций.

Провёл оптимизацию датасета: разметил более 1000 изображений, исправил ошибки аннотаций, унифицировал классы.

Провёл серию экспериментов с YOLO (v5–v8), выбрав оптимальную YOLOv8m для повышения точности (precision/recall/mAP).

Настроил полный цикл обучения в Google Colab, обеспечил воспроизводимость экспериментов.

Подготовил итоговую модель для передачи в продакшн.

Tech Stack: Python, Ultralytics YOLOv8, PyTorch, OpenCV, Label Studio, Pandas, NumPy, Matplotlib, Google Colab, Jupyter Notebook.

2. NLP и LLM — AI-ассистент для обработки обращений инженеров

Задачи и достижения:

Подготовил и нормализовал текстовые и голосовые обращения инженеров.

Обработал и структурировал технические инструкции.

Реализовал классификацию обращений и подбор релевантных инструкций.

Разработал пайплайн для разбиения длинных документов на чанки и подготовки их к LLM.

Настроил промптинг и многошаговый LLM-процесс.

Реализовал поиск схожих обращений (векторизация, SentenceTransformers, FAISS/ChromaDB).

Интегрировал Telegram-бота с backend-системой.

Реализовал частичную автогенерацию ответов операторам.

Tech Stack: Python, FastAPI, Telegram Bot API, LangChain, SentenceTransformers, FAISS, ChromaDB, OpenAI / Llama 3 / локальные LLM, Pandas, NumPy, Scikit-learn, NLTK, spaCy, SQLite, PostgreSQL.

3. AI-приложение для распознавания биомаркеров с бланков анализов.

Задачи и достижения:

Разработал полноценное FastAPI-приложение для обработки анализов по изображениям.

Реализовал конвейер по предобработке изображений (выравнивание, шумоподавление, бинаризация, повышение контраста, масштабирование).

Интегрировал OCR: Tesseract и EasyOCR.

Построил базу данных биомаркеров, хранение результатов, типизацию измерений.

Подключил и протестировал несколько LLM (GPT, Mistral, LLaMA, Gemma), провёл сравнение качества извлечения данных.

Реализовал REST API для взаимодействия OCR, LLM и фронтенда.

Подготовил Docker-контейнеры, настройку окружения и развертывание.

Настроил модульные конфигурации предобработки и их версионность.

Tech Stack: Python, FastAPI, OpenCV, Pillow, SQLAlchemy, SQLite/PostgreSQL, OCR (Tesseract/EasyOCR), Transformers, LangChain, GPT/Mistral/LLaMA/Gemma, Jinja2, HTML/CSS/JS, Docker, Docker Compose, Bash.

4. NLP-модуль для анализа отзывов о городской среде.

Задачи и достижения:

Выполнил предобработку отзывов (csv/json), очистку, нормализацию, токенизацию, лемматизацию.

Построил NLP-конвейер с анализом тональности и тематическим моделированием.

Сравнил несколько LLM и трансформеров: GPT, BERT, RoBERTa, LLaMA, Mistral.

Реализовал тематическую группировку (KMeans, DBSCAN, BERTopic).

Построил динамический анализ изменений тональности по районам.

Разработал API для интеграции с интерактивной картой.

Реализовал контейнеризацию и деплой.

Tech Stack: Python, Pandas, NumPy, scikit-learn, spaCy, NLTK, BERTopic, Transformers, BERT, RoBERTa, LLaMA, GPT, PyTorch, FastAPI, Docker, PostgreSQL.

КЛЮЧЕВЫЕ НАВЫКИ

Python (NumPy, Pandas, scikit-learn, PyTorch, FastAPI)

Компьютерное зрение (OpenCV, YOLO, Ultralytics)

NLP и LLM (Transformers, LangChain, SentenceTransformers, GPT/BERT/LLaMA/Mistral)

OCR (Tesseract, EasyOCR)

Классификация, кластеризация, регрессия, эмбеддинги

Работа с БД: SQLite, PostgreSQL, SQLAlchemy

Разработка API и backend-логики

Docker и контейнеризация

Git/GitHub, CI/CD (базово)

Визуализация: Matplotlib, Seaborn

Jupyter, Google Colab

Работа с данными, предобработка, построение ML-пайплайнов