Резюме: ML/AI-инженер (ML/AI Engineer LLM, CV)
Опыт работы
TerraAI
1 год и 10 месяцев
ML-инженер
Февраль 2024 — Ноябрь 2025
Разработка и внедрение систем обработки данных с помощью AI инструментов.
Выполнил комплекс работ по компьютерному зрению, NLP, LLM и интеграции AI-моделей в реальные продукты.
1. Компьютерное зрение (детекция повреждений дорог и мостовых конструкции).
Задачи и достижения:
1. Разработал и обучил модель обнаружения и классификации дефектов мостовых конструкций.
Провёл оптимизацию датасета: разметил более 1000 изображений, исправил ошибки аннотаций, унифицировал классы.
Провёл серию экспериментов с YOLO (v5–v8), выбрав оптимальную YOLOv8m для повышения точности (precision/recall/mAP).
Настроил полный цикл обучения в Google Colab, обеспечил воспроизводимость экспериментов.
Подготовил итоговую модель для передачи в продакшн.
Tech Stack: Python, Ultralytics YOLOv8, PyTorch, OpenCV, Label Studio, Pandas, NumPy, Matplotlib, Google Colab, Jupyter Notebook.
2. NLP и LLM — AI-ассистент для обработки обращений инженеров
Задачи и достижения:
Подготовил и нормализовал текстовые и голосовые обращения инженеров.
Обработал и структурировал технические инструкции.
Реализовал классификацию обращений и подбор релевантных инструкций.
Разработал пайплайн для разбиения длинных документов на чанки и подготовки их к LLM.
Настроил промптинг и многошаговый LLM-процесс.
Реализовал поиск схожих обращений (векторизация, SentenceTransformers, FAISS/ChromaDB).
Интегрировал Telegram-бота с backend-системой.
Реализовал частичную автогенерацию ответов операторам.
Tech Stack: Python, FastAPI, Telegram Bot API, LangChain, SentenceTransformers, FAISS, ChromaDB, OpenAI / Llama 3 / локальные LLM, Pandas, NumPy, Scikit-learn, NLTK, spaCy, SQLite, PostgreSQL.
3. AI-приложение для распознавания биомаркеров с бланков анализов.
Задачи и достижения:
Разработал полноценное FastAPI-приложение для обработки анализов по изображениям.
Реализовал конвейер по предобработке изображений (выравнивание, шумоподавление, бинаризация, повышение контраста, масштабирование).
Интегрировал OCR: Tesseract и EasyOCR.
Построил базу данных биомаркеров, хранение результатов, типизацию измерений.
Подключил и протестировал несколько LLM (GPT, Mistral, LLaMA, Gemma), провёл сравнение качества извлечения данных.
Реализовал REST API для взаимодействия OCR, LLM и фронтенда.
Подготовил Docker-контейнеры, настройку окружения и развертывание.
Настроил модульные конфигурации предобработки и их версионность.
Tech Stack: Python, FastAPI, OpenCV, Pillow, SQLAlchemy, SQLite/PostgreSQL, OCR (Tesseract/EasyOCR), Transformers, LangChain, GPT/Mistral/LLaMA/Gemma, Jinja2, HTML/CSS/JS, Docker, Docker Compose, Bash.
4. NLP-модуль для анализа отзывов о городской среде.
Задачи и достижения:
Выполнил предобработку отзывов (csv/json), очистку, нормализацию, токенизацию, лемматизацию.
Построил NLP-конвейер с анализом тональности и тематическим моделированием.
Сравнил несколько LLM и трансформеров: GPT, BERT, RoBERTa, LLaMA, Mistral.
Реализовал тематическую группировку (KMeans, DBSCAN, BERTopic).
Построил динамический анализ изменений тональности по районам.
Разработал API для интеграции с интерактивной картой.
Реализовал контейнеризацию и деплой.
Tech Stack: Python, Pandas, NumPy, scikit-learn, spaCy, NLTK, BERTopic, Transformers, BERT, RoBERTa, LLaMA, GPT, PyTorch, FastAPI, Docker, PostgreSQL.
КЛЮЧЕВЫЕ НАВЫКИ
Python (NumPy, Pandas, scikit-learn, PyTorch, FastAPI)
Компьютерное зрение (OpenCV, YOLO, Ultralytics)
NLP и LLM (Transformers, LangChain, SentenceTransformers, GPT/BERT/LLaMA/Mistral)
OCR (Tesseract, EasyOCR)
Классификация, кластеризация, регрессия, эмбеддинги
Работа с БД: SQLite, PostgreSQL, SQLAlchemy
Разработка API и backend-логики
Docker и контейнеризация
Git/GitHub, CI/CD (базово)
Визуализация: Matplotlib, Seaborn
Jupyter, Google Colab
Работа с данными, предобработка, построение ML-пайплайнов