Машинное обучение. Ищу OCR-инженера для проекта по распознаванию старославянского печатного текста (Kraken / Calamari). (Дистанционная работа)

Бюджет: 6 000 руб.

Задание: Машинное обучение. Ищу OCR-инженера для проекта по распознаванию старославянского печатного текста (Kraken / Calamari). (Дистанционная работа)

Работаю над созданием кастомной OCR-модели под старославянский текст XVI–XVII вв. Есть проблема, которую стандартные движки не решают: – 10–15 типов надстрочных знаков, – нестандартная раскладка, – редкие кириллические и греческие символы, – проблема сегментации (диакритика «уезжает» в отдельную строку). Нужен специалист, который понимает как решать и имеет практический опыт работы с задачами: 1. Разметка строк вручную/полуавтоматически. 2. Создание датасета пар «скан → текст». 3. Тестирование Kraken (обязательно)/Calamari(по возможности): – line segmentation, – training alphabets, – ground truth mapping. 4. Построение минимального прототипа пайплайна: папка A (исходные сканы) + CLI-скрипт -> папка B (текстовый результат в правильной раскладке). 5. Создание краткого аргументированного отчёта о том, какой путь обучения модели реалистичен и оптимален для решения поставленной задачи. На первом этапе — пилот за начальную сумму Это R&D-этап. Если подходим друг другу — продолжение проекта: обучение основной модели (кратно больший бюджет). От вас нужны: – опыт OCR или ML; – понимание сегментации строк; – умение работать с нестандартными алфавитами. Для пилота дам 5–10 страниц сканов и эталоны. Пишите кратко: с какими OCR-движками работали, 2-3 примера похожих решенных задач. Вышлю дополнительные вопросы и материалы. Желаю всем взаимовыгодны проектов! С уважением, Алексей