Задание: Программист баз данных. датасет для обучения LLM (SFT/RAG/Instruct) (Дистанционная работа)
Техническое задание по подготовке данных для обучения LLM
1. Очистить данные
Удалить навигацию, меню, подписи, футеры, повторяющиеся блоки, HTML-теги и весь технический мусор. Оставить только чистый основной текст.
2. Нормализовать текст
Привести текст к единому виду: выровнять переносы строк, исправить символы, убрать лишние пробелы, привести кодировку к UTF-8.
3. Разбить тексты на части
Разделить большие материалы на смысловые фрагменты объёмом примерно 800-1500 токенов, сохраняя связь с исходным URL и заголовком.
4. Проверить на дубли
Удалить полностью совпадающие и очень похожие тексты, а также повторяющиеся абзацы внутри документов.
5. Сформировать итоговый датасет
Собрать все очищенные и разбитые фрагменты в формат JSONL с полями: текст, заголовок, URL, раздел.