Программист баз данных. датасет для обучения LLM (SFT/RAG/Instruct) (Дистанционная работа)

Бюджет не указан

Задание: Программист баз данных. датасет для обучения LLM (SFT/RAG/Instruct) (Дистанционная работа)

Техническое задание по подготовке данных для обучения LLM 1. Очистить данные Удалить навигацию, меню, подписи, футеры, повторяющиеся блоки, HTML-теги и весь технический мусор. Оставить только чистый основной текст. 2. Нормализовать текст Привести текст к единому виду: выровнять переносы строк, исправить символы, убрать лишние пробелы, привести кодировку к UTF-8. 3. Разбить тексты на части Разделить большие материалы на смысловые фрагменты объёмом примерно 800-1500 токенов, сохраняя связь с исходным URL и заголовком. 4. Проверить на дубли Удалить полностью совпадающие и очень похожие тексты, а также повторяющиеся абзацы внутри документов. 5. Сформировать итоговый датасет Собрать все очищенные и разбитые фрагменты в формат JSONL с полями: текст, заголовок, URL, раздел.