Программист баз данных. Подготовка Excel-таблицы из PDF (реестр СЗР) под загрузку в SQL-базу (Дистанционная работа)

Бюджет не указан

Задание: Программист баз данных. Подготовка Excel-таблицы из PDF (реестр СЗР) под загрузку в SQL-базу (Дистанционная работа)

ТЕХНИЧЕСКОЕ ЗАДАНИЕ Подготовка Excel-файла для базы данных средств защиты растений (СЗР) 1. Цель работы На основе PDF-файлов государственного реестра СЗР необходимо подготовить чистый, логически корректный Excel-файл, который в дальнейшем будет импортирован в SQL-базу данных. ️ SQL, программирование и парсинг в БД не требуются. Работа ведётся только в Excel. 2. Общий принцип PDF → Excel (очистка и структурирование) → SQL В Excel нужно: убрать мусор, заголовки, повторы; чётко разделить сущности (препарат ≠ ДВ ≠ регистрант); сохранить смысл данных, а не просто текст. 3. Требования к Excel-файлу (структура) Один Excel-файл, несколько листов. Каждый лист — одна логическая сущность. Лист 1. products — Препараты Колонка Описание product_name Торговое название препарата (без заголовков разделов!) formulation Препаративная форма (КЭ, ВР, ВДГ и т.п.) registrant Название регистранта / компании country Страна (если указана в реестре) raw_text Исходная строка из PDF (для контроля, не чистить) Важно: Названия действующих веществ НЕ должны попадать сюда. Заголовки разделов PDF НЕ являются препаратами. Одна строка = один препарат. Лист 2. active_substances — Действующие вещества Колонка Описание product_name Название препарата (связь с листом products) active_substance Название действующего вещества concentration Концентрация (как в PDF: 50 г/л, 750 г/кг и т.п.) Важно: Один препарат может иметь несколько строк (если несколько ДВ). Название ДВ должно быть чистым, без концентрации. Концентрация — отдельная колонка. Лист 3. applications — Регламенты применения Колонка Описание product_name Название препарата culture Культура / объект применения weeds Сорные растения / объекты dose Норма расхода method Способ и время обработки restrictions Ограничения и примечания Важно: Одна строка = один регламент применения. Если у препарата несколько культур — несколько строк. Текст оставляем максимально близко к PDF, но без разрывов слов. Лист 4. cultures (опционально, если удобно) culture Пшеница озимая Пшеница яровая Кукуруза … (Можно формировать автоматически из листа applications.) 4. Что НУЖНО делать Чётко разделять: препарат действующее вещество концентрацию регистранта регламент Убирать: заголовки разделов PDF; повторы шапок таблиц; «мусорные» строки. Сохранять: исходный текст (в raw_text); все смысловые данные из реестра. 5. Что ДЕЛАТЬ НЕ НУЖНО SQL базы данных автоматический парсинг формулы, макросы дизайн и оформление Только чистые данные. 6. Критерии приёмки Excel считается готовым, если: по любому препарату можно: увидеть его ДВ и концентрации; увидеть регистранта; увидеть культуры и регламенты; заголовки PDF не попадают в названия препаратов; концентрации не попадают в регистрантов; данные логически читаются человеком. 7. Дополнительно Этот Excel будет использоваться: для загрузки в SQL-базу; в дальнейшем — для сайта и чат-бота. Поэтому качество и логика данных важнее скорости.