Задание: Программист баз данных. Подготовка Excel-таблицы из PDF (реестр СЗР) под загрузку в SQL-базу (Дистанционная работа)
ТЕХНИЧЕСКОЕ ЗАДАНИЕ
Подготовка Excel-файла для базы данных средств защиты растений (СЗР)
1. Цель работы
На основе PDF-файлов государственного реестра СЗР необходимо подготовить чистый, логически корректный Excel-файл, который в дальнейшем будет импортирован в SQL-базу данных.
️ SQL, программирование и парсинг в БД не требуются.
Работа ведётся только в Excel.
2. Общий принцип
PDF → Excel (очистка и структурирование) → SQL
В Excel нужно:
убрать мусор, заголовки, повторы;
чётко разделить сущности (препарат ≠ ДВ ≠ регистрант);
сохранить смысл данных, а не просто текст.
3. Требования к Excel-файлу (структура)
Один Excel-файл, несколько листов.
Каждый лист — одна логическая сущность.
Лист 1. products — Препараты
Колонка Описание
product_name Торговое название препарата (без заголовков разделов!)
formulation Препаративная форма (КЭ, ВР, ВДГ и т.п.)
registrant Название регистранта / компании
country Страна (если указана в реестре)
raw_text Исходная строка из PDF (для контроля, не чистить)
Важно:
Названия действующих веществ НЕ должны попадать сюда.
Заголовки разделов PDF НЕ являются препаратами.
Одна строка = один препарат.
Лист 2. active_substances — Действующие вещества
Колонка Описание
product_name Название препарата (связь с листом products)
active_substance Название действующего вещества
concentration Концентрация (как в PDF: 50 г/л, 750 г/кг и т.п.)
Важно:
Один препарат может иметь несколько строк (если несколько ДВ).
Название ДВ должно быть чистым, без концентрации.
Концентрация — отдельная колонка.
Лист 3. applications — Регламенты применения
Колонка Описание
product_name Название препарата
culture Культура / объект применения
weeds Сорные растения / объекты
dose Норма расхода
method Способ и время обработки
restrictions Ограничения и примечания
Важно:
Одна строка = один регламент применения.
Если у препарата несколько культур — несколько строк.
Текст оставляем максимально близко к PDF, но без разрывов слов.
Лист 4. cultures (опционально, если удобно)
culture
Пшеница озимая
Пшеница яровая
Кукуруза
…
(Можно формировать автоматически из листа applications.)
4. Что НУЖНО делать
Чётко разделять:
препарат
действующее вещество
концентрацию
регистранта
регламент
Убирать:
заголовки разделов PDF;
повторы шапок таблиц;
«мусорные» строки.
Сохранять:
исходный текст (в raw_text);
все смысловые данные из реестра.
5. Что ДЕЛАТЬ НЕ НУЖНО
SQL
базы данных
автоматический парсинг
формулы, макросы
дизайн и оформление
Только чистые данные.
6. Критерии приёмки
Excel считается готовым, если:
по любому препарату можно:
увидеть его ДВ и концентрации;
увидеть регистранта;
увидеть культуры и регламенты;
заголовки PDF не попадают в названия препаратов;
концентрации не попадают в регистрантов;
данные логически читаются человеком.
7. Дополнительно
Этот Excel будет использоваться:
для загрузки в SQL-базу;
в дальнейшем — для сайта и чат-бота.
Поэтому качество и логика данных важнее скорости.