Задание: Парсинг товаров с сайта на Java или Python (Дистанционная работа)
Есть сайт с товарами - https://www.otto.de
Необходимо по урлу товара получить информацию о всех его вариациях (цветах, размерах, ценах). Запросы должны выполняться через прокси - http(s) или socks5.
Учитывайте, что урлов будет много (200.000+) - парсер не должен детектиться со стороны сайта. Если определяют парсинг - начинают возвращать 403 ошибку для текущего IP.
Функция предпочтительна на языке Java (будет использоваться в уже давно написанном и адаптированном парсере) , но рассмотрю предложение и на Python.
Примеры урлов товаров:
https://www.otto.de/p/lascana-hoodie-mit-kaengurutasche-loungeanzug-1114885190/#variationId=1114885775
https://www.otto.de/p/lascana-push-up-bh-ohne-buegel-mit-extra-flachen-kanten-und-feiner-spitze-dessous-1362132780/#variationId=1362132907
Дальше скриншоты для товара:
https://www.otto.de/p/lascana-push-up-bh-ohne-buegel-mit-extra-flachen-kanten-und-feiner-spitze-dessous-1362132780/#variationId=1362132907
На входе функции: url и прокси
На выходе массив вариаций:
параметры вариации (цвет, размер, чашка и т.д) - в формате json
данные по конкретной вариации:
- артикул (скриншот 4)
- цена с учетом скидки (скриншот 5)
- цена без учета скидки (скриншот 5)
- название цвета (скриншот 6)
- ссылки на картинки товара (скриншот 7)
Обращаю внимание, что у некоторых типов товаров размер состоит из двух частей (например, для бюстгалтеров объем груди и размер чашки - скриншот 1). Это надо учитывать при парсинге.