Парсинг товаров с сайта на Java или Python (Дистанционная работа)
(проект не опубликован)

Бюджет не указан

Задание: Парсинг товаров с сайта на Java или Python (Дистанционная работа)

Есть сайт с товарами - https://www.otto.de Необходимо по урлу товара получить информацию о всех его вариациях (цветах, размерах, ценах). Запросы должны выполняться через прокси - http(s) или socks5. Учитывайте, что урлов будет много (200.000+) - парсер не должен детектиться со стороны сайта. Если определяют парсинг - начинают возвращать 403 ошибку для текущего IP. Функция предпочтительна на языке Java (будет использоваться в уже давно написанном и адаптированном парсере) , но рассмотрю предложение и на Python. Примеры урлов товаров: https://www.otto.de/p/lascana-hoodie-mit-kaengurutasche-loungeanzug-1114885190/#variationId=1114885775 https://www.otto.de/p/lascana-push-up-bh-ohne-buegel-mit-extra-flachen-kanten-und-feiner-spitze-dessous-1362132780/#variationId=1362132907 Дальше скриншоты для товара: https://www.otto.de/p/lascana-push-up-bh-ohne-buegel-mit-extra-flachen-kanten-und-feiner-spitze-dessous-1362132780/#variationId=1362132907 На входе функции: url и прокси На выходе массив вариаций: параметры вариации (цвет, размер, чашка и т.д) - в формате json данные по конкретной вариации: - артикул (скриншот 4) - цена с учетом скидки (скриншот 5) - цена без учета скидки (скриншот 5) - название цвета (скриншот 6) - ссылки на картинки товара (скриншот 7) Обращаю внимание, что у некоторых типов товаров размер состоит из двух частей (например, для бюстгалтеров объем груди и размер чашки - скриншот 1). Это надо учитывать при парсинге.