Задание: Программист баз данных. Нужен парсер базы данных encar.com (Дистанционная работа)
1.Нужно полный парсер базы данных сайта encar.com чтобы база обновлялась у нас на сайте каждые 15 минут.
2.Наш сайт сделан на Тильде связать базу данных с encar.com с нашим сайтом.
3.Также парсер данных https://www.alta.ru/auto-vat/#resultAnchor для просчета таможни
4.Cвязывание курса валют USDT онлайн с сайта bestchange.ru c корейской воной https://www.kucoin.com/ru/otc/sell/USDT-KRW
5.Сделать чтобы в этот калькулятор добавить еще стоимость брокера и других услуг, доставка автомобиля в регионы загрузить карту городов
6.Разработать алгоритм просчета и вывода остаточной стоимости автомобиля со всеми расходами для конечного заказа в России.
С чего складывается стоимость я добавил фото 1
ТЗ:
1) Все изображения будет необходимо складывать в папку, название которой будет являться идентификатором машины.
2) Настолько я понимаю придется использовать обход капчи для encar.com точно. Необходимо использовать сервис типа rucaptcha.com или аналогичный.
3) Планируется запускать несколько экземпляров парсера, где в качестве параметров запуска необходимо использовать: URL конкретной модели и марки.
Пример URL –http://www.encar.com/fc/fc_carsearchlist.do?carType=for#!%7B%22action%22%3A%22(And.Hidden.N._.SellType.일반._.Color.검정색._.(C.CarType.Y._.(C.Manufacturer.현대._.(C.ModelGroup.팰리세이드._.(C.Model.더 뉴 팰리세이드._.(C.BadgeGroup.디젤 2WD._.(C.Badge.디젤 2_.2 2WD._.BadgeDetail.르 랑.)%22%2C%22toggle%22%3A%7B%7D%2C%22layer%22%3A%22%22%2C%22sort%22%3A%22ModifiedDate%22%2C%22page%22%3A1%2C%22limit%22%3A20%2C%22searchKey%22%3A%22%22%2C%22loginCheck%22%3Afalse%7D
4) Парсить нужно все полезные данные: марка, модель, поколение, коробка, тип двигателя, привод, пробег, год регистрации, месяц регистрации, цена авто, список опций, фотографии, страна продажи авто, название сайта (например encar), город продажи авто.
Пример URL страницы машины:
https://fem.encar.com/cars/detail/39506122?pageid=dc_carsearch&listAdvType=normal&carid=39506122&view_type=checked&adv_attribute=&wtClick_korList=019&advClickPosition=kor_normal_p3_g9&tempht_arg=1VT3OO5Nj1P2_8
Практически все данные нах-ся в тегах:
5) Парсить VIN, объем двигателя, Car comprehensive condition, Car detail и Accident, exchange · repair, etc., history с фото необходимо с URL, куда подставляется car_id.
https://www.encar.com/md/sl/mdsl_regcar.do?method=inspectionViewNew&carid=39506122
Для перехода на эту страницы также можно нажать на кнопку Perfomance check на странице самой машины.
6) Страховая история с размерами выплат зп детали и работу, использование в такси, стразовые выплаты. Для перехода на эту страницы также можно нажать на кнопку Insurance History на странице самой машины или по URL https://car.encar.com/history?carId=39506122
7) Сложность парсинга заключается в корейском языке. Весь текст нужен на английском. Наверное надо использовать переводчик через API.
8) Бывает, что одни и те же машины публикуются и на encar.com, и на kbchachacha.com. Необходимо не допустить дублирования записей. Как вариант сравнивать дату произ-ва машины + пробег либо VIN номер, если такой будет указан для машины на обоих сайтах.
9) Необходимо отслеживать снятые с продажи машины. Как вариант проходить отдельным скриптом по тем carid, которые уже добавлены в БД и ,если страница отдает ошибку, помечать машину как удаленную. Возможно предложите более правильное решение.