Задание: Парсинг сайта encar.com в БД MySQL (Дистанционная работа)
Интересует парсер 2 сайтов:
просьба указат стоимость за каждый.
1) encar.com (для понимания необходимо посмотреть описание как к пользоваться сайтом по ссылке https://ya.ru/video/preview/8948191201650942357)
2) kbchachacha.com
ТЗ:
1) Парсинг необходимо делать в БД MySQL, откуда я уже сам буду выводить информацию на необходимые ресурсы (telegram, www и т.д.). Все изображения будет необходимо складывать в папку, название которой будет являться идентификатором машины.
2) Настолько я понимаю придется использовать обход капчи для encar.com точно. Необходимо использовать сервис типа https://rucaptcha.com или аналогичный.
3) Язык программирования парсера PHP. Планируется запускать несколько экземпляров парсера, где в качестве параметров запуска необходимо использовать: URL конкретной модели и марки.
Пример URL - http://www.encar.com/fc/fc_carsearchlist.do?carType=for#!%7B%22action%22%3A%22(And.Hidden.N._.(C.CarType.N._.(C.Manufacturer.BMW._.(C.ModelGroup.X5._.Model.X5%20(G05_).)))_.Year.range(201900..).)%22%2C%22toggle%22%3A%7B%7D%2C%22layer%22%3A%22%22%2C%22sort%22%3A%22ModifiedDate%22%2C%22page%22%3A1%2C%22limit%22%3A20%2C%22searchKey%22%3A%22%22%2C%22loginCheck%22%3Afalse%7D
4) Парсить нужно все полезные данные: марка, модель, поколение, коробка, тип двигателя, привод, пробег, год регистрации, месяц регистрации, цена авто, список опций, фотографии, страна продажи авто, название сайта (например encar), город продажи авто.
Пример URL страницы машины:
http://www.encar.com/dc/dc_cardetailview.do?pageid=fc_carsearch&listAdvType=pic&carid=37071771&view_type=hs_ad&wtClick_forList=033&advClickPosition=imp_pic_p1_g1
Практически все данные нах-ся в тегах:
5) Парсить VIN, объем двигателя, Car comprehensive condition, Car detail и Accident, exchange · repair, etc., history с фото необходимо с URL, куда подставляется car_id, спарсенный ранее.
http://www.encar.com/md/sl/mdsl_regcar.do?method=inspectionViewNew&carid=37058661
Для перехода на эту страницы также можно нажать на кнопку Perfomance check на странице самой машины.
6) Страховая история с размерами выплат зп детали и работу, использование в такси, стразовые выплаты. Для перехода на эту страницы также можно нажать на кнопку Insurance History на странице самой машины или по URL http://www.encar.com/dc/dc_cardetailview.do?method=kidiFirstPop&carid=37168439&wtClick_carview=044
7) Сложность парсинга заключается в корейском языке. Весь текст нужен на английском. Наверное надо использовать переводчик через API.
8) Бывает, что одни и те же машины публикуются и на encar.com, и на kbchachacha.com. Необходимо не допустить дублирования записей. Как вариант сравнивать дату произ-ва машины + пробег либо VIN номер, если такой будет указан для машины на обоих сайтах.
9) Необходимо отслеживать снятые с продажи машины. Как вариант проходить отдельным скриптом по тем carid, которые уже добавлены в БД и ,если страница отдает ошибку, помечать машину как удаленную. Возможно предложите более правильное решение.