разработка Системы автоматического сбора данных (Парсинг) для Федерального агентства недвижимости (Дистанционная работа)

Бюджет не указан

Задание: разработка Системы автоматического сбора данных (Парсинг) для Федерального агентства недвижимости (Дистанционная работа)

1. Проблема и цель Заказчик: Федеральное агентство недвижимости. Проблема: Текущая модель получения данных от застройщиков-партнеров через фиды (70%) и ручной ввод (30%) приводит к потере актуальности («товарная полка» устаревает), содержит критические ошибки (неверные цены/наличие), которые застройщики исправляют медленно. При этом на сайтах застройщиков данные часто корректнее, чем в фидах. Цель разработки: Создание распределенной системы сбора (парсинга) данных с сайтов 1760 ЖК партнеров для последующей интеграции с внутренней системой заказчика и сайтом. 2. Что парсить (только текст) ЖК, корпус, квартира. Атрибуты квартиры: цена, статус (в продаже/продана), комнаты, площадь, этаж, отделка. Пример сайта: https://tyumen.brusnika.ru/flat/ Дизайн разный, но у одного застройщика — единообразный. 3. Частота обновления данных в нашей системе Целевая: каждые 15 минут. Минимальная: 5 раз в сутки. Гибкое расписание для разных застройщиков. 4. Архитектурные требования (критично) Масштабирование на 1760 источников. Очереди (RabbitMQ/Redis), параллельный сбор. Вежливый парсинг (задержки). Обход блокировок: ротация прокси, обработка капчи (сервисы), эмуляция браузера. Dashboard для изменения селекторов без переписывания кода (при смене верстки). Автоалерт при 3 ошибках подряд на сайте. 5. Интеграция с нами REST API (JSON) в нашу систему: POST /api/properties/update Идемпотентность: обновление по внешнему ID, без дублей. 6. Контроль ошибок и "кто увидит сбой" Автоматически: система сама видит падение (метрика: % ошибок >5% → стоп и оповещение). Вручную: агент/клиент на нашем сайте нажимает «Сообщить об ошибке» → система перепарсит квартиру и сравнит. Идея: конечный пользователь может увидеть ошибку первым, но система должна опередить его автоалертом. 7. Нужна защита от рисков поломки (обязательно) . ИИ предложила следующие - нужно реальное мнение эксперта и есть ли еще на ваш взгялд какие-то риски? Дрейф верстки: застройщик обновил сайт → парсер сломался → данные устарели. Способ защиты: система детектирует аномалии (цены упали до нуля, нет ни одной цены на странице). Блокировка IP: решается пулом прокси. Интересует стоимость разработки Стоимость поддержания Примерные сроки, за которые это можно реализовать