Задание: разработка Системы автоматического сбора данных (Парсинг) для Федерального агентства недвижимости (Дистанционная работа)
1. Проблема и цель
Заказчик: Федеральное агентство недвижимости.
Проблема: Текущая модель получения данных от застройщиков-партнеров через фиды (70%) и ручной ввод (30%) приводит к потере актуальности («товарная полка» устаревает), содержит критические ошибки (неверные цены/наличие), которые застройщики исправляют медленно. При этом на сайтах застройщиков данные часто корректнее, чем в фидах.
Цель разработки: Создание распределенной системы сбора (парсинга) данных с сайтов 1760 ЖК партнеров для последующей интеграции с внутренней системой заказчика и сайтом.
2. Что парсить (только текст)
ЖК, корпус, квартира.
Атрибуты квартиры: цена, статус (в продаже/продана), комнаты, площадь, этаж, отделка.
Пример сайта: https://tyumen.brusnika.ru/flat/
Дизайн разный, но у одного застройщика — единообразный.
3. Частота обновления данных в нашей системе
Целевая: каждые 15 минут.
Минимальная: 5 раз в сутки.
Гибкое расписание для разных застройщиков.
4. Архитектурные требования (критично)
Масштабирование на 1760 источников.
Очереди (RabbitMQ/Redis), параллельный сбор.
Вежливый парсинг (задержки).
Обход блокировок: ротация прокси, обработка капчи (сервисы), эмуляция браузера.
Dashboard для изменения селекторов без переписывания кода (при смене верстки).
Автоалерт при 3 ошибках подряд на сайте.
5. Интеграция с нами
REST API (JSON) в нашу систему: POST /api/properties/update
Идемпотентность: обновление по внешнему ID, без дублей.
6. Контроль ошибок и "кто увидит сбой"
Автоматически: система сама видит падение (метрика: % ошибок >5% → стоп и оповещение).
Вручную: агент/клиент на нашем сайте нажимает «Сообщить об ошибке» → система перепарсит квартиру и сравнит.
Идея: конечный пользователь может увидеть ошибку первым, но система должна опередить его автоалертом.
7. Нужна защита от рисков поломки (обязательно) . ИИ предложила следующие - нужно реальное мнение эксперта и есть ли еще на ваш взгялд какие-то риски?
Дрейф верстки: застройщик обновил сайт → парсер сломался → данные устарели.
Способ защиты: система детектирует аномалии (цены упали до нуля, нет ни одной цены на странице).
Блокировка IP: решается пулом прокси.
Интересует стоимость разработки
Стоимость поддержания
Примерные сроки, за которые это можно реализовать