Fullstack. парсер для сайтов (Дистанционная работа)

Бюджет: 999 999 руб.

Задание: Fullstack. парсер для сайтов (Дистанционная работа)

Разработать универсальный модуль парсинга сайтов с веб-интерфейсом, обеспечивающий: • Загрузку и разбор sitemap.xml, включая обычные файлы, сжатые файлы (.xml.gz), произвольную глубину вложенности индексов • Краулинг сайтов — рекурсивный обход ссылок со стартовой страницы (обход в глубину/ширину) для сбора URL, если sitemap отсутствует или неполон • Пассинг с поддержкой пагинации — автоматическая генерация URL для страниц каталогов (?page=1, ?page=2) и клики по кнопкам навигации • Поддержку различных типов сайтов: статических (HTML), динамических (React, Vue, Angular — SPA), SSR-приложений, комбинированных сайтов • Reverse Proxy функциональность — безопасное отображение контента целевых сайтов в UI без нарушения X-Frame-Options и с корректной загрузкой статики • Просмотр любой страницы в UI с интерактивным выделением блоков (CSS-селекторы) • Настройку параметров парсинга с поддержкой J-S рендеринга, таймаутов, задержек, ротации отпечатков, ключевых слов/регексов • Очистку и трансформацию данных на этапе маппинга (удаление лишних символов, приведение типов, валидация) • Сохранение данных в MongoDB с гибким маппингом полей и стратегиями дубликатов • Мониторинг задач парсинга, логирование и статистика в реальном времени