Задание: Fullstack. парсер для сайтов (Дистанционная работа)
Разработать универсальный модуль парсинга сайтов с веб-интерфейсом, обеспечивающий:
• Загрузку и разбор sitemap.xml, включая обычные файлы, сжатые файлы (.xml.gz), произвольную глубину вложенности индексов
• Краулинг сайтов — рекурсивный обход ссылок со стартовой страницы (обход в глубину/ширину) для сбора URL, если sitemap отсутствует или неполон
• Пассинг с поддержкой пагинации — автоматическая генерация URL для страниц каталогов (?page=1, ?page=2) и клики по кнопкам навигации
• Поддержку различных типов сайтов: статических (HTML), динамических (React, Vue, Angular — SPA), SSR-приложений, комбинированных сайтов
• Reverse Proxy функциональность — безопасное отображение контента целевых сайтов в UI без нарушения X-Frame-Options и с корректной загрузкой статики
• Просмотр любой страницы в UI с интерактивным выделением блоков (CSS-селекторы)
• Настройку параметров парсинга с поддержкой J-S рендеринга, таймаутов, задержек, ротации отпечатков, ключевых слов/регексов
• Очистку и трансформацию данных на этапе маппинга (удаление лишних символов, приведение типов, валидация)
• Сохранение данных в MongoDB с гибким маппингом полей и стратегиями дубликатов
• Мониторинг задач парсинга, логирование и статистика в реальном времени