Создание агрегатора новостей на WP (Дистанционная работа)

Бюджет не указан

Задание: Создание агрегатора новостей на WP (Дистанционная работа)

Здравствуйте! Прошу оценить примерную стоимость разработки сайта- агрегатора новостей на WP. Нужно создать новостной портал, типа агрегатора разнообразных статей, новостей из нашей сферы, чтобы парсер проходился по заданным сайтам, находил там новые материалы и делал публикацию на нашем сайте. Идея проекта и как все примерно должно работать: Идея: Нужен не просто парсер статей, а нормальный отраслевой медиа-агрегатор: свет, звук, механика сцены, одежда сцены, сценические конструкции, кейсы, обзоры, инструкции. И при этом так, чтобы не залететь по авторским правам, не превратить сайт в мусорную копипасту и реально получать заявки. Схема работы: Парсер проверяет наличие новых материалов раз в сутки Затем создает публикацию на нашем сайте в следующем формате: На сайте X вышел материал про расчет грузоподъемности сценических ферм. Мы кратко разобрали, в чем суть, кому это полезно, какие выводы можно применить на площадке, и дали ссылку на оригинал. То есть вы не воруете контент, а добавляете свою ценность: краткое содержание; перевод ключевых мыслей; комментарий специалиста; объяснение простым языком; привязка к российской практике; подбор оборудования; блок заявки: "Нужно подобрать ферму / свет / звук под проект?" Идеальный формат: Заголовок: В зарубежном блоге ETC разобрали ошибки при настройке театрального света. Кратко пересказываем главное Текст: На сайте ETC вышел материал о типичных ошибках при работе с театральным светом. Полный оригинал доступен по ссылке. Мы выделили несколько мыслей, которые особенно полезны для российских площадок... Дальше идет ваш пересказ, ваш опыт, ваши рекомендации. В конце: Источник: ссылка Автор: имя Дата: дата Рекомендуемая формула материала Я бы использовал такую пропорцию: 70% ваш текст, объяснение, комментарии, выводы 20% пересказ чужой статьи своими словами 10% короткие цитаты и ссылки А еще лучше: 80% ваш редакционный материал 20% источник как повод Движок: WordPress Техническая схема агрегатора Общая архитектура 1. Список сайтов-доноров ↓ 2. Проверка RSS / sitemap / robots.txt ↓ 3. Сбор новых ссылок ↓ 4. Извлечение метаданных ↓ 5. Классификация по темам ↓ 6. Генерация краткого пересказа ↓ 7. Перевод заголовка и summary ↓ 8. Проверка лицензии / правового режима ↓ 9. Очередь на редактора ↓ 10. Публикация на сайте Как технически собирать статьи Приоритет 1. RSS Если у сайта есть RSS, используйте RSS. Это самый аккуратный способ. Инструменты: Python feedparser PostgreSQL Celery / cron Приоритет 2. Sitemap Многие сайты имеют: /sitemap.xml /news-sitemap.xml /post-sitemap.xml Оттуда можно брать новые URL. Приоритет 3. Обычный парсинг страниц Если RSS и sitemap нет, можно парсить разделы сайта, но аккуратно: проверять robots.txt; не долбить сайт частыми запросами; не обходить капчи, paywall, авторизацию, антибот-защиту; не нарушать условия сайта; хранить только нужные метаданные и короткий фрагмент. Чтобы не было проблем, прямо в правилах редакции зафиксируйте: Не публикуем полные чужие статьи без разрешения. Не публикуем полный перевод без разрешения. Не копируем чужие изображения, схемы, таблицы и PDF. Не парсим закрытые разделы, paywall, личные кабинеты. Необходим капчи и антибот-защиту. Всегда указываем источник и автора. Всегда добавляем собственный комментарий. Любой материал со статусом unknown идет на ручную проверку.