Wordpress плагин для парсинга новостей с сайтов СМИ
Сайты и категории новостей
- EADaily – политика
- Politikus – в мире, статьи
- ФАН – политика
- Zelv – в мире
- РуАН – лента новостей
- РИА новости – в мире
- ПолитИнформ – лента новостей
- REGNUM – политика, за рубежом
- ИноТВ – все материалы
- RT – мир
- ИноСМИ – политика
Плагин должен иметь меню настроек в админке с возможностями:
- изменение интервала запуска парсера, по умолчанию — каждый час
- изменение статуса новых записей, по умолчанию — черновик
- спарсить старые новости, например, за последний год
- количество слов в отрывке
- изменение юзера, который размещает новости
- добавление и удаление источников новостей (плюс поставить на паузу)
Требования к записям:
- Полученные новости должны иметь метки с названием СМИ
- В конец записи должна добавляться ссылка на источник
- Ссылки, курсивы, и жирный шрифт в новости должны сохраняться
- Картинки в новости должны сохраняться
- Видео в новости (YouTube, Vimeo) должны вставляться embed-кодом
- Дата поста должна тянуться с сайта
- В качестве картинки записи должна использоваться первая картинка с сайта
- В запись должен добавляться отрывок — первые N слов записи
- Записи не должны дублироваться, нужен контроль дубликатов
- Если в записи есть лишние блоки (рекламные вставки и прочее), то их нужно удалить
Существует множество плагинов, которые позволяют делать все вышеописанное с помощью RSS, но есть пару моментов из-за которых я посчитал, что необходимо писать кастомный плагин:
- не у всех ресурсов есть RSS-канал (нет у ИноСМИ, РИА и т.д.)
- они умеют парсить сайты, но не умеют выбирать необходимые категории новостей
- нет возможности спарсить старые новости
Если для выполнения задачи необходимы плагины — не проблема, если они бесплатные.
Для выполнения задания нужно поднять голый Wordpress на своем хостинге. Передать работы мне нужно в виде плагина, который я смогу установить на своем сайте. Мне необходимо будет объяснить, как работает плагин, и как позже при необходимости добавить еще источники.