Настроить парсер новостей
Обязательно ознакомьтесь с каждым пунктом, пожалуйста!
Требуется:
1. Взять источник новостей, к примеру https://www.rbc.ru
2. Взять какую-то из категорий, к примеру НЕДВИЖИМОСТЬ https://realty.rbc.ru/?utm_source=topline
3. Настроить непрерывный парсинг новостей из этой категории (с самого HTML, либо из XML источников, если таковые имеются у выбранного ресурса)
4. Собирать предполагается:
- Заголовок
- Адрес на картинку
- Текст анонса
- САМ текст статьи
- Дату
5. Все это хранить в базе, предположительно pgSQL (желательно поднять какой-нибудь тестовый сервер локально, лучше на nGINX, нежели Apache)
6. Далее настроить АПИ вывода спаршенных новостей для использования разработчиком, будь то JS, или cURL или прочее с возможностью пагинации вызванных новостей
7. Обновление парсинга новостей настроить исходя из периодичности обновления выбранного ресурса (раз в час, раз в день, или другое ..)
8. * Для парсинга предпочтительно использовать именно PHP
9. ** Какие-либо предложения тоже обсуждаются!
Пишите, пожалуста, кто с подобным опытом.
Сумма проекта стоит пока еще просто так предварительно.. Подробности все обсудим, как и бюджеты со сроками!