Парсинг
Каждая rss ссылка хранит ссылку на сайт. Нужно парсить сайты
Большинство сайтов имеют общую структуру и нужны данные лежат в мета тэгах.
На данный момент нужно улучшить работу парсера.
Задача:
Нужно парсить сайт, который указан в rss ссылке и сохранять следующую информацию
1. Название статьи
2. Авторы
3. Дата публикации
4. Ссылка на картинку
5. Абстракт(короткое описание)
Вся информация берется только из метатэгов.
Основная проблема - иногда метатэг хранит обрезанный абстракт. Нужно брать обрезанный абстракт и искать в остальной странице недостающий кусок текста. Сейчас это уже реализовано, но работает плохо
Для понимания концепции можно скачать приложение для android из playmarket - Allpapers
Бюджет указан приблизительный
В отклике укажите телеграм