Парсинг информации о судебных делах наших клиентов
Проблема
Есть сайт
Мы хотим автоматически собирать эту информацию, сохранять её в нашей базе данных и уведомлять клиентов и юристов об изменениях, чтобы они не пропустили назначенные слушания.
Что нужно сделать
- Проверить возможность сбора информации по A-номерам (будут предоставлены) через имитацию действий реального пользователя в браузере (используя Puppeteer или другие аналогичные инструменты). Нужно понять возможно ли это в принципе или запросы будут блокироваться капчей и ничего не выйдет. Если на этом этапе подтвердится, что информацию собирать можно, то двигаемся дальше.
- Написать скрипт, который с заданной периодичностью (скорее всего, раз в неделю) собирает информацию по всем A-номерам наших клиентов и сохраняет её через наш API в базу данных. Если получить информацию по какой-то причине не удалось, то нужно будет уведомлять нашу систему об этом через соответствующий API endpoint. Детали реализации обсудим с исполнителем.
- Большой опыт спайдеринга и парсинга различных сайтов, понимание возможных проблем и ограничений, использования прокси, обхода капч и т. п.;
- Опыт имитации действий пользователей в браузере с заполнением и отправкой форм;
При отклике, пожалуйста, опишите свой релевантный заказу опыт.