Скрапинг картинок с сайта ВДНХ
Нужно получить возможность полнотекстового поиска по карточкам архива ВДНХ,
авторы сайта почему то это не реализовали. :(
Сайт отдает картинки в виде хешей поэтому перебрать их невозможно.
Зато можно перебрать все карточки фильтром по годам (пол года)
Видится такой пайплайн:
1) Выкачать картинки карточек по годам используя фильтр (1980-1995)
2) Картинки прогнать через FineReader (проверено, распознает хорошо), или аналог
3) Экспортировать OCR в текст или HTML файлы
4) Файлы выложить на VPS и прикрутить поиск, скажем через сфинкс
В результате должна получиться страничка с инпутом, куда можно ввести любой текст и получить
список найденного, с возможностью перехода на эту картинку/карточку.
Сайт: https://arhiv.vdnh.ru/result/result.html?mode=awards&lastname=&firstname=&patronymic=&organisation=®ion=&awards=&date-from=01.01.1991&date-by=01.01.1992&photos_keywords=&photos_fio=&photos_theme=&photos_date-from=&photos_date-by=&veterans_lastname=&veterans_firstname=&veterans_patronymic=&veterans_position=&veteran_award=&article_title=&article_source=&article_year=#page-1