Нужна программа для скачивания файлов и сохранения текстового слоя.
В папке имеются архивы с html файлами страниц сайтов, на страницах есть ссылки с текстовыми документами pdf, doc, docx rtf, csv, xls, xlsx, в том числе ссылки на файлы на гугл\яндекс диске.
Нужно скачать файл, выдернуть из него текст и сохранить в архиве в виде txt файла.
Подробно о задаче: На диске есть папки, в них еще папки, в папках zip архивы, в архивах скачанные html страницы, страница содержат ссылки на файлы следующих форматов: pdf, doc, docx, rtf, csv, xls, xlsx. Ссылки могут быть в том числе и на файлы находящиеся на файлообменниках, таких как гугл диск, яндекс диск.
Программа должна открывать зип архив, начинать сканирование с главной страницы сайта, находить на странице ссылки и скачивать файл при условии что он будет размером не более 3мб, открывать файл, сохранять текстовой слой файла в файл .txt которых сохранять в томже архиве что и страница, файл называть так-же как скачанный. Всего скачиваем не более 10 файлов с одного архива. Закрывать архив. И так по всем папкап и всем архивам.
Пример ссылки на файл:
http://serval.ru/jupgrade/images/files/spravka.xls
Пример ссылки на файлообменнике:
https://drive.google.com/file/d/1sw8JhPSZZJjkIxoMK...Код который написал GPT4:
https://docs.google.com/document/d/1lXrTsGs80_rLe2...
Программу буду запускать на виндовс.