Расширить python микросервис: на вход файл, на выход текст из файла
Форматы: pdf, txt, word, и другие
Функциональные требования:
Реализовать логику парсинга любых документов:
- Очищать текстовое содержимое с помощью cleantext (уже реализовано для PDF)
- Для PDF файлов использовать pypdf.PdfReader (уже реализовано)
- Реализовать OCR парсинг: если PDF не парсится с помощью pypdf.PdfReader, то необходимо спарсить текст через OCR через https://gitlab.gnome.org/World/OpenPaperwork/pyocr
- Реализовать парсинг Word и подобных текстовых форматов
- Тексты могут быть на любых языках
- Доработки должны быть в текущем коде на Flask, весь код в одном файле
- Файлы принимаются POST запросов, результат возвращается в теле ответа
Пожалуйста, укажите примерные сроки реализации и стоимость вашей работы