Разработка модуля распознания и классификации текста в документах
На вход передается скан документа в формате PDF (Базовая структура известна заранее)
Документ содержит текст на русском и иностранном языке а также формулы и таблицы
Базовый функционал уже реализован, ищем человека для усиления команды
Взаймодействие с модулем происходит посредством API
Задачи
Улучшения качества распознания текста
Улучшение качества классификации текста
Стек:
Python
Tesseract
EasyOCR
Regexp
Срок сдачи: начало декабря