Cервис по извлечению текста и цифр из капч на Python 3.11

08.09.2023 11:40

Описание проекта

Создание сервиса на Python 3.11, который будет извлекать текст и цифры из капч. Код должен быть организован в виде классов, следовать принципам SOLID, DRY, PEP-8 и другим стандартам кодирования. Весь код должен быть документирован на английском языке через Docstring. Сервис должен использовать самые современные методы для решения задачи.

Требования

Общие требования

Использовать Python 3.11.
Код должен быть написан в объектно-ориентированном стиле.
Должны быть соблюдены принципы SOLID, DRY и стандарты PEP-8.
Каждый класс и метод должен содержать документацию на английском языке в формате Docstring.

Структура проекта

Базовый класс `CapthcaSolver`

Базовый класс должен содержать следующие методы:

__init__: Конструктор класса.
preprocess_image: Предобработка изображения.
extract_text: Извлечение текста и цифр.
postprocess_text: Постобработка извлечённого текста.
train: Дообучение модели на основе новых данных.
evaluate: Оценка точности модели.

Примерный интерфейс базового класса

python
class ImageSolver:
    """Base class for solving image-based text and number extraction problems."""

    def __init__(self, model_path: str):
        """Initialize ImageSolver."""
        pass
    
    def preprocess_image(self, image_path: str) -> np.array:
        """Preprocess the image."""
        pass
    
    def extract_text(self, preprocessed_image: np.array) -> str:
        """Extract text and numbers from the preprocessed image."""
        pass
    
    def postprocess_text(self, extracted_text: str) -> str:
        """Postprocess the extracted text."""
        pass
    
    def train(self, dataset: str):
        """Retrain the model with new data."""
        pass
    
    def evaluate(self, dataset: str) -> float:
        """Evaluate the model's accuracy."""
        pass

Производные классы

EnglishTextSolver: Класс для извлечения английских символов и цифр.
RussianTextSolver: Класс для извлечения русских символов и цифр.
- FsspSolver: Производный от RussianTextSolver, предназначенный для решения задачи с 50,000 изображений, которые имеются в наличии.

Технологии и библиотеки

OpenCV для предобработки изображений
TensorFlow/Keras для модели машинного обучения
Другие библиотеки по необходимости

Современные подходы к разгадыванию

Самым современным подходом к извлечению текста из изображений является использование глубоких нейронных сетей. Конкретно для вашей задачи можно использовать модели вида CNN-LSTM-CTC (Convolutional Neural Networks, Long Short-Term Memory, Connectionist Temporal Classification).

Разработка и тестирование

Разработка базового класса и его методов.
Разработка производных классов для конкретных случаев.
Тестирование с помощью вашего набора данных из 50,000 изображений.
Дообучение модели в случае ошибок.

Сроки

Проект должен быть завершен за 3 месяца с момента начала разработки.

Бюджет

Расчетный бюджет составляет $X. Заказчик оплачивает стоимость работы по факту выполнения задач.

Это детализированное ТЗ, которое теперь включает все ваши дополнительные требования. Вы можете далее модифицировать или расширять его по вашему усмотрению.

29ru.net

Лавров рассказал о договоренности РФ и Чада улучшать торговые связи Особенности процедуры банкротства физических лиц «Мама, закрой окно!»: полицейские и общественники провели профилактические мероприятия в преддверии Дня защиты детей Локомотивами роста сегодня стали бумаги "второго эшелона"

Светские новости от Life24.pro

Губернаторы России

Москва

Собянин подвел итоги фестиваля «Москва — на волне. Рыбная неделя»

Добавить объявление

Москва

Банкротство физических лиц в Москве

Москва

Продукты для хореки и пищевых производств

Москва

Эксклюзивные украшения из серебра, в наличии и под заказ

Москва

Заказать металл с доставкой - Металлобаза в Москве МЦ Рус

Cервис по извлечению текста и цифр из капч на Python 3.11

Описание проекта

Требования

Общие требования

Структура проекта

Базовый класс `CapthcaSolver`

Примерный интерфейс базового класса

Производные классы

Технологии и библиотеки

Современные подходы к разгадыванию

Разработка и тестирование

Сроки

Бюджет

Праздники 6 июня, которые отмечаются в России

«Столько голов за сезон я еще не забивал»

Диетолог Соломатина рассказала, кому стоит воздержаться от употребления яиц

Корова спасла семью из Омска

Собянин подвел итоги фестиваля «Москва — на волне. Рыбная неделя»

История без фальсификации: Шемахи в первой половине XVIII века

Собянин объявил о начале работы хаба молодежного предпринимательства

В Академическом открылась Школа джазовой импровизации Игоря Бутмана

Алексей Смирнов – актер, которого, надеюсь, еще не забыли

Спортсменка Росгвардии установила рекорд в командном спринте на «Гран-при Санкт-Петербурга»

Педагоги школы №2065 вошли в ТОП-5 лучших туристских команд Москвы

Юные тулячки завоевали серебро и бронзу турнира по синхронному плаванию

«Контракта на экипировку у меня до сих пор нет» // Теннисистка Анна Калинская о лучшем сезоне в своей карьере

Новости Крыма на Sevpoisk.ru

Бьюти-штаб для выпускниц и выпускников начал работу на Тверской площади в Москве

Частные объявления в Вашем городе, в Вашем регионе и в России

Описание проекта

Требования

Общие требования

Структура проекта

Базовый класс CapthcaSolver

Примерный интерфейс базового класса

Производные классы

Технологии и библиотеки

Современные подходы к разгадыванию

Разработка и тестирование

Сроки

Бюджет

Собянин подвел итоги фестиваля «Москва — на волне. Рыбная неделя»

История без фальсификации: Шемахи в первой половине XVIII века

Собянин объявил о начале работы хаба молодежного предпринимательства

В Академическом открылась Школа джазовой импровизации Игоря Бутмана

Алексей Смирнов – актер, которого, надеюсь, еще не забыли

Спортсменка Росгвардии установила рекорд в командном спринте на «Гран-при Санкт-Петербурга»

Педагоги школы №2065 вошли в ТОП-5 лучших туристских команд Москвы

Юные тулячки завоевали серебро и бронзу турнира по синхронному плаванию

«Контракта на экипировку у меня до сих пор нет» // Теннисистка Анна Калинская о лучшем сезоне в своей карьере

Новости Крыма на Sevpoisk.ru

Бьюти-штаб для выпускниц и выпускников начал работу на Тверской площади в Москве

Частные объявления в Вашем городе, в Вашем регионе и в России

Базовый класс `CapthcaSolver`