Мы в Telegram
Добавить новость
103news.com
Работа
Сентябрь
2023

Cервис по извлечению текста и цифр из капч на Python 3.11

0

Описание проекта

Создание сервиса на Python 3.11, который будет извлекать текст и цифры из капч. Код должен быть организован в виде классов, следовать принципам SOLID, DRY, PEP-8 и другим стандартам кодирования. Весь код должен быть документирован на английском языке через Docstring. Сервис должен использовать самые современные методы для решения задачи.

Требования

Общие требования

  1. Использовать Python 3.11.
  2. Код должен быть написан в объектно-ориентированном стиле.
  3. Должны быть соблюдены принципы SOLID, DRY и стандарты PEP-8.
  4. Каждый класс и метод должен содержать документацию на английском языке в формате Docstring.

Структура проекта

Базовый класс CapthcaSolver

Базовый класс должен содержать следующие методы:

  • __init__: Конструктор класса.
  • preprocess_image: Предобработка изображения.
  • extract_text: Извлечение текста и цифр.
  • postprocess_text: Постобработка извлечённого текста.
  • train: Дообучение модели на основе новых данных.
  • evaluate: Оценка точности модели.
Примерный интерфейс базового класса
python
class ImageSolver: """Base class for solving image-based text and number extraction problems.""" def __init__(self, model_path: str): """Initialize ImageSolver.""" pass def preprocess_image(self, image_path: str) -> np.array: """Preprocess the image.""" pass def extract_text(self, preprocessed_image: np.array) -> str: """Extract text and numbers from the preprocessed image.""" pass def postprocess_text(self, extracted_text: str) -> str: """Postprocess the extracted text.""" pass def train(self, dataset: str): """Retrain the model with new data.""" pass def evaluate(self, dataset: str) -> float: """Evaluate the model's accuracy.""" pass

Производные классы

  1. EnglishTextSolver: Класс для извлечения английских символов и цифр.
  2. RussianTextSolver: Класс для извлечения русских символов и цифр.
    • FsspSolver: Производный от RussianTextSolver, предназначенный для решения задачи с 50,000 изображений, которые имеются в наличии.

Технологии и библиотеки

  • OpenCV для предобработки изображений
  • TensorFlow/Keras для модели машинного обучения
  • Другие библиотеки по необходимости

Современные подходы к разгадыванию

Самым современным подходом к извлечению текста из изображений является использование глубоких нейронных сетей. Конкретно для вашей задачи можно использовать модели вида CNN-LSTM-CTC (Convolutional Neural Networks, Long Short-Term Memory, Connectionist Temporal Classification).

Разработка и тестирование

  1. Разработка базового класса и его методов.
  2. Разработка производных классов для конкретных случаев.
  3. Тестирование с помощью вашего набора данных из 50,000 изображений.
  4. Дообучение модели в случае ошибок.

Сроки

Проект должен быть завершен за 3 месяца с момента начала разработки.

Бюджет

Расчетный бюджет составляет $X. Заказчик оплачивает стоимость работы по факту выполнения задач.


Это детализированное ТЗ, которое теперь включает все ваши дополнительные требования. Вы можете далее модифицировать или расширять его по вашему усмотрению.





Губернаторы России
Москва

Собянин подвел итоги фестиваля «Москва — на волне. Рыбная неделя»





Москва

История без фальсификации: Шемахи в первой половине XVIII века


Губернаторы России

103news.net – это самые свежие новости из регионов и со всего мира в прямом эфире 24 часа в сутки 7 дней в неделю на всех языках мира без цензуры и предвзятости редактора. Не новости делают нас, а мы – делаем новости. Наши новости опубликованы живыми людьми в формате онлайн. Вы всегда можете добавить свои новости сиюминутно – здесь и прочитать их тут же и – сейчас в России, в Украине и в мире по темам в режиме 24/7 ежесекундно. А теперь ещё - регионы, Крым, Москва и Россия.

Moscow.media
Москва

Собянин объявил о начале работы хаба молодежного предпринимательства



103news.comмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "103 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. 103news.com — облегчённая версия старейшего обозревателя новостей 123ru.net.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

103news.com — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.

Музыкальные новости

Игорь Бутман

В Академическом открылась Школа джазовой импровизации Игоря Бутмана




Спорт в России и мире

Алексей Смирнов – актер, которого, надеюсь, еще не забыли

Спортсменка Росгвардии установила рекорд в командном спринте на «Гран-при Санкт-Петербурга»

Педагоги школы №2065 вошли в ТОП-5 лучших туристских команд Москвы

Юные тулячки завоевали серебро и бронзу турнира по синхронному плаванию


Анна Калинская

«Контракта на экипировку у меня до сих пор нет» // Теннисистка Анна Калинская о лучшем сезоне в своей карьере



Новости Крыма на Sevpoisk.ru


Москва

Бьюти-штаб для выпускниц и выпускников начал работу на Тверской площади в Москве



Частные объявления в Вашем городе, в Вашем регионе и в России