Разработать(найти и запустить алгоритм форматирования текста)
Задание
Предыстория
В рамках одного пилота мы собираем кейсы на английском языке и добавляем их в Airtable.Примеры кейсов
Когда мы добавляем описание в поле Description,
- Для веб страниц мы используем airtable web clipper, который по непонятной причине урезает форматирование (хотя в описании сказано, что он сохранит форматирование) и текст становится сплошняком - пример:
- Для pdf файлов мы просто копируем и вставляем и текст начинает переноситься вот так . Мы пробовали готовый экстрактор данных для PDF, который интегрируется с Airtable, но он использует вот этот инструмент для извлечения, который дает вот такой печальный результат
Проблемы
- Текст обрезается и переносится на новую строку
- Для того, чтобы отформатировать текст - потребуется очень много человеческих усилий, в том числе, потому что в самом airtable это неудобно делать
- Если текст не форматировать, то он нечитаемый и клиентам/пользователям будет сложно быстро вычленить смысл
- Мы планировали использовать перефразатор, чтобы удалить права на контент и не запрашивать все время право на использование кейса, но, если текст в таком виде, то перефразатор не сработает (предложение разбивается по середине и перестает восприниматься перефразатором, как единое целое)