Разработать прототип приложения на фреймворке Langchain
Состав входящих данных:
Датасет №1
CSV-таблица, 30 столбцов, 1500 строк
Датасет №2
API интеграция, 15 тысяч файлов (5-15 страниц).
Датасет №3
Файлы формата (XML), 2800 файлов
https://patentsview.org/download/data-download-tab...
https://wipo-analytics.github.io/posts/2022-01-11-...
Датасет №4
API интеграция
Датасет №5
CSV-таблица, 30 столбцов, 2000 строк
Датасет №6
10 PDF файлов (50-200 страниц).
Краткое описание алгоритма взаимодействия с LLM:
1. Каждую строку и файл в датасетах необходимо по заданным промптам прогнать через LLM.
2. Добавить ответы по промптам в исходные таблицы.
3. В каждом датасете провести классификацию по заданным параметрам;
4. В каждой группе произвести запрос в LLM по заданным промптам;
5. Добавить ответы по промптам в исходные таблицы;
6. По заданным промптам формируем общий вывод по каждому датасету, на основе ответов по группам.