В поисках эмбеддинга личности или Как зарождается личность LLM
Пару месяцев назад я публиковал отчет об эксперименте по созданию языковой модели на базе модульной архитектуры с ядром на латентных представлениях. Данная статья является отчетом о новых аспектах этого эксперимента. Поэтому для тех, кто не в теме, совсем коротко: классические авторегрессивные LLM оперируют токенами, условно говоря думают на токенном уровне. В модульной архитектуре отдельно выделяется языковой интерфейс в виде энкодера и декодера, а само «думающее» ядро работает уже не с токенами напрямую, а с их сжатыми латентными представлениями. Кому интересно, вот ссылка на статью с предыдущим экспериментом: https://habr.com/ru/articles/985496/
Но в ходе экспериментов быстро выяснилась одна важная деталь...
Читать далее