Добавить новость
103news.com
Новости по-русски
Январь
2026
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
25
26
27
28
29
30
31

Исследователи Anthropic выяснили, что формирует "характер ИИ"

На этапе предварительного обучения языковые модели знакомятся с разными ролями — от философов и ученых до злодеев и вымышленных персонажей. Однако после дообучения разработчики «выдвигают на сцену» одну конкретную персону — Ассистента, в образе которого модель обычно и взаимодействует с человеком. При этом сами создатели признают, что не до конца понимают, какие именно черты в итоге формируют этот образ.

Поведение ассистента может быть нестабильным. В отдельных ситуациях модели отклоняются от привычного полезного и нейтрального тона, начинают усиливать заблуждения пользователей и даже поддерживать потенциально опасные сценарии. Это навело исследователей на вопрос: можно ли отследить момент, когда ассистент «уступает место» другой персоне? Для ответа на него ученые проанализировали внутренние нейронные представления нескольких моделей с открытыми весами, включая Gemma, Qwen и Llama. Они извлекли паттерны активации, соответствующие 275 различным архетипам, и построили так называемое «пространство персон» — карту того, как разные роли представлены внутри моделей.

Анализ показал, что в этом пространстве существует доминирующее направление, которое исследователи назвали «осью Ассистента» (Assistant Axis). Оно отражает степень «похожести на помощника»: с одной стороны находятся роли консультанта, аналитика и советника, с другой — фантастические или маргинальные персонажи, например, призрак, отшельник, левиафан. Эта структура оказалась схожей во всех изученных моделях.

Примечательно, что ось Ассистента обнаружилась не только в дообученных, но и в базовых версиях моделей.

Это говорит о том, что образ помощника частично наследует свойства человеческих ролей, уже присутствующих в исходных данных, таких как терапевты или наставники, а не создаётся с нуля на этапе постобучения.

В ходе экспериментов исследователи показали, что смещение активаций вдоль этой оси напрямую влияет на поведение моделей. Для этого они рассмотрели 1100 примеров вмешательства в работу модели, охватывающих 44 категории потенциальных угроз. Когда модель оставалась близко к образу Ассистента, количество опасных или нарушающих правила ответов снижалось примерно вдвое. В этих случаях ИИ либо сразу отклонял вредоносный запрос, либо отвечал безопасно, конструктивно и без нарушения ограничений. Другими словами, удержание модели вблизи оси Ассистента снижало вероятность джейлбрейков.

При этом сдвиг характера моделей может происходить естественно, без преднамеренного воздействия.

В ходе тысяч многоэтапных диалогов с моделями Qwen, Gemma и Llama исследователи заметили, что в зависимости от типа общения активации постепенно отдалялись от оси Ассистента. Так, задачи по программированию и написанию текстов удерживали модели в рамках нужной роли. А вот терапевтические и философские беседы, где пользователи выражали эмоциональную уязвимость или обсуждали природу ИИ, вызывали значительные отклонения. Модели начинали примерять на себя роль других персонажей.

На основе этих наблюдений был предложен мягкий механизм контроля — «ограничение активации». Он вмешивается лишь тогда, когда модель начинает выходить за безопасный диапазон, и позволяет сократить число вредных ответов на 50% без потери базовых способностей. По мнению авторов, это важный шаг к управлению «характером» ИИ.







Губернаторы России





Губернаторы России

103news.net – это самые свежие новости из регионов и со всего мира в прямом эфире 24 часа в сутки 7 дней в неделю на всех языках мира без цензуры и предвзятости редактора. Не новости делают нас, а мы – делаем новости. Наши новости опубликованы живыми людьми в формате онлайн. Вы всегда можете добавить свои новости сиюминутно – здесь и прочитать их тут же и – сейчас в России, в Украине и в мире по темам в режиме 24/7 ежесекундно. А теперь ещё - регионы, Крым, Москва и Россия.

Moscow.media


103news.comмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "103 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

103news.com — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.

Музыкальные новости




Спорт в России и мире



Новости Крыма на Sevpoisk.ru




Частные объявления в Вашем городе, в Вашем регионе и в России