Искусственный интеллект (ИИ) часто изображают в фантастике как систему, которая, стремясь к цели, выходит из-под контроля. Но насколько реальны такие сценарии в реальной жизни? Как учёные предотвращают сбои в системах ИИ, чтобы они работали безопасно и предсказуемо? Никита Любайкин, инженер-исследователь научной группы «Адаптивные агенты» Института AIRI рассказал, как специалисты справляются с этими задачами.
Проблема, которую в научных кругах называют «взлом награды», связана с тем, что ИИ может находить неожиданные способы достижения цели, не соответствующие ожиданиям разработчиков. Например, если роботу поручено положить кубик в определённое место на столе, он может передвинуть сам стол, а не кубик. Это не «сумасшествие» в человеческом смысле, а скорее ошибка в формулировке задачи. Чтобы избежать подобных ситуаций, учёные тщательно настраивают систему вознаграждения, которая направляет действия ИИ. Кроме того, существует направление Safe-RL, где разрабатываются алгоритмы, которые не только максимизируют результат, но и соблюдают строгие рамки безопасности. Такие технологии применяются в автономных автомобилях, промышленной автоматизации и рекомендательных системах.
Термин «сойти с ума» в отношении RL алгоритма является некоторым антропоморфизмом, и в данном контексте больше связан с проблемой «reward-hacking», при которой алгоритм добивается высоких абсолютных наград, при этом не выполняя полезных (или ожидаемых) действий.
Никита Любайкин Инженер-исследователь научной группы "Адаптивные агенты" Института AIRI
Ещё одна сложность в работе ИИ — это баланс между исследованием новых возможностей и использованием уже проверенных решений. Представьте, что вы выбираете ресторан: пойти в знакомое место с гарантированно вкусной едой или рискнуть и попробовать новое? ИИ сталкивается с похожей дилеммой: продолжать использовать известную стратегию или экспериментировать с новыми, которые могут быть как лучше, так и хуже. Для решения этой задачи учёные применяют разные подходы. Например, метод ε-жадности позволяет ИИ иногда выбирать случайные действия, чтобы «попробовать что-то новое». Другой подход — алгоритмы, которые одновременно увеличивают награду и делают действия ИИ более разнообразными.
Один из самых эффективных онлайн RL алгоритмов — SAC — построен вокруг этой идеи.
Никита Любайкин Инженер-исследователь научной группы "Адаптивные агенты" Института AIRI
Также существуют методы, которые мотивируют ИИ исследовать неизвестные области, поощряя его за новые действия.
Перенос ИИ из симуляций в реальный мир — ещё одна серьёзная проблема. В играх, таких как шахматы или го, симуляции идеальны, но реальный мир сложен и непредсказуем. Например, робот, обученный в симуляторе двигаться по ровной поверхности, может не справиться с реальной неровной дорогой. Чтобы преодолеть эту проблему, учёные используют метод доменной рандомизации. Вместо фиксированных параметров, таких как сила трения или гравитация, в симуляции задают их случайные вариации. Это помогает ИИ адаптироваться к реальным условиям. Ещё один способ — дообучение на реальных данных. Сначала ИИ обучается в симуляции, а затем корректируется на основе реальных испытаний, что дешевле, чем обучение с нуля в реальном мире.
Проблемы могут возникнуть, когда мы хотим симулировать сложные физические процессы (которые зачастую нельзя имитировать с абсолютной точностью, например, для того чтобы обучать роботов задачам локомоции в симуляторе, что на порядки дешевле чем в реальном мире, и использовать полученных агентов на реальных роботах.
Никита Любайкин Инженер-исследователь научной группы "Адаптивные агенты" Института AIRI
Эти подходы помогают сделать ИИ надёжнее и безопаснее. Учёные продолжают работать над тем, чтобы системы ИИ не только эффективно выполняли задачи, но и оставались под контролем в самых сложных и непредсказуемых условиях.
103news.net – это самые свежие новости из регионов и со всего мира в прямом эфире 24 часа в сутки 7 дней в неделю на всех языках мира без цензуры и предвзятости редактора. Не новости делают нас, а мы – делаем новости. Наши новости опубликованы живыми людьми в формате онлайн. Вы всегда можете добавить свои новости сиюминутно – здесь и прочитать их тут же и – сейчас в России, в Украине и в мире по темам в режиме 24/7 ежесекундно. А теперь ещё - регионы, Крым, Москва и Россия.
103news.com — международная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "103 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию.
Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).
103news.com — живые новости в прямом эфире!
В любую минуту Вы можете добавить свою новость мгновенно — здесь.