Добавить новость
103news.com
Все новости
Февраль
2026
1 2 3 4 5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28

Флагманские ИИ-модели не набирают пока и 40% в «Последнем экзамене человечества»

Популярные тесты вроде MMLU уже давно не представляют сложности для современных моделей — многие системы показывают более 90% точности. При этом способности ИИ на уровне сложных академических знаний измерить непросто. HLE задумывался как решение этой проблемы: набор вопросов проверяет не бытовую эрудицию, а глубину рассуждений и навыки анализа. Статья о проекте была https://www.nature.com/articles/s41586-025-09962-4 в журнале Nature в январе 2026 года. Сам тест был представлен в начале 2025 года американской некоммерческой организацией Center for AI Safety и компанией Scale AI.

HLE разработан с участием 1000 международных экспертов из более чем 500 учреждений в 50 странах. Чтобы стимулировать участников создавать действительно сложные вопросы, организаторы выделили призовой фонд в $500 000: по $5000 получили авторы 50 лучших заданий, а по $500— следующие 500. Через строгий отбор прошло множество предложений, но в финальный публичный набор включили 2 500 вопросов. Кроме того, сохраняется закрытый «резерв» заданий, который используется для проверки переобучения моделей на уже опубликованных вопросах.

Экзамен включает 14% мультимодальных задач (текст + изображение), 24% вопросов со множественным выбором, а остальное — короткие ответы с автоматической проверкой. Математика составляет 41% заданий, остальные вопросы — физика, биология, информатика и гуманитарные дисциплины. Каждый вопрос сопровождается подробным обоснованием решения, чтобы обеспечить проверяемость и высокую сложность.

На старте HLE в январе 2025 года ведущие модели показали крайне низкую точность: GPT-4o — 2,7%, Claude 3.5 Sonnet — 4,1%, o1 — 8%. Сейчас показатели выросли, но ни одна модель не достигла даже половины уровня эксперта-человека, составляющего примерно 90% https://scale.com/leaderboard/humanitys_last_exam Gemini 3 Pro Preview с точностью 37,52%, за ней следуют GPT-5 с 31,64% и Claude Opus 4.5 с 25,2%.

Что касается китайских систем, в мультимодальной таблице они показывают низкие результаты: glm-4p5 и glm-4p5-air от Zhipu AI — 8,32% и 8,12% соответственно, что на десятки процентных пунктов ниже лидеров. В текстовой версии (без изображений) показатели выше: Alibaba Qwen3 набрала 15,43%, DeepSeek — 14,04%, но они всё равно уступают американским моделям.

Создатели HLE подчеркивают, что важно учитывать не только процент правильных ответов, но и то, насколько модель умеет оценивать собственную уверенность. В статье в Nature отмечается, что многие системы дают неверные ответы, оставаясь при этом уверенными в себе. Поэтому была введена метрика «ошибка калибровки» (RMS calibration error), которая показывает, насколько заявленная моделью уверенность совпадает с её реальной точностью. Чем меньше значение, тем лучше. В таблице Scale эта метрика указана рядом с точностью: у Gemini 3 Pro Preview она равна 57, у последней версии GPT-5 — 49, тогда как у большинства моделей она превышает 70%. То есть даже сильные системы могут звучать уверенно, но ошибаться.

Более высокие результаты в бенчмарках не следует отождествлять с прогрессом в достижении общего искусственного интеллекта, предостерегают исследователи. Модели оптимизируют свои ответы под структуру теста, а не развивают суждение, как человек.

В отличие от людей, которые учатся, взаимодействуя с окружающим миром и накапливая опыт, ИИ лишь выявляет закономерности в текстах. Для него язык — это не инструмент мышления, а само мышление. Поэтому высокий балл показывает мастерство решения экзаменационных задач, но никак не понимание или автономные интеллектуальные способности. Учитывая эти ограничения, OpenAI, например, https://openai.com/ru-ru/index/gdpval/ показатель под названием GDPval, который оценивает практическую полезность ИИ.







Губернаторы России





Губернаторы России

103news.net – это самые свежие новости из регионов и со всего мира в прямом эфире 24 часа в сутки 7 дней в неделю на всех языках мира без цензуры и предвзятости редактора. Не новости делают нас, а мы – делаем новости. Наши новости опубликованы живыми людьми в формате онлайн. Вы всегда можете добавить свои новости сиюминутно – здесь и прочитать их тут же и – сейчас в России, в Украине и в мире по темам в режиме 24/7 ежесекундно. А теперь ещё - регионы, Крым, Москва и Россия.

Moscow.media


103news.comмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "103 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

103news.com — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.

Музыкальные новости




Спорт в России и мире



Новости Крыма на Sevpoisk.ru




Частные объявления в Вашем городе, в Вашем регионе и в России