Добавить новость
103news.com
Новости по-русски
Январь
2026
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
27
28
29
30
31

Nvidia выпускает FlashAttention-4, удваивая производительность ИИ

Чтобы понять, о чём речь, достаточно представить, как работает внимание. Когда языковая модель читает текст, она на каждом шаге сверяется с тем, что было раньше: какие слова связаны между собой, что уточняет смысл, какие фразы важнее. Эта «сверка» и есть механизм внимания. Он точный, но дорогой: чем длиннее входной текст, тем больше пар сравнений нужно сделать. На практике проблема даже не столько в самих вычислениях, сколько в том, что приходится постоянно переносить огромные объёмы промежуточных данных между разными уровнями памяти внутри ускорителя. Иными словами, вычислитель часто простаивает, ожидая, пока нужные данные окажутся «под рукой».

FlashAttention решает задачу аккуратнее: результат остаётся тем же, но порядок действий организован так, чтобы меньше гонять данные туда-сюда. NVIDIA описывает FlashAttention-4 как шаг в сторону более тесной «подгонки» программных приёмов под архитектуру Blackwell. В компании прямо признают: новые ускорители умеют считать всё быстрее, но часть операций и подсистем памяти не ускоряется с такой же скоростью — и именно там начинают теряться проценты эффективности. Поэтому в FA4 перепроектировали то, как хранятся и используются промежуточные результаты, и перераспределили работу внутри самого ускорителя так, чтобы реже обращаться к более медленным участкам памяти и чаще держать данные в быстрых внутренних буферах.

В опубликованных тестах NVIDIA приводит конкретные сравнения. На длине контекста 32 768 токенов (это очень длинный текст по меркам массовых применений) компания заявляет ускорение до 3,6 раза для основного прохода вычислений и до 3,15 раза для обратного прохода, который нужен при обучении модели.

Это сравнение дано относительно FlashAttention-2, то есть не с «наивной» реализацией, а с уже оптимизированной и широко применяемой. Для сравнения с другими библиотеками NVIDIA также приводит умеренные, но показательные цифры: преимущество до 1,3 раза по отношению к одному из вариантов реализации в cuDNN и до 2,4 раза — по отношению к ряду реализаций в Triton, особенно в сценариях с длинным контекстом.

Отдельный акцент в сообщении NVIDIA — на том, что технологии не должны оставаться лабораторным экспериментом. Компания пишет, что часть улучшений уже учитывается в её библиотеке cuDNN (в публикации упоминается версия 9.14), а режимы ускорения для «первичного чтения» длинного текста должны быть совместимы с популярными системами, через которые запускают инференс крупных моделей. В то же время практика внедрения обычно идёт ступенчато: даже когда базовые оптимизации появляются в экосистеме, полноценная поддержка во всех сборках и стабильных версиях инструментов может отставать — особенно на старте нового поколения ускорителей.

По сути, FlashAttention-4 — это иллюстрация того, как меняется конкуренция в индустрии ИИ-инфраструктуры. Производительность сегодня измеряется не только сухими характеристиками «сколько операций в секунду», но и тем, насколько эффективно ускоритель справляется с реальными узкими местами языковых моделей. А одно из таких узких мест — способность быстро и экономично работать с длинным контекстом. Если обещания NVIDIA подтвердятся в массовых задачах, Blackwell получит преимущество там, где пользователи хотят от моделей не коротких ответов «по абзацу», а уверенной работы с документами, перепиской, отчетами и кодом на десятках тысяч токенов — то есть с тем, что всё чаще становится нормой в корпоративных сценариях.







Губернаторы России





Губернаторы России

103news.net – это самые свежие новости из регионов и со всего мира в прямом эфире 24 часа в сутки 7 дней в неделю на всех языках мира без цензуры и предвзятости редактора. Не новости делают нас, а мы – делаем новости. Наши новости опубликованы живыми людьми в формате онлайн. Вы всегда можете добавить свои новости сиюминутно – здесь и прочитать их тут же и – сейчас в России, в Украине и в мире по темам в режиме 24/7 ежесекундно. А теперь ещё - регионы, Крым, Москва и Россия.

Moscow.media


103news.comмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "103 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

103news.com — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.

Музыкальные новости




Спорт в России и мире



Новости Крыма на Sevpoisk.ru




Частные объявления в Вашем городе, в Вашем регионе и в России