Добавить новость
103news.com
Все новости
Март
2026
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
20
21
22
23
24
25
26
27
28
29
30
31

Технология NVIDIA может уменьшить объем памяти ИИ-моделей в 20 раз

Метод KV Cache Transform Coding (KVTC) уменьшает объем так называемого кэша «ключ-значение» (KV-кэш) — механизма, который хранит информацию о предыдущих сообщениях в диалоге. По сути, это скрытые числовые представления для каждого предыдущего токена в диалоге. Именно этот кэш позволяет моделям не «перечитывать» всю историю общения с нуля. Проблема заключается в том, что он быстро разрастается до гигабайтов, создавая нагрузку на GPU и увеличивая задержки.

В корпоративных сценариях, где используются ИИ-агенты и длинные цепочки рассуждений, это становится серьезным узким местом. Ограничения по памяти видеокарт зачастую сильнее влияют на масштабирование, чем сами вычислительные ресурсы, что напрямую сказывается на стоимости инфраструктуры и скорости отклика систем. Большинство существующих методов сжатия KV-кэша либо слабые, либо требуют ресурсоемких вычислений в реальном времени.

Новая технология решает проблему за счет подходов сжатия из мультимедийных форматов, таких как JPEG.

Вместо изменения самой модели KVTC работает на уровне обработки данных, поэтому метод совместим с существующими системами без необходимости их переработки. В основе подхода лежит концепция трансформационного кодирования: кэш уменьшается с помощью быстрого многоэтапного процесса, выполняемого между фазами вывода, чтобы не замедлять генерацию токенов.

Ключевым элементом технологии стал анализ главных компонентов (PCA), который позволяет выделить наиболее важные данные в кэше и сократить избыточную информацию. Далее применяется алгоритм, распределяющий точность хранения: значимые компоненты сохраняются с высокой точностью, а менее важные сжимаются или отбрасываются.

Тестирование показало, что при сжатии до 20 раз KVTC сохраняет точность моделей с падением менее чем на 1 процентный пункт на широком наборе бенчмарков — от математических задач (MATH-500) и программирования (LiveCodeBench) до сценариев с длинным контекстом.

Метод проверяли на моделях от 1,5 до 70 млрд параметров, включая Mistral NeMo и Qwen 2.5. Так, потребление памяти Qwen 2.5 1.5B удалось снизить с 29 КБ до 3,2 КБ на токен при 8-кратном сжатии, а падение точности составило всего 0,3 процентного пункта. Даже при экстремальном сжатии в 32–64 раза KVTC демонстрировала устойчивые результаты, тогда как альтернативные подходы заметно теряли точность уже при пятикратном сжатии.

Дополнительным преимуществом стало резкое снижение задержек: время до генерации первого токена может сокращаться до восьми раз. Например, при запросе на 8000 токенов стандартной 12-битной модели на Nvidia H100 пересчет истории с нуля занимает около трех секунд.

Разработчики отмечают, что технология лучше всего подходит для задач с длинным контекстом — программирования, аналитики или агентных систем. В перспективе KVTC может стать стандартным слоем оптимизации в инфраструктуре ИИ, подобно тому как сжатие видео стало неотъемлемой частью современных потоковых сервисов.







Губернаторы России





Губернаторы России

103news.net – это самые свежие новости из регионов и со всего мира в прямом эфире 24 часа в сутки 7 дней в неделю на всех языках мира без цензуры и предвзятости редактора. Не новости делают нас, а мы – делаем новости. Наши новости опубликованы живыми людьми в формате онлайн. Вы всегда можете добавить свои новости сиюминутно – здесь и прочитать их тут же и – сейчас в России, в Украине и в мире по темам в режиме 24/7 ежесекундно. А теперь ещё - регионы, Крым, Москва и Россия.

Moscow.media


103news.comмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "103 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

103news.com — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.

Музыкальные новости




Спорт в России и мире



Новости Крыма на Sevpoisk.ru




Частные объявления в Вашем городе, в Вашем регионе и в России