Ars Technica · Разработка · 2 ч назад

Алгоритм AI-сжатия TurboQuant от Google может сократить использование памяти LLM в 6 раз

TurboQuant делает модели искусственного интеллекта более эффективными, но не снижает качество вывода, как другие методы.

Источник Ars Technica
Опубликовано 2 ч назад
Оригинальный заголовок Google's TurboQuant AI-compression algorithm can reduce LLM memory usage by 6x
Важность 3/5
Почему это может быть интересно Может дать практические идеи для backend, инфраструктуры, инструментов и инженерных решений.
← Назад к ленте Открыть оригинал
#development#infra#engineering#разработка

Подробности

Режим турбо Алгоритм искусственного сжатия TurboQuant от Google может сократить использование памяти LLM в 6 раз. TurboQuant делает модели искусственного интеллекта более эффективными, но не снижает качество вывода, как другие методы.

Целью TurboQuant является уменьшение размера кэша «ключ-значение», который Google сравнивает с «цифровой шпаргалкой», в которой хранится важная информация, поэтому ее не нужно пересчитывать. Эта шпаргалка необходима, потому что, как мы все время говорим, студенты магистратуры на самом деле ничего не знают; они могут произвести хорошее впечатление, что знают вещи, используя векторы, которые отображают семантическое значение токенизированного текста. Когда два вектора похожи, это означает, что они имеют концептуальное сходство.

Многомерные векторы, которые могут иметь сотни или тысячи вложений, могут описывать сложную информацию, например пиксели изображения или большой набор данных. Они также занимают много памяти и увеличивают размер кэша ключей, что снижает производительность. Чтобы сделать модели меньше и эффективнее, разработчики используют методы квантования, позволяющие запускать их с более низкой точностью. Недостаток в том, что результаты ухудшаются — качество оценки токенов падает. Первые результаты Google с TurboQuant показывают 8-кратное увеличение производительности и 6-кратное сокращение использования памяти в некоторых тестах без потери качества.

Применение TurboQuant к модели ИИ представляет собой двухэтапный процесс. Чтобы добиться высококачественного сжатия, Google разработал систему под названием PolarQuant. Обычно векторы в моделях ИИ кодируются с использованием стандартных координат XYZ, но PolarQuant преобразует векторы в полярные координаты в декартовой системе. В этой круговой сетке векторы сводятся к двум частям информации: радиусу (сила основных данных) и направлению (значение данных).

Google предлагает интересную аналогию из реальной жизни, чтобы объяснить этот процесс. Векторные координаты подобны направлениям, поэтому традиционная кодировка может быть такой: «Идите 3 квартала на восток, 4 квартала на север». Но если использовать декартовы координаты, это просто: «Пройдите 5 блоков под углом 37 градусов». Это занимает меньше места и избавляет систему от выполнения дорогостоящих шагов по нормализации данных.