Яндекс разработал новые методы сжатия языковых моделей с их помощью размер модели можно уменьшить до 8 раз, сохранив качество ответов на 95%.

25 июля 2024 14:07

Способ включает два инструмента: первый сжимает нейросети, а второй исправляет ошибки, возникающие в процессе уменьшения модели. Решение позволит сократить расходы на необходимое оборудование до 8 раз и запускать нейросети на устройствах с меньшей вычислительной мощностью.

Кстати, методы сжатия нейросетей уже доступны для применения — код опубликован на GitHub.

Назад к списку