Команды научного отдела компании «Яндекс» Yandex Research, а также зарубежных учреждений IST Austria и Kaust разработали и опубликовали в открытом доступе новые методы сжатия больших языковых моделей. Они позволят бизнесу сократить расходы на вычислительные ресурсы до восьми раз.

Новое решение ускоряет нейросеть с помощью уменьшения и сохраняет в среднем 95 % качества ответов языковой модели. Для сравнения, другие популярные инструменты сохраняют от 59 % до 90 %, заявили в Yandex Research.

Эффективность методов сжатия оценивали на нейросетях с открытым исходным кодом: Llama 2, Llama 3, Mistral и других. Качество ответов оригинальной и сжатой версий языковой модели сравнивали на англоязычных бенчмарках — тестах, которые состоят из наборов вопросов в разных областях знаний.

Код новых методов сжатия есть на платформе GitHub. Разработчики также могут скачать обучающие материалы, которые помогут дообучить уменьшенные нейросети под свои сценарии.

Кроме того, исследователи Yandex Research опубликовали уже сжатые с помощью новых методов популярные языковые модели с открытым исходным кодом.

источник: представители Yandex Research