Исследователь из научного отдела «Яндекса» Владимир Малиновский разработал сервис для запуска большой языковой модели (LLM) с восемью миллиардами параметров на обычном компьютере или смартфоне — через интерфейс любого браузера. Такой подход может значительно сократить расходы корпораций, стартапов и исследователей на вычислительные мощности, что сделает разработку и использование LLM дешевле.

Протестировать проект можно по ссылке. Исходный код исследователь опубликовал в свободном доступе на GitHub.

Перенести все вычисления на устройство и отказаться от использования дорогостоящих мощных графических процессоров удалось с помощью технологии сжатия нейросетей AQLM, которую разработала команда Yandex Research совместно с исследователями из университетов ISTA и KAUST летом 2024 года. Программа написана на языке программирования Rust с помощью технологии WebAssembly, позволяющей запускать проект на любом языке внутри браузера.

Когда пользователь открывает платформу, на его устройство из облака можно загрузить модель Llama3.1-8B. Ее размер уменьшен в шесть раз — она весит всего два с половиной гигабайта. После загрузки она может работать даже без интернета.

Скорость ответов нейросети зависит от производительности устройства: например, на MacBook Pro M1 она составляет полтора токена в секунду или три-четыре символа. Подробнее о методах сжатия, применённых в проекте, можно прочесть в статье на Habr.

Источник: пресс-служба «Яндекса»