Компания OpenAI представила новую модель искусственного интеллекта GPT-4o с продвинутым голосовым режимом. Нейросеть может анализировать звук в режиме реального времени, анализировать происходящее вокруг и считывать эмоции.

Буква О означает сокращение от слова omni и переводится как «всесторонний». Новая версия модели работает с речью, текстом и видео. В среднем GPT-4o реагирует на аудио за 320 миллисекунд — такая скорость сравнима со временем реакции человека в разговоре.

Новая модель свободно владеет 50 языками и соответствует производительности GPT-4 Turbo (предыдущая самая продвинутая модель OpenAI). При этом по сравнению с прежними версиями GPT-4o «особенно хорошо справляется с изображением и пониманием звука», заявили в компании.

Оценить GPT-4o можно здесь.

   

В феврале OpenAI представила модель Sora, которая генерирует реалистичные ролики по текстовому описанию. Первая версия умеет создавать видео продолжительностью до минуты.

источник: OpenAI