OpenAI показала новую версию нейросети GPT-4o
Компания OpenAI представила новую модель искусственного интеллекта GPT-4o с продвинутым голосовым режимом. Нейросеть может анализировать звук в режиме реального времени, анализировать происходящее вокруг и считывать эмоции.
Буква О означает сокращение от слова omni и переводится как «всесторонний». Новая версия модели работает с речью, текстом и видео. В среднем GPT-4o реагирует на аудио за 320 миллисекунд — такая скорость сравнима со временем реакции человека в разговоре.
Новая модель свободно владеет 50 языками и соответствует производительности GPT-4 Turbo (предыдущая самая продвинутая модель OpenAI). При этом по сравнению с прежними версиями GPT-4o «особенно хорошо справляется с изображением и пониманием звука», заявили в компании.
Оценить GPT-4o можно здесь.
В феврале OpenAI представила модель Sora, которая генерирует реалистичные ролики по текстовому описанию. Первая версия умеет создавать видео продолжительностью до минуты.
источник: OpenAI