Компания ByteDance, создатель TikTok, представила новую ИИ-модель Bagel с открытым исходным кодом, которая, помимо прочего, умеет редактировать изображения. Сами авторы сравнивают возможности новинки с GPT-4o от OpenAI и Gemini 2.0 от Google.

Bagel может обрабатывать как входные, так и текстовые данные в смешанном формате. Модель обучена на крупномасштабных, чередующихся видео и веб-данных, она может генерировать фотореалистичные изображения, видеокадры или чередовать изображение и текст — прежде всего нейросеть умеет «думать» перед генерацией визуальных выходных данных.

В процессе ИИ учится сохранять визуальные особенности и мелкие детали исходника и поэтому довольно эффективна для редактирования изображений. Также модель переключается между стилями и между «мирами» — научно-фантастическим, художественным и реальным.

С помощью режима «рассуждений» Bagel может искать информацию об изображении и создавать более «точный фотореалистичный результат».

 

Демоверсия новинки доступна здесь