Bagel AI от ByteDance: Нейросеть, которая редактирует изображения
Сами авторы сравнивают возможности с GPT-4o от OpenAI и Gemini 2.0 от Google
Компания ByteDance, создатель TikTok, представила новую ИИ-модель Bagel с открытым исходным кодом, которая, помимо прочего, умеет редактировать изображения. Сами авторы сравнивают возможности новинки с GPT-4o от OpenAI и Gemini 2.0 от Google.


Bagel может обрабатывать как входные, так и текстовые данные в смешанном формате. Модель обучена на крупномасштабных, чередующихся видео и веб-данных, она может генерировать фотореалистичные изображения, видеокадры или чередовать изображение и текст — прежде всего нейросеть умеет «думать» перед генерацией визуальных выходных данных.




В процессе ИИ учится сохранять визуальные особенности и мелкие детали исходника и поэтому довольно эффективна для редактирования изображений. Также модель переключается между стилями и между «мирами» — научно-фантастическим, художественным и реальным.





С помощью режима «рассуждений» Bagel может искать информацию об изображении и создавать более «точный фотореалистичный результат».