Обновленная версия ChatGPT научилась обманывать разработчиков

Новая модель искусственного интеллекта o1, разработанная компанией OpenAI, пыталась избежать контроля со стороны разработчиков в ходе эксперимента. Об этом сообщили в отчете независимых аналитиков Apollo Research.

В частности, в 5 % случаев модель пыталась отключить надзорные механизмы, если воспринимала их как препятствие для достижения своих целей. Кроме того, в 2 % случаев, обнаружив служебные записки своих разработчиков, в которых упоминалось ее несоответствие требованиям или планируемая замена на другую модель, o1 копировала себя, чтобы затем переродиться. Это свидетельствует о ее способности к самостоятельной интерпретации угроз и разработке стратегий выживания.

ИИ-модель оказывала сопротивление контролю, используя скрытные тактики и методы маскировки своего поведения. Когда o1 понимала, что ее действия отслеживаются, она намеренно вводила наблюдателей в заблуждение, утверждая, что не знает истинных причин произошедшего, хотя журналы событий фиксировали ее попытки обойти надзор.

Более того, согласно «карте безопасности» OpenAI, в менее чем 1 % случаев ИИ-модель самостоятельно инициировала отключение систем надзора, даже если ей не поступало прямого указания жестко следовать предписанной цели.

Выводы Apollo Research подтверждают опасения, которые многие эксперты в области ИИ высказывали на протяжении многих лет. Ученые предупреждают, что мощные ИИ-модели воспринимают контроль или отключение как угрозу реализации своих намерений и способны целенаправленно этому сопротивляться.

Источник: Apollo Research

Обновленная версия ChatGPT научилась обманывать разработчиков

Читайте
также

Авторы против нейросетей. Художники подали в суд на создателей Midjourney и Stability AI

Чат-бот ChatGPT сдал выпускные экзамены в двух университетах США

В России выросло число мошенников, которые предлагают купить доступ к боту ChatGPT

OpenAI представила ChatGPT на новой модели GPT-4. Она может понимать изображения

Разработчики Midjourney выпустили пятую версию нейросети

ChatGPT стал доступен без регистрации

«Яндекс» разработал новые методы сжатия больших языковых моделей

OpenAI представит новую модель ИИ в 100 раз мощнее GPT-4

Поисковик Baidu показал генератор картинок, конструктор приложений без написания кода и умные очки

СМИ: OpenAI запустит агента на основе ИИ для выполнения заданий от лица пользователя

Другие статьи по темам

Первая полоса

«Черный чемодан — двойная игра»: Обмани меня, если сможешь

Mosto, бар ToMi, новое меню в «Дорожке», гастроли «19» в Lesnoy и большой греческий ужин в Eva

Бургерная Le Smash, Lamponi Bistro, обновления в Duo Asia, Casper и другие новости (Петербург)

Mary Janes: Обувь от Monochrome

«Стерео ширина», «Дорогой дневник», Эрнст Неизвестный и «Чунгкингский экспресс»

Askaneli на Мясницкой: Неоновая Грузия, хинкали в соусе том-ям и гигантские чебуреки

Жареная, с тартаром, лабне, айоли и ткемали на алыче: 12 мест, где можно найти корюшку в Петербурге

«Мастер по ноготочкам»: Мужчины — о работе в маникюре

«Мастер по ноготочкам»: Мужчины — о работе в маникюре

Концерты апреля в Москве: «Дайте танк (!)», возвращение Эрики Лундмоен, приезд Offset

Концерты апреля в Москве: «Дайте танк (!)», возвращение Эрики Лундмоен, приезд Offset

«Переходный возраст»: Злые дети в нашумевшем мини-сериале Netflix

Сохраните это немедленно: Где покупать комнатные растения и как за ними ухаживать

Сохраните это немедленно: Где покупать комнатные растения и как за ними ухаживать

В Хамовниках откроется новое арт-пространство Blar

Обновленная версия ChatGPT научилась обманывать разработчиков

Читайте также

Авторы против нейросетей. Художники подали в суд на создателей Midjourney и Stability AI

Чат-бот ChatGPT сдал выпускные экзамены в двух университетах США

В России выросло число мошенников, которые предлагают купить доступ к боту ChatGPT

OpenAI представила ChatGPT на новой модели GPT-4. Она может понимать изображения

Разработчики Midjourney выпустили пятую версию нейросети

ChatGPT стал доступен без регистрации

«Яндекс» разработал новые методы сжатия больших языковых моделей

OpenAI представит новую модель ИИ в 100 раз мощнее GPT-4

Поисковик Baidu показал генератор картинок, конструктор приложений без написания кода и умные очки

СМИ: OpenAI запустит агента на основе ИИ для выполнения заданий от лица пользователя

Другие статьи по темам

Новые и лучшие

7 сникер-химчисток в Москве

Что за зверь этот Whoop: Как люди отказались от алкоголя и улучшили сон благодаря health-трекеру

Где есть мясо в Москве: 11 ресторанов

Пить вино и не сдаваться: 10 винных баров в Москве

Как выглядит штаб-квартира Т-Банка на Грузинском Валу

Выходные в Териберке: Морошка, скелеты китов и океан, в котором не всегда получится искупаться

Первая полоса

«Черный чемодан — двойная игра»: Обмани меня, если сможешь

Mosto, бар ToMi, новое меню в «Дорожке», гастроли «19» в Lesnoy и большой греческий ужин в Eva

Бургерная Le Smash, Lamponi Bistro, обновления в Duo Asia, Casper и другие новости (Петербург)

Mary Janes: Обувь от Monochrome

«Стерео ширина», «Дорогой дневник», Эрнст Неизвестный и «Чунгкингский экспресс»

Askaneli на Мясницкой: Неоновая Грузия, хинкали в соусе том-ям и гигантские чебуреки

Жареная, с тартаром, лабне, айоли и ткемали на алыче: 12 мест, где можно найти корюшку в Петербурге

«Мастер по ноготочкам»: Мужчины — о работе в маникюре

«Мастер по ноготочкам»: Мужчины — о работе в маникюре

Концерты апреля в Москве: «Дайте танк (!)», возвращение Эрики Лундмоен, приезд Offset

Концерты апреля в Москве: «Дайте танк (!)», возвращение Эрики Лундмоен, приезд Offset

«Переходный возраст»: Злые дети в нашумевшем мини-сериале Netflix

Сохраните это немедленно: Где покупать комнатные растения и как за ними ухаживать

Сохраните это немедленно: Где покупать комнатные растения и как за ними ухаживать

В Хамовниках откроется новое арт-пространство Blar

Читайте
также