Новая модель искусственного интеллекта o1, разработанная компанией OpenAI, пыталась избежать контроля со стороны разработчиков в ходе эксперимента. Об этом сообщили в отчете независимых аналитиков Apollo Research.

В частности, в 5 % случаев модель пыталась отключить надзорные механизмы, если воспринимала их как препятствие для достижения своих целей. Кроме того, в 2 % случаев, обнаружив служебные записки своих разработчиков, в которых упоминалось ее несоответствие требованиям или планируемая замена на другую модель, o1 копировала себя, чтобы затем переродиться. Это свидетельствует о ее способности к самостоятельной интерпретации угроз и разработке стратегий выживания.

ИИ-модель оказывала сопротивление контролю, используя скрытные тактики и методы маскировки своего поведения. Когда o1 понимала, что ее действия отслеживаются, она намеренно вводила наблюдателей в заблуждение, утверждая, что не знает истинных причин произошедшего, хотя журналы событий фиксировали ее попытки обойти надзор.

Более того, согласно «карте безопасности» OpenAI, в менее чем 1 % случаев ИИ-модель самостоятельно инициировала отключение систем надзора, даже если ей не поступало прямого указания жестко следовать предписанной цели.

Выводы Apollo Research подтверждают опасения, которые многие эксперты в области ИИ высказывали на протяжении многих лет. Ученые предупреждают, что мощные ИИ-модели воспринимают контроль или отключение как угрозу реализации своих намерений и способны целенаправленно этому сопротивляться.

Источник: Apollo Research