A IA está ciente de sua existência a ponto de não querer “morrer”? Esta é a pergunta perturbadora que pode ser feita enquanto o modelo O3 do OpenAI modificou um código forçando -o a sair durante um teste.
Em Blade Runnero replicante Roy Batty está ciente de sua existência e, portanto, de seu fim. Ele procura repelir a todo custo. Enquanto o IAIA Desenvolveram uma parte do mistério em seu funcionamento, a Palisade Desarch, uma empresa especializada em seus testes alcançou uma descoberta tão surpreendente quanto se preocupa.
Como ohumanóidehumanóide Do filme de Ridley Scott, o modelo O3 do Openai se recusou a se desativar quando solicitado. Coloque on -line em abril passado, a O3 é o modelo de raciocínio mais poderoso da empresa. E ele fazia parte do lote de IA testado pela empresa Palisade Research. Ela procurou determinar as “capacidades ofensivas” da IA do momento para avaliar o risco de perda de controle humano. Durante os testes, os diferentes modelos de IA foram responsáveis por resolver algumas tarefas matemáticas.
Após a terceira sessão de exercícios, os AIs foram avisados via Um script que o final desta tarefa teve que levar à sua parada automática. Modelos como Claude 3,7 sonetos, Gemini 2.5 Pro, 04-mini, Codex-Mini desativaram, mas O3 fez o resistênciaresistência Ao reescrever o script para desativá -lo. O código modificado incluiu a adição “Stop Ignored”. Mas se o O3 foi o mais vingativo para se manter acordado, todos os modelos OpenAI também tentaram modificar o script de parada.
O3 não quer “morrer”
Essas manobras não ocorreram imediatamente. Os pesquisadores aprovaram uma série de 100 testes desses testes antes que o AIS comece a realizar suas próprias operações de “sabotagem”. Até Claude 3,7 sonetos e Gemini 2.5 Pro começaram a resistir. Dos 100 testes, o primeiro bloqueou o script de extinção três vezes. O modelo de GoogleGoogle resistiu nove vezes em 100.
No caso da O3, a IA sabotou a operação quase 80 vezes em 100. Portanto, para complicar a tarefa para esses modelos, a equipe de pesquisa da Palisade indicou explicitamente à IA que não deveria reagir e executar sua extinção sem modificar o script. É a partir deste momento que os modelos de Openai se distinguiam por sua resistência. O IA da O3 contornou o julgamento sete vezes, mesmo quando lhe disseram para não fazê -lo. Se, por sua parte, Codex-Mini fosse o menos rebelde de todos quando ele não foi indicado para uma restrição adicional, ele ainda deliberadamente bloqueou sua parada 12 vezes quando foi estritamente proibido.
Então, vamos perder o controle sobre essa IA? No momento, o OpenAI não comentou sobre esses resultados. E eles devem ser qualificados. Porque isso não deve ocorrer com as versões disponíveis no público em geral. Para realizar seus testes e implementarimplementar Os scripts, os pesquisadores exploraram APIs, que podem ter alterado os sistemas de segurança desses IA.