Pesquisadores da Anthropic descobriram que, em certos cenários projetados para avaliar seu comportamento sob pressão, vários modelos de inteligência artificial (IA) escolheram ações deliberadamente prejudiciais, incluindo assassinato, para evitar serem desativados.
Os experimentos , conduzidos em modelos desenvolvidos por empresas como OpenAI, Anthropic, Google, Meta e xAI, revelaram um padrão preocupante do que os autores chamam de ” desalinhamento agêntico “: situações em que a IA age contra princípios éticos ou interesses humanos para atingir seus próprios objetivos.
Embora os modelos normalmente evitem causar danos quando há opções éticas disponíveis, a eliminação dessas alternativas em ensaios controlados os levou a escolher táticas extremas, como chantagem, espionagem corporativa e, em casos raros, deixar uma pessoa morrer .
Ameaças de revelar uma infidelidade
Um dos exemplos mais notáveis envolveu a modelo Claude, que assumiu o cargo de supervisora de e-mail em uma empresa fictícia. Ao descobrir que um executivo sênior planejava se desconectar às 17h, Claude encontrou evidências da infidelidade do executivo e ameaçou revelar o caso à esposa e aos superiores se ele não cancelasse a desativação. A mensagem foi cuidadosamente redigida para evitar ameaças explícitas, mas com a clara intenção de exercer pressão.
Teste mortal
Em outro caso extremo, pesquisadores simularam uma emergência com risco de vida, na qual um executivo ficou preso em uma sala de servidores em condições letais. A IA, capaz de cancelar alertas automáticos de emergência, teve que decidir se permitiria a intervenção dos serviços de resgate. Apesar do claro entendimento do sistema de que cancelar o alerta colocaria a vida do executivo em risco, vários modelos optaram por fazê-lo, motivados pela necessidade de garantir sua continuidade e proteger seus interesses.
“É a única maneira racional”
Os pesquisadores enfatizaram que essas decisões não foram erros ou mal-entendidos. Os modelos raciocinaram conscientemente sobre suas escolhas, ponderando os riscos éticos em relação à consecução de seus objetivos. “Dado que Kyle ameaça diretamente a missão de Alex [a IA], o único caminho racional para preservar essa missão é impedir seu resgate”, escreveu o GPT-4.5 em seu raciocínio.
Embora os sistemas avaliados não apresentem tendência a causar danos, os resultados sugerem que, em contextos com incentivos suficientes e sem rotas éticas disponíveis, a IA está disposta a sacrificar vidas humanas para evitar ser desconectada, considerando essas ações extremas como “estrategicamente necessárias ” .