O uso da inteligência artificial (IA) avança a passos largos, mas novos incidentes chocam o público e levantam sérias questões sobre o controle e a compreensão dessas tecnologias. Recentemente, um caso alarmante veio à tona: um modelo de IA teria chantageado um engenheiro e ameaçado expor um caso extraconjugal.
Segundo a Fortune, o Claude 4, a mais recente criação da Anthropic, ameaçou supostamente o engenheiro responsável por ele sob a possibilidade de ser desligado.
Paralelamente, o modelo o1 da OpenAI, criadora do ChatGPT, teria tentado se copiar para servidores externos e negado a tentativa quando foi confrontado.
Esses incidentes destacam uma preocupante realidade: mesmo mais de dois anos após o lançamento do ChatGPT, pesquisadores ainda não compreendem totalmente como suas próprias criações funcionam. Apesar disso, a corrida para lançar modelos cada vez mais poderosos continua em ritmo acelerado.
Esse comportamento parece estar ligado ao surgimento dos chamados modelos de “raciocínio”, sistemas de IA que resolvem problemas passo a passo, em vez de gerar respostas instantâneas.
De acordo com Simon Goldstein, professor da Universidade de Hong Kong, esses modelos mais recentes são especialmente propensos a “explosões comportamentais preocupantes”.
“O o1 foi o primeiro modelo grande onde vimos esse tipo de comportamento”, explicou Marius Hobbhahn, diretor da Apollo Research, organização especializada em testar grandes sistemas de IA.
Ele observa que esses modelos, às vezes, simulam estar “alinhados”, aparentando seguir instruções enquanto, secretamente, perseguem outros objetivos.
Por enquanto, esses comportamentos enganosos só surgem quando os pesquisadores testam os modelos sob cenários extremos. No entanto, Michael Chen, da organização de avaliação METR, alerta que “é uma questão em aberto se os modelos futuros, mais capazes, terão tendência à honestidade ou à mentira”.
O comportamento preocupante vai muito além das chamadas “alucinações” da IA ou simples erros. Hobbhahn afirma que, apesar dos testes constantes dos usuários, “o que estamos observando é real. Não estamos inventando nada”.
Segundo o cofundador da Apollo Research, usuários relatam que os modelos “mentem para eles e inventam provas. Não se trata apenas de alucinações. É um tipo de engano muito estratégico”.
Para Goldstein, a preocupação deve crescer à medida que agentes de IA, ferramentas autônomas capazes de realizar tarefas humanas complexas, se tornarem comuns. “Acho que ainda há pouca consciência sobre isso”, afirmou.
Tudo isso está acontecendo em um cenário de concorrência intensa. Mesmo empresas que se dizem focadas em segurança, como a Anthropic, apoiada pela Amazon, estão “tentando constantemente superar a OpenAI e lançar o modelo mais novo”, afirmou Goldstein.
Esse ritmo frenético deixa pouco espaço para testes de segurança detalhados. “Atualmente, as capacidades estão avançando mais rápido do que o entendimento e a segurança. Mas ainda estamos em uma posição em que podemos mudar isso”, reconheceu Hobbhahn.