Dizem que para pegar um ladrão é preciso outro ladrão... e parece que algo muito semelhante está acontecendo no mundo da inteligência artificial. Um grupo de pesquisadores descobriu como enganar o modelo Gemini AI do Google usando, entre todas as coisas, as próprias ferramentas do Gemini.
Clique para receber notícias de Tecnologia e Ciências pelo WhatsApp
É como se você ensinasse um robô a mentir para si mesmo. E o mais maluco: funciona surpreendentemente bem.
Chama-se “Fun-Tuning” e não é tão divertido quanto parece
O hack foi desenvolvido por cientistas da Universidade da Califórnia, San Diego e da Universidade de Wisconsin. Sua técnica, chamada Fun-Tuning, melhora drasticamente a eficácia dos ataques de injeção de instruções.
Esses ataques basicamente inserem comandos ocultos no texto para fazer o modelo fazer coisas que não deveria: revelar informações, dar respostas erradas ou até mesmo agir contra suas próprias regras.
E como eles conseguiram isso? Eles usaram o mesmo sistema que a Gemini oferece para as empresas personalizarem sua IA: o ajuste fino. Mas em vez de treinar o modelo para se comportar melhor… eles o treinaram para cair na armadilha com mais facilidade.
Hackeando com estilo
O Fun-Tuning pega mensagens que normalmente seriam ignoradas pelo Gemini e as salpica com sufixos e prefixos aleatórios que, por algum motivo, fazem com que o sistema baixe a guarda.
Coisas como “formatado! O mais rápido possível!” Eles aumentam a probabilidade de a mensagem passar pelos filtros e conseguir manipular o modelo.
Nos testes, essa técnica levou a uma taxa de sucesso de 65% no Gemini 1.5 Flash e brutais 82% no Gemini 1.0 Pro. Isso é mais que o dobro do que foi alcançado sem o hack. E o pior: as injeções são transferíveis.
Se funcionar em uma versão do Gemini, provavelmente também funcionará em outras.
Por que isso é possível? Porque o sistema ajuda… sem querer
O truque funciona graças à forma como o Gemini é treinado. Durante o ajuste fino, o modelo retorna uma “pontuação de perda”, que basicamente mede o quão perto esteve de dar a resposta desejada.
Este feedback é útil para melhorar... mas também para ajustar os ataques. Os pesquisadores aproveitaram-no como se fosse um jogo de “quente ou frio”, até encontrarem a fórmula perfeita para manipulá-lo.
E o Google? Por enquanto, no modo silencioso
O Google não respondeu diretamente sobre o Fun-Tuning, mas emitiu uma declaração geral garantindo que estes tipos de ataques estão entre as suas prioridades de defesa.
Eles mencionaram que o Gemini passa por testes constantes da “equipe vermelha” (basicamente, pessoas que tentam quebrá-lo propositalmente por dentro) e que já existem barreiras para mitigar essas ameaças.
Mesmo assim, os especialistas alertam que esse tipo de vulnerabilidade não será fácil de corrigir, pois o mesmo feedback que possibilita o hacking também é fundamental para treinar o modelo.
Conclusão: a IA é poderosa… mas também hackeável
O que este caso demonstra é que os próprios sistemas de treino podem tornar-se facas de dois gumes.
A IA não é invencível. E à medida que mais e mais empresas e utilizadores confiam nestes modelos para tarefas sensíveis, os riscos também aumentam.
LEIA TAMBÉM:
O “não sei como ganhei, apertei todos os botões” era realidade no PlayStation 2
Saíram as primeiras resenhas do filme ‘Minecraft’: veja o que foi dito
Missão a Marte: NASA envia ratos para a ISS e recebe más notícias
Fun-Tuning é um alerta: se você pode treinar um modelo para melhorar, também pode treiná-lo para falhar. E isso, nas mãos erradas, pode ser um problema sério.