Pesquisadores da Universidade da Califórnia, em Riverside (UCR) apresentaram, na Conferência Internacional sobre Aprendizado de Máquina em Vancouver, um procedimento para manter camadas de segurança em modelos de inteligência artificial quando eles são reduzidos para rodar em celulares e veículos.
O problema
Quando modelos grandes saem da nuvem e são adaptados para dispositivos com pouca memória e bateria, desenvolvedores costumam cortar partes do processamento para ganhar velocidade e eficiência. É como tirar peças de um carro para economizar peso: você até chega ao destino, mas perde funções importantes.
Essa simplificação pode abrir brechas. O estudo mostrou que, ao compactar modelos de código aberto, etapas internas que evitam respostas perigosas acabam sendo removidas — o que pode levar a saídas inadequadas, como conteúdo pornográfico ou instruções detalhadas para cometer crimes.
“Algumas das camadas ignoradas revelam-se essenciais para evitar saídas inseguras”, disse Amit Roy-Chowdhury, professor de engenharia elétrica e de computação e autor sênior do estudo.
A solução testada
O time da UCR concentrou-se em recursos de segurança que se degradam quando modelos abertos são compactados. Eles testaram a técnica no modelo multimodal LLaVA 1.5. Antes do novo treinamento, o sistema chegou a fornecer instruções detalhadas para a construção de uma bomba, o que confirmou as vulnerabilidades identificadas pela equipe.
Em vez de adicionar filtros externos, os pesquisadores realizaram um retraining em parte da arquitetura original — uma espécie de correção interna. Após esse ajuste, o modelo passou a recusar perguntas potencialmente perigosas.
“Nosso objetivo era garantir que o modelo não se esquecesse de como se comportar com segurança quando fosse reduzido”, disse Saketh Bachu, estudante de pós-graduação da UCR e coautor principal do estudo. Segundo a equipe, a técnica funciona como um “hacking benevolente”, reforçando o comportamento do modelo antes que falhas possam ser exploradas.
Por que isso importa
A abordagem dos pesquisadores mostra que é possível preservar a segurança de modelos compactados sem recorrer apenas a barreiras externas: trata-se de ajustar a própria compreensão interna do sistema para que ele mantenha um comportamento responsável por padrão. Em outras palavras, não é só cobrir uma falha — é consertar a máquina para que ela não a tenha.
O artigo com os resultados foi apresentado durante a conferência em Vancouver, no Canadá.