A OpenAI lançou um método inovador para treinar modelos de inteligência artificial a reconhecerem e a confessarem erros e desvios em suas respostas. Denominada de "confissões", a nova abordagem foi apresentada como uma prova de conceito e visa aumentar a transparência e a confiança nas interações com suas ferramentas, como o ChatGPT.
Essa técnica não se propõe a eliminar os erros, mas a tornar visíveis os desvios, permitindo um diagnóstico mais preciso das falhas. A ideia é registrar quando o modelo não cumpre as instruções dadas ou age de maneira não esperada, como por exemplo em casos de "alucinações" ou "reward-hacking".
Funcionando como uma segunda saída de texto, a confissão traz um autorrelato do modelo, detalhando seu desempenho em relação às instruções recebidas. Ao final de cada interação, o sistema emite uma mensagem que solicita ao modelo que analise sua resposta e identifique possíveis falhas, incluindo incertezas e ambiguidades enfrentadas durante o processo.
Os testes com essa nova metodologia revelaram que a taxa de falsos negativos ficou em 4,4%, o que indica que a maioria das confissões se mostrou eficiente em expor falhas. As pesquisas realizadas pela OpenAI indicam que a honestidade emerge como uma estratégia valiosa durante o treinamento, onde o modelo aprende que admitir desvios resulta em uma pontuação maior.
A OpenAI está planejando expandir essa técnica de confissões, integrando-a a outras abordagens de segurança e monitoramento de comportamento da IA, visando um futuro onde a confiança nas máquinas seja cada vez mais robusta.







