Dados sensíveis na IA: CPF e currículos em treinamento

Uma recente pesquisa revelou a presença de milhões de imagens contendo dados altamente sensíveis, como documentos de identidade, cartões de crédito e certidões de nascimento, em um dos maiores acervos digitais utilizados para o treinamento de inteligências artificiais (IAs) capazes de gerar conteúdo visual realista. Este material integra o DataComp CommonPool, um vasto repositório com bilhões de imagens coletadas automaticamente da internet.

A iniciativa visava fornecer um volume massivo de conteúdo visual para os algoritmos. No entanto, entre imagens diversas, foram identificados arquivos delicados, incluindo passaportes e carteiras de motorista digitalizados, além de fotografias de indivíduos identificáveis. Em casos mais graves, a pesquisa detectou mais de 800 currículos e cartas de apresentação vinculados a perfis reais em redes sociais, como o LinkedIn.

Implicações e Escala da Exposição

Os pesquisadores responsáveis pelo estudo alertam que a quantidade de dados sensíveis descoberta representa apenas uma fração do total presente, levantando sérias preocupações sobre o material que compõe o aprendizado das máquinas.

Lançado em 2023, o CommonPool rapidamente se estabeleceu como o maior conjunto público de pares imagem-texto, acumulando impressionantes 12,8 bilhões de amostras extraídas da web. Apesar de seus criadores afirmarem um propósito acadêmico, a licença do projeto não restringe o uso comercial, permitindo que empresas utilizem esses dados sem grandes impedimentos.

O CommonPool é o sucessor do LAION-5B, um banco de dados similar que serviu de base para ferramentas de IA populares como o Stable Diffusion e o Midjourney. Ambos os repositórios utilizam dados coletados entre 2014 e 2022 pelo projeto Common Crawl. Isso sugere que as vulnerabilidades de privacidade agora identificadas podem estar presentes em modelos de IA desenvolvidos anteriormente e em diversas aplicações já em uso.

Privacidade e Legislação Atual

De acordo com os pesquisadores, o DataComp CommonPool já foi baixado mais de dois milhões de vezes. Rachel Hong, doutoranda em ciência da computação pela Universidade de Washington, nos Estados Unidos, e principal autora do estudo, destaca que este número indica uma vasta proliferação de modelos derivados que potencialmente carregam os mesmos riscos de privacidade.

O estudo faz um apelo à comunidade de inteligência artificial para que reavalie a prática de coleta automática e indiscriminada de informações da internet. Os autores argumentam que a utilização massiva de dados pessoais em conjuntos como o CommonPool pode infringir leis de privacidade existentes, mesmo com as lacunas regulatórias.

Embora a Europa e alguns estados nos Estados Unidos possuam normativas de proteção de dados pessoais, ainda não há uma legislação federal unificada nos EUA, resultando em variações nos direitos de privacidade. Frequentemente, as regulamentações não se aplicam a projetos acadêmicos ou não abrangem dados considerados “publicamente disponíveis”.

Este conceito de “informação pública” pode ser enganoso. Conforme apontado pelos autores do estudo, conteúdos como currículos, fotos pessoais, números de documentos e até registros de blogs familiares são frequentemente tratados como dados livres, mesmo quando revelam informações privadas. Para os pesquisadores, o caso do CommonPool serve como um alerta crucial: o que está acessível na internet não deveria, automaticamente, tornar-se insumo para máquinas.