Portal ChicoSabeTudoPortal ChicoSabeTudoPortal ChicoSabeTudo
  • CENÁRIO POLÍTICO
  • POLÍCIA
  • ESPORTES
  • ENTRETENIMENTO
  • CURIOSIDADES E TECNOLOGIA
Font ResizerAa
Portal ChicoSabeTudoPortal ChicoSabeTudo
Font ResizerAa
  • CENÁRIO POLÍTICO
  • POLÍCIA
  • ESPORTES
  • ENTRETENIMENTO
  • CURIOSIDADES E TECNOLOGIA
Procurar
  • CENÁRIO POLÍTICO
  • POLÍCIA
  • ESPORTES
  • ENTRETENIMENTO
  • CURIOSIDADES E TECNOLOGIA

DESTAQUES

Sessão da Câmara de Paulo Afonso registra tumulto e Guarda Municipal intervém

Secretaria de Saúde de Paulo Afonso nega denúncia de negligência após morte de bebê em maternidade

Homem com mandado de prisão em aberto é capturado no Conjunto Habitacional Josefino, em Paulo Afonso

Se conecte com a gente

Encontre nossas redes sociais
1.40MSeguidoresLike
1.5kSeguidoresSeguir
126kSeguidoresSeguir
13.2kSubscribersSubscribe
Todos os direitos reservados Portal ChicoSabeTudo @2024
- Publicidade -
Campanha Vacina da Gripe - Governo da Bahia
Curiosidades e Tecnologia

Dados sensíveis na IA: CPF e currículos em treinamento

Uma nova pesquisa revela que milhões de dados pessoais, incluindo documentos e currículos, estão presentes em vastos bancos de dados usados para treinar sistemas de inteligência artificial.

Última atualização: 27/07/2025 04:57
Compartilhar
Privacidade Em Risco: Documentos Pessoais Alimentam Ia Sem Autorização (Imagem: Tippapatt/Shutterstock)
Privacidade em risco: documentos pessoais alimentam IA sem autorização (Imagem: TippaPatt/Shutterstock)
Compartilhar

Uma recente pesquisa revelou a presença de milhões de imagens contendo dados altamente sensíveis, como documentos de identidade, cartões de crédito e certidões de nascimento, em um dos maiores acervos digitais utilizados para o treinamento de inteligências artificiais (IAs) capazes de gerar conteúdo visual realista. Este material integra o DataComp CommonPool, um vasto repositório com bilhões de imagens coletadas automaticamente da internet.

- Anúncio-

A iniciativa visava fornecer um volume massivo de conteúdo visual para os algoritmos. No entanto, entre imagens diversas, foram identificados arquivos delicados, incluindo passaportes e carteiras de motorista digitalizados, além de fotografias de indivíduos identificáveis. Em casos mais graves, a pesquisa detectou mais de 800 currículos e cartas de apresentação vinculados a perfis reais em redes sociais, como o LinkedIn.

Implicações e Escala da Exposição

Os pesquisadores responsáveis pelo estudo alertam que a quantidade de dados sensíveis descoberta representa apenas uma fração do total presente, levantando sérias preocupações sobre o material que compõe o aprendizado das máquinas.

Lançado em 2023, o CommonPool rapidamente se estabeleceu como o maior conjunto público de pares imagem-texto, acumulando impressionantes 12,8 bilhões de amostras extraídas da web. Apesar de seus criadores afirmarem um propósito acadêmico, a licença do projeto não restringe o uso comercial, permitindo que empresas utilizem esses dados sem grandes impedimentos.

- Anúncio-

O CommonPool é o sucessor do LAION-5B, um banco de dados similar que serviu de base para ferramentas de IA populares como o Stable Diffusion e o Midjourney. Ambos os repositórios utilizam dados coletados entre 2014 e 2022 pelo projeto Common Crawl. Isso sugere que as vulnerabilidades de privacidade agora identificadas podem estar presentes em modelos de IA desenvolvidos anteriormente e em diversas aplicações já em uso.

Privacidade e Legislação Atual

De acordo com os pesquisadores, o DataComp CommonPool já foi baixado mais de dois milhões de vezes. Rachel Hong, doutoranda em ciência da computação pela Universidade de Washington, nos Estados Unidos, e principal autora do estudo, destaca que este número indica uma vasta proliferação de modelos derivados que potencialmente carregam os mesmos riscos de privacidade.

- Advertisement -

O estudo faz um apelo à comunidade de inteligência artificial para que reavalie a prática de coleta automática e indiscriminada de informações da internet. Os autores argumentam que a utilização massiva de dados pessoais em conjuntos como o CommonPool pode infringir leis de privacidade existentes, mesmo com as lacunas regulatórias.

Embora a Europa e alguns estados nos Estados Unidos possuam normativas de proteção de dados pessoais, ainda não há uma legislação federal unificada nos EUA, resultando em variações nos direitos de privacidade. Frequentemente, as regulamentações não se aplicam a projetos acadêmicos ou não abrangem dados considerados “publicamente disponíveis”.

Este conceito de “informação pública” pode ser enganoso. Conforme apontado pelos autores do estudo, conteúdos como currículos, fotos pessoais, números de documentos e até registros de blogs familiares são frequentemente tratados como dados livres, mesmo quando revelam informações privadas. Para os pesquisadores, o caso do CommonPool serve como um alerta crucial: o que está acessível na internet não deveria, automaticamente, tornar-se insumo para máquinas.

TAGS:inteligência artificialPrivacidadeprivacidade de dados

MAIS LIDAS

Influenciador baiano Júnior Caldeirão raspa a cabeça após diagnóstico de doença
Entretenimento
Garota de programa morre após ser contratada para realizar “fetiche doido”
Polícia e investigação
Menina de 13 anos é suspeita de matar mãe com ajuda do namorado
Polícia e investigação
- Publicidade -

MAIS NOTÍCIAS

(Imagem: Miss.cabul/Shutterstock)
Curiosidades e Tecnologia

XAI demite cerca de 500 anotadores e contrata tutores especializados

Curiosidades e Tecnologia

Governo detecta três novas drogas em circulação no Brasil

Um Pequeno Buraco Negro A 26 Mil Anos-Luz Da Terra Está Devorando Sua Estrela Companheira E Liberando Matéria A 32 Milhões De Km/H. (Imagem: Observatório Europeu Do Sul (Eso))
Curiosidades e Tecnologia

Buraco negro a 26 mil anos-luz expulsa matéria a 3% da luz

(Imagem: Quantic69/Istock)
Curiosidades e Tecnologia

OpenAI e Nvidia anunciam investimentos em data centers no Reino Unido

As Estações Na Terra – Ilustração Mostrando A Posição Da Terra Em Relação Ao Sol Nos Equinócios E Solstícios / Crédito: Sakurra (Shutterstock)
Curiosidades e Tecnologia

Por que o Brasil tem estações pouco percebidas

Bilionário Não Descarta Possibilidade De Comprar A Verizon (Imagem: Photo Agency/Shutterstock)
Curiosidades e Tecnologia

Musk não descarta comprar Verizon após SpaceX comprar espectro

Imagem: Tkyszk/Shutterstock
Curiosidades e Tecnologia

Apple lança iPhone Air sem slot para chip, só com eSIM

Imagem Feita Com Inteligência Artificial. Alessandro Di Lorenzo/Olhar Digital/Dall-E
Curiosidades e Tecnologia

Achado de estruturas pré-históricas preservadas em pântano na Suécia

Mostrar mais
Portal ChicoSabeTudo

ACESSE

  • CENÁRIO POLÍTICO
  • POLÍCIA
  • ESPORTES
  • ENTRETENIMENTO
  • CURIOSIDADES E TECNOLOGIA
Que bom que voltou!!!

Acesse sua conta

Username or Email Address
Password

Lost your password?