Grandes empresas de tecnologia, como Google, Microsoft e Baidu, têm utilizado vídeos do YouTube para treinar modelos de inteligência artificial (IA) sem a autorização dos criadores. A prática foi revelada ao se constatar que mais de 700 vídeos do youtuber Felipe Neto, além de clipes de funk e reportagens, foram extraídos para a coleção YT-Temporal-180M, que conta com 5.494.771 vídeos e foi baixada diversas vezes.
A YT-Temporal-180M contém também conteúdos de canais populares, como KondZilla, Maria Clara & JP e da revista Veja, somando mais de 20 GB de material. Essa base, criada em 2021 por pesquisadores do Allen Institute for AI, foi coletada sem consulta aos criadores, o que infringe os termos de uso do YouTube, que proíbe a extração automática de vídeos.
O uso de tais coleções é chave para o desenvolvimento de modelos de IA e tem gerado preocupação em relação à aplicação de leis de direitos autorais. Durante uma entrevista ao jornal Folha de S.Paulo, o professor de ciência da computação Diogo Cortiz destacou a falta de transparência nas práticas das grandes empresas de tecnologia desde a ascensão do ChatGPT em 2022.
Embora Google e YouTube tenham defendido a importância do controle de conteúdos pelos criadores, a empresa não se manifestou sobre a utilização de vídeos baixados de forma irregular por terceiros. Especificamente, a OpenAI, em um caso recente na Alemanha, foi considerada responsável pela violação dos direitos autorais do cantor Herbert Grönemeyer, levantando questões sobre a necessidade de autorização explícita para o uso de obras protegidas.
O debate sobre o uso de conteúdos protegidos no treinamento de IA continua em andamento, com iminentes disputas judiciais que podem definir a necessidade de licenciamento, caso que poderia impactar a maneira como IAs futuras são desenvolvidas.







