The Atlantic acaba de lançar uma ferramenta que expõe uma realidade incômoda para a indústria da inteligência artificial: milhões de músicas protegidas por direitos autorais estão disponÃveis gratuitamente em datasets usados para treinar modelos de IA generativa — e agora qualquer pessoa pode pesquisar quais artistas foram usados.
O repórter Alex Reisner, do The Atlantic, descobriu e tornou públicos quatro datasets de música usados para treinar modelos de IA. Dois desses conjuntos são gigantescos: um com 12 milhões e outro com 9 milhões de faixas. Os outros dois, menores mas ainda expressivos, contêm mais de 100 mil músicas cada.
Google e Stability AI já confirmaram o uso desses datasets em artigos de pesquisa. Embora alguns conjuntos, como o Free Music Archive, permitam streaming para uso pessoal, o licenciamento para aplicações comerciais é obrigatório — e raramente respeitado.
Como os dados são acessados
Reisner explica que três dos quatro datasets são distribuÃdos como listas de links para músicas no YouTube e Spotify. Desenvolvedores de IA usam ferramentas automatizadas para baixar o áudio real — ferramentas que permitem burlar logins, anúncios e mecanismos de monetização dos criadores. Essas práticas violam os termos de serviço de ambas as plataformas.
De Lady Gaga a Radiohead
Os nomes que aparecem nos datasets vão de estrelas pop como Lady Gaga e Fred Again.., a Ãcones como Radiohead, Aphex Twin, Wu-Tang Clan e Bruce Springsteen, além de artistas experimentais como Hainbach.
Os leitores podem acessar o site AI Watchdog do The Atlantic e pesquisar pessoalmente quais músicas, livros e outras mÃdias estão sendo usadas para treinar os modelos de IA ao redor do mundo.
Por que isso importa
Esta revelação chega em um momento de crescente tensão entre criadores de conteúdo e empresas de IA. Com processos judiciais em andamento movidos por grandes gravadoras e associações de direitos autorais, a transparência forçada por investigações como a do The Atlantic pressiona ainda mais por regulação e remuneração justa.
A pergunta que fica: se os próprios datasets de treinamento se baseiam em conteúdo protegido obtido de forma questionável, qual o valor ético da música gerada por IA?
Fonte: The Verge / The Atlantic (Alex Reisner)

Deixe um comentário