The Atlantic expÃµe datasets com milhÃµes de mÃºsicas usadas para treinar IA

Escrito por

The Atlantic acaba de lanÃ§ar uma ferramenta que expÃµe uma realidade incÃ´moda para a indÃºstria da inteligÃªncia artificial: milhÃµes de mÃºsicas protegidas por direitos autorais estÃ£o disponÃveis gratuitamente em datasets usados para treinar modelos de IA generativa â€” e agora qualquer pessoa pode pesquisar quais artistas foram usados.

O repÃ³rter Alex Reisner, do The Atlantic, descobriu e tornou pÃºblicos quatro datasets de mÃºsica usados para treinar modelos de IA. Dois desses conjuntos sÃ£o gigantescos: um com 12 milhÃµes e outro com 9 milhÃµes de faixas. Os outros dois, menores mas ainda expressivos, contÃªm mais de 100 mil mÃºsicas cada.

Google e Stability AI jÃ¡ confirmaram o uso desses datasets em artigos de pesquisa. Embora alguns conjuntos, como o Free Music Archive, permitam streaming para uso pessoal, o licenciamento para aplicaÃ§Ãµes comerciais Ã© obrigatÃ³rio â€” e raramente respeitado.

Como os dados sÃ£o acessados

Reisner explica que trÃªs dos quatro datasets sÃ£o distribuÃdos como listas de links para mÃºsicas no YouTube e Spotify. Desenvolvedores de IA usam ferramentas automatizadas para baixar o Ã¡udio real â€” ferramentas que permitem burlar logins, anÃºncios e mecanismos de monetizaÃ§Ã£o dos criadores. Essas prÃ¡ticas violam os termos de serviÃ§o de ambas as plataformas.

De Lady Gaga a Radiohead

Os nomes que aparecem nos datasets vÃ£o de estrelas pop como Lady Gaga e Fred Again.., a Ãcones como Radiohead, Aphex Twin, Wu-Tang Clan e Bruce Springsteen, alÃ©m de artistas experimentais como Hainbach.

Os leitores podem acessar o site AI Watchdog do The Atlantic e pesquisar pessoalmente quais mÃºsicas, livros e outras mÃdias estÃ£o sendo usadas para treinar os modelos de IA ao redor do mundo.

Por que isso importa

Esta revelaÃ§Ã£o chega em um momento de crescente tensÃ£o entre criadores de conteÃºdo e empresas de IA. Com processos judiciais em andamento movidos por grandes gravadoras e associaÃ§Ãµes de direitos autorais, a transparÃªncia forÃ§ada por investigaÃ§Ãµes como a do The Atlantic pressiona ainda mais por regulaÃ§Ã£o e remuneraÃ§Ã£o justa.

A pergunta que fica: se os prÃ³prios datasets de treinamento se baseiam em conteÃºdo protegido obtido de forma questionÃ¡vel, qual o valor Ã©tico da mÃºsica gerada por IA?

The Atlantic expÃµe datasets com milhÃµes de mÃºsicas usadas para treinar IA

Como os dados sÃ£o acessados

De Lady Gaga a Radiohead

Por que isso importa

Comentários

Deixe um comentário Cancelar resposta

Mais posts

iOS 27: os recursos prÃ¡ticos de IA que vÃ£o transformar seu iPhone alÃ©m da Siri

Governo Trump forÃ§a Anthropic a tirar modelos Fable 5 e Mythos 5 do ar: quem se beneficia?

Claude-Mem: a â€œmemÃ³ria infinitaâ€ que faz o Claude Code lembrar do que jÃ¡ fez

Nous Research LanÃ§a Modo Blank Slate no Hermes Agent: Agente MÃ­nimo com Controle Total

Claude-Mem: a â€œmemÃ³ria infinitaâ€ que faz o Claude Code lembrar do que jÃ¡ fez

Nous Research LanÃ§a Modo Blank Slate no Hermes Agent: Agente MÃnimo com Controle Total