Tag: treinamento

  • The Atlantic expõe datasets com milhões de músicas usadas para treinar IA

    The Atlantic expõe datasets com milhões de músicas usadas para treinar IA

    The Atlantic acaba de lançar uma ferramenta que expõe uma realidade incômoda para a indústria da inteligência artificial: milhões de músicas protegidas por direitos autorais estão disponíveis gratuitamente em datasets usados para treinar modelos de IA generativa — e agora qualquer pessoa pode pesquisar quais artistas foram usados.

    O repórter Alex Reisner, do The Atlantic, descobriu e tornou públicos quatro datasets de música usados para treinar modelos de IA. Dois desses conjuntos são gigantescos: um com 12 milhões e outro com 9 milhões de faixas. Os outros dois, menores mas ainda expressivos, contêm mais de 100 mil músicas cada.

    Google e Stability AI já confirmaram o uso desses datasets em artigos de pesquisa. Embora alguns conjuntos, como o Free Music Archive, permitam streaming para uso pessoal, o licenciamento para aplicações comerciais é obrigatório — e raramente respeitado.

    Como os dados são acessados

    Reisner explica que três dos quatro datasets são distribuídos como listas de links para músicas no YouTube e Spotify. Desenvolvedores de IA usam ferramentas automatizadas para baixar o áudio real — ferramentas que permitem burlar logins, anúncios e mecanismos de monetização dos criadores. Essas práticas violam os termos de serviço de ambas as plataformas.

    De Lady Gaga a Radiohead

    Os nomes que aparecem nos datasets vão de estrelas pop como Lady Gaga e Fred Again.., a ícones como Radiohead, Aphex Twin, Wu-Tang Clan e Bruce Springsteen, além de artistas experimentais como Hainbach.

    Os leitores podem acessar o site AI Watchdog do The Atlantic e pesquisar pessoalmente quais músicas, livros e outras mídias estão sendo usadas para treinar os modelos de IA ao redor do mundo.

    Por que isso importa

    Esta revelação chega em um momento de crescente tensão entre criadores de conteúdo e empresas de IA. Com processos judiciais em andamento movidos por grandes gravadoras e associações de direitos autorais, a transparência forçada por investigações como a do The Atlantic pressiona ainda mais por regulação e remuneração justa.

    A pergunta que fica: se os próprios datasets de treinamento se baseiam em conteúdo protegido obtido de forma questionável, qual o valor ético da música gerada por IA?

    Fonte: The Verge / The Atlantic (Alex Reisner)

  • NVIDIA Blackwell domina MLPerf Training 6.0 com recordes em todos os benchmarks

    NVIDIA Blackwell domina MLPerf Training 6.0 com recordes em todos os benchmarks

    NVIDIA Blackwell MLPerf Training 6.0

    A NVIDIA acaba de varrer o MLPerf Training 6.0, o principal benchmark da indústria para treinamento de modelos de IA. A plataforma Blackwell conquistou liderança absoluta em três dimensões: performance bruta, escala massiva e confiabilidade em produção.

    Mais rápido em todos os 7 benchmarks

    A NVIDIA foi a única plataforma a submeter resultados em todos os sete benchmarks do MLPerf Training 6.0 — e terminou com o melhor tempo em cada um deles.

    O destaque técnico ficou para a nova GB300 NVL72, que entregou desempenho até 1,6× superior ao GB200 NVL72 na mesma escala. O salto veio da maior densidade computacional com NVFP4 (precisão de 4 bits), memória expandida e maior teto de potência — provando que o treinamento de baixa precisão já é viável até para modelos de larga escala.

    Escala recorde: 8.192 GPUs

    O MLPerf Training 6.0 introduziu duas novas cargas de trabalho baseadas em mixture-of-experts (MoE):

    • DeepSeek-V3 671B — o maior modelo MoE da suíte
    • GPT-OSS-20B

    A NVIDIA escalou o treinamento do DeepSeek-V3 671B para 8.192 GPUs usando sistemas GB200 NVL72 — a maior submissão Blackwell da história do benchmark. Em uma demonstração separada, a CoreWeave treinou o mesmo modelo em 2,02 minutos usando GB300 NVL72 com rede Spectrum-X Ethernet.

    Workload GPUs Sistema Tempo Submissor
    DeepSeek-V3 671B (MoE) 8.192 GB200 NVL72 — NVIDIA
    DeepSeek-V3 671B (MoE) 8.192 GB300 NVL72 2,02 min CoreWeave
    Llama 3.1 405B (dense) 8.192 GB200 NVL72 7,07 min Microsoft Azure
    Llama 3.1 405B (dense) 5.120 GB200 NVL72 — NVIDIA

    O segredo da escala está no NVLink de quinta geração, que conecta todas as 72 GPUs de um rack NVL72 como uma única GPU unificada — eliminando os gargalos de comunicação que historicamente limitavam o treinamento distribuído.

    Confiabilidade para produção

    Treinar modelos de fronteira pode levar semanas ou meses em centenas de milhares de GPUs. A NVIDIA endereçou isso em duas frentes:

    Menos interrupções: mais de 30 estágios de teste de fabricação antes de uma GPU chegar ao data center, motor RAS que monitora quase todo o chip com capacidade de auto-recuperação, e a rede Spectrum-X que redireciona tráfego em milissegundos diante de falhas de link.

    Recuperação mais rápida: a extensão de resiliência NVRx detecta e gerencia automaticamente nós com baixo desempenho e retoma o treinamento a partir do checkpoint mais recente, em vez de reiniciar o job inteiro.

    Quem está usando Blackwell

    19 organizações participaram desta rodada. Alguns destaques:

    • CoreWeave + Cohere: a Cohere reportou treinamento 3× mais rápido no GB200 NVL72 para sua plataforma de IA agentiva North
    • CoreWeave + Midjourney: o modelo de geração de imagens v8 foi treinado em cluster Blackwell; a empresa já está escalando GPUs Blackwell Ultra para os próximos modelos de imagem e vídeo
    • Google Cloud + Thinking Machines Lab: 2× mais rápido em treinamento e serving no GB300 NVL72 comparado à geração anterior
    • Nebius + Higgsfield: redução de 30% no tempo de treinamento de modelos, suportando 22 milhões de usuários que geram mais de 6 milhões de conteúdos por dia

    O recado é claro: Blackwell não é apenas um chip mais rápido — é uma plataforma completa que redefine o que é possível em escala, eficiência e confiabilidade no treinamento de IA.

  • Scaling AI: Como a OpenAI Treina Modelos Cada Vez Maiores

    Scaling AI: Como a OpenAI Treina Modelos Cada Vez Maiores

    Nos últimos anos, a inteligência artificial (IA) tem avançado em um ritmo impressionante, transformando desde tarefas cotidianas até setores inteiros da economia. No centro dessa revolução, está a OpenAI, uma das principais organizações dedicadas ao desenvolvimento de modelos de linguagem cada vez maiores e mais potentes. Mas como exatamente essa escalada de tamanho e capacidade ocorre? E por que treinar modelos gigantescos faz tanta diferença? Neste artigo, vamos explorar os desafios, as estratégias e as implicações do processo de “scaling AI” — ou seja, como a OpenAI treina modelos de inteligência artificial cada vez maiores.

    Para começar, é importante entender o que significa “modelo maior” no contexto da IA. Modelos de linguagem como o GPT (Generative Pre-trained Transformer) são redes neurais profundas compostas por bilhões de parâmetros — esses parâmetros são os “nós” e “conexões” que permitem ao modelo aprender padrões complexos em dados de texto. Quanto maior o número de parâmetros, maior a capacidade do modelo de capturar nuances linguísticas, entender contextos complexos e gerar respostas mais coerentes e criativas. Por exemplo, enquanto o GPT-2 tinha cerca de 1,5 bilhão de parâmetros, o GPT-4, lançado pela OpenAI, tem dezenas de bilhões, possibilitando um salto enorme na qualidade das interações.

    Mas aumentar o tamanho do modelo não é uma tarefa simples. Treinar um modelo com bilhões de parâmetros exige uma infraestrutura computacional massiva e extremamente eficiente. A OpenAI utiliza supercomputadores baseados em GPUs (unidades de processamento gráfico) e TPUs (unidades de processamento tensorial) para realizar o treinamento em larga escala. Esses dispositivos são especialmente desenhados para processar os cálculos paralelos necessários para o aprendizado profundo. Além disso, o treinamento é distribuído: o modelo é dividido em partes e executado simultaneamente em centenas ou milhares de unidades de processamento, acelerando o processo e permitindo a manipulação de modelos gigantescos.

    Outro desafio fundamental está na qualidade e volume dos dados. Para que um modelo tão grande aprenda de forma eficaz, ele precisa ser exposto a enormes quantidades de texto de alta qualidade, abrangendo diversas fontes e estilos. A OpenAI coleta dados de livros, artigos científicos, sites da internet, fóruns, notícias e outras fontes, sempre tomando cuidado para filtrar conteúdos de baixa qualidade ou enviesados. Esse processo de curadoria é essencial para garantir que o modelo aprenda informações relevantes e evite reproduzir erros ou preconceitos indesejados.

    Na prática, o aumento da escala traz benefícios notáveis. Modelos maiores, quando bem treinados, conseguem entender melhor o contexto das perguntas feitas pelos usuários, realizar tarefas mais complexas, como tradução simultânea, geração de código ou criação de textos criativos, e até mesmo aprender com poucos exemplos, algo conhecido como “few-shot learning”. Por exemplo, um desenvolvedor pode pedir ao GPT-4 que escreva um trecho de código em uma linguagem específica apenas mostrando algumas linhas, e o modelo será capaz de gerar um código funcional com alta precisão. Isso abre novas possibilidades para automação e assistência inteligente em diversas áreas, como programação, atendimento ao cliente e educação.

    No mercado, essa escalada de modelos impacta diretamente a competitividade das empresas de tecnologia e as expectativas dos usuários finais. Organizações que conseguem investir em infraestrutura e pesquisa para treinar modelos maiores ganham vantagem estratégica, oferecendo serviços mais avançados e personalizados. Para os usuários, isso significa acesso a assistentes virtuais mais inteligentes, capazes de entender melhor suas necessidades e fornecer respostas rápidas e precisas. Porém, essa corrida pela escala também levanta questões importantes sobre custo, sustentabilidade e acesso democrático à tecnologia, já que apenas grandes players conseguem arcar com os investimentos necessários.

    Além disso, a OpenAI tem investido em técnicas para tornar esses modelos mais eficientes e seguros. Métodos como “distilação” — que cria versões menores e mais leves do modelo original — e “fine-tuning” — que ajusta o modelo para tarefas específicas — são essenciais para levar o poder dos grandes modelos a dispositivos com menos capacidade computacional e para garantir que a IA se comporte de maneira ética e alinhada aos valores humanos.

    O futuro do “scaling AI” promete ser ainda mais fascinante. A tendência é que os modelos continuem crescendo não apenas em tamanho, mas também em complexidade e especialização. Pesquisas recentes exploram arquiteturas híbridas que combinam aprendizado simbólico com redes neurais, ou que integram múltiplas modalidades de dados, como texto, imagem e som. Além disso, há um esforço crescente para democratizar o acesso a esses modelos por meio de APIs e serviços na nuvem, tornando a tecnologia acessível a desenvolvedores, empresas e pesquisadores ao redor do mundo.

    Em resumo, a OpenAI tem desempenhado um papel crucial no avanço da inteligência artificial por meio do treinamento de modelos cada vez maiores, aproveitando enormes volumes de dados e infraestrutura de ponta para criar sistemas capazes de realizar tarefas antes inimagináveis. Essa escalada não apenas melhora a qualidade e a versatilidade das aplicações de IA, mas também redefine o impacto da tecnologia na sociedade e na economia global. À medida que continuamos a explorar os limites do que é possível, a promessa é que a inteligência artificial se torne uma parceira cada vez mais poderosa e presente em nossas vidas diárias.