Prime Intellect Lança prime-rl 0.6.0 para Treinar Modelos MoE de Trilhões de Parâmetros

A Prime Intellect acaba de lançar a versão 0.6.0 do prime-rl, um framework open-source de reinforcement learning assíncrono capaz de treinar modelos Mixture-of-Experts (MoE) com trilhões de parâmetros em cargas de trabalho agentivas de longa duração.

O grande destaque do anúncio é o treinamento do modelo GLM-5 em tarefas de engenharia de software (SWE) com 131 mil tokens de comprimento de sequência, usando apenas 28 nós H200. Cada passo de treinamento levou menos de 5 minutos, com batch size de 256 rollouts.

Por que isso importa

Treinar tarefas agentivas — como agentes de código que executam centenas de chamadas de ferramentas — sempre foi um pesadelo de engenharia. Alguns rollouts podem durar horas, e esperar por eles antes de cada atualização de política deixa GPUs ociosas. O prime-rl resolve isso com RL assíncrono: o treinador e o sistema de inferência são desacoplados e escalam independentemente.

Otimizações de inferência

O framework traz várias inovações para o lado da inferência, que costuma ser o gargalo em sistemas de RL:

Inferência FP8: usa kernels DeepEP e DeepGEMM para acelerar prefill e decode
Wide Expert Parallelism: distribui especialistas entre 32+ GPUs com comunicação all2all por camada
Desagregação Prefill/Decode (P/D): separa workers de prefill e decode para evitar que saídas longas de ferramentas estrangulem a decodificação
KV Cache com offloading em camadas: suporte a CPU e disco, com Mooncake Store fazendo pooling centralizado de RAM e disco entre nós
Router Replay (R3): captura decisões de roteamento da inferência e as reproduz no treinador, reduzindo a divergência KL em uma ordem de grandeza

Otimizações de treinamento

O treinador é construído sobre o torchtitan (código nativo PyTorch) e usa paralelismo 3D:

Estratégia	O que distribui	Função principal
FSDP (FSDP2)	Parâmetros, gradientes, estados do otimizador	Amortização de memória base
Expert Parallelism (EP)	Especialistas dentro de uma camada	Reduz memória ativa por camada
Context Parallelism (CP)	A dimensão da sequência	Gerencia ativação de contexto longo

Prime Intellect Lança prime-rl 0.6.0 para Treinar Modelos MoE de Trilhões de Parâmetros | IA em Foco

Por que isso importa

Otimizações de inferência

Otimizações de treinamento

NVIDIA leva agentes de IA 24/7 confiáveis para operações de telecom | IA em Foco

A Máquina de US$ 400 Milhões que Impulsiona o Futuro dos Chips de IA | IA em Foco

Deixe um Comentário Cancelar resposta

Featured Posts

Fim da era ‘tokenmaxxing’: empresas correm para impedir que funcionários esgotem orçamentos de IA com tarefas simples

Deputada dos EUA nega que equipe usou IA para redigir emenda de defesa, mas admite uso para ‘correção ortográfica’

Especialistas em IA da China estão tão preocupados quanto os EUA com riscos da corrida armamentista

Prime Intellect Lança prime-rl 0.6.0 para Treinar Modelos MoE de Trilhões de Parâmetros | IA em Foco

Por que isso importa

Otimizações de inferência

Otimizações de treinamento

NVIDIA leva agentes de IA 24/7 confiáveis para operações de telecom | IA em Foco

A Máquina de US$ 400 Milhões que Impulsiona o Futuro dos Chips de IA | IA em Foco

Related Posts

Deixe um Comentário Cancelar resposta

Featured Posts