Início / 7411 / Prime Intellect Lança prime-rl 0.6.0 para Treinar Modelos MoE de Trilhões de Parâmetros | IA em Foco

Prime Intellect Lança prime-rl 0.6.0 para Treinar Modelos MoE de Trilhões de Parâmetros | IA em Foco

A Prime Intellect acaba de lançar a versão 0.6.0 do prime-rl, um framework open-source de reinforcement learning assíncrono capaz de treinar modelos Mixture-of-Experts (MoE) com trilhões de parâmetros em cargas de trabalho agentivas de longa duração.

O grande destaque do anúncio é o treinamento do modelo GLM-5 em tarefas de engenharia de software (SWE) com 131 mil tokens de comprimento de sequência, usando apenas 28 nós H200. Cada passo de treinamento levou menos de 5 minutos, com batch size de 256 rollouts.

Por que isso importa

Treinar tarefas agentivas — como agentes de código que executam centenas de chamadas de ferramentas — sempre foi um pesadelo de engenharia. Alguns rollouts podem durar horas, e esperar por eles antes de cada atualização de política deixa GPUs ociosas. O prime-rl resolve isso com RL assíncrono: o treinador e o sistema de inferência são desacoplados e escalam independentemente.

Otimizações de inferência

O framework traz várias inovações para o lado da inferência, que costuma ser o gargalo em sistemas de RL:

  • Inferência FP8: usa kernels DeepEP e DeepGEMM para acelerar prefill e decode
  • Wide Expert Parallelism: distribui especialistas entre 32+ GPUs com comunicação all2all por camada
  • Desagregação Prefill/Decode (P/D): separa workers de prefill e decode para evitar que saídas longas de ferramentas estrangulem a decodificação
  • KV Cache com offloading em camadas: suporte a CPU e disco, com Mooncake Store fazendo pooling centralizado de RAM e disco entre nós
  • Router Replay (R3): captura decisões de roteamento da inferência e as reproduz no treinador, reduzindo a divergência KL em uma ordem de grandeza

Otimizações de treinamento

O treinador é construído sobre o torchtitan (código nativo PyTorch) e usa paralelismo 3D:

Estratégia O que distribui Função principal
FSDP (FSDP2) Parâmetros, gradientes, estados do otimizador Amortização de memória base
Expert Parallelism (EP) Especialistas dentro de uma camada Reduz memória ativa por camada
Context Parallelism (CP) A dimensão da sequência Gerencia ativação de contexto longo

Deixe um Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *