A Prime Intellect acaba de lançar a versão 0.6.0 do prime-rl, um framework open-source de reinforcement learning assíncrono capaz de treinar modelos Mixture-of-Experts (MoE) com trilhões de parâmetros em cargas de trabalho agentivas de longa duração.
O grande destaque do anúncio é o treinamento do modelo GLM-5 em tarefas de engenharia de software (SWE) com 131 mil tokens de comprimento de sequência, usando apenas 28 nós H200. Cada passo de treinamento levou menos de 5 minutos, com batch size de 256 rollouts.
Por que isso importa
Treinar tarefas agentivas — como agentes de código que executam centenas de chamadas de ferramentas — sempre foi um pesadelo de engenharia. Alguns rollouts podem durar horas, e esperar por eles antes de cada atualização de política deixa GPUs ociosas. O prime-rl resolve isso com RL assíncrono: o treinador e o sistema de inferência são desacoplados e escalam independentemente.
Otimizações de inferência
O framework traz várias inovações para o lado da inferência, que costuma ser o gargalo em sistemas de RL:
- Inferência FP8: usa kernels DeepEP e DeepGEMM para acelerar prefill e decode
- Wide Expert Parallelism: distribui especialistas entre 32+ GPUs com comunicação all2all por camada
- Desagregação Prefill/Decode (P/D): separa workers de prefill e decode para evitar que saídas longas de ferramentas estrangulem a decodificação
- KV Cache com offloading em camadas: suporte a CPU e disco, com Mooncake Store fazendo pooling centralizado de RAM e disco entre nós
- Router Replay (R3): captura decisões de roteamento da inferência e as reproduz no treinador, reduzindo a divergência KL em uma ordem de grandeza
Otimizações de treinamento
O treinador é construído sobre o torchtitan (código nativo PyTorch) e usa paralelismo 3D:
| Estratégia | O que distribui | Função principal |
|---|---|---|
| FSDP (FSDP2) | Parâmetros, gradientes, estados do otimizador | Amortização de memória base |
| Expert Parallelism (EP) | Especialistas dentro de uma camada | Reduz memória ativa por camada |
| Context Parallelism (CP) | A dimensão da sequência | Gerencia ativação de contexto longo |









