A DeepReinforce lançou o Ornith-1.0, uma família de modelos open-source construída para codificação agentiva. A linha inclui quatro tamanhos — de um modelo denso de 9B até o flagship Mixture-of-Experts de 397B. Todos os checkpoints estão disponíveis sob licença MIT no Hugging Face, com pós-treinamento sobre os modelos base Gemma 4 e Qwen 3.5.
Aprendendo o próprio scaffold
A maioria dos agentes de código emparelha um modelo com um harness fixo projetado por humanos. O Ornith-1.0, em vez disso, aprende a escrever o próprio scaffold. A equipe de pesquisa da DeepReinforce reporta resultados estado da arte entre modelos open-source de tamanho comparável.
Cada passo de RL executa dois estágios: o modelo primeiro propõe um scaffold refinado, depois gera uma solução usando esse scaffold. A recompensa flui de volta para ambos os estágios, fazendo com que scaffolds de maior recompensa sejam selecionados ao longo do tempo.
Quatro tamanhos disponíveis
| Variante | Tipo | Parâmetros ativos |
|---|---|---|
| Ornith-1.0-9B | Denso | 9B |
| Ornith-1.0-31B | Denso | 31B |
| Ornith-1.0-35B | MoE | ~3B por token |
| Ornith-1.0-397B | MoE (flagship) | — |