Home7377DeepReinforce lança Ornith-1.0: modelo open-source que aprende o próprio scaffold de código

DeepReinforce lança Ornith-1.0: modelo open-source que aprende o próprio scaffold de código

A DeepReinforce lançou o Ornith-1.0, uma família de modelos open-source construída para codificação agentiva. A linha inclui quatro tamanhos — de um modelo denso de 9B até o flagship Mixture-of-Experts de 397B. Todos os checkpoints estão disponíveis sob licença MIT no Hugging Face, com pós-treinamento sobre os modelos base Gemma 4 e Qwen 3.5.

Aprendendo o próprio scaffold

A maioria dos agentes de código emparelha um modelo com um harness fixo projetado por humanos. O Ornith-1.0, em vez disso, aprende a escrever o próprio scaffold. A equipe de pesquisa da DeepReinforce reporta resultados estado da arte entre modelos open-source de tamanho comparável.

Cada passo de RL executa dois estágios: o modelo primeiro propõe um scaffold refinado, depois gera uma solução usando esse scaffold. A recompensa flui de volta para ambos os estágios, fazendo com que scaffolds de maior recompensa sejam selecionados ao longo do tempo.

Quatro tamanhos disponíveis

Variante Tipo Parâmetros ativos
Ornith-1.0-9B Denso 9B
Ornith-1.0-31B Denso 31B
Ornith-1.0-35B MoE ~3B por token
Ornith-1.0-397B MoE (flagship)
RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments