Conheça o Granite 4.1: uma família de LLMs densos e eficientes

\n

O Granite 4.1 é a mais recente geração de modelos de linguagem de grande porte (LLMs) desenvolvidos pela IBM, disponibilizados em código aberto pela Hugging Face sob a licença Apache 2.0. Com versões de 3 bilhões, 8 bilhões e 30 bilhões de parâmetros, esses modelos foram treinados desde o zero em aproximadamente 15 trilhões de tokens, por meio de um pipeline de pré-treinamento em cinco fases, incluindo uma extensão inédita para contextos longos de até 512 mil tokens.

\n\n

Arquitetura técnica e inovações

\n

Os modelos Granite 4.1 adotam uma arquitetura Transformer do tipo decoder-only, densa, com componentes avançados como Grouped Query Attention (GQA), Rotary Position Embeddings (RoPE), ativações SwiGLU e RMSNorm. A arquitetura compartilha embeddings de entrada e saída e varia em dimensão conforme o tamanho do modelo:

\n

Imagem relacionada ao artigo de HuggingFace
Imagem de apoio da materia original.

\n

\n\n

Pipeline de pré-treinamento em cinco fases

\n

O treinamento do Granite 4.1 é dividido em cinco etapas, cada uma com foco em diferentes tipos de dados e estratégias de aprendizado:

\n

    \n

  1. Fase 1 – Pré-treinamento geral (10 trilhões de tokens): Uso de dados amplos da web (CommonCrawl), código, matemática, conteúdos técnicos e multilíngues para estabelecer uma base robusta.
  2. \n

  3. Fase 2 – Pré-treinamento focado em matemática e código (2 trilhões de tokens): Aumenta significativamente a proporção de dados de código e matemática para fortalecer o raciocínio.
  4. \n

  5. Fase 3 – Annealing com dados de alta qualidade (2 trilhões de tokens): Introdução gradual de dados sintéticos, cadeias de raciocínio (chain-of-thought) e instruções para melhorar a qualidade e o comportamento do modelo.
  6. \n

  7. Fase 4 – Refinamento com dados de alta qualidade (0,5 trilhão de tokens): Foco em dados ainda mais curados para maximizar a precisão e confiabilidade.
  8. \n

  9. Fase 5 – Treinamento para contexto longo (Long Context Extension – LCE): Extensão progressiva da janela de contexto de 4 mil para 512 mil tokens, permitindo que o modelo lide com documentos e interações muito extensas.
  10. \n

\n\n

Supervisão rigorosa e aprendizado por reforço

\n

Após o pré-treinamento, os modelos passam por uma fase de fine-tuning supervisionado (SFT) com cerca de 4,1 milhões de amostras altamente curadas. Para garantir a qualidade, foi implementado um sistema de avaliação automática chamado “LLM-as-Judge”, que verifica respostas segundo critérios semânticos, estruturais e comportamentais, eliminando amostras com erros ou alucinações.

\n\n

Em seguida, um pipeline multiestágio de aprendizado por reforço (RL) é aplicado para aprimorar capacidades específicas, como matemática, código, instrução e chat geral. Esse processo usa algoritmos avançados como On-policy GRPO com perda DAPO, garantindo estabilidade e desempenho superior.

\n

Imagem relacionada ao artigo de HuggingFace
Imagem de apoio da materia original.

\n\n

Desempenho e benchmarks

\n

Os modelos Granite 4.1 apresentam resultados competitivos em benchmarks de linguagem geral, matemática, programação e tarefas multilíngues. O modelo de 8 bilhões de parâmetros, por exemplo, iguala ou supera o Granite 4.0-H-Small, que possui 32 bilhões de parâmetros e arquitetura Mixture-of-Experts (MoE), apesar de ser mais simples e eficiente.

\n\n

Alguns destaques nos benchmarks incluem:

\n

\n\n

Implicações práticas e disponibilidade

\n

Com foco em eficiência, confiabilidade e custo operacional reduzido, o Granite 4.1 é indicado para aplicações empresariais que demandam modelos de linguagem robustos e escaláveis, capazes de trabalhar com contextos extremamente longos e diversos domínios. A arquitetura densa simplifica a implementação e manutenção em produção.

\n\n

Os modelos, documentação completa e recursos comunitários estão disponíveis gratuitamente para desenvolvedores e empresas através do repositório no GitHub e da plataforma Hugging Face:

\n

\n\n

Links úteis

\n

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *