Home18Baidu Lança Unlimited OCR: Modelo de 3B com KV Cache Constante para...

Baidu Lança Unlimited OCR: Modelo de 3B com KV Cache Constante para Leitura de Documentos Longos

O modelo de OCR da Baidu resolve um problema que atormenta a maioria dos sistemas do tipo: quanto mais longo o documento, mais lenta fica a leitura. Chamado de Unlimited OCR, ele foi lançado como open-source em 22 de junho de 2026 e adota uma arquitetura que mantém o cache de atenção constante, permitindo processar dezenas de páginas em uma única passada.

O problema do crescimento do KV cache

Em modelos de OCR tradicionais, cada token gerado é adicionado ao KV cache, fazendo com que a memória consumida e o tempo de geração cresçam linearmente com o tamanho do documento. Para documentos longos — contratos, livros, relatórios técnicos — isso inviabiliza o processamento eficiente.

A solução da Baidu está em substituir a atenção do decoder por um mecanismo chamado Reference Sliding Window Attention (R-SWA).

Como funciona o Unlimited OCR

Com apenas 3 bilhões de parâmetros totais (e apenas 500 milhões ativos durante a inferência, graças à arquitetura Mixture-of-Experts), o modelo alcança resultados impressionantes:

  • 93,23 pontos no benchmark OmniDocBench v1.5, superando o baseline DeepSeek OCR em 6,22 pontos
  • Construído via continue-training sobre o DeepSeek OCR, não treinado do zero
  • Suporte a dois modos de resolução: “Base” (1024×1024 para múltiplas páginas) e “Gundam” (resolução dinâmica para páginas únicas)

O segredo: R-SWA

O Reference Sliding Window Attention quebra a dependência do crescimento do cache. Cada token gerado atende a:

  1. Todos os tokens de referência (tokens visuais + prompt)
  2. Apenas os últimos n tokens gerados (padrão: n=128)

Todo o resto é descartado. O cache se torna uma fila fixa de tamanho m + n, limitado por uma constante. Quando o documento cresce muito além de n, a razão do cache tende a zero — a memória permanece plana e a latência por passo se mantém constante.

A equipe compara isso a uma pessoa copiando um livro: ela olha para a fonte e para as últimas palavras transcritas, não relê tudo o que já foi copiado.

O encoder: compressão de 16×

O DeepEncoder é o motor de compressão. Ele combina:
SAM-ViT com window attention
CLIP-ViT com atenção global
Compressão de 16× na ponte entre os dois

Uma imagem de 1024×1024 pixels vira apenas 256 tokens visuais — menos tokens de entrada significam prefill menor e mais rápido.

Por que isso importa

OCR eficiente para documentos longos é crucial para aplicações reais: digitalização de processos jurídicos, análise de contratos, pesquisa acadêmica, e arquivamento de documentos históricos. Um modelo open-source de apenas 3B (500M ativos) que mantém desempenho constante independente do tamanho do documento é uma contribuição significativa da Baidu para a comunidade.

O código e os pesos estão disponíveis no GitHub oficial da Baidu, e o paper completo pode ser encontrado no arXiv.

RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments