O modelo de OCR da Baidu resolve um problema que atormenta a maioria dos sistemas do tipo: quanto mais longo o documento, mais lenta fica a leitura. Chamado de Unlimited OCR, ele foi lançado como open-source em 22 de junho de 2026 e adota uma arquitetura que mantém o cache de atenção constante, permitindo processar dezenas de páginas em uma única passada.
O problema do crescimento do KV cache
Em modelos de OCR tradicionais, cada token gerado é adicionado ao KV cache, fazendo com que a memória consumida e o tempo de geração cresçam linearmente com o tamanho do documento. Para documentos longos — contratos, livros, relatórios técnicos — isso inviabiliza o processamento eficiente.
A solução da Baidu está em substituir a atenção do decoder por um mecanismo chamado Reference Sliding Window Attention (R-SWA).
Como funciona o Unlimited OCR
Com apenas 3 bilhões de parâmetros totais (e apenas 500 milhões ativos durante a inferência, graças à arquitetura Mixture-of-Experts), o modelo alcança resultados impressionantes:
- 93,23 pontos no benchmark OmniDocBench v1.5, superando o baseline DeepSeek OCR em 6,22 pontos
- Construído via continue-training sobre o DeepSeek OCR, não treinado do zero
- Suporte a dois modos de resolução: “Base” (1024×1024 para múltiplas páginas) e “Gundam” (resolução dinâmica para páginas únicas)
O segredo: R-SWA
O Reference Sliding Window Attention quebra a dependência do crescimento do cache. Cada token gerado atende a:
- Todos os tokens de referência (tokens visuais + prompt)
- Apenas os últimos n tokens gerados (padrão: n=128)
Todo o resto é descartado. O cache se torna uma fila fixa de tamanho m + n, limitado por uma constante. Quando o documento cresce muito além de n, a razão do cache tende a zero — a memória permanece plana e a latência por passo se mantém constante.
A equipe compara isso a uma pessoa copiando um livro: ela olha para a fonte e para as últimas palavras transcritas, não relê tudo o que já foi copiado.
O encoder: compressão de 16×
O DeepEncoder é o motor de compressão. Ele combina:
– SAM-ViT com window attention
– CLIP-ViT com atenção global
– Compressão de 16× na ponte entre os dois
Uma imagem de 1024×1024 pixels vira apenas 256 tokens visuais — menos tokens de entrada significam prefill menor e mais rápido.
Por que isso importa
OCR eficiente para documentos longos é crucial para aplicações reais: digitalização de processos jurídicos, análise de contratos, pesquisa acadêmica, e arquivamento de documentos históricos. Um modelo open-source de apenas 3B (500M ativos) que mantém desempenho constante independente do tamanho do documento é uma contribuição significativa da Baidu para a comunidade.
O código e os pesos estão disponíveis no GitHub oficial da Baidu, e o paper completo pode ser encontrado no arXiv.