Baidu Lança Unlimited OCR: Modelo de 3B com KV Cache Constante para Leitura de Documentos Longos

25 de junho de 2026

2

O modelo de OCR da Baidu resolve um problema que atormenta a maioria dos sistemas do tipo: quanto mais longo o documento, mais lenta fica a leitura. Chamado de Unlimited OCR, ele foi lançado como open-source em 22 de junho de 2026 e adota uma arquitetura que mantém o cache de atenção constante, permitindo processar dezenas de páginas em uma única passada.

O problema do crescimento do KV cache

Em modelos de OCR tradicionais, cada token gerado é adicionado ao KV cache, fazendo com que a memória consumida e o tempo de geração cresçam linearmente com o tamanho do documento. Para documentos longos — contratos, livros, relatórios técnicos — isso inviabiliza o processamento eficiente.

A solução da Baidu está em substituir a atenção do decoder por um mecanismo chamado Reference Sliding Window Attention (R-SWA).

Como funciona o Unlimited OCR

Com apenas 3 bilhões de parâmetros totais (e apenas 500 milhões ativos durante a inferência, graças à arquitetura Mixture-of-Experts), o modelo alcança resultados impressionantes:

93,23 pontos no benchmark OmniDocBench v1.5, superando o baseline DeepSeek OCR em 6,22 pontos
Construído via continue-training sobre o DeepSeek OCR, não treinado do zero
Suporte a dois modos de resolução: “Base” (1024×1024 para múltiplas páginas) e “Gundam” (resolução dinâmica para páginas únicas)

O segredo: R-SWA

O Reference Sliding Window Attention quebra a dependência do crescimento do cache. Cada token gerado atende a:

Todos os tokens de referência (tokens visuais + prompt)
Apenas os últimos n tokens gerados (padrão: n=128)

Todo o resto é descartado. O cache se torna uma fila fixa de tamanho m + n, limitado por uma constante. Quando o documento cresce muito além de n, a razão do cache tende a zero — a memória permanece plana e a latência por passo se mantém constante.

A equipe compara isso a uma pessoa copiando um livro: ela olha para a fonte e para as últimas palavras transcritas, não relê tudo o que já foi copiado.

O encoder: compressão de 16×

O DeepEncoder é o motor de compressão. Ele combina:
– SAM-ViT com window attention
– CLIP-ViT com atenção global
– Compressão de 16× na ponte entre os dois

Uma imagem de 1024×1024 pixels vira apenas 256 tokens visuais — menos tokens de entrada significam prefill menor e mais rápido.

Por que isso importa

OCR eficiente para documentos longos é crucial para aplicações reais: digitalização de processos jurídicos, análise de contratos, pesquisa acadêmica, e arquivamento de documentos históricos. Um modelo open-source de apenas 3B (500M ativos) que mantém desempenho constante independente do tamanho do documento é uma contribuição significativa da Baidu para a comunidade.

O código e os pesos estão disponíveis no GitHub oficial da Baidu, e o paper completo pode ser encontrado no arXiv.

Baidu Lança Unlimited OCR: Modelo de 3B com KV Cache Constante para Leitura de Documentos Longos

O problema do crescimento do KV cache

Como funciona o Unlimited OCR

O segredo: R-SWA

O encoder: compressão de 16×

Por que isso importa

LEAVE A REPLY Cancel reply

Most Popular

MIT e Microsoft Criam Murakkab: Sistema que Otimiza Velocidade e Eficiência Energética de Agentes de IA

Europa Reage à Guerra dos Chips: Holanda Enfrenta Washington para Proteger ASML

OpenAI e Broadcom Anunciam Jalapeño, o Primeiro Chip Customizado para Inferência de LLMs

A24 Sabe que Você Está Furioso com a Parceria de IA com o Google

Recent Comments

EDITOR PICKS

MIT e Microsoft Criam Murakkab: Sistema que Otimiza Velocidade e Eficiência Energética de Agentes de IA

Europa Reage à Guerra dos Chips: Holanda Enfrenta Washington para Proteger ASML

OpenAI e Broadcom Anunciam Jalapeño, o Primeiro Chip Customizado para Inferência de LLMs

POPULAR POSTS

MIT e Microsoft Criam Murakkab: Sistema que Otimiza Velocidade e Eficiência Energética de Agentes de IA

Europa Reage à Guerra dos Chips: Holanda Enfrenta Washington para Proteger ASML

OpenAI e Broadcom Anunciam Jalapeño, o Primeiro Chip Customizado para Inferência de LLMs

POPULAR CATEGORY

ABOUT US

FOLLOW US