Nemotron OCR v2: inovação em OCR multilíngue com dados sintéticos

\n

A NVIDIA, em parceria com a Hugging Face, lançou o Nemotron OCR v2, um modelo de reconhecimento óptico de caracteres (OCR) multilíngue que combina alta velocidade e precisão, treinado majoritariamente com dados sintéticos. O modelo é capaz de processar documentos em seis idiomas — inglês, japonês, coreano, russo, chinês simplificado e chinês tradicional — mantendo desempenho superior em relação a soluções especializadas por idioma.

\n\n

O que diferencia o Nemotron OCR v2?

\n

O principal desafio para modelos OCR multilíngues é a escassez de dados anotados com qualidade e em escala para diversas línguas. A equipe da NVIDIA identificou que o gargalo não está na arquitetura, mas sim na disponibilidade de dados. Para superar isso, foi adotada uma pipeline de geração de dados sintéticos, que combina textos reais extraídos do corpus mOSCAR com uma renderização avançada baseada no SynthDoG, adaptada para anotações detalhadas em níveis de palavra, linha e parágrafo, além de informações hierárquicas de ordem de leitura.

\n

Imagem relacionada ao artigo de HuggingFace
Imagem de apoio da materia original.

\n\n

Pipeline de dados sintéticos

\n

\n\n

Arquitetura eficiente e unificada

\n

Nemotron OCR v2 utiliza uma arquitetura baseada no design FOTS (Fast Oriented Text Spotting), que integra detecção e reconhecimento em uma única rede com backbone convolucional compartilhado (RegNetX-8GF). Essa abordagem permite que a imagem seja processada uma única vez para gerar mapas de características reutilizados por todos os componentes:

\n

\n

Essa reutilização reduz o processamento redundante, garantindo alta velocidade: até 34,7 páginas por segundo em uma GPU A100.

\n\n

Resultados e desempenho prático

\n

O treinamento com 12 milhões de imagens sintéticas e cerca de 680 mil imagens reais resultou em melhorias expressivas na Normalized Edit Distance (NED) para todos os idiomas testados, com valores próximos a zero em benchmarks sintéticos (SynthDoG) e desempenho competitivo em cenários reais (OmniDocBench).

\n

Imagem relacionada ao artigo de HuggingFace
Imagem de apoio da materia original.

\n

Comparado a modelos especializados por idioma, Nemotron OCR v2 multilíngue se destaca por:

\n

\n\n

Para quem é indicado e como acessar

\n

Nemotron OCR v2 é ideal para empresas e desenvolvedores que precisam de um OCR multilíngue rápido e robusto, aplicável em processamento de documentos, automação de fluxos de trabalho, análise de formulários e digitalização em larga escala. O modelo está disponível gratuitamente para uso comercial sob a NVIDIA Open Model License, e o dataset sintético sob licença CC-BY-4.0.

\n

Você pode experimentar o modelo diretamente no navegador através da demonstração online do Nemotron OCR v2. Para integrar em seus projetos, acesse o repositório oficial em nvidia/nemotron-ocr-v2 na Hugging Face.

\n

O dataset sintético também está disponível para download em nvidia/OCR-Synthetic-Multilingual-v1. Para criar sua conta e ter acesso à plataforma, visite Hugging Face Sign Up.

\n\n

Links úteis

\n

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *