Início / 7411 / Datalab Lança Lift: Modelo de Visão Open-Source de 9B Extrai Dados Estruturados de PDFs com 90,2% de Precisão | IA em Foco

Datalab Lança Lift: Modelo de Visão Open-Source de 9B Extrai Dados Estruturados de PDFs com 90,2% de Precisão | IA em Foco

A Datalab acaba de lançar o lift, um modelo de visão open-source com 9 bilhões de parâmetros projetado especificamente para extração de dados estruturados. Você fornece um schema JSON e um PDF (ou imagem), e o modelo retorna um objeto JSON perfeitamente compatível — sem alucinações, sem retrabalho.

O lift atinge 90,2% de precisão por campo em um benchmark interno de 225 documentos e processa cada documento em uma mediana de 9,5 segundos. Para um modelo de 9B auto-hospedável, é um resultado impressionante.

Como funciona

O lift opera em duas etapas:

  1. Leitura visual direta: o modelo lê páginas de PDF ou imagens como entrada visual — sem OCR intermediário, sem pipeline quebradiço.
  2. Decodificação guiada por schema: a saída é restrita ao JSON Schema fornecido, o que elimina alucinações estruturais e garante conformidade desde a primeira inferência.

Documentos com múltiplas páginas são processados de uma só vez. Campos que cruzam páginas (como uma tabela que começa na página 3 e termina na página 5) são capturados corretamente.

Modos de inferência

O lift oferece dois modos:

  • Inferência local: via HuggingFace, ideal para desenvolvimento e testes.
  • Inferência remota: via servidor vLLM, recomendado para produção.

O código é distribuído sob licença Apache 2.0. Os pesos usam uma licença OpenRAIL-M modificada.

De onde vem o lift

A Datalab não é novata em OCR e extração de documentos. A empresa já mantém ferramentas open-source conhecidas como chandra, marker e surya — todas voltadas para processamento de documentos. O lift é o primeiro modelo da Datalab construído exclusivamente para extração estruturada.

O cenário competitivo

O lift entra em um campo pequeno mas ativo de modelos de extração abertos. De um lado, há modelos especializados como a família NuExtract. De outro, modelos de visão-linguagem genéricos adaptados para extração, como o Qwen3.5-9B. O diferencial do lift está na combinação de um backbone de visão-linguagem com decodificação restrita por schema — o que melhora tanto a precisão quanto a confiabilidade da saída.

Por que isso importa

Extrair dados estruturados de documentos é uma das tarefas mais comuns — e mais frustrantes — em ambientes corporativos. Faturas, contratos, relatórios financeiros, formulários regulatórios: tudo ainda depende de processos manuais ou pipelines frágeis de OCR + regex.

Um modelo open-source de 9B que resolve isso com 90% de precisão e 9 segundos por documento muda a equação. Times pequenos podem rodar localmente, sem depender de APIs proprietárias ou enviar documentos sensíveis para a nuvem.

O lift está disponível no GitHub da Datalab e no HuggingFace.

Deixe um Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *