Holotron-12B: Novo modelo multimodal da H Company otimiza uso computacional com alta eficiência

A H Company lançou o Holotron-12B, um modelo multimodal voltado para agentes de uso computacional, que alia alta escalabilidade e desempenho em produção. Desenvolvido a partir do modelo aberto NVIDIA Nemotron-Nano-2 VL, o Holotron-12B foi pós-treinado com uma mistura proprietária de dados da H Company e está disponível na plataforma Hugging Face.

\n\n

Objetivo e inovação do Holotron-12B

\n

Diferentemente da maioria dos modelos multimodais atuais, que focam em visão estática ou em seguir instruções, o Holotron-12B tem como principal função atuar como modelo de política para agentes que precisam perceber, decidir e agir em ambientes interativos. A ideia é que ele lide eficientemente com contextos longos contendo múltiplas imagens e ainda mantenha alta performance em benchmarks para agentes.

\n

Imagem relacionada ao artigo de HuggingFace
Imagem de apoio da materia original.

\n\n

Arquitetura híbrida SSM para alta eficiência de inferência

\n

O avanço no throughput de inferência do Holotron-12B é resultado da arquitetura Nemotron, que combina um modelo de espaço de estado (State-Space Model – SSM) com mecanismos de atenção. Essa arquitetura híbrida supera os modelos baseados exclusivamente em transformers ao otimizar o uso de memória e processamento para contextos longos.

\n

O SSM reduz significativamente o consumo de memória durante a inferência, armazenando apenas um estado constante por camada e sequência gerada, diferente do cache KV dos transformers que cresce com o número de tokens. Isso possibilita maior escalabilidade e eficiência, especialmente em cargas de trabalho multimodais com múltiplas imagens e históricos extensos.

\n

Em testes com o benchmark WebVoyager, que simula um ambiente multimodal real com alta concorrência, o Holotron-12B alcançou um throughput mais que duas vezes superior ao modelo Holo2-8B, rodando em uma GPU H100 e utilizando a versão 0.14.1 do vLLM com otimizações SSM.

\n

Além disso, o Holotron-12B manteve aumento constante do throughput conforme a concorrência subia até 100 workers, atingindo 8.900 tokens por segundo, enquanto o Holo2-8B estabilizou em 5.100 tokens por segundo. Isso demonstra melhor aproveitamento da VRAM e da memória, permitindo lotes maiores e maior eficiência computacional.

\n\n

Processo de treinamento e avaliação

\n

O treinamento do Holotron-12B ocorreu em duas fases. Partiu-se do modelo base multimodal Nemotron-Nano-12B-v2-VL-BF16 da NVIDIA, seguido de fine-tuning supervisionado com dados proprietários da H Company focados em localização, navegação, entendimento de telas, grounding e interações em nível de interface.

\n

Imagem relacionada ao artigo de HuggingFace
Imagem de apoio da materia original.

\n

O checkpoint final foi treinado com cerca de 14 bilhões de tokens, garantindo robustez para tarefas de agentes computacionais.

\n\n

Desempenho em benchmarks de agentes e localização

\n

Nos benchmarks de uso computacional e navegação, o Holotron-12B superou o modelo base Nemotron, alcançando 80,5% de desempenho no WebVoyager, contra 35,1% do Nemotron original e superando o Holo2-8B. Isso evidencia sua efetividade em cenários que exigem percepção e ação integradas.

\n

Também houve ganhos expressivos em benchmarks de localização e grounding, como OS-World-G, GroundUI e WebClick, reforçando sua capacidade de compreender e interagir com interfaces complexas.

\n\n

Perspectivas e próximos passos

\n

O Holotron-12B prova que a arquitetura Nemotron é uma base sólida para agentes multimodais reais, combinando desempenho e eficiência. A H Company planeja expandir essa linha com o Nemotron 3 Omni, que promete avanços em raciocínio e precisão multimodal, atendendo a demandas comerciais de alta escala para agentes autônomos.

\n\n

Disponibilidade e acesso

\n

O Holotron-12B está disponível para a comunidade na Hugging Face sob a NVIDIA Open Model License. Interessados podem acessar o modelo, checkpoints e documentação para explorar suas aplicações.

\n\n

Links úteis

\n

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *