A Amazon Web Services (AWS) anunciou a disponibilidade imediata do modelo NVIDIA Nemotron 3 Nano Omni no Amazon SageMaker JumpStart, plataforma que facilita o acesso e a implantação de modelos de machine learning de ponta. Essa novidade representa um avanço significativo no desenvolvimento de aplicações empresariais que demandam compreensão e raciocínio simultâneo sobre múltiplas modalidades, como vídeo, áudio, imagem e texto.
\n\n
Arquitetura e capacidades do Nemotron 3 Nano Omni
\n
O Nemotron 3 Nano Omni é um modelo multimodal aberto, com 30 bilhões de parâmetros totais e 3 bilhões ativos, baseado na arquitetura Mamba2 Transformer Hybrid Mixture of Experts (MoE). Ele integra três componentes principais:
\n
- \n
- Nemotron 3 Nano LLM: backbone para processamento de linguagem;
- CRADIO v4-H: codificador de visão para compreensão de imagens e vídeos;
- Parakeet: codificador de fala para transcrição e entendimento de áudio.
\n
\n
\n
\n
Esse design unificado permite processar entradas multimodais — vídeo, áudio, imagens e texto — em uma única passagem de inferência, gerando respostas em texto. O modelo suporta contexto extenso de até 131 mil tokens, raciocínio em cadeia (chain of thought), chamadas de ferramentas, saída em JSON e timestamps ao nível de palavra para transcrição.
\n
Disponível em precisão FP8 no SageMaker JumpStart, o Nemotron 3 Nano Omni oferece equilíbrio ideal entre precisão e eficiência para cargas de trabalho empresariais. Ele é licenciado sob o NVIDIA Open Model Agreement, permitindo uso comercial.
\n\n
Impacto para o mercado e aplicações empresariais
\n
Fluxos de trabalho corporativos frequentemente exigem agentes que compreendam simultaneamente múltiplos tipos de dados — telas, documentos, áudio e vídeo — dentro de um mesmo ciclo de raciocínio. Tradicionalmente, isso era feito com modelos separados para visão, fala e linguagem, aumentando latência, complexidade e custos.
\n
O Nemotron 3 Nano Omni revoluciona esse cenário ao funcionar como um subagente multimodal unificado, oferecendo “olhos e ouvidos” para sistemas de agentes. Ele lê telas, interpreta documentos, transcreve áudios e analisa vídeos mantendo contexto convergente, simplificando arquiteturas e reduzindo múltiplas chamadas de inferência para apenas uma.
\n
Entre os casos de uso destacados estão:
\n
- \n
- Agentes de uso computacional: navegação e entendimento de interfaces gráficas, automação de browsers, gerenciamento de painéis e fluxos de trabalho de e-mails;
- Inteligência documental: análise integrada de documentos, gráficos, tabelas e mídias mistas para compliance, contratos e literatura científica;
- Agentes de áudio e vídeo: monitoramento contínuo para atendimento ao cliente, análise de reuniões, gestão de ativos de mídia e verificação de pedidos em drive-thru, entre outras aplicações.
\n
\n
\n
\n\n
Como usar o Nemotron 3 Nano Omni no Amazon SageMaker JumpStart
\n
O SageMaker JumpStart permite implantar o modelo com um clique, eliminando a necessidade de gerenciar infraestrutura, configurar frameworks ou baixar artefatos manualmente. Para começar, é necessário:
\n
- \n
- Conta AWS ativa;
- Permissões adequadas para SageMaker JumpStart;
- Cota de serviço suficiente para instâncias GPU, como
ml.p4d.24xlargeouml.p5.48xlarge.
\n
\n
\n
\n
O processo de implantação via SageMaker Studio inclui:
\n
- \n
- Abrir o SageMaker Studio e acessar o painel JumpStart;
- Pesquisar por “Nemotron 3 Nano Omni” e selecionar o modelo;
- Configurar tipo de instância e parâmetros de implantação;
- Clicar em “Deploy” para criar o endpoint.
\n
\n
\n
\n
\n
Alternativamente, a implantação pode ser feita programaticamente com o SDK Python do SageMaker:
\n
from sagemaker.jumpstart.model import JumpStartModel\n\nmodel = JumpStartModel(\n model_id="huggingface-vlm-nvidia-nemotron3-nano-omni-30ba3b-reasoning-fp8",\n role="<seu_papel_sagemaker>",\n)\npredictor = model.deploy(accept_eula=True)
\n\n
Exemplos de inferência multimodal
\n
Após a implantação, é possível enviar solicitações multimodais ao endpoint. Veja exemplos para diferentes tipos de entrada:
\n\n
Entendimento de imagem
\n
import base64\n\ndef encode_image(image_path):\n with open(image_path, "rb") as f:\n return base64.b64encode(f.read()).decode("utf-8")\n\nimage_b64 = encode_image("example.jpg")\npayload = {\n "messages": [{\n "role": "user",\n "content": [\n {"type": "text", "text": "Descreva esta imagem em detalhes."},\n {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}},\n ],\n }],\n "max_tokens": 1024,\n "temperature": 0.2,\n}\nresponse = predictor.predict(payload)\nprint(response["choices"][0]["message"]["content"])
\n\n
Resumo de vídeo com raciocínio
\n
import base64\n\ndef encode_video(video_path):\n with open(video_path, "rb") as f:\n return base64.b64encode(f.read()).decode("utf-8")\n\nvideo_b64 = encode_video("meeting_recording.mp4")\npayload = {\n "messages": [{\n "role": "user",\n "content": [\n {"type": "video_url", "video_url": {"url": f"data:video/mp4;base64,{video_b64}"}},\n {"type": "text", "text": "Resuma os principais pontos da discussão."},\n ],\n }],\n "max_tokens": 20480,\n "temperature": 0.6,\n "top_p": 0.95,\n}\nresponse = predictor.predict(payload)\nprint(response["choices"][0]["message"]["content"])
\n\n
Transcrição e análise de áudio
\n
import base64\n\ndef encode_audio(audio_path):\n with open(audio_path, "rb") as f:\n return base64.b64encode(f.read()).decode("utf-8")\n\naudio_b64 = encode_audio("customer_call.wav")\npayload = {\n "messages": [{\n "role": "user",\n "content": [\n {"type": "audio_url", "audio_url": {"url": f"data:audio/wav;base64,{audio_b64}"}},\n {"type": "text", "text": "Transcreva este áudio e identifique os principais itens de ação."},\n ],\n }],\n "max_tokens": 1024,\n "temperature": 0.2,\n}\nresponse = predictor.predict(payload)\nprint(response["choices"][0]["message"]["content"])
\n\n
Parâmetros recomendados para inferência
\n
O modelo oferece modos de inferência ajustados a diferentes demandas:
\n
| Modo | Temperatura | top_p | max_tokens | Uso |
|---|---|---|---|---|
| Thinking | 0.6 | 0.95 | 20480 | Raciocínio complexo |
| Instruct | 0.2 | N/A | 1024 | Tarefas gerais, ASR |
\n
O modo Thinking é indicado para tarefas que exigem raciocínio aprofundado, enquanto o modo Instruct proporciona respostas mais rápidas para transcrição e demandas simples.
\n\n
Considerações finais e links úteis
\n
Com a integração do NVIDIA Nemotron 3 Nano Omni ao Amazon SageMaker JumpStart, a AWS amplia as possibilidades para empresas desenvolverem agentes inteligentes multimodais com alta performance e menor complexidade operacional. A unificação de múltiplas modalidades em um único modelo acelera o desenvolvimento e reduz custos, abrindo espaço para soluções inovadoras em diversos setores.
\n
Para mais detalhes técnicos e acesso ao modelo, consulte a página oficial da NVIDIA Nemotron no Hugging Face.
\n\n
Links úteis
\n
