Home / Inteligência Artificial / NVIDIA Nemotron 3 Nano Omni chega ao Amazon SageMaker JumpStart com inteligência multimodal avançada

Inteligência Artificial

NVIDIA Nemotron 3 Nano Omni chega ao Amazon SageMaker JumpStart com inteligência multimodal avançada

Por tiago

Nenhum comentário

28 de abril de 2026 17:38

A Amazon Web Services (AWS) anunciou a disponibilidade imediata do modelo NVIDIA Nemotron 3 Nano Omni no Amazon SageMaker JumpStart, plataforma que facilita o acesso e a implantação de modelos de machine learning de ponta. Essa novidade representa um avanço significativo no desenvolvimento de aplicações empresariais que demandam compreensão e raciocínio simultâneo sobre múltiplas modalidades, como vídeo, áudio, imagem e texto.

\n\n

Arquitetura e capacidades do Nemotron 3 Nano Omni

O Nemotron 3 Nano Omni é um modelo multimodal aberto, com 30 bilhões de parâmetros totais e 3 bilhões ativos, baseado na arquitetura Mamba2 Transformer Hybrid Mixture of Experts (MoE). Ele integra três componentes principais:

Nemotron 3 Nano LLM: backbone para processamento de linguagem;

CRADIO v4-H: codificador de visão para compreensão de imagens e vídeos;

Parakeet: codificador de fala para transcrição e entendimento de áudio.

Esse design unificado permite processar entradas multimodais — vídeo, áudio, imagens e texto — em uma única passagem de inferência, gerando respostas em texto. O modelo suporta contexto extenso de até 131 mil tokens, raciocínio em cadeia (chain of thought), chamadas de ferramentas, saída em JSON e timestamps ao nível de palavra para transcrição.

Disponível em precisão FP8 no SageMaker JumpStart, o Nemotron 3 Nano Omni oferece equilíbrio ideal entre precisão e eficiência para cargas de trabalho empresariais. Ele é licenciado sob o NVIDIA Open Model Agreement, permitindo uso comercial.

\n\n

Impacto para o mercado e aplicações empresariais

Fluxos de trabalho corporativos frequentemente exigem agentes que compreendam simultaneamente múltiplos tipos de dados — telas, documentos, áudio e vídeo — dentro de um mesmo ciclo de raciocínio. Tradicionalmente, isso era feito com modelos separados para visão, fala e linguagem, aumentando latência, complexidade e custos.

O Nemotron 3 Nano Omni revoluciona esse cenário ao funcionar como um subagente multimodal unificado, oferecendo “olhos e ouvidos” para sistemas de agentes. Ele lê telas, interpreta documentos, transcreve áudios e analisa vídeos mantendo contexto convergente, simplificando arquiteturas e reduzindo múltiplas chamadas de inferência para apenas uma.

Entre os casos de uso destacados estão:

Agentes de uso computacional: navegação e entendimento de interfaces gráficas, automação de browsers, gerenciamento de painéis e fluxos de trabalho de e-mails;

Inteligência documental: análise integrada de documentos, gráficos, tabelas e mídias mistas para compliance, contratos e literatura científica;

Agentes de áudio e vídeo: monitoramento contínuo para atendimento ao cliente, análise de reuniões, gestão de ativos de mídia e verificação de pedidos em drive-thru, entre outras aplicações.

\n\n

Como usar o Nemotron 3 Nano Omni no Amazon SageMaker JumpStart

O SageMaker JumpStart permite implantar o modelo com um clique, eliminando a necessidade de gerenciar infraestrutura, configurar frameworks ou baixar artefatos manualmente. Para começar, é necessário:

Conta AWS ativa;

Permissões adequadas para SageMaker JumpStart;

Cota de serviço suficiente para instâncias GPU, como ml.p4d.24xlarge ou ml.p5.48xlarge.

O processo de implantação via SageMaker Studio inclui:

Abrir o SageMaker Studio e acessar o painel JumpStart;

Pesquisar por “Nemotron 3 Nano Omni” e selecionar o modelo;

Configurar tipo de instância e parâmetros de implantação;

Clicar em “Deploy” para criar o endpoint.

Alternativamente, a implantação pode ser feita programaticamente com o SDK Python do SageMaker:

from sagemaker.jumpstart.model import JumpStartModel\n\nmodel = JumpStartModel(\n    model_id="huggingface-vlm-nvidia-nemotron3-nano-omni-30ba3b-reasoning-fp8",\n    role="<seu_papel_sagemaker>",\n)\npredictor = model.deploy(accept_eula=True)

\n\n

Exemplos de inferência multimodal

Após a implantação, é possível enviar solicitações multimodais ao endpoint. Veja exemplos para diferentes tipos de entrada:

\n\n

Entendimento de imagem

import base64\n\ndef encode_image(image_path):\n    with open(image_path, "rb") as f:\n        return base64.b64encode(f.read()).decode("utf-8")\n\nimage_b64 = encode_image("example.jpg")\npayload = {\n    "messages": [{\n        "role": "user",\n        "content": [\n            {"type": "text", "text": "Descreva esta imagem em detalhes."},\n            {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}},\n        ],\n    }],\n    "max_tokens": 1024,\n    "temperature": 0.2,\n}\nresponse = predictor.predict(payload)\nprint(response["choices"][0]["message"]["content"])

\n\n

Resumo de vídeo com raciocínio

import base64\n\ndef encode_video(video_path):\n    with open(video_path, "rb") as f:\n        return base64.b64encode(f.read()).decode("utf-8")\n\nvideo_b64 = encode_video("meeting_recording.mp4")\npayload = {\n    "messages": [{\n        "role": "user",\n        "content": [\n            {"type": "video_url", "video_url": {"url": f"data:video/mp4;base64,{video_b64}"}},\n            {"type": "text", "text": "Resuma os principais pontos da discussão."},\n        ],\n    }],\n    "max_tokens": 20480,\n    "temperature": 0.6,\n    "top_p": 0.95,\n}\nresponse = predictor.predict(payload)\nprint(response["choices"][0]["message"]["content"])

\n\n

Transcrição e análise de áudio

import base64\n\ndef encode_audio(audio_path):\n    with open(audio_path, "rb") as f:\n        return base64.b64encode(f.read()).decode("utf-8")\n\naudio_b64 = encode_audio("customer_call.wav")\npayload = {\n    "messages": [{\n        "role": "user",\n        "content": [\n            {"type": "audio_url", "audio_url": {"url": f"data:audio/wav;base64,{audio_b64}"}},\n            {"type": "text", "text": "Transcreva este áudio e identifique os principais itens de ação."},\n        ],\n    }],\n    "max_tokens": 1024,\n    "temperature": 0.2,\n}\nresponse = predictor.predict(payload)\nprint(response["choices"][0]["message"]["content"])

\n\n

Parâmetros recomendados para inferência

O modelo oferece modos de inferência ajustados a diferentes demandas:

Modo	Temperatura	top_p	max_tokens	Uso
Thinking	0.6	0.95	20480	Raciocínio complexo
Instruct	0.2	N/A	1024	Tarefas gerais, ASR

O modo Thinking é indicado para tarefas que exigem raciocínio aprofundado, enquanto o modo Instruct proporciona respostas mais rápidas para transcrição e demandas simples.

\n\n

Considerações finais e links úteis

Com a integração do NVIDIA Nemotron 3 Nano Omni ao Amazon SageMaker JumpStart, a AWS amplia as possibilidades para empresas desenvolverem agentes inteligentes multimodais com alta performance e menor complexidade operacional. A unificação de múltiplas modalidades em um único modelo acelera o desenvolvimento e reduz custos, abrindo espaço para soluções inovadoras em diversos setores.

Para mais detalhes técnicos e acesso ao modelo, consulte a página oficial da NVIDIA Nemotron no Hugging Face.

\n\n

Links úteis

Amazon SageMaker JumpStart

Página do modelo NVIDIA Nemotron

Permissões para SageMaker JumpStart

Criar conta AWS

Blog AWS Machine Learning

tiago

NVIDIA Nemotron 3 Nano Omni chega ao Amazon SageMaker JumpStart com inteligência multimodal avançada

Arquitetura e capacidades do Nemotron 3 Nano Omni

Impacto para o mercado e aplicações empresariais

Como usar o Nemotron 3 Nano Omni no Amazon SageMaker JumpStart

Exemplos de inferência multimodal

Entendimento de imagem

Resumo de vídeo com raciocínio

Transcrição e análise de áudio

Parâmetros recomendados para inferência

Considerações finais e links úteis

Links úteis

Anthropic lança conectores que integram Claude ao Photoshop, Blender e Ableton para criativos

Modelos OpenAI GPT, Codex e Managed Agents chegam ao AWS para empresas

Deixe um Comentário Cancelar resposta

Featured Posts

iOS 27: os recursos práticos de IA que vão transformar seu iPhone além da Siri

Governo Trump força Anthropic a tirar modelos Fable 5 e Mythos 5 do ar: quem se beneficia?

Claude-Mem: a “memória infinita” que faz o Claude Code lembrar do que já fez

NVIDIA Nemotron 3 Nano Omni chega ao Amazon SageMaker JumpStart com inteligência multimodal avançada

Arquitetura e capacidades do Nemotron 3 Nano Omni

Impacto para o mercado e aplicações empresariais

Como usar o Nemotron 3 Nano Omni no Amazon SageMaker JumpStart

Exemplos de inferência multimodal

Entendimento de imagem

Resumo de vídeo com raciocínio

Transcrição e análise de áudio

Parâmetros recomendados para inferência

Considerações finais e links úteis

Links úteis

Anthropic lança conectores que integram Claude ao Photoshop, Blender e Ableton para criativos

Modelos OpenAI GPT, Codex e Managed Agents chegam ao AWS para empresas

Related Posts

Deixe um Comentário Cancelar resposta

Social Icons

Featured Posts