Home / Inteligência Artificial / NVIDIA Nemotron 3 Nano Omni chega ao Amazon SageMaker JumpStart com inteligência multimodal avançada

NVIDIA Nemotron 3 Nano Omni chega ao Amazon SageMaker JumpStart com inteligência multimodal avançada

A Amazon Web Services (AWS) anunciou a disponibilidade imediata do modelo NVIDIA Nemotron 3 Nano Omni no Amazon SageMaker JumpStart, plataforma que facilita o acesso e a implantação de modelos de machine learning de ponta. Essa novidade representa um avanço significativo no desenvolvimento de aplicações empresariais que demandam compreensão e raciocínio simultâneo sobre múltiplas modalidades, como vídeo, áudio, imagem e texto.

\n\n

Arquitetura e capacidades do Nemotron 3 Nano Omni

\n

O Nemotron 3 Nano Omni é um modelo multimodal aberto, com 30 bilhões de parâmetros totais e 3 bilhões ativos, baseado na arquitetura Mamba2 Transformer Hybrid Mixture of Experts (MoE). Ele integra três componentes principais:

\n

    \n

  • Nemotron 3 Nano LLM: backbone para processamento de linguagem;
  • \n

  • CRADIO v4-H: codificador de visão para compreensão de imagens e vídeos;
  • \n

  • Parakeet: codificador de fala para transcrição e entendimento de áudio.
  • \n

\n

Esse design unificado permite processar entradas multimodais — vídeo, áudio, imagens e texto — em uma única passagem de inferência, gerando respostas em texto. O modelo suporta contexto extenso de até 131 mil tokens, raciocínio em cadeia (chain of thought), chamadas de ferramentas, saída em JSON e timestamps ao nível de palavra para transcrição.

\n

Disponível em precisão FP8 no SageMaker JumpStart, o Nemotron 3 Nano Omni oferece equilíbrio ideal entre precisão e eficiência para cargas de trabalho empresariais. Ele é licenciado sob o NVIDIA Open Model Agreement, permitindo uso comercial.

\n\n

Impacto para o mercado e aplicações empresariais

\n

Fluxos de trabalho corporativos frequentemente exigem agentes que compreendam simultaneamente múltiplos tipos de dados — telas, documentos, áudio e vídeo — dentro de um mesmo ciclo de raciocínio. Tradicionalmente, isso era feito com modelos separados para visão, fala e linguagem, aumentando latência, complexidade e custos.

\n

O Nemotron 3 Nano Omni revoluciona esse cenário ao funcionar como um subagente multimodal unificado, oferecendo “olhos e ouvidos” para sistemas de agentes. Ele lê telas, interpreta documentos, transcreve áudios e analisa vídeos mantendo contexto convergente, simplificando arquiteturas e reduzindo múltiplas chamadas de inferência para apenas uma.

\n

Entre os casos de uso destacados estão:

\n

    \n

  • Agentes de uso computacional: navegação e entendimento de interfaces gráficas, automação de browsers, gerenciamento de painéis e fluxos de trabalho de e-mails;
  • \n

  • Inteligência documental: análise integrada de documentos, gráficos, tabelas e mídias mistas para compliance, contratos e literatura científica;
  • \n

  • Agentes de áudio e vídeo: monitoramento contínuo para atendimento ao cliente, análise de reuniões, gestão de ativos de mídia e verificação de pedidos em drive-thru, entre outras aplicações.
  • \n

\n\n

Como usar o Nemotron 3 Nano Omni no Amazon SageMaker JumpStart

\n

O SageMaker JumpStart permite implantar o modelo com um clique, eliminando a necessidade de gerenciar infraestrutura, configurar frameworks ou baixar artefatos manualmente. Para começar, é necessário:

\n

    \n

  • Conta AWS ativa;
  • \n

  • Permissões adequadas para SageMaker JumpStart;
  • \n

  • Cota de serviço suficiente para instâncias GPU, como ml.p4d.24xlarge ou ml.p5.48xlarge.
  • \n

\n

O processo de implantação via SageMaker Studio inclui:

\n

    \n

  1. Abrir o SageMaker Studio e acessar o painel JumpStart;
  2. \n

  3. Pesquisar por “Nemotron 3 Nano Omni” e selecionar o modelo;
  4. \n

  5. Configurar tipo de instância e parâmetros de implantação;
  6. \n

  7. Clicar em “Deploy” para criar o endpoint.
  8. \n

\n

Alternativamente, a implantação pode ser feita programaticamente com o SDK Python do SageMaker:

\n

from sagemaker.jumpstart.model import JumpStartModel\n\nmodel = JumpStartModel(\n    model_id="huggingface-vlm-nvidia-nemotron3-nano-omni-30ba3b-reasoning-fp8",\n    role="<seu_papel_sagemaker>",\n)\npredictor = model.deploy(accept_eula=True)

\n\n

Exemplos de inferência multimodal

\n

Após a implantação, é possível enviar solicitações multimodais ao endpoint. Veja exemplos para diferentes tipos de entrada:

\n\n

Entendimento de imagem

\n

import base64\n\ndef encode_image(image_path):\n    with open(image_path, "rb") as f:\n        return base64.b64encode(f.read()).decode("utf-8")\n\nimage_b64 = encode_image("example.jpg")\npayload = {\n    "messages": [{\n        "role": "user",\n        "content": [\n            {"type": "text", "text": "Descreva esta imagem em detalhes."},\n            {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_b64}"}},\n        ],\n    }],\n    "max_tokens": 1024,\n    "temperature": 0.2,\n}\nresponse = predictor.predict(payload)\nprint(response["choices"][0]["message"]["content"])

\n\n

Resumo de vídeo com raciocínio

\n

import base64\n\ndef encode_video(video_path):\n    with open(video_path, "rb") as f:\n        return base64.b64encode(f.read()).decode("utf-8")\n\nvideo_b64 = encode_video("meeting_recording.mp4")\npayload = {\n    "messages": [{\n        "role": "user",\n        "content": [\n            {"type": "video_url", "video_url": {"url": f"data:video/mp4;base64,{video_b64}"}},\n            {"type": "text", "text": "Resuma os principais pontos da discussão."},\n        ],\n    }],\n    "max_tokens": 20480,\n    "temperature": 0.6,\n    "top_p": 0.95,\n}\nresponse = predictor.predict(payload)\nprint(response["choices"][0]["message"]["content"])

\n\n

Transcrição e análise de áudio

\n

import base64\n\ndef encode_audio(audio_path):\n    with open(audio_path, "rb") as f:\n        return base64.b64encode(f.read()).decode("utf-8")\n\naudio_b64 = encode_audio("customer_call.wav")\npayload = {\n    "messages": [{\n        "role": "user",\n        "content": [\n            {"type": "audio_url", "audio_url": {"url": f"data:audio/wav;base64,{audio_b64}"}},\n            {"type": "text", "text": "Transcreva este áudio e identifique os principais itens de ação."},\n        ],\n    }],\n    "max_tokens": 1024,\n    "temperature": 0.2,\n}\nresponse = predictor.predict(payload)\nprint(response["choices"][0]["message"]["content"])

\n\n

Parâmetros recomendados para inferência

\n

O modelo oferece modos de inferência ajustados a diferentes demandas:

\n

\n

\n

\n

\n

\n

\n

\n

\n

Modo Temperatura top_p max_tokens Uso
Thinking 0.6 0.95 20480 Raciocínio complexo
Instruct 0.2 N/A 1024 Tarefas gerais, ASR

\n

O modo Thinking é indicado para tarefas que exigem raciocínio aprofundado, enquanto o modo Instruct proporciona respostas mais rápidas para transcrição e demandas simples.

\n\n

Considerações finais e links úteis

\n

Com a integração do NVIDIA Nemotron 3 Nano Omni ao Amazon SageMaker JumpStart, a AWS amplia as possibilidades para empresas desenvolverem agentes inteligentes multimodais com alta performance e menor complexidade operacional. A unificação de múltiplas modalidades em um único modelo acelera o desenvolvimento e reduz custos, abrindo espaço para soluções inovadoras em diversos setores.

\n

Para mais detalhes técnicos e acesso ao modelo, consulte a página oficial da NVIDIA Nemotron no Hugging Face.

\n\n

Links úteis

\n

Marcado:

Deixe um Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *