Home / Infraestrutura e Cloud / NVIDIA Nemotron 3 Ultra chega ao Amazon SageMaker JumpStart com inferência 5x mais rápida e custo 30% menor

NVIDIA Nemotron 3 Ultra chega ao Amazon SageMaker JumpStart com inferência 5x mais rápida e custo 30% menor

Lançamento do NVIDIA Nemotron 3 Ultra no Amazon SageMaker JumpStart

\n

A AWS anunciou a disponibilidade imediata do modelo NVIDIA Nemotron 3 Ultra na plataforma Amazon SageMaker JumpStart. Com uma experiência de implantação simplificada via um clique, essa novidade facilita o uso de um dos modelos de linguagem mais avançados para cargas de trabalho de inteligência artificial agentiva.

\n\n

O que é o NVIDIA Nemotron 3 Ultra?

\n

O Nemotron 3 Ultra é um modelo aberto de linguagem natural com 550 bilhões de parâmetros totais, dos quais 55 bilhões são ativados por inferência. Sua arquitetura híbrida Transformer-Mamba Mixture-of-Experts (MoE) foi projetada para oferecer inteligência de ponta com eficiência computacional superior, especialmente em tarefas que demandam raciocínio complexo e orquestração de agentes autônomos de longa duração.

\n

    \n

  • Velocidade de inferência: até 5 vezes mais rápido em workflows de agentes de longa duração
  • \n

  • Redução de custos: até 30% mais econômico para tarefas complexas e multi-etapas
  • \n

  • Formato otimizado: NVFP4, que torna a hospedagem do modelo mais rápida e custo-efetiva
  • \n

  • Contexto: suporta até 1 milhão de tokens, permitindo diálogos e raciocínios extensos
  • \n

\n\n

Para quem o Nemotron 3 Ultra é indicado?

\n

Este modelo é especialmente indicado para empresas e desenvolvedores que precisam de inteligência artificial capaz de manter raciocínio contínuo e multi-etapas, como:

\n

    \n

  • Orquestração de agentes que coordenam sub-agentes e gerenciam estados em cadeias de chamadas de ferramentas;
  • \n

  • Agentes de codificação que geram, testam, depuram e iteram código em grandes repositórios;
  • \n

  • Pesquisa avançada que sintetiza informações de múltiplas fontes mantendo coerência ao longo do contexto;
  • \n

  • Automação de processos empresariais complexos com ramificação de decisões e recuperação de erros.
  • \n

\n\n

Como acessar e implantar o Nemotron 3 Ultra no SageMaker JumpStart

\n

A implantação do modelo é simplificada e pode ser feita diretamente pelo SageMaker JumpStart, sem necessidade de configurar infraestrutura complexa. Veja os passos principais:

\n\n

Pré-requisitos

\n

    \n

  • Conta ativa na AWS com permissões apropriadas para SageMaker JumpStart;
  • \n

  • Quota suficiente para instâncias GPU compatíveis (exemplo: ml.p5en.48xlarge, ml.p5.48xlarge ou ml.g7e.48xlarge);
  • \n

  • Estar ciente dos custos envolvidos, pois endpoints em GPU podem gerar cobranças significativas enquanto ativos.
  • \n

\n\n

Passo a passo para deploy via SageMaker Studio

\n

    \n

  1. Acesse o Amazon SageMaker Studio;
  2. \n

  3. No painel lateral esquerdo, selecione SageMaker JumpStart;
  4. \n

  5. Procure por “Nemotron 3 Ultra”;
  6. \n

  7. Abra o cartão do modelo e clique em Deploy;
  8. \n

  9. Escolha o tipo de instância GPU desejada;
  10. \n

  11. Revise as configurações de implantação (as opções padrão atendem a maioria dos casos);
  12. \n

  13. Clique em Deploy e aguarde o status do endpoint ficar InService.
  14. \n

\n\n

Exemplo de deploy via SDK Python

\n

import sagemaker\nfrom sagemaker.jumpstart.model import JumpStartModel\n\nmodel = JumpStartModel(\n    model_id="huggingface-reasoning-nvidia-nemotron-3-ultra-550b-a55b-nvfp4",\n    role=sagemaker.get_execution_role()\n)\npredictor = model.deploy(accept_eula=True)\n

\n\n

Exemplo de inferência

\n

payload = {\n    "messages": [{ "role": "user", "content": "Divida esta tarefa em subtarefas, identifique quais ferramentas são necessárias e execute-as em sequência." }],\n    "max_tokens": 20480,\n    "temperature": 0.6,\n    "top_p": 0.95\n}\nresponse = predictor.predict(payload)\nprint(response["choices"][0]["message"]["content"])\n

\n\n

Importante: limpeza após uso

\n

Para evitar cobranças contínuas, exclua o endpoint após finalizar os testes:

\n

predictor.delete_endpoint()

\n\n

Impacto prático para usuários e empresas

\n

Com o Nemotron 3 Ultra, empresas ganham uma solução robusta para construir agentes autônomos que precisam realizar múltiplas etapas de raciocínio e execução sem perder coerência, tudo com menor custo e maior velocidade. Isso abre portas para automações mais inteligentes, eficientes e econômicas em áreas como desenvolvimento de software, pesquisa avançada e orquestração de processos complexos.

\n\n

Links úteis

\n

Marcado:

Deixe um Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *