Apresentação do NVIDIA Cosmos 3
\n
A NVIDIA lançou o Cosmos 3, o primeiro omni-modelo aberto que integra geração de mundos, raciocínio físico e geração de ações em um único modelo para aplicações de Inteligência Artificial Física (Physical AI). Disponível hoje na plataforma Hugging Face, o Cosmos 3 representa um avanço significativo nos chamados World Foundation Models (WFMs), simplificando o desenvolvimento de sistemas que simulam e compreendem o mundo físico.
\n\n
O Que Há de Novo no Cosmos 3?
\n
Diferentemente das versões anteriores, que exigiam múltiplos modelos especializados para tarefas como geração de mundos, compreensão de cenas e políticas de ação, o Cosmos 3 unifica todas essas funções em uma arquitetura baseada em Mixture-of-Transformers (MoT). Isso permite que o mesmo modelo realize, em uma única passagem, a geração de vídeos realistas e fisicamente plausíveis a partir de textos, imagens ou vídeos; o raciocínio sobre propriedades físicas como movimento e causalidade; e a predição de sequências futuras de vídeo e ação.
\n

\n\n
Arquitetura e Modelos Disponíveis
\n
O Cosmos 3 processa múltiplas modalidades — texto, imagem, vídeo, áudio e ação — por meio de codificadores dedicados que projetam os dados para um espaço de representação compartilhado. A sequência de entrada é dividida em subsequências autoregressivas (para raciocínio) e de difusão (para geração), que interagem via atenção conjunta. Essa estrutura permite ao modelo alternar entre funções como gerador de vídeo, modelo de dinâmica e política robótica sem alterar a arquitetura.
\n
- \n
- Cosmos 3 Nano: modelo com 8 bilhões de parâmetros, otimizado para inferência eficiente em GPUs como RTX PRO 6000. Disponível em Hugging Face.
- Cosmos 3 Super: modelo com 32 bilhões de parâmetros, indicado para geração de dados sintéticos em larga escala e pesquisa, rodando em GPUs NVIDIA Hopper e Blackwell. Disponível em Hugging Face.
\n
\n
\n\n
Principais Capacidades do Cosmos 3
\n
O modelo suporta entradas e saídas multimodais, com aplicações diversas:
\n
- \n
- Entrada: texto, imagem, vídeo, ação
- Saída: vídeo, texto, ação
\n
\n
\n
Por exemplo, pode gerar vídeos a partir de descrições textuais detalhadas, raciocinar sobre vídeos para gerar textos explicativos, ou produzir sequências de ação para robótica e simulações de veículos autônomos.
\n\n
Exemplo de Prompt para Geração de Vídeo
\n
Para obter vídeos realistas, recomenda-se usar descrições narrativas detalhadas, como:
\n

\n
A cena começa com uma visão interna de um veículo trafegando em uma rodovia de várias faixas sob um céu azul claro. Árvores verdes densas cercam a estrada, criando um ambiente tranquilo. Vários veículos, incluindo um caminhão branco e carros, mantêm velocidade constante. De repente, detritos aparecem na pista, e o veículo precisa ultrapassá-los, causando um solavanco perceptível.
\n\n
Como Usar Cosmos 3 com a Biblioteca Diffusers
\n
O Cosmos 3 está integrado à biblioteca Diffusers da Hugging Face, facilitando a geração por meio de pipelines simples em Python. Veja um exemplo para geração de imagem a partir de texto com o modelo Cosmos 3 Nano:
\n
import torch\nfrom diffusers import Cosmos3OmniPipeline\n\npipe = Cosmos3OmniPipeline.from_pretrained(\n "nvidia/Cosmos3-Nano",\n torch_dtype=torch.bfloat16,\n device_map="cuda"\n)\nprompt = (\n "Um laboratório moderno de pesquisa em robótica, com paredes brancas e piso cinza. "\n "Um braço robótico metálico está montado sobre uma bancada limpa, posicionado acima de objetos coloridos. "\n "Um laptop e ferramentas organizadas estão ao lado. Um monitor grande exibe uma interface de software. "\n "A cena é iluminada por luz fluorescente.")\n\nresult = pipe(prompt=prompt, num_frames=1, height=720, width=1280)\nresult.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)
\n
Além de texto para imagem, a documentação oferece exemplos para texto para vídeo, imagem para vídeo e outras combinações multimodais.
\n\n
Conjuntos de Dados Sintéticos para IA Física
\n
Junto com o lançamento, a NVIDIA disponibilizou diversos conjuntos de dados de geração sintética (SDG) para treinamento e avaliação de modelos de IA física, acessíveis via Hugging Face. Entre eles:
\n
- \n
- Embodied-Robot-Scenes: simulações robóticas
- Physical-Interaction-Scenes: simulações físicas com Isaac Sim
- Spatial-Reasoning: dados para raciocínio espacial incorporado
- Digital-Human-Scenes: movimentos humanos sintéticos
- Autonomous-Driving-Scenarios: simulações de direção autônoma
- Warehouse-Operations-Scenes: cenários de segurança em armazéns
\n
\n
\n
\n
\n
\n
\n\n
Cosmos Framework: Treinamento e Implantação
\n
Para facilitar o uso avançado, o Cosmos Framework oferece ferramentas para treinamento pós-lançamento, scripts de inferência e habilidades de agente para acelerar o desenvolvimento. O modelo pode ser adaptado para diferentes robôs, ambientes e tarefas por meio de pós-treinamento, conforme orientações disponíveis no repositório.
\n\n
Disponibilidade e Preços
\n
Os modelos Cosmos 3 Nano e Super estão disponíveis gratuitamente para acesso via Hugging Face, mediante cadastro em https://huggingface.co/join. O uso comercial e em larga escala pode envolver custos conforme o plano da Hugging Face, detalhado em https://huggingface.co/pricing.
\n\n
Links Úteis
\n
