Tag: visao-computacional

Como Tornar Imagens de PDFs PesquisÃ¡veis para RAG Sem Gastar com Todas Elas

Este artigo de Kezhan Shi, publicado no Towards Data Science, apresenta uma abordagem inteligente para tornar imagens de PDFs pesquisÃ¡veis em sistemas RAG â€” sem gastar dinheiro lendo todas elas.

A sÃ©rie “Enterprise Document Intelligence” constrÃ³i um sistema RAG empresarial a partir de quatro blocos fundamentais. Neste quinto volume, o foco estÃ¡ em processar imagens de documentos de forma econÃ´mica, usando uma cascata ordenada por custo: um filtro barato, uma verificaÃ§Ã£o de tipo, OCR clÃ¡ssico e, por Ãºltimo, um modelo de visÃ£o.

O problema: nem toda imagem vale a pena

O reflexo natural seria jogar um modelo de visÃ£o em cada imagem do PDF e seguir em frente. Mas essa Ã© a abordagem errada. Um documento real estÃ¡ cheio de imagens que ninguÃ©m pesquisaria: o logotipo da empresa em cada pÃ¡gina, Ãcones minÃºsculos, linhas divisÃ³rias, marcas d’Ã¡gua. Processar tudo com modelos caros Ã© desperdÃcio de dinheiro e de latÃªncia.

A cascata de custo

A soluÃ§Ã£o proposta funciona em trÃªs etapas, da mais barata para a mais cara:

1. Filtro gratuito: eliminar o ruÃdo

Antes de qualquer chamada de modelo, um filtro analisa sinais jÃ¡ disponÃveis no dataframe de imagens e algumas estatÃsticas de pixel:

Tamanho mÃnimo: imagens com poucos pixels ou Ã¡rea muito pequena sÃ£o Ãcones ou bullets, nÃ£o figuras. Removidas.
ProporÃ§Ã£o suspeita: imagens muito longas e finas sÃ£o linhas ou divisores. Fora.
RepetiÃ§Ã£o entre pÃ¡ginas: o mesmo hash de conteÃºdo aparecendo na maioria das pÃ¡ginas Ã© “chrome” â€” logotipo, cabeÃ§alho, rodapÃ©. Descartado.

Em um relatÃ³rio tÃpico, sÃ³ essa etapa remove a grande maioria das imagens antes de qualquer modelo rodar. O que sobra sÃ£o as poucas que realmente carregam significado.

2. ClassificaÃ§Ã£o por tipo

As imagens que sobrevivem ao filtro nÃ£o sÃ£o todas lidas da mesma forma. Uma captura de tela de tabela Ã© texto â€” OCR clÃ¡ssico resolve. Um grÃ¡fico de linhas nÃ£o Ã© texto â€” seu significado estÃ¡ nos eixos e na forma visual.

A classificaÃ§Ã£o usa sinais baratos de pixel: variaÃ§Ã£o, saturaÃ§Ã£o, proporÃ§Ã£o de fundo branco, densidade de bordas:

Painel em branco: dispersÃ£o de pixel baixa â†’ pular (sem custo)
Imagem de texto: baixa saturaÃ§Ã£o, estrutura de traÃ§os, fundo branco â†’ OCR clÃ¡ssico (barato)
Imagem visual: saturada, sem margens brancas â†’ modelo de visÃ£o (caro)

O classificador Ã© deliberadamente conservador: na dÃºvida, manda para o modelo de visÃ£o. Um OCR perdido custa uma chamada de visÃ£o; um OCR executado em um diagrama retorna labels soltos e lixo.

3. AÃ§Ã£o por tipo

Tipo de imagem	AÃ§Ã£o	Custo
Muito pequena / formato estranho / repetida	Descartar	Zero
Painel em branco / uniforme	Pular	Zero
Imagem de texto (tabela, scan)	OCR clÃ¡ssico	Baixo
Imagem visual (grÃ¡fico, foto)	Modelo de visÃ£o	Alto

A escolha de design mais importante

O artigo destaca dois princÃpios fundamentais:

Logotipos sÃ£o pegos pelo filtro de repetiÃ§Ã£o, nÃ£o pelo classificador: um logotipo pode ter duas cores chapadas ou ser uma marca d’Ã¡gua colorida. Tentar detectar logo por aparÃªncia Ã© frÃ¡gil. Mas um logo Ã© “chrome” porque se repete em todas as pÃ¡ginas â€” e isso o filtro jÃ¡ captura.
O classificador nÃ£o tenta ser inteligente demais: classificar grÃ¡fico vs. diagrama vs. foto com sinais baratos nÃ£o Ã© confiÃ¡vel. EntÃ£o o classificador sÃ³ desvia imagens para OCR quando tem certeza absoluta de que Ã© texto. Todo o resto vai para o modelo de visÃ£o. O viÃ©s Ã© assimÃ©trico de propÃ³sito.

Por que isso importa

Para quem constrÃ³i sistemas RAG empresariais, este artigo oferece um roteiro prÃ¡tico para processar documentos PDF sem desperdÃcio. A lÃ³gica da cascata â€” comeÃ§ar pelo mÃ©todo mais barato e sÃ³ escalar quando necessÃ¡rio â€” Ã© um padrÃ£o que vale para muito alÃ©m de processamento de documentos.

O artigo completo, com implementaÃ§Ãµes em Python e exemplos de cÃ³digo, estÃ¡ disponÃvel no Towards Data Science.

20 de junho de 2026

Zyphra LanÃ§a Zamba2-VL: Modelos de VisÃ£o-Linguagem HÃbridos que Reduzem LatÃªncia em Uma Ordem de Magnitude

A Zyphra acaba de abrir o cÃ³digo do Zamba2-VL, uma famÃlia de modelos de visÃ£o-linguagem (VLMs) que combina camadas state-space Mamba2 com blocos Transformer compartilhados. DisponÃvel em trÃªs tamanhos â€” 1.2B, 2.7B e 7B parÃ¢metros â€” sob licenÃ§a Apache 2.0, o grande diferencial estÃ¡ na velocidade: o tempo atÃ© o primeiro token (TTFT) Ã© reduzido em cerca de uma ordem de magnitude em contextos visuais longos.

Arquitetura HÃbrida Mamba2-Transformer

Enquanto VLMs tradicionais usam atenÃ§Ã£o densa de Transformer â€” que escala quadraticamente com o comprimento da sequÃªncia â€” o Zamba2-VL adota uma abordagem mista:

Camadas Mamba2 (state-space): Carregam o grosso da computaÃ§Ã£o de forma barata, com complexidade near-linear e estado recorrente de tamanho fixo.
Blocos Transformer compartilhados: Preservam a capacidade de recuperaÃ§Ã£o em contexto que modelos puramente SSM perdem. Cada bloco de atenÃ§Ã£o carrega um adaptador LoRA Ãºnico por camada para adicionar expressividade.
Vision Encoder: Vision Transformer do Qwen2.5-VL, escolhido pelos embeddings posicionais rotativos 2D e processamento nativo de resoluÃ§Ã£o dinÃ¢mica.
Tokenizer: Mistral v0.1.

O modelo foi treinado com 100 bilhÃµes de tokens de dados visÃ£o-texto e texto puro de datasets web abertos.

“A atenÃ§Ã£o de Transformer escala quadraticamente com o comprimento da sequÃªncia. Inputs multimodais tornam sequÃªncias muito longas rapidamente. O Zamba2-VL evita o KV cache crescente da atenÃ§Ã£o, herdando prefill near-linear e estado recorrente de tamanho fixo.”

Performance em Benchmarks

O Zamba2-VL-2.7B foi avaliado em 14 benchmarks e mostra resultados competitivos, especialmente em tarefas de contagem visual:

Benchmark	Zamba2-VL-2.7B	Qwen3-VL-2B	InternVL3.5-2B
DocVQA	90.9	93.3	89.4
CountBenchQA	87.5	87.9	70.0
PixMoCount	82.5	55.7	32.8
ChartQA	79.6	78.7	81.6
MathVista	51.0	51.8	61.4
MMMU	37.7	40.9	49.9

Destaques: Performance excepcional em contagem visual â€” no PixMoCount, o modelo de 2.7B atinge 82.5 contra apenas 32.8 do InternVL3.5-2B. O modelo de 1.2B tambÃ©m impressiona com 62.5 no mesmo benchmark. Em compreensÃ£o de documentos (DocVQA), fica competitivo com 90.9.

LimitaÃ§Ãµes: Desempenho mais fraco em raciocÃnio pesado em conhecimento (MMMU, MathVista) e OCR (OCRBench) comparado aos lÃderes da categoria.

Vantagem de Velocidade

O principal argumento de venda Ã© a velocidade de inferÃªncia. Em um prefill de 32K tokens, nenhum VLM Transformer puro igualou a pontuaÃ§Ã£o do Zamba2-VL com latÃªncia similar. A diferenÃ§a Ã© mais dramÃ¡tica nos modelos menores (1.2B e 2.7B), mirando deployment on-device e edge.

Uma imagem de alta resoluÃ§Ã£o (~3.400 tokens) jÃ¡ mostra paridade computacional no prefill, mas com sequÃªncias mais longas (ex: PDFs de mÃºltiplas pÃ¡ginas, clipes de vÃdeo curtos), o design hÃbrido se torna dramaticamente mais barato â€” escalando O(n) contra O(nÂ²) dos Transformers puros.

Casos de Uso

ExtraÃ§Ã£o de documentos e formulÃ¡rios: Faturas, recibos â€” forte performance em DocVQA.
InventÃ¡rio e contagem visual: Destaque em PixMoCount e CountBenchQA para cenÃ¡rios de varejo.
Assistentes on-device: Baixo TTFT nos modelos de 1.2B e 2.7B para celulares e dispositivos edge.
Inputs visuais longos: PDFs de mÃºltiplas pÃ¡ginas e vÃdeos curtos se beneficiam do prefill linear.

Com este lanÃ§amento, a Zyphra demonstra que arquiteturas hÃbridas state-space/Transformer sÃ£o uma alternativa viÃ¡vel e eficiente para VLMs, especialmente quando latÃªncia e deployment em dispositivos sÃ£o prioridades.

12 de junho de 2026

Amazon Nova 2 Lite: DetecÃ§Ã£o de Objetos Simplificada com Amazon Bedrock e AWS Lambda
Amazon lanÃ§a Nova 2 Lite para detecÃ§Ã£o de objetos sem necessidade de treinamento

A Amazon anunciou o Amazon Nova 2 Lite, um modelo multimodal de base que permite a detecÃ§Ã£o de objetos em imagens por meio de prompts em linguagem natural, sem a necessidade de treinamento prÃ©vio. DisponÃvel atravÃ©s do Amazon Bedrock, o Nova 2 Lite oferece uma alternativa acessÃvel e escalÃ¡vel para equipes e empresas que precisam implementar visÃ£o computacional sem investimentos altos em infraestrutura e equipes especializadas.

Para quem Ã© e como acessar

O Amazon Nova 2 Lite Ã© ideal para pequenas e mÃ©dias empresas, desenvolvedores e times que buscam implementar soluÃ§Ãµes de detecÃ§Ã£o de objetos em setores como manufatura, agricultura e logÃstica. O serviÃ§o estÃ¡ disponÃvel nas regiÃµes onde o Amazon Bedrock Ã© oferecido e pode ser acessado via API, eliminando a necessidade de gerenciar infraestrutura ou treinar modelos.

Para comeÃ§ar, Ã© necessÃ¡rio ter uma conta AWS com permissÃµes para acessar o Amazon Bedrock e o modelo Nova 2 Lite. O desenvolvimento pode ser feito com Python 3.8 ou superior, utilizando o AWS SDK (Boto3) e a biblioteca Pillow para manipulaÃ§Ã£o de imagens.

Como funciona a detecÃ§Ã£o de objetos com Amazon Nova 2 Lite

O processo de detecÃ§Ã£o utiliza uma arquitetura serverless que combina Amazon Bedrock, AWS Lambda e Amazon API Gateway. O fluxo consiste em quatro etapas principais:
1. Engenharia do prompt: elaboraÃ§Ã£o de prompts detalhados em linguagem natural para especificar os objetos a serem detectados e o formato JSON esperado na resposta.
2. Chamada ao Amazon Bedrock: invocaÃ§Ã£o da API Converse do Bedrock para enviar a imagem e o prompt ao modelo Nova 2 Lite, que retorna coordenadas normalizadas dos objetos detectados.
3. Processamento das coordenadas: conversÃ£o das coordenadas normalizadas (escala 0-1000) para posiÃ§Ãµes em pixels conforme as dimensÃµes da imagem.
4. VisualizaÃ§Ã£o: renderizaÃ§Ã£o das caixas delimitadoras sobre a imagem original para validaÃ§Ã£o dos resultados.
O modelo retorna os dados estruturados em JSON, contendo as coordenadas dos bounding boxes para cada objeto identificado, o que facilita a integraÃ§Ã£o com sistemas existentes.

Exemplo prÃ¡tico: detecÃ§Ã£o em cenas urbanas

Em um exemplo aplicado, o Nova 2 Lite foi capaz de detectar veÃculos e placas de pare em uma imagem de rua sem qualquer treinamento adicional. A precisÃ£o foi alta mesmo para objetos pequenos, distantes ou parcialmente ocultos, demonstrando a eficÃ¡cia do modelo em reconhecer categorias genÃ©ricas apenas a partir de seus nomes.

Arquitetura e implantaÃ§Ã£o na nuvem

O modelo Ã© acessado por meio do Amazon Bedrock Converse API, que pode ser integrado a diversos serviÃ§os AWS conforme a necessidade do cliente:
- AWS Lambda: para cargas de trabalho orientadas a eventos e endpoints API, com escalabilidade automÃ¡tica e custo por invocaÃ§Ã£o.
- Amazon EC2: para maior controle do ambiente e processos de longa duraÃ§Ã£o.
- Amazon ECS/EKS: para implantaÃ§Ãµes baseadas em containers com escalabilidade automÃ¡tica.
Uma aplicaÃ§Ã£o web serverless de exemplo foi desenvolvida, utilizando Amazon CloudFront para distribuiÃ§Ã£o global, Amazon S3 para armazenamento, API Gateway para roteamento e Lambda para orquestraÃ§Ã£o da chamada ao modelo e processamento dos resultados.

Custos estimados e modelo de pagamento

O Amazon Bedrock cobra por tokens de entrada e saÃda, com valores aproximados de $0,0003 por mil tokens de entrada e $0,0025 por mil tokens de saÃda. Uma imagem tÃpica gera cerca de 230 tokens de entrada e 200 tokens de saÃda, resultando em um custo aproximado de $0,00057 por imagem processada. AWS Lambda e API Gateway sÃ£o cobrados conforme uso, com valores mÃnimos para testes.

AplicaÃ§Ãµes prÃ¡ticas em diferentes setores
- Manufatura: inspeÃ§Ã£o automatizada para identificar defeitos como riscos, amassados e ferrugem em peÃ§as metÃ¡licas, reduzindo custos com retrabalho.
- Agricultura de precisÃ£o: monitoramento com drones para detectar folhas doentes, danos por pragas e fungos, otimizando o uso de defensivos agrÃcolas e prevenindo perdas.
- LogÃstica e fulfillment: identificaÃ§Ã£o automÃ¡tica de embalagens danificadas, itens fora do lugar e equipamentos de seguranÃ§a, garantindo qualidade e conformidade operacional.
Como testar e implantar sua soluÃ§Ã£o

O cÃ³digo-fonte completo da aplicaÃ§Ã£o de exemplo estÃ¡ disponÃvel no repositÃ³rio GitHub da AWS. A implantaÃ§Ã£o pode ser feita pelo AWS CLI e AWS CDK, bastando ter acesso ao Amazon Bedrock e permissÃµes configuradas.

ApÃ³s a implantaÃ§Ã£o, a aplicaÃ§Ã£o permite enviar imagens e especificar os objetos a serem detectados via interface web, retornando imagens anotadas com as caixas delimitadoras dos objetos identificados.

Links Ãºteis
2 de junho de 2026
SenseTime lanÃ§a modelo de IA para imagens otimizado para chips chineses e de cÃ³digo aberto
A SenseTime, gigante chinesa de inteligÃªncia artificial conhecida por sua tecnologia de reconhecimento facial, lanÃ§ou recentemente o SenseNova U1, um modelo aberto de geraÃ§Ã£o e interpretaÃ§Ã£o de imagens que promete velocidade superior aos principais concorrentes dos Estados Unidos.

O que Ã© o SenseNova U1 e o que muda no mercado?

O SenseNova U1 Ã© um modelo de IA que pode gerar e interpretar imagens diretamente, sem precisar converter as imagens em texto antes do processamento. Essa inovaÃ§Ã£o acelera o processo e reduz a necessidade de grande poder computacional, um diferencial importante frente aos modelos tradicionais.

Imagem de apoio da materia original.

Dahua Lin, cofundador e cientista-chefe da SenseTime, explicou ao WIRED que o modelo realiza o raciocÃnio tanto com imagens quanto com texto, o que abre possibilidades para que robÃ´s compreendam melhor o mundo fÃsico e tomem decisÃµes mais rÃ¡pidas e precisas em ambientes complexos.

Compatibilidade e otimizaÃ§Ã£o para chips chineses

Uma das grandes novidades do SenseNova U1 Ã© a otimizaÃ§Ã£o para rodar em chips produzidos por fabricantes chineses, como Cambricon e Biren Technology. No dia do lanÃ§amento, dez empresas chinesas de semicondutores anunciaram que seus hardwares sÃ£o compatÃveis com o modelo.

Essa estratÃ©gia Ã© crucial diante das restriÃ§Ãµes impostas pelos Estados Unidos que limitam o acesso de empresas chinesas Ã s tecnologias de chips avanÃ§ados, especialmente para treinamento de IA. Assim, a SenseTime reforÃ§a sua independÃªncia tecnolÃ³gica e aposta em hardware domÃ©stico para acelerar o desenvolvimento.

Disponibilidade, acesso e impacto prÃ¡tico

O SenseNova U1 foi disponibilizado gratuitamente em plataformas de cÃ³digo aberto como Hugging Face e GitHub. A abertura do cÃ³digo permite que pesquisadores e desenvolvedores de todo o mundo testem, aprimorem e adaptem o modelo, impulsionando a inovaÃ§Ã£o colaborativa e acelerando o ciclo de melhorias.

Imagem de apoio da materia original.

AlÃ©m disso, o tamanho compacto do modelo possibilita sua execuÃ§Ã£o em PCs e atÃ© smartphones, ampliando seu uso em diferentes cenÃ¡rios, desde aplicaÃ§Ãµes industriais atÃ© dispositivos pessoais.

Contexto e desafios da SenseTime

Fundada em 2014, a SenseTime liderou o setor de visÃ£o computacional na China, mas perdeu terreno para startups mais recentes focadas em processamento de linguagem natural, como DeepSeek e MiniMax. O lanÃ§amento do SenseNova U1 representa uma tentativa de recuperaÃ§Ã£o, apostando na velocidade de iteraÃ§Ã£o e na comunidade open source para acelerar o desenvolvimento.

Vale destacar que a empresa enfrenta sanÃ§Ãµes dos EUA devido a alegaÃ§Ãµes relacionadas ao uso de sua tecnologia em sistemas de vigilÃ¢ncia na regiÃ£o de Xinjiang, o que restringe investimentos e fornecimento de tecnologia americana. A aposta em chips chineses e em software aberto Ã© uma resposta estratÃ©gica a esse cenÃ¡rio.

Perspectivas para robÃ³tica e aplicaÃ§Ãµes futuras

A capacidade do modelo de entender imagens diretamente Ã© vista como uma vantagem para robÃ³tica, onde o processamento rÃ¡pido e preciso de informaÃ§Ãµes visuais Ã© essencial para a tomada de decisÃ£o em ambientes dinÃ¢micos. A SenseTime colabora com startups como a ACE Robotics para desenvolver aplicaÃ§Ãµes prÃ¡ticas dessa tecnologia.

Links Ãºteis
29 de abril de 2026
Nvidia lanÃ§a Nemotron 3 Nano Omni para impulsionar agentes de IA corporativos multimodais
ExpansÃ£o da Nvidia alÃ©m do hardware para agentes de IA empresariais

A Nvidia anunciou recentemente o lanÃ§amento do Nemotron 3 Nano Omni, um modelo aberto multimodal que integra visÃ£o, fala e linguagem com o objetivo de acelerar e aprimorar a eficiÃªncia dos agentes de inteligÃªncia artificial em ambientes corporativos. Esse lanÃ§amento marca um movimento estratÃ©gico da empresa para ampliar sua presenÃ§a no mercado de IA para alÃ©m do seu jÃ¡ consolidado domÃnio em hardware, especialmente GPUs.

CaracterÃsticas tÃ©cnicas e inovaÃ§Ãµes do Nemotron 3 Nano Omni

O Nemotron 3 Nano Omni Ã© a Ãºltima versÃ£o da famÃlia de modelos open source da Nvidia. Diferentemente de abordagens que demandam modelos separados para vÃdeo, Ã¡udio, imagem e texto, este modelo unifica os encoders de visÃ£o e Ã¡udio dentro de uma arquitetura mixture-of-experts com 30 bilhÃµes de parÃ¢metros. Essa combinaÃ§Ã£o resulta em maior throughput, reduzindo custos e melhorando a eficiÃªncia na inferÃªncia, segundo a Nvidia.

Imagem de apoio da materia original.

AlÃ©m disso, o modelo foi projetado para lidar com mÃºltiplas modalidades simultaneamente, permitindo que agentes de IA compreendam e raciocinem sobre dados visuais e auditivos de forma integrada. Isso facilita a construÃ§Ã£o de agentes capazes de respostas mais rÃ¡pidas e inteligentes.

Contexto de mercado e estratÃ©gia da Nvidia

Embora a Nvidia mantenha lideranÃ§a no mercado de hardware para IA, seus principais clientes, como Google, Microsoft e AWS, estÃ£o desenvolvendo seus prÃ³prios chips, buscando reduzir dependÃªncia de fornecedores externos. Outros players, como OpenAI, tÃªm parceria com concorrentes da Nvidia, enquanto clientes internacionais, como a DeepSeek na China, migram para fabricantes locais como a Huawei.

Imagem de apoio da materia original.

Diante desse cenÃ¡rio, a Nvidia aposta no fortalecimento de seu portfÃ³lio de modelos e serviÃ§os abertos para manter sua relevÃ¢ncia e ampliar sua atuaÃ§Ã£o no ecossistema de IA corporativa. A integraÃ§Ã£o do Nemotron 3 Nano Omni com outros modelos e sistemas Nvidia cria um ambiente mais controlado e eficiente para o desenvolvimento e operaÃ§Ã£o de agentes inteligentes.

AplicaÃ§Ãµes prÃ¡ticas do Nemotron 3 Nano Omni
- Agentes de uso computacional: O modelo alimenta o loop de percepÃ§Ã£o para agentes que navegam e interpretam o conteÃºdo da tela do computador.
- InteligÃªncia documental: Capaz de interpretar documentos, grÃ¡ficos, tabelas e capturas de tela, combinando conteÃºdo visual e textual para raciocÃnio avanÃ§ado.
- CompreensÃ£o de Ã¡udio e vÃdeo: MantÃ©m o contexto de mÃºltiplas modalidades para anÃ¡lise integrada em fluxos de raciocÃnio Ãºnicos.
Desafios e perspectivas para o uso do modelo

Apesar do potencial, existem dÃºvidas sobre o alcance do Nemotron 3 Nano Omni, principalmente se ele serÃ¡ adotado por grandes clientes hyperscale, que frequentemente possuem seus prÃ³prios aceleradores e infraestruturas. AlÃ©m disso, embora o modelo seja open source com pesos, tÃ©cnicas de treinamento e conjuntos de dados disponibilizados, seu uso fora do ambiente integrado Nvidia pode ser limitado.

Entretanto, especialistas apontam que a abertura do modelo deve estimular desenvolvedores a testÃ¡-lo e integrÃ¡-lo em suas soluÃ§Ãµes, o que pode fortalecer a adoÃ§Ã£o da Nvidia como parceira de infraestrutura para IA.

Links Ãºteis
28 de abril de 2026
NVIDIA Nemotron 3 Nano Omni: InteligÃªncia Multimodal para Documentos, Ãudio e VÃdeo em Contextos Longos
A NVIDIA lanÃ§ou o Nemotron 3 Nano Omni, um modelo de inteligÃªncia artificial multimodal projetado para entender e processar documentos complexos, Ã¡udio e vÃdeo com longos contextos. Esta nova geraÃ§Ã£o amplia a linha Nemotron, que antes focava em visÃ£o e linguagem, para integrar texto, imagens, vÃdeos e Ã¡udio em uma Ãºnica arquitetura avanÃ§ada.

O que Ã© o Nemotron 3 Nano Omni?

Trata-se de um modelo omni-modal desenvolvido para aplicaÃ§Ãµes reais que demandam anÃ¡lise detalhada de documentos, reconhecimento automÃ¡tico de fala, compreensÃ£o de conteÃºdos audiovisuais extensos, uso autÃ´nomo em ambientes computacionais e raciocÃnio multimodal geral. Ele oferece alta precisÃ£o em benchmarks de inteligÃªncia documental, como OCRBenchV2 e MMlongbench-Doc, alÃ©m de liderar rankings em entendimento de vÃdeo e Ã¡udio, como os benchmarks WorldSense e DailyOmni. No reconhecimento de voz, destacou-se no VoiceBench e Ã© o modelo aberto mais eficiente em termos de custo para vÃdeo no MediaPerf.

Imagem de apoio da materia original.

Arquitetura e inovaÃ§Ãµes tÃ©cnicas

O Nemotron 3 Nano Omni combina um backbone hÃbrido Mamba-Transformer Mixture-of-Experts (MoE) com encoders especializados para visÃ£o (C-RADIOv4-H) e Ã¡udio (Parakeet-TDT-0.6B-v2). Essa arquitetura foi projetada para preservar detalhes visuais finos, incorporar compreensÃ£o nativa de Ã¡udio e escalar para contextos multimodais muito longos, essenciais para documentos densos, vÃdeos e raciocÃnios que envolvem mÃºltiplas modalidades.
- Backbone hÃbrido: intercalando 23 camadas Mamba para processamento eficiente de contexto longo, 23 camadas MoE com 128 especialistas e 6 camadas de atenÃ§Ã£o agrupada para manter interaÃ§Ã£o global forte.
- ResoluÃ§Ã£o dinÃ¢mica: processamento de imagens com resoluÃ§Ã£o variÃ¡vel, de 1.024 a 13.312 patches visuais por imagem, permitindo lidar com documentos complexos, tabelas e layouts de interface grÃ¡fica com alta fidelidade.
- CompressÃ£o temporal Conv3D para vÃdeo: fusÃ£o de pares de frames em “tubelets” para reduzir tokens e aumentar eficiÃªncia no processamento de vÃdeo.
- EVS (Efficient Video Sampling): tÃ©cnica que elimina tokens redundantes durante a inferÃªncia para melhorar desempenho sem perda de precisÃ£o.
- Ãudio nativo: o modelo processa Ã¡udio diretamente, nÃ£o apenas transcriÃ§Ãµes, suportando atÃ© 20 minutos de Ã¡udio contÃnuo e contextos de linguagem com mais de 5 horas, fundamental para anÃ¡lises multimodais sincronizadas.
Treinamento e desempenho

O treinamento do Nemotron 3 Nano Omni envolve mÃºltiplas etapas: alinhamento multimodal, extensÃ£o de contexto, otimizaÃ§Ã£o por preferÃªncias e aprendizado por reforÃ§o multimodal. A infraestrutura usada inclui clusters NVIDIA H100 e frameworks como Megatron-LM, Transformer Engine e NeMo-RL.

Imagem de apoio da materia original.

Em termos de desempenho, o modelo oferece atÃ© 9 vezes maior throughput e quase 3 vezes mais velocidade em raciocÃnio single-stream em cenÃ¡rios multimodais, em comparaÃ§Ã£o com alternativas abertas similares.

Casos de uso prÃ¡ticos
1. AnÃ¡lise de documentos reais: capaz de interpretar documentos extensos e complexos, como contratos, relatÃ³rios financeiros com mais de 100 pÃ¡ginas, manuais tÃ©cnicos, formulÃ¡rios e pacotes de conformidade, entendendo layout, tabelas, fÃ³rmulas e referÃªncias cruzadas.
2. Reconhecimento automÃ¡tico de fala: transcriÃ§Ã£o robusta em ambientes com mÃºltiplos falantes, sotaques variados e ruÃdos de fundo, integrada a fluxos que combinam Ã¡udio com outras modalidades para sumarizaÃ§Ã£o e perguntas e respostas.
3. CompreensÃ£o de Ã¡udio e vÃdeo longos: anÃ¡lise conjunta de imagens e Ã¡udio em vÃdeos corporativos, tutoriais, reuniÃµes, demonstraÃ§Ãµes de produtos e arquivos de vÃdeo extensos.
4. Uso autÃ´nomo em interfaces grÃ¡ficas: interpretaÃ§Ã£o de capturas de tela, monitoramento do estado da interface e auxÃlio em seleÃ§Ã£o de aÃ§Ãµes ou automaÃ§Ã£o de fluxos de trabalho.
5. RaciocÃnio multimodal geral: sÃntese e anÃ¡lise complexa envolvendo mÃºltiplas modalidades e evidÃªncias estruturadas para respostas coerentes e fundamentadas.
Exemplos de fluxos de trabalho

Entre os exemplos demonstrados estÃ£o:
- AnÃ¡lise de documentos multi-pÃ¡gina: extraÃ§Ã£o e cÃ¡lculo de mÃ©tricas financeiras de relatÃ³rios com mais de 100 pÃ¡ginas, combinando leitura de tabelas, grÃ¡ficos e textos.
- Entendimento conjunto de vÃdeo e Ã¡udio: responder perguntas detalhadas sobre cenas especÃficas e narraÃ§Ã£o, como identificar estruturas em chamas e descrever visuais associados a relatos.
- Uso agentivo em computaÃ§Ã£o: integraÃ§Ã£o com sistemas que interpretam instruÃ§Ãµes e capturas de tela para executar tarefas automatizadas em ambientes grÃ¡ficos.
Disponibilidade e recursos para desenvolvedores

Os checkpoints do modelo estÃ£o disponÃveis para download no HuggingFace nos formatos BF16, FP8 e NVFP4. A NVIDIA tambÃ©m disponibiliza documentaÃ§Ã£o completa, receitas de pipeline, repositÃ³rios de cÃ³digo e relatÃ³rios detalhados para quem deseja explorar a arquitetura, os dados de treinamento e os benchmarks do Nemotron 3 Nano Omni.

Links Ãºteis
28 de abril de 2026
RobÃ´ Ace supera jogadores de elite no tÃªnis de mesa e avanÃ§a robÃ³tica para ambientes reais
O robÃ´ Ace, desenvolvido pela Sony AI, alcanÃ§ou um marco inÃ©dito ao derrotar alguns dos melhores jogadores profissionais de tÃªnis de mesa em partidas recentes. Esta conquista representa um avanÃ§o significativo para sistemas de inteligÃªncia artificial (IA) capazes de atuar em ambientes reais, rÃ¡pidos e imprevisÃveis.

Desempenho do robÃ´ Ace contra atletas experientes

Em testes realizados em 2025, o Ace venceu trÃªs de cinco partidas contra atletas de elite, que possuem mais de dez anos de experiÃªncia e treinam, em mÃ©dia, 20 horas semanais. Embora tenha perdido duas partidas contra jogadores das ligas profissionais japonesas, o robÃ´ conseguiu vencer um jogo contra um deles, demonstrando um nÃvel competitivo impressionante.

Imagem de apoio da materia original.

Por que o tÃªnis de mesa Ã© um desafio para a inteligÃªncia artificial

O tÃªnis de mesa Ã© um dos esportes mais exigentes para robÃ´s, pois a bola pode atingir velocidades superiores a 20 metros por segundo, deixando menos de meio segundo para reaÃ§Ã£o. AlÃ©m disso, o efeito de giro da bola, que pode chegar a 9.000 rotaÃ§Ãµes por minuto, torna a trajetÃ³ria imprevisÃvel e complexa de ser interpretada.

Enquanto humanos interpretam o spin intuitivamente, essa caracterÃstica tem sido um desafio para sistemas robÃ³ticos anteriores, que muitas vezes simplificavam o jogo ao eliminar o efeito de giro ou restringir movimentos. Ace, no entanto, joga com equipamentos padrÃ£o, em mesas regulamentares, enfrentando adversÃ¡rios humanos que utilizam todo o repertÃ³rio de golpes.

InovaÃ§Ãµes tecnolÃ³gicas que permitem o desempenho do Ace

O sucesso do robÃ´ se apoia em trÃªs pilares principais:
- VisÃ£o avanÃ§ada: Ace utiliza trÃªs sensores de visÃ£o baseados em eventos, que capturam mudanÃ§as de luz em vez de imagens fixas, complementados por nove cÃ¢meras de alta velocidade para rastrear o ambiente e o adversÃ¡rio com precisÃ£o milimÃ©trica.
- DecisÃ£o em tempo real: O robÃ´ emprega aprendizado por reforÃ§o profundo, treinado em simulaÃ§Ãµes com milhÃµes de rallies virtuais, recalculando trajetÃ³rias a cada poucos milissegundos para gerar comandos contÃnuos ao seu braÃ§o robÃ³tico.
- ExecuÃ§Ã£o fÃsica rÃ¡pida e precisa: Seu braÃ§o robÃ³tico combina dois tipos de juntas para movimentos rÃ¡pidos e precisos, equipado com raquete e mecanismo para manuseio da bola, possibilitando saques com um braÃ§o sÃ³ e rebatidas em velocidades prÃ³ximas a 20 metros por segundo.
Superando o desafio da transiÃ§Ã£o do virtual para o real

Um dos grandes avanÃ§os do Ace Ã© a reduÃ§Ã£o da lacuna entre simulaÃ§Ã£o e realidade. Muitos sistemas de IA funcionam bem em ambientes virtuais, mas perdem desempenho diante do ruÃdo e da imprevisibilidade do mundo real. Ace mostrou capacidade de reagir instantaneamente a mudanÃ§as inesperadas, como quando a bola tocou a rede e mudou a trajetÃ³ria, conseguindo retornar o lance e vencer o ponto.

Imagem de apoio da materia original.

Impactos prÃ¡ticos para a robÃ³tica alÃ©m do esporte

Embora impressionante no tÃªnis de mesa, o potencial do Ace vai muito alÃ©m do esporte. Na indÃºstria, robÃ´s normalmente executam tarefas estruturadas, mas o desafio atual Ã© a adaptaÃ§Ã£o a objetos irregulares e ambientes nÃ£o controlados, como residÃªncias, hospitais e canteiros de obras.

As habilidades de previsÃ£o e resposta rÃ¡pida do Ace podem ser aplicadas para criar automaÃ§Ãµes mais flexÃveis e seguras, capazes de interagir com humanos sem barreiras de seguranÃ§a, algo ainda raro hoje em dia.

LimitaÃ§Ãµes atuais e o papel complementar da inteligÃªncia humana

Jogadores profissionais ainda exploram limitaÃ§Ãµes do Ace, como alcance, velocidade e a capacidade de lidar com golpes extremamente enganosos. Isso evidencia que a inteligÃªncia nÃ£o Ã© apenas prediÃ§Ã£o e controle, mas tambÃ©m integraÃ§Ã£o complexa entre percepÃ§Ã£o, movimento e estratÃ©gia, algo que os humanos fazem com maestria.

Curiosamente, robÃ´s como o Ace podem ampliar o desempenho humano, inspirando atletas a explorar novas possibilidades tÃ©cnicas, ao demonstrar que certas jogadas antes consideradas impossÃveis podem ser alcanÃ§adas.

Links Ãºteis
28 de abril de 2026
Sony apresenta Ace, robÃ´ de tÃªnis de mesa que vence jogadores profissionais
RobÃ´ Ace Ã© pioneiro em competir e vencer atletas de elite no tÃªnis de mesa

Desenvolvido pela divisÃ£o de inteligÃªncia artificial da Sony, o robÃ´ Ace representa um avanÃ§o significativo na robÃ³tica esportiva. Diferente de modelos anteriores, como o FOREPHUS da Omron, que competia apenas contra amadores, Ace Ã© o primeiro robÃ´ capaz de disputar partidas regulares de tÃªnis de mesa seguindo as regras oficiais da International Table Tennis Federation (ITTF) e vencer jogadores de alto nÃvel.

Desafios da integraÃ§Ã£o entre IA e robÃ³tica fÃsica

Enquanto a inteligÃªncia artificial jÃ¡ supera humanos em jogos abstratos como xadrez e Go, esportes fÃsicos como o tÃªnis de mesa apresentam desafios adicionais. Isso porque o robÃ´ precisa processar e reagir em tempo real a uma bola que se move em alta velocidade, com variaÃ§Ãµes de efeito que alteram sua trajetÃ³ria.

Imagem de apoio da materia original.

Para isso, Ace conta com um sistema mecÃ¢nico articulado com oito juntas que controlam o posicionamento e a orientaÃ§Ã£o da raquete, alÃ©m de permitir golpes potentes. A parte visual Ã© composta por um complexo conjunto de cÃ¢meras: nove cÃ¢meras tradicionais ao redor da mesa capturam a posiÃ§Ã£o da bola em trÃªs dimensÃµes, enquanto trÃªs sistemas de controle ocular medem a velocidade angular e o giro da bola para prever com precisÃ£o seu trajeto.

Resultados comprovados em competiÃ§Ãµes reais

Segundo estudo publicado na revista Nature, durante testes realizados em abril de 2025, Ace venceu trÃªs de cinco partidas contra atletas com mais de dez anos de treinamento e perdeu apenas para jogadores profissionais que atuam em ligas oficiais. Posteriormente, em dezembro de 2025 e nos meses seguintes, o robÃ´ continuou a superar profissionais do esporte, conforme reportado pela Reuters.

ImplicaÃ§Ãµes prÃ¡ticas e futuras aplicaÃ§Ãµes

O sucesso de Ace demonstra a capacidade da IA aliada Ã robÃ³tica avanÃ§ada de replicar e atÃ© superar habilidades humanas em esportes que exigem rapidez e precisÃ£o. Essa tecnologia pode influenciar treinamentos esportivos, desenvolvimento de robÃ´s assistentes e aprimoramento de sistemas de visÃ£o computacional em ambientes dinÃ¢micos.

Mais informaÃ§Ãµes e recursos
- Projeto desenvolvido pela divisÃ£o de IA da Sony: https://ace.ai.sony/
- Estudo completo publicado na revista Nature (acesso via bases cientÃficas)
- Reportagens e atualizaÃ§Ãµes sobre IA e robÃ³tica esportiva no The Verge: Fonte original
22 de abril de 2026
Google Photos revoluciona ediÃ§Ã£o com re-composiÃ§Ã£o 3D automÃ¡tica de fotos
O desafio das fotos “quase perfeitas”

Quantas vezes vocÃª olhou para uma foto no seu celular e desejou ter capturado o momento de um Ã¢ngulo diferente? Talvez um pouco mais da lateral do rosto, ou uma posiÃ§Ã£o da cÃ¢mera ligeiramente mais baixa para valorizar a cena. Ou ainda, um selfie com sorriso perfeito, mas com a distorÃ§Ã£o da lente grande-angular que altera a aparÃªncia natural.

AtÃ© agora, as ediÃ§Ãµes tradicionais â€” como corte e zoom â€” ajudam, mas nÃ£o solucionam o problema fundamental: a perspectiva da imagem permanece fixa e limitada ao que foi originalmente capturado. Zoomar nÃ£o altera o paralaxe e recortar nÃ£o revela o que ficou fora do enquadramento.

Imagem de apoio da materia original.

Uma soluÃ§Ã£o inovadora: re-composiÃ§Ã£o 3D com IA generativa

Pesquisadores do Google anunciaram uma nova abordagem para editar a perspectiva de fotos apÃ³s terem sido tiradas, jÃ¡ disponÃvel na funcionalidade Auto frame do Google Photos. Essa tecnologia usa modelos de aprendizado de mÃ¡quina para interpretar a foto como uma cena 3D, permitindo alterar automaticamente o posicionamento da cÃ¢mera dentro desse espaÃ§o tridimensional.

AlÃ©m de preservar o que estava visÃvel originalmente, o sistema gera conteÃºdo adicional oculto na imagem original, criando uma nova perspectiva autÃªntica do momento congelado no tempo.

Imagem de apoio da materia original.

Como funciona o mÃ©todo em duas etapas
1. Estimativa da cena 3D e parÃ¢metros da cÃ¢mera: Um modelo interno estima um mapa 3D de pontos para cada pixel, reconstruindo a geometria da cena, com foco especial em corpos e rostos humanos para evitar distorÃ§Ãµes que prejudiquem a identidade. Simultaneamente, o sistema estima a distÃ¢ncia focal e outros parÃ¢metros da cÃ¢mera original.
2. RenderizaÃ§Ã£o e preenchimento generativo: A partir do mapa 3D, a imagem Ã© re-renderizada com novos parÃ¢metros de cÃ¢mera, controlando posiÃ§Ã£o, orientaÃ§Ã£o e distÃ¢ncia focal. Como o mapa 3D Ã© incompleto, Ã¡reas ocultas aparecem como “buracos” na nova visÃ£o. Para preencher essas lacunas, um modelo generativo de difusÃ£o latente, treinado em pares de imagens com parÃ¢metros conhecidos, produz conteÃºdo coerente e faz ajustes finais para garantir naturalidade e fidelidade.
Ajustes automÃ¡ticos para retratos e correÃ§Ã£o de distorÃ§Ãµes

O sistema tambÃ©m usa modelos para detectar a posiÃ§Ã£o e orientaÃ§Ã£o 3D dos rostos principais na foto, calculando automaticamente os parÃ¢metros ideais da cÃ¢mera para melhorar o enquadramento, especialmente em retratos. AlÃ©m disso, corrige distorÃ§Ãµes comuns de lentes grande-angulares frontais, ajustando os parÃ¢metros virtuais da cÃ¢mera para restaurar proporÃ§Ãµes naturais e favorecer a aparÃªncia do sujeito, como se a foto tivesse sido tirada de uma distÃ¢ncia mais adequada.

Disponibilidade e integraÃ§Ã£o no Google Photos

Essa tecnologia estÃ¡ implementada no recurso Auto frame do Google Photos, disponÃvel para fotos que contenham pessoas. Os usuÃ¡rios podem acessar a imagem re-composicionada com o novo Ã¢ngulo de cÃ¢mera como uma opÃ§Ã£o adicional de ediÃ§Ã£o, tornando o processo simples e automÃ¡tico, com apenas uma aÃ§Ã£o.

Por que essa pesquisa importa no mundo real

Ao permitir que usuÃ¡rios alterem o ponto de vista de fotos jÃ¡ tiradas, o Google oferece uma soluÃ§Ã£o para o problema clÃ¡ssico das imagens “quase perfeitas” que nÃ£o podem ser refeitas. A combinaÃ§Ã£o de reconstruÃ§Ã£o 3D precisa com IA generativa possibilita uma ediÃ§Ã£o que preserva a autenticidade, respeitando a identidade e o contexto da cena. Isso amplia as possibilidades criativas e prÃ¡ticas para fotÃ³grafos amadores e profissionais, melhorando a qualidade das memÃ³rias digitais.

Links Ãºteis
22 de abril de 2026
Como rodar a demo Gemma 4 VLA no NVIDIA Jetson Orin Nano Super: guia completo
ApresentaÃ§Ã£o da Gemma 4 VLA no Jetson Orin Nano Super

A NVIDIA, em parceria com a Hugging Face, disponibilizou uma demonstraÃ§Ã£o da Gemma 4, um modelo multimodal com capacidade Visual Language Agent (VLA), rodando localmente no Jetson Orin Nano Super, uma placa compacta com GPU NVIDIA e 8 GB de RAM. Essa demo mostra a integraÃ§Ã£o de reconhecimento de voz, processamento do modelo de linguagem, visÃ£o computacional via webcam e sÃntese de voz, tudo em um dispositivo embarcado.

A inovaÃ§Ã£o estÃ¡ no fato de que a Gemma 4 decide autonomamente quando precisa usar a visÃ£o para responder a uma pergunta, capturando imagens da webcam, interpretando-as e incorporando essa informaÃ§Ã£o na resposta, sem depender de gatilhos fixos ou palavras-chave.

Requisitos e equipamentos necessÃ¡rios
- Hardware: NVIDIA Jetson Orin Nano Super (8 GB RAM), webcam USB (exemplo: Logitech C920), microfone USB integrado Ã webcam, alto-falante USB e teclado USB para controle (ex: pressionar tecla SPACE).
- Sistema operacional: Linux (distribuiÃ§Ã£o compatÃvel com Jetson).
- Softwares e bibliotecas: Python 3, pacotes bÃ¡sicos de sistema (git, cmake, build-essential, alsa-utils, pulseaudio-utils, v4l-utils, entre outros).
Passo a passo para instalaÃ§Ã£o e execuÃ§Ã£o da demo Gemma 4 VLA

1. Instalar pacotes bÃ¡sicos do sistema
```
sudo apt update
sudo apt install -y git build-essential cmake curl wget pkg-config \
python3-pip python3-venv python3-dev \
alsa-utils pulseaudio-utils v4l-utils psmisc 
ffmpeg libsndfile1
```
Esses pacotes cobrem ferramentas de compilaÃ§Ã£o, Ã¡udio, webcam e ambiente Python.

2. Configurar ambiente Python
```
python3 -m venv .venv
source .venv/bin/activate
pip install --upgrade pip
pip install opencv-python-headless onnx_asr kokoro-onnx soundfile huggingface-hub numpy
```
3. Otimizar uso de memÃ³ria RAM (opcional, mas recomendado)

Como o Jetson Orin Nano tem 8 GB, liberar RAM e adicionar swap ajuda a evitar erros de falta de memÃ³ria durante a execuÃ§Ã£o:
```
sudo fallocate -l 8G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
 echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

sudo systemctl stop docker 2>/dev/null || true
sudo systemctl stop containerd 2>/dev/null || true
pkill -f tracker-miner-fs-3 || true
pkill -f gnome-software || true
free -h
```
Feche tambÃ©m navegadores, IDEs e outros programas que consumam muita memÃ³ria.

4. Baixar e servir o modelo Gemma 4 com llama.cpp

Clone e compile o repositÃ³rio llama.cpp com suporte CUDA para melhor desempenho:
```
cd ~
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build \
  -DGGML_CUDA=ON \
  -DCMAKE_CUDA_ARCHITECTURES="87" \
  -DGGML_NATIVE=ON \
  -DCMAKE_BUILD_TYPE=Release
cmake --build build --config Release -j4
```
Depois, baixe o modelo e o arquivo de “vision projector”, imprescindÃvel para a funcionalidade visual:
```
mkdir -p ~/models && cd ~/models
wget -O gemma-4-E2B-it-Q4_K_M.gguf https://huggingface.co/unsloth/gemma-4-E2B-it-GGUF/resolve/main/gemma-4-E2B-it-Q4_K_M.gguf
wget -O mmproj-gemma4-e2b-f16.gguf https://huggingface.co/ggml-org/gemma-4-E2B-it-GGUF/resolve/main/mmproj-gemma4-e2b-f16.gguf
```
Inicie o servidor llama:
```
~/llama.cpp/build/bin/llama-server \
  -m ~/models/gemma-4-E2B-it-Q4_K_M.gguf \
  --mmproj ~/models/mmproj-gemma4-e2b-f16.gguf \
  -c 2048 \
  --image-min-tokens 70 --image-max-tokens 70 \
  --ubatch-size 512 --batch-size 512 \
  --host 0.0.0.0 --port 8080 \
  -ngl 99 --flash-attn on \
  --no-mmproj-offload --jinja -np 1
```
O parÃ¢metro -ngl 99 carrega todas as camadas do modelo na GPU para mÃ¡xima performance.

5. Identificar dispositivos de Ã¡udio e webcam

Liste microfones disponÃveis:
```
arecord -l
```
Liste os alto-falantes PulseAudio:
```
pactl list short sinks
```
Liste webcams:
```
v4l2-ctl --list-devices
```
Teste rÃ¡pido para gravaÃ§Ã£o e reproduÃ§Ã£o:
```
export MIC_DEVICE="plughw:3,0"
export SPK_DEVICE="alsa_output.usb-Generic_USB2.0_Device_20130100ph0-00.analog-stereo"
arecord -D "$MIC_DEVICE" -f S16_LE -r 16000 -c 1 -d 3 /tmp/test.wav
paplay --device="$SPK_DEVICE" /tmp/test.wav
```
OuÃ§a para confirmar que o Ã¡udio estÃ¡ funcionando.

6. Executar a demo Gemma 4 VLA

Com o servidor ativo, ative o ambiente Python e defina variÃ¡veis:
```
source .venv/bin/activate
export MIC_DEVICE="plughw:3,0"
export SPK_DEVICE="alsa_output.usb-Generic_USB2.0_Device_20130100ph0-00.analog-stereo"
export WEBCAM=0
export VOICE="af_jessica"
python3 Gemma4_vla.py
```
Pressione SPACE para iniciar a gravaÃ§Ã£o, fale sua pergunta e pressione SPACE novamente para parar. A Gemma 4 decide se precisa usar a webcam para responder, interpretando a imagem capturada e respondendo com contexto visual.

Como a Gemma 4 funciona na demo

O pipeline Ã© o seguinte:
- VocÃª fala â†’ Parakeet STT faz a transcriÃ§Ã£o localmente â†’ Gemma 4 recebe o texto e a definiÃ§Ã£o da ferramenta “look_and_answer”
- Se a pergunta requer visÃ£o, Gemma 4 aciona a captura da webcam para anÃ¡lise
- Gemma 4 responde usando o contexto visual e Kokoro TTS sintetiza a fala para o alto-falante
NÃ£o hÃ¡ palavras-chave ou lÃ³gica fixa; o modelo decide autonomamente quando usar a visÃ£o, graÃ§as ao suporte nativo a chamadas de ferramentas ativado pelo parÃ¢metro --jinja no servidor llama.

Alternativa para testar Gemma 4 em modo texto

Se quiser experimentar a Gemma 4 sem configurar Ã¡udio e webcam, existe uma imagem Docker pronta com llama.cpp compilado para Jetson Orin. Ela roda apenas em modo texto (sem visÃ£o):
```
sudo docker run -it --rm --pull always \
  --runtime=nvidia --network host \
  -v $HOME/.cache/huggingface:/root/.cache/huggingface \
  ghcr.io/nvidia-ai-iot/llama_cpp:latest-jetson-orin \
  llama-server -hf unsloth/gemma-4-E2B-it-GGUF:Q4_K_S
```
Depois, basta usar qualquer cliente compatÃvel com OpenAI para se conectar em http://localhost:8080 e conversar com o modelo.

Dicas para soluÃ§Ã£o de problemas comuns
- Falta de memÃ³ria: repita os passos de limpeza de RAM e swap, feche programas desnecessÃ¡rios.
- Sem som: confira se a variÃ¡vel SPK_DEVICE estÃ¡ correta e corresponde a um sink do PulseAudio real.
- Microfone grava silÃªncio: verifique se MIC_DEVICE aponta para o dispositivo correto e teste gravaÃ§Ã£o manual.
- Primeira execuÃ§Ã£o lenta: normal, pois baixa modelos e gera arquivos de voz; execuÃ§Ãµes subsequentes sÃ£o mais rÃ¡pidas.
Links Ãºteis
22 de abril de 2026
Hugging Face lanÃ§a modelos multimodais com Sentence Transformers para busca e reranking
A Hugging Face lanÃ§ou uma atualizaÃ§Ã£o importante na biblioteca Sentence Transformers, agora com suporte a modelos multimodais para embedding e reranking. DisponÃvel a partir da versÃ£o 5.4, essa novidade permite codificar e comparar entradas em texto, imagens, Ã¡udio e vÃdeo pela mesma API, ampliando as aplicaÃ§Ãµes em busca semÃ¢ntica, recuperaÃ§Ã£o visual e pipelines multimodais.

Modelos multimodais: conceito e benefÃcios

Modelos tradicionais convertem texto em vetores fixos, enquanto os multimodais mapeiam diferentes tipos de dados (texto, imagem, Ã¡udio, vÃdeo) para um espaÃ§o vetorial compartilhado. Isso possibilita, por exemplo, comparar uma consulta textual com documentos em imagens ou vÃdeos usando funÃ§Ãµes de similaridade comuns.

Imagem de apoio da materia original.

JÃ¡ os modelos multimodais do tipo reranker avaliam a relevÃ¢ncia entre pares mistos â€” texto, imagem ou combinaÃ§Ã£o â€”, aprimorando a ordenaÃ§Ã£o dos resultados, embora com maior custo computacional por processar cada par individualmente.

Quem pode usar e como acessar

Desenvolvedores e pesquisadores que atuam com sistemas de busca, recuperaÃ§Ã£o de informaÃ§Ã£o e geraÃ§Ã£o aumentada por recuperaÃ§Ã£o (RAG) que envolvam mÃºltiplas modalidades podem se beneficiar. Exemplos incluem busca visual, comparaÃ§Ã£o cruzada entre texto e imagem, e reranking multimodal.

Para utilizar, instale a biblioteca sentence-transformers com os extras das modalidades desejadas. Por exemplo, para imagens:
```
pip install -U "sentence-transformers[image]"
```
TambÃ©m Ã© possÃvel combinar Ã¡udio, vÃdeo e outras modalidades conforme a necessidade.

Modelos avanÃ§ados baseados em Vision-Language Models (VLM), como o Qwen3-VL-2B, exigem GPUs com pelo menos 8 GB de VRAM para desempenho adequado; variantes maiores (8B) requerem cerca de 20 GB. UsuÃ¡rios sem GPU local podem usar serviÃ§os em nuvem ou Google Colab. A execuÃ§Ã£o em CPU Ã© possÃvel, porÃ©m lenta, recomendando-se modelos CLIP ou somente texto nesses casos.

Uso prÃ¡tico dos modelos multimodais

Embedding multimodal

Carregar um modelo multimodal segue o mesmo processo dos modelos de texto, com a necessidade atual do argumento revision para acessar integraÃ§Ãµes ainda em merge:
```
from sentence_transformers import SentenceTransformer
model = SentenceTransformer(
    "Qwen/Qwen3-VL-Embedding-2B",
    revision="refs/pr/23"
)
```
O mÃ©todo encode() aceita imagens via URL, caminho local ou objeto PIL, alÃ©m de texto e outras modalidades:
```
img_embeddings = model.encode([
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg",
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg",
])
```
Similaridade cruzada entre modalidades

Como os embeddings multimodais compartilham o mesmo espaÃ§o vetorial, Ã© possÃvel calcular diretamente similaridades entre textos e imagens:

Imagem de apoio da materia original.
```
text_embeddings = model.encode([
    "A green car parked in front of a yellow building",
    "A bee on a pink flower",
])
similarities = model.similarity(text_embeddings, img_embeddings)
```
Embora os valores absolutos sejam menores devido ao modality gap, a ordenaÃ§Ã£o semÃ¢ntica Ã© preservada, garantindo eficÃ¡cia na busca cruzada.

CodificaÃ§Ã£o de consultas e documentos

Para recuperaÃ§Ã£o, recomenda-se encode_query() e encode_document(), que aplicam prompts especÃficos para consultas e documentos, melhorando a precisÃ£o:
```
query_embeddings = model.encode_query([
    "Find me a photo of a vehicle parked near a building",
])
doc_embeddings = model.encode_document([
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg",
])
```
Reranking multimodal

Modelos reranker multimodais, como o Qwen/Qwen3-VL-Reranker-2B, pontuam a relevÃ¢ncia de pares mistos, ordenando documentos de diferentes modalidades em relaÃ§Ã£o a uma consulta:
```
from sentence_transformers import CrossEncoder
model = CrossEncoder(
    "Qwen/Qwen3-VL-Reranker-2B",
    revision="refs/pr/11"
)
query = "A green car parked in front of a yellow building"
documents = [
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg",
    "A vintage Volkswagen Beetle painted in bright green sits in a driveway.",
    {"text": "A car in a European city", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg"},
]
rankings = model.rank(query, documents)
```
O reranker destaca corretamente os documentos mais relevantes, combinando texto e imagens para maior precisÃ£o.

PadrÃ£o recomendado: recuperar e reranquear

Uma prÃ¡tica eficiente Ã© usar um modelo de embedding para recuperar rapidamente candidatos e um reranker para refinar a ordenaÃ§Ã£o:
```
embedder = SentenceTransformer("Qwen/Qwen3-VL-Embedding-2B", revision="refs/pr/23")
query_embedding = embedder.encode_query("revenue growth chart")
corpus_embeddings = embedder.encode_document(document_screenshots)
similarities = embedder.similarity(query_embedding, corpus_embeddings)
top_k_indices = similarities.argsort(descending=True)[0][:10]

reranker = CrossEncoder("nvidia/llama-nemotron-rerank-vl-1b-v2", trust_remote_code=True)
top_k_documents = [document_screenshots[i] for i in top_k_indices]
rankings = reranker.rank("revenue growth chart", top_k_documents)
```
Formatos de entrada e suporte multimodal

Os modelos aceitam diversos formatos por modalidade:
- Texto: strings simples
- Imagem: URLs, caminhos locais, objetos PIL, arrays NumPy ou tensores Torch
- Ãudio: arquivos, URLs, arrays, dicionÃ¡rios com taxa de amostragem
- VÃdeo: arquivos, URLs, arrays, dicionÃ¡rios com metadados
- Multimodal: dicionÃ¡rios com chaves para modalidades, ex: {“text”: “legenda”, “image”: “url”}
Para verificar modalidades suportadas, use as propriedades modalities e o mÃ©todo supports():
```
print(model.modalities)  # ex: ['text', 'image', 'video', 'message']
print(model.supports("image"))  # True ou False
```
Disponibilidade e preÃ§os

Os modelos multimodais estÃ£o disponÃveis gratuitamente no Hugging Face Hub, respeitando os limites da plataforma. Para uso intensivo ou com recursos avanÃ§ados, a Hugging Face oferece planos pagos com acesso a GPUs, armazenamento e serviÃ§os empresariais. Consulte a pÃ¡gina oficial de preÃ§os para mais informaÃ§Ãµes.

Links Ãºteis
9 de abril de 2026
Gemma 4: A Nova Fronteira da InteligÃªncia Multimodal On-Device da Hugging Face
ApresentaÃ§Ã£o do Gemma 4 e seu impacto na IA multimodal

A Hugging Face lanÃ§ou a famÃlia de modelos Gemma 4, desenvolvida pela Google DeepMind, trazendo avanÃ§os significativos em inteligÃªncia multimodal embarcada (on-device). Com licenÃ§as Apache 2.0, esses modelos sÃ£o abertos, altamente compatÃveis com diversas bibliotecas e dispositivos, e oferecem suporte a entradas de texto, imagens, Ã¡udio e vÃdeo, alÃ©m de geraÃ§Ã£o de texto.

Arquitetura e inovaÃ§Ãµes tÃ©cnicas do Gemma 4

O Gemma 4 evolui a partir de versÃµes anteriores, incorporando componentes que equilibram eficiÃªncia, compatibilidade e desempenho em contextos de longo alcance e agentes autÃ´nomos. Entre suas principais caracterÃsticas estÃ£o:

Imagem de apoio da materia original.
- Per-Layer Embeddings (PLE): um esquema que cria vetores de embedding dedicados para cada camada do decodificador, permitindo especializaÃ§Ã£o sem aumentar muito o custo computacional.
- Shared KV Cache: otimizaÃ§Ã£o que reutiliza estados de chave e valor em camadas finais, reduzindo memÃ³ria e cÃ¡lculo durante inferÃªncia, especialmente Ãºtil para contextos longos e uso em dispositivos locais.
- Encoder visual e de Ã¡udio: o encoder de imagens preserva proporÃ§Ãµes originais e permite diferentes orÃ§amentos de tokens para balancear qualidade e desempenho; o encoder de Ã¡udio segue arquitetura USM-style conformer similar ao Gemma-3n.
- Suporte a contextos muito longos: atÃ© 256 mil tokens em modelos maiores, com atenÃ§Ã£o alternada entre janelas locais e atenÃ§Ã£o global.
Modelos disponÃveis e capacidades multimodais

O Gemma 4 estÃ¡ disponÃvel em quatro variantes, todas baseadas em fine-tuning base e por instruÃ§Ã£o:
- E2B: 2,3 bilhÃµes de parÃ¢metros efetivos (5,1B com embeddings), janela de contexto de 128k tokens, suporte a Ã¡udio.
- E4B: 4,5 bilhÃµes efetivos (8B com embeddings), 128k tokens, suporte a Ã¡udio.
- 31B: modelo denso com 31 bilhÃµes de parÃ¢metros, 256k tokens de contexto.
- 26B: modelo MoE (mixture-of-experts) com 26 bilhÃµes totais e 4 bilhÃµes ativos, 256k tokens.
Esses modelos sÃ£o capazes de processar imagens, texto e vÃdeo (com Ã¡udio nos menores) de forma integrada. Em testes informais, o desempenho multimodal se mostrou comparÃ¡vel ao da geraÃ§Ã£o de texto, com alta qualidade.

Principais funcionalidades multimodais testadas

DetecÃ§Ã£o de objetos e apontamento em interfaces

O Gemma 4 pode identificar elementos em interfaces grÃ¡ficas (GUI), respondendo nativamente em JSON com as coordenadas de caixas delimitadoras. Por exemplo, ao solicitar a caixa delimitadora do botÃ£o â€œview recipeâ€, o modelo retorna as coordenadas relativas Ã imagem, facilitando a integraÃ§Ã£o em sistemas automatizados.

Reconhecimento e descriÃ§Ã£o de objetos em imagens

Testes com imagens do cotidiano, como bicicletas, mostram que o modelo consegue identificar objetos e retornar coordenadas precisas, com variaÃ§Ãµes de detalhamento conforme o tamanho do modelo.

RaciocÃnio multimodal e geraÃ§Ã£o de cÃ³digo

O Gemma 4 Ã© capaz de interpretar imagens e gerar cÃ³digo HTML para reconstruÃ§Ã£o de pÃ¡ginas web, produzindo atÃ© 4000 tokens para garantir fidelidade ao layout original. Isso demonstra capacidade avanÃ§ada de “pensamento multimodal” e execuÃ§Ã£o de tarefas complexas.

Imagem de apoio da materia original.

CompreensÃ£o e descriÃ§Ã£o de vÃdeos com Ã¡udio

Os modelos menores aceitam vÃdeos com Ã¡udio, analisando o conteÃºdo visual e auditivo para responder perguntas sobre a cena e a letra da mÃºsica, mesmo sem treinamento explÃcito em vÃdeos. Modelos maiores processam vÃdeo sem Ã¡udio, descrevendo com riqueza de detalhes apresentaÃ§Ãµes musicais ao vivo, iluminaÃ§Ã£o, pÃºblico e atmosfera.

Legenda automÃ¡tica de imagens

Todos os checkpoints do Gemma 4 geram legendas detalhadas e precisas para imagens complexas, descrevendo cenÃ¡rios urbanos e naturais com nuances, como uma gaivota em uma praÃ§a europeia, destacando elementos arquitetÃ´nicos e ambientais.

IntegraÃ§Ã£o e fine-tuning facilitados

O Gemma 4 foi projetado para ser integrado com mÃºltiplas ferramentas e bibliotecas populares, como MLX, mistral.rs, transformers, llama.cpp, transformers.js, entre outras. Essa flexibilidade permite rodar os modelos localmente, em dispositivos mÃ³veis e na nuvem.

Para quem deseja adaptar o modelo a necessidades especÃficas, hÃ¡ suporte a fine-tuning com TRL, incluindo exemplos prÃ¡ticos para o Google Vertex AI e Unsloth Studio, facilitando personalizaÃ§Ãµes e melhorias de desempenho.

Como experimentar o Gemma 4

A Hugging Face disponibiliza notebooks e scripts para testar o Gemma 4, incluindo:
O lanÃ§amento do Gemma 4 representa um avanÃ§o notÃ¡vel na inteligÃªncia artificial multimodal para dispositivos locais, combinando alta performance, flexibilidade e abertura. Com suporte a Ã¡udio, vÃdeo, imagens e texto, e compatibilidade ampla, ele abre novas possibilidades para aplicaÃ§Ãµes em assistentes pessoais, automaÃ§Ã£o, anÃ¡lise multimÃdia e muito mais.

Links Ãºteis
2 de abril de 2026

Tag: visao-computacional

O problema: nem toda imagem vale a pena

A cascata de custo

1. Filtro gratuito: eliminar o ruÃ­do

2. ClassificaÃ§Ã£o por tipo

3. AÃ§Ã£o por tipo

A escolha de design mais importante

Por que isso importa

Arquitetura HÃ­brida Mamba2-Transformer

Performance em Benchmarks

Vantagem de Velocidade

Casos de Uso

Amazon lanÃ§a Nova 2 Lite para detecÃ§Ã£o de objetos sem necessidade de treinamento

Para quem Ã© e como acessar

Como funciona a detecÃ§Ã£o de objetos com Amazon Nova 2 Lite

Exemplo prÃ¡tico: detecÃ§Ã£o em cenas urbanas

Arquitetura e implantaÃ§Ã£o na nuvem

Custos estimados e modelo de pagamento

AplicaÃ§Ãµes prÃ¡ticas em diferentes setores

Como testar e implantar sua soluÃ§Ã£o

Links Ãºteis

O que Ã© o SenseNova U1 e o que muda no mercado?

Compatibilidade e otimizaÃ§Ã£o para chips chineses

Disponibilidade, acesso e impacto prÃ¡tico

Contexto e desafios da SenseTime

Perspectivas para robÃ³tica e aplicaÃ§Ãµes futuras

Links Ãºteis

ExpansÃ£o da Nvidia alÃ©m do hardware para agentes de IA empresariais

CaracterÃ­sticas tÃ©cnicas e inovaÃ§Ãµes do Nemotron 3 Nano Omni

Contexto de mercado e estratÃ©gia da Nvidia

AplicaÃ§Ãµes prÃ¡ticas do Nemotron 3 Nano Omni

Desafios e perspectivas para o uso do modelo

Links Ãºteis

O que Ã© o Nemotron 3 Nano Omni?

Arquitetura e inovaÃ§Ãµes tÃ©cnicas

Treinamento e desempenho

Casos de uso prÃ¡ticos

Exemplos de fluxos de trabalho

Disponibilidade e recursos para desenvolvedores

Links Ãºteis

Desempenho do robÃ´ Ace contra atletas experientes

Por que o tÃªnis de mesa Ã© um desafio para a inteligÃªncia artificial

InovaÃ§Ãµes tecnolÃ³gicas que permitem o desempenho do Ace

Superando o desafio da transiÃ§Ã£o do virtual para o real

Impactos prÃ¡ticos para a robÃ³tica alÃ©m do esporte

LimitaÃ§Ãµes atuais e o papel complementar da inteligÃªncia humana

Links Ãºteis

RobÃ´ Ace Ã© pioneiro em competir e vencer atletas de elite no tÃªnis de mesa

Desafios da integraÃ§Ã£o entre IA e robÃ³tica fÃ­sica

Resultados comprovados em competiÃ§Ãµes reais

ImplicaÃ§Ãµes prÃ¡ticas e futuras aplicaÃ§Ãµes

Mais informaÃ§Ãµes e recursos

O desafio das fotos “quase perfeitas”

Uma soluÃ§Ã£o inovadora: re-composiÃ§Ã£o 3D com IA generativa

Como funciona o mÃ©todo em duas etapas

Ajustes automÃ¡ticos para retratos e correÃ§Ã£o de distorÃ§Ãµes

Disponibilidade e integraÃ§Ã£o no Google Photos

Por que essa pesquisa importa no mundo real

Links Ãºteis

ApresentaÃ§Ã£o da Gemma 4 VLA no Jetson Orin Nano Super

Requisitos e equipamentos necessÃ¡rios

Passo a passo para instalaÃ§Ã£o e execuÃ§Ã£o da demo Gemma 4 VLA

1. Instalar pacotes bÃ¡sicos do sistema

2. Configurar ambiente Python

3. Otimizar uso de memÃ³ria RAM (opcional, mas recomendado)

4. Baixar e servir o modelo Gemma 4 com llama.cpp

5. Identificar dispositivos de Ã¡udio e webcam

6. Executar a demo Gemma 4 VLA

Como a Gemma 4 funciona na demo

Alternativa para testar Gemma 4 em modo texto

Dicas para soluÃ§Ã£o de problemas comuns

Links Ãºteis

Modelos multimodais: conceito e benefÃ­cios

Quem pode usar e como acessar

Uso prÃ¡tico dos modelos multimodais

Embedding multimodal

Similaridade cruzada entre modalidades

CodificaÃ§Ã£o de consultas e documentos

Reranking multimodal

PadrÃ£o recomendado: recuperar e reranquear

1. Filtro gratuito: eliminar o ruÃdo

Arquitetura HÃbrida Mamba2-Transformer

CaracterÃsticas tÃ©cnicas e inovaÃ§Ãµes do Nemotron 3 Nano Omni

Desafios da integraÃ§Ã£o entre IA e robÃ³tica fÃsica

Modelos multimodais: conceito e benefÃcios

Modelos disponÃveis e capacidades multimodais

RaciocÃnio multimodal e geraÃ§Ã£o de cÃ³digo

CompreensÃ£o e descriÃ§Ã£o de vÃdeos com Ã¡udio