Tag: visao-computacional

  • Como Tornar Imagens de PDFs Pesquisáveis para RAG Sem Gastar com Todas Elas

    Como Tornar Imagens de PDFs Pesquisáveis para RAG Sem Gastar com Todas Elas

    Este artigo de Kezhan Shi, publicado no Towards Data Science, apresenta uma abordagem inteligente para tornar imagens de PDFs pesquisáveis em sistemas RAG — sem gastar dinheiro lendo todas elas.

    A série “Enterprise Document Intelligence” constrói um sistema RAG empresarial a partir de quatro blocos fundamentais. Neste quinto volume, o foco está em processar imagens de documentos de forma econômica, usando uma cascata ordenada por custo: um filtro barato, uma verificação de tipo, OCR clássico e, por último, um modelo de visão.

    O problema: nem toda imagem vale a pena

    O reflexo natural seria jogar um modelo de visão em cada imagem do PDF e seguir em frente. Mas essa é a abordagem errada. Um documento real está cheio de imagens que ninguém pesquisaria: o logotipo da empresa em cada página, ícones minúsculos, linhas divisórias, marcas d’água. Processar tudo com modelos caros é desperdício de dinheiro e de latência.

    A cascata de custo

    A solução proposta funciona em três etapas, da mais barata para a mais cara:

    1. Filtro gratuito: eliminar o ruído

    Antes de qualquer chamada de modelo, um filtro analisa sinais já disponíveis no dataframe de imagens e algumas estatísticas de pixel:

    • Tamanho mínimo: imagens com poucos pixels ou área muito pequena são ícones ou bullets, não figuras. Removidas.
    • Proporção suspeita: imagens muito longas e finas são linhas ou divisores. Fora.
    • Repetição entre páginas: o mesmo hash de conteúdo aparecendo na maioria das páginas é “chrome” — logotipo, cabeçalho, rodapé. Descartado.

    Em um relatório típico, só essa etapa remove a grande maioria das imagens antes de qualquer modelo rodar. O que sobra são as poucas que realmente carregam significado.

    2. Classificação por tipo

    As imagens que sobrevivem ao filtro não são todas lidas da mesma forma. Uma captura de tela de tabela é texto — OCR clássico resolve. Um gráfico de linhas não é texto — seu significado está nos eixos e na forma visual.

    A classificação usa sinais baratos de pixel: variação, saturação, proporção de fundo branco, densidade de bordas:

    • Painel em branco: dispersão de pixel baixa → pular (sem custo)
    • Imagem de texto: baixa saturação, estrutura de traços, fundo branco → OCR clássico (barato)
    • Imagem visual: saturada, sem margens brancas → modelo de visão (caro)

    O classificador é deliberadamente conservador: na dúvida, manda para o modelo de visão. Um OCR perdido custa uma chamada de visão; um OCR executado em um diagrama retorna labels soltos e lixo.

    3. Ação por tipo

    Tipo de imagem Ação Custo
    Muito pequena / formato estranho / repetida Descartar Zero
    Painel em branco / uniforme Pular Zero
    Imagem de texto (tabela, scan) OCR clássico Baixo
    Imagem visual (gráfico, foto) Modelo de visão Alto

    A escolha de design mais importante

    O artigo destaca dois princípios fundamentais:

    1. Logotipos são pegos pelo filtro de repetição, não pelo classificador: um logotipo pode ter duas cores chapadas ou ser uma marca d’água colorida. Tentar detectar logo por aparência é frágil. Mas um logo é “chrome” porque se repete em todas as páginas — e isso o filtro já captura.

    2. O classificador não tenta ser inteligente demais: classificar gráfico vs. diagrama vs. foto com sinais baratos não é confiável. Então o classificador só desvia imagens para OCR quando tem certeza absoluta de que é texto. Todo o resto vai para o modelo de visão. O viés é assimétrico de propósito.

    Por que isso importa

    Para quem constrói sistemas RAG empresariais, este artigo oferece um roteiro prático para processar documentos PDF sem desperdício. A lógica da cascata — começar pelo método mais barato e só escalar quando necessário — é um padrão que vale para muito além de processamento de documentos.

    O artigo completo, com implementações em Python e exemplos de código, está disponível no Towards Data Science.

  • Zyphra Lança Zamba2-VL: Modelos de Visão-Linguagem Híbridos que Reduzem Latência em Uma Ordem de Magnitude

    Zyphra Lança Zamba2-VL: Modelos de Visão-Linguagem Híbridos que Reduzem Latência em Uma Ordem de Magnitude

    A Zyphra acaba de abrir o código do Zamba2-VL, uma família de modelos de visão-linguagem (VLMs) que combina camadas state-space Mamba2 com blocos Transformer compartilhados. Disponível em três tamanhos — 1.2B, 2.7B e 7B parâmetros — sob licença Apache 2.0, o grande diferencial está na velocidade: o tempo até o primeiro token (TTFT) é reduzido em cerca de uma ordem de magnitude em contextos visuais longos.

    Arquitetura Híbrida Mamba2-Transformer

    Enquanto VLMs tradicionais usam atenção densa de Transformer — que escala quadraticamente com o comprimento da sequência — o Zamba2-VL adota uma abordagem mista:

    • Camadas Mamba2 (state-space): Carregam o grosso da computação de forma barata, com complexidade near-linear e estado recorrente de tamanho fixo.
    • Blocos Transformer compartilhados: Preservam a capacidade de recuperação em contexto que modelos puramente SSM perdem. Cada bloco de atenção carrega um adaptador LoRA único por camada para adicionar expressividade.
    • Vision Encoder: Vision Transformer do Qwen2.5-VL, escolhido pelos embeddings posicionais rotativos 2D e processamento nativo de resolução dinâmica.
    • Tokenizer: Mistral v0.1.

    O modelo foi treinado com 100 bilhões de tokens de dados visão-texto e texto puro de datasets web abertos.

    “A atenção de Transformer escala quadraticamente com o comprimento da sequência. Inputs multimodais tornam sequências muito longas rapidamente. O Zamba2-VL evita o KV cache crescente da atenção, herdando prefill near-linear e estado recorrente de tamanho fixo.”

    Performance em Benchmarks

    O Zamba2-VL-2.7B foi avaliado em 14 benchmarks e mostra resultados competitivos, especialmente em tarefas de contagem visual:

    Benchmark Zamba2-VL-2.7B Qwen3-VL-2B InternVL3.5-2B
    DocVQA 90.9 93.3 89.4
    CountBenchQA 87.5 87.9 70.0
    PixMoCount 82.5 55.7 32.8
    ChartQA 79.6 78.7 81.6
    MathVista 51.0 51.8 61.4
    MMMU 37.7 40.9 49.9

    Destaques: Performance excepcional em contagem visual — no PixMoCount, o modelo de 2.7B atinge 82.5 contra apenas 32.8 do InternVL3.5-2B. O modelo de 1.2B também impressiona com 62.5 no mesmo benchmark. Em compreensão de documentos (DocVQA), fica competitivo com 90.9.

    Limitações: Desempenho mais fraco em raciocínio pesado em conhecimento (MMMU, MathVista) e OCR (OCRBench) comparado aos líderes da categoria.

    Vantagem de Velocidade

    O principal argumento de venda é a velocidade de inferência. Em um prefill de 32K tokens, nenhum VLM Transformer puro igualou a pontuação do Zamba2-VL com latência similar. A diferença é mais dramática nos modelos menores (1.2B e 2.7B), mirando deployment on-device e edge.

    Uma imagem de alta resolução (~3.400 tokens) já mostra paridade computacional no prefill, mas com sequências mais longas (ex: PDFs de múltiplas páginas, clipes de vídeo curtos), o design híbrido se torna dramaticamente mais barato — escalando O(n) contra O(n²) dos Transformers puros.

    Casos de Uso

    • Extração de documentos e formulários: Faturas, recibos — forte performance em DocVQA.
    • Inventário e contagem visual: Destaque em PixMoCount e CountBenchQA para cenários de varejo.
    • Assistentes on-device: Baixo TTFT nos modelos de 1.2B e 2.7B para celulares e dispositivos edge.
    • Inputs visuais longos: PDFs de múltiplas páginas e vídeos curtos se beneficiam do prefill linear.

    Com este lançamento, a Zyphra demonstra que arquiteturas híbridas state-space/Transformer são uma alternativa viável e eficiente para VLMs, especialmente quando latência e deployment em dispositivos são prioridades.

  • Amazon Nova 2 Lite: Detecção de Objetos Simplificada com Amazon Bedrock e AWS Lambda

    Amazon Nova 2 Lite: Detecção de Objetos Simplificada com Amazon Bedrock e AWS Lambda

    Amazon lança Nova 2 Lite para detecção de objetos sem necessidade de treinamento

    A Amazon anunciou o Amazon Nova 2 Lite, um modelo multimodal de base que permite a detecção de objetos em imagens por meio de prompts em linguagem natural, sem a necessidade de treinamento prévio. Disponível através do Amazon Bedrock, o Nova 2 Lite oferece uma alternativa acessível e escalável para equipes e empresas que precisam implementar visão computacional sem investimentos altos em infraestrutura e equipes especializadas.

    Para quem é e como acessar

    O Amazon Nova 2 Lite é ideal para pequenas e médias empresas, desenvolvedores e times que buscam implementar soluções de detecção de objetos em setores como manufatura, agricultura e logística. O serviço está disponível nas regiões onde o Amazon Bedrock é oferecido e pode ser acessado via API, eliminando a necessidade de gerenciar infraestrutura ou treinar modelos.

    Para começar, é necessário ter uma conta AWS com permissões para acessar o Amazon Bedrock e o modelo Nova 2 Lite. O desenvolvimento pode ser feito com Python 3.8 ou superior, utilizando o AWS SDK (Boto3) e a biblioteca Pillow para manipulação de imagens.

    Como funciona a detecção de objetos com Amazon Nova 2 Lite

    O processo de detecção utiliza uma arquitetura serverless que combina Amazon Bedrock, AWS Lambda e Amazon API Gateway. O fluxo consiste em quatro etapas principais:

    1. Engenharia do prompt: elaboração de prompts detalhados em linguagem natural para especificar os objetos a serem detectados e o formato JSON esperado na resposta.
    2. Chamada ao Amazon Bedrock: invocação da API Converse do Bedrock para enviar a imagem e o prompt ao modelo Nova 2 Lite, que retorna coordenadas normalizadas dos objetos detectados.
    3. Processamento das coordenadas: conversão das coordenadas normalizadas (escala 0-1000) para posições em pixels conforme as dimensões da imagem.
    4. Visualização: renderização das caixas delimitadoras sobre a imagem original para validação dos resultados.

    O modelo retorna os dados estruturados em JSON, contendo as coordenadas dos bounding boxes para cada objeto identificado, o que facilita a integração com sistemas existentes.

    Exemplo prático: detecção em cenas urbanas

    Em um exemplo aplicado, o Nova 2 Lite foi capaz de detectar veículos e placas de pare em uma imagem de rua sem qualquer treinamento adicional. A precisão foi alta mesmo para objetos pequenos, distantes ou parcialmente ocultos, demonstrando a eficácia do modelo em reconhecer categorias genéricas apenas a partir de seus nomes.

    Arquitetura e implantação na nuvem

    O modelo é acessado por meio do Amazon Bedrock Converse API, que pode ser integrado a diversos serviços AWS conforme a necessidade do cliente:

    • AWS Lambda: para cargas de trabalho orientadas a eventos e endpoints API, com escalabilidade automática e custo por invocação.
    • Amazon EC2: para maior controle do ambiente e processos de longa duração.
    • Amazon ECS/EKS: para implantações baseadas em containers com escalabilidade automática.

    Uma aplicação web serverless de exemplo foi desenvolvida, utilizando Amazon CloudFront para distribuição global, Amazon S3 para armazenamento, API Gateway para roteamento e Lambda para orquestração da chamada ao modelo e processamento dos resultados.

    Custos estimados e modelo de pagamento

    O Amazon Bedrock cobra por tokens de entrada e saída, com valores aproximados de $0,0003 por mil tokens de entrada e $0,0025 por mil tokens de saída. Uma imagem típica gera cerca de 230 tokens de entrada e 200 tokens de saída, resultando em um custo aproximado de $0,00057 por imagem processada. AWS Lambda e API Gateway são cobrados conforme uso, com valores mínimos para testes.

    Aplicações práticas em diferentes setores

    • Manufatura: inspeção automatizada para identificar defeitos como riscos, amassados e ferrugem em peças metálicas, reduzindo custos com retrabalho.
    • Agricultura de precisão: monitoramento com drones para detectar folhas doentes, danos por pragas e fungos, otimizando o uso de defensivos agrícolas e prevenindo perdas.
    • Logística e fulfillment: identificação automática de embalagens danificadas, itens fora do lugar e equipamentos de segurança, garantindo qualidade e conformidade operacional.

    Como testar e implantar sua solução

    O código-fonte completo da aplicação de exemplo está disponível no repositório GitHub da AWS. A implantação pode ser feita pelo AWS CLI e AWS CDK, bastando ter acesso ao Amazon Bedrock e permissões configuradas.

    Após a implantação, a aplicação permite enviar imagens e especificar os objetos a serem detectados via interface web, retornando imagens anotadas com as caixas delimitadoras dos objetos identificados.

    Links úteis

  • SenseTime lança modelo de IA para imagens otimizado para chips chineses e de código aberto

    A SenseTime, gigante chinesa de inteligência artificial conhecida por sua tecnologia de reconhecimento facial, lançou recentemente o SenseNova U1, um modelo aberto de geração e interpretação de imagens que promete velocidade superior aos principais concorrentes dos Estados Unidos.

    O que é o SenseNova U1 e o que muda no mercado?

    O SenseNova U1 é um modelo de IA que pode gerar e interpretar imagens diretamente, sem precisar converter as imagens em texto antes do processamento. Essa inovação acelera o processo e reduz a necessidade de grande poder computacional, um diferencial importante frente aos modelos tradicionais.

    Imagem relacionada ao artigo de Wired AI
    Imagem de apoio da materia original.

    Dahua Lin, cofundador e cientista-chefe da SenseTime, explicou ao WIRED que o modelo realiza o raciocínio tanto com imagens quanto com texto, o que abre possibilidades para que robôs compreendam melhor o mundo físico e tomem decisões mais rápidas e precisas em ambientes complexos.

    Compatibilidade e otimização para chips chineses

    Uma das grandes novidades do SenseNova U1 é a otimização para rodar em chips produzidos por fabricantes chineses, como Cambricon e Biren Technology. No dia do lançamento, dez empresas chinesas de semicondutores anunciaram que seus hardwares são compatíveis com o modelo.

    Essa estratégia é crucial diante das restrições impostas pelos Estados Unidos que limitam o acesso de empresas chinesas às tecnologias de chips avançados, especialmente para treinamento de IA. Assim, a SenseTime reforça sua independência tecnológica e aposta em hardware doméstico para acelerar o desenvolvimento.

    Disponibilidade, acesso e impacto prático

    O SenseNova U1 foi disponibilizado gratuitamente em plataformas de código aberto como Hugging Face e GitHub. A abertura do código permite que pesquisadores e desenvolvedores de todo o mundo testem, aprimorem e adaptem o modelo, impulsionando a inovação colaborativa e acelerando o ciclo de melhorias.

    Imagem relacionada ao artigo de Wired AI
    Imagem de apoio da materia original.

    Além disso, o tamanho compacto do modelo possibilita sua execução em PCs e até smartphones, ampliando seu uso em diferentes cenários, desde aplicações industriais até dispositivos pessoais.

    Contexto e desafios da SenseTime

    Fundada em 2014, a SenseTime liderou o setor de visão computacional na China, mas perdeu terreno para startups mais recentes focadas em processamento de linguagem natural, como DeepSeek e MiniMax. O lançamento do SenseNova U1 representa uma tentativa de recuperação, apostando na velocidade de iteração e na comunidade open source para acelerar o desenvolvimento.

    Vale destacar que a empresa enfrenta sanções dos EUA devido a alegações relacionadas ao uso de sua tecnologia em sistemas de vigilância na região de Xinjiang, o que restringe investimentos e fornecimento de tecnologia americana. A aposta em chips chineses e em software aberto é uma resposta estratégica a esse cenário.

    Perspectivas para robótica e aplicações futuras

    A capacidade do modelo de entender imagens diretamente é vista como uma vantagem para robótica, onde o processamento rápido e preciso de informações visuais é essencial para a tomada de decisão em ambientes dinâmicos. A SenseTime colabora com startups como a ACE Robotics para desenvolver aplicações práticas dessa tecnologia.

    Links úteis

  • Nvidia lança Nemotron 3 Nano Omni para impulsionar agentes de IA corporativos multimodais

    Expansão da Nvidia além do hardware para agentes de IA empresariais

    A Nvidia anunciou recentemente o lançamento do Nemotron 3 Nano Omni, um modelo aberto multimodal que integra visão, fala e linguagem com o objetivo de acelerar e aprimorar a eficiência dos agentes de inteligência artificial em ambientes corporativos. Esse lançamento marca um movimento estratégico da empresa para ampliar sua presença no mercado de IA para além do seu já consolidado domínio em hardware, especialmente GPUs.

    Características técnicas e inovações do Nemotron 3 Nano Omni

    O Nemotron 3 Nano Omni é a última versão da família de modelos open source da Nvidia. Diferentemente de abordagens que demandam modelos separados para vídeo, áudio, imagem e texto, este modelo unifica os encoders de visão e áudio dentro de uma arquitetura mixture-of-experts com 30 bilhões de parâmetros. Essa combinação resulta em maior throughput, reduzindo custos e melhorando a eficiência na inferência, segundo a Nvidia.

    Imagem relacionada ao artigo de AI Business
    Imagem de apoio da materia original.

    Além disso, o modelo foi projetado para lidar com múltiplas modalidades simultaneamente, permitindo que agentes de IA compreendam e raciocinem sobre dados visuais e auditivos de forma integrada. Isso facilita a construção de agentes capazes de respostas mais rápidas e inteligentes.

    Contexto de mercado e estratégia da Nvidia

    Embora a Nvidia mantenha liderança no mercado de hardware para IA, seus principais clientes, como Google, Microsoft e AWS, estão desenvolvendo seus próprios chips, buscando reduzir dependência de fornecedores externos. Outros players, como OpenAI, têm parceria com concorrentes da Nvidia, enquanto clientes internacionais, como a DeepSeek na China, migram para fabricantes locais como a Huawei.

    Imagem relacionada ao artigo de AI Business
    Imagem de apoio da materia original.

    Diante desse cenário, a Nvidia aposta no fortalecimento de seu portfólio de modelos e serviços abertos para manter sua relevância e ampliar sua atuação no ecossistema de IA corporativa. A integração do Nemotron 3 Nano Omni com outros modelos e sistemas Nvidia cria um ambiente mais controlado e eficiente para o desenvolvimento e operação de agentes inteligentes.

    Aplicações práticas do Nemotron 3 Nano Omni

    • Agentes de uso computacional: O modelo alimenta o loop de percepção para agentes que navegam e interpretam o conteúdo da tela do computador.
    • Inteligência documental: Capaz de interpretar documentos, gráficos, tabelas e capturas de tela, combinando conteúdo visual e textual para raciocínio avançado.
    • Compreensão de áudio e vídeo: Mantém o contexto de múltiplas modalidades para análise integrada em fluxos de raciocínio únicos.

    Desafios e perspectivas para o uso do modelo

    Apesar do potencial, existem dúvidas sobre o alcance do Nemotron 3 Nano Omni, principalmente se ele será adotado por grandes clientes hyperscale, que frequentemente possuem seus próprios aceleradores e infraestruturas. Além disso, embora o modelo seja open source com pesos, técnicas de treinamento e conjuntos de dados disponibilizados, seu uso fora do ambiente integrado Nvidia pode ser limitado.

    Entretanto, especialistas apontam que a abertura do modelo deve estimular desenvolvedores a testá-lo e integrá-lo em suas soluções, o que pode fortalecer a adoção da Nvidia como parceira de infraestrutura para IA.

    Links úteis

  • NVIDIA Nemotron 3 Nano Omni: Inteligência Multimodal para Documentos, Áudio e Vídeo em Contextos Longos

    A NVIDIA lançou o Nemotron 3 Nano Omni, um modelo de inteligência artificial multimodal projetado para entender e processar documentos complexos, áudio e vídeo com longos contextos. Esta nova geração amplia a linha Nemotron, que antes focava em visão e linguagem, para integrar texto, imagens, vídeos e áudio em uma única arquitetura avançada.

    O que é o Nemotron 3 Nano Omni?

    Trata-se de um modelo omni-modal desenvolvido para aplicações reais que demandam análise detalhada de documentos, reconhecimento automático de fala, compreensão de conteúdos audiovisuais extensos, uso autônomo em ambientes computacionais e raciocínio multimodal geral. Ele oferece alta precisão em benchmarks de inteligência documental, como OCRBenchV2 e MMlongbench-Doc, além de liderar rankings em entendimento de vídeo e áudio, como os benchmarks WorldSense e DailyOmni. No reconhecimento de voz, destacou-se no VoiceBench e é o modelo aberto mais eficiente em termos de custo para vídeo no MediaPerf.

    Imagem relacionada ao artigo de HuggingFace
    Imagem de apoio da materia original.

    Arquitetura e inovações técnicas

    O Nemotron 3 Nano Omni combina um backbone híbrido Mamba-Transformer Mixture-of-Experts (MoE) com encoders especializados para visão (C-RADIOv4-H) e áudio (Parakeet-TDT-0.6B-v2). Essa arquitetura foi projetada para preservar detalhes visuais finos, incorporar compreensão nativa de áudio e escalar para contextos multimodais muito longos, essenciais para documentos densos, vídeos e raciocínios que envolvem múltiplas modalidades.

    • Backbone híbrido: intercalando 23 camadas Mamba para processamento eficiente de contexto longo, 23 camadas MoE com 128 especialistas e 6 camadas de atenção agrupada para manter interação global forte.
    • Resolução dinâmica: processamento de imagens com resolução variável, de 1.024 a 13.312 patches visuais por imagem, permitindo lidar com documentos complexos, tabelas e layouts de interface gráfica com alta fidelidade.
    • Compressão temporal Conv3D para vídeo: fusão de pares de frames em “tubelets” para reduzir tokens e aumentar eficiência no processamento de vídeo.
    • EVS (Efficient Video Sampling): técnica que elimina tokens redundantes durante a inferência para melhorar desempenho sem perda de precisão.
    • Áudio nativo: o modelo processa áudio diretamente, não apenas transcrições, suportando até 20 minutos de áudio contínuo e contextos de linguagem com mais de 5 horas, fundamental para análises multimodais sincronizadas.

    Treinamento e desempenho

    O treinamento do Nemotron 3 Nano Omni envolve múltiplas etapas: alinhamento multimodal, extensão de contexto, otimização por preferências e aprendizado por reforço multimodal. A infraestrutura usada inclui clusters NVIDIA H100 e frameworks como Megatron-LM, Transformer Engine e NeMo-RL.

    Imagem relacionada ao artigo de HuggingFace
    Imagem de apoio da materia original.

    Em termos de desempenho, o modelo oferece até 9 vezes maior throughput e quase 3 vezes mais velocidade em raciocínio single-stream em cenários multimodais, em comparação com alternativas abertas similares.

    Casos de uso práticos

    1. Análise de documentos reais: capaz de interpretar documentos extensos e complexos, como contratos, relatórios financeiros com mais de 100 páginas, manuais técnicos, formulários e pacotes de conformidade, entendendo layout, tabelas, fórmulas e referências cruzadas.
    2. Reconhecimento automático de fala: transcrição robusta em ambientes com múltiplos falantes, sotaques variados e ruídos de fundo, integrada a fluxos que combinam áudio com outras modalidades para sumarização e perguntas e respostas.
    3. Compreensão de áudio e vídeo longos: análise conjunta de imagens e áudio em vídeos corporativos, tutoriais, reuniões, demonstrações de produtos e arquivos de vídeo extensos.
    4. Uso autônomo em interfaces gráficas: interpretação de capturas de tela, monitoramento do estado da interface e auxílio em seleção de ações ou automação de fluxos de trabalho.
    5. Raciocínio multimodal geral: síntese e análise complexa envolvendo múltiplas modalidades e evidências estruturadas para respostas coerentes e fundamentadas.

    Exemplos de fluxos de trabalho

    Entre os exemplos demonstrados estão:

    • Análise de documentos multi-página: extração e cálculo de métricas financeiras de relatórios com mais de 100 páginas, combinando leitura de tabelas, gráficos e textos.
    • Entendimento conjunto de vídeo e áudio: responder perguntas detalhadas sobre cenas específicas e narração, como identificar estruturas em chamas e descrever visuais associados a relatos.
    • Uso agentivo em computação: integração com sistemas que interpretam instruções e capturas de tela para executar tarefas automatizadas em ambientes gráficos.

    Disponibilidade e recursos para desenvolvedores

    Os checkpoints do modelo estão disponíveis para download no HuggingFace nos formatos BF16, FP8 e NVFP4. A NVIDIA também disponibiliza documentação completa, receitas de pipeline, repositórios de código e relatórios detalhados para quem deseja explorar a arquitetura, os dados de treinamento e os benchmarks do Nemotron 3 Nano Omni.

    Links úteis

  • Robô Ace supera jogadores de elite no tênis de mesa e avança robótica para ambientes reais

    O robô Ace, desenvolvido pela Sony AI, alcançou um marco inédito ao derrotar alguns dos melhores jogadores profissionais de tênis de mesa em partidas recentes. Esta conquista representa um avanço significativo para sistemas de inteligência artificial (IA) capazes de atuar em ambientes reais, rápidos e imprevisíveis.

    Desempenho do robô Ace contra atletas experientes

    Em testes realizados em 2025, o Ace venceu três de cinco partidas contra atletas de elite, que possuem mais de dez anos de experiência e treinam, em média, 20 horas semanais. Embora tenha perdido duas partidas contra jogadores das ligas profissionais japonesas, o robô conseguiu vencer um jogo contra um deles, demonstrando um nível competitivo impressionante.

    Imagem relacionada ao artigo de The Conversation AI
    Imagem de apoio da materia original.

    Por que o tênis de mesa é um desafio para a inteligência artificial

    O tênis de mesa é um dos esportes mais exigentes para robôs, pois a bola pode atingir velocidades superiores a 20 metros por segundo, deixando menos de meio segundo para reação. Além disso, o efeito de giro da bola, que pode chegar a 9.000 rotações por minuto, torna a trajetória imprevisível e complexa de ser interpretada.

    Enquanto humanos interpretam o spin intuitivamente, essa característica tem sido um desafio para sistemas robóticos anteriores, que muitas vezes simplificavam o jogo ao eliminar o efeito de giro ou restringir movimentos. Ace, no entanto, joga com equipamentos padrão, em mesas regulamentares, enfrentando adversários humanos que utilizam todo o repertório de golpes.

    Inovações tecnológicas que permitem o desempenho do Ace

    O sucesso do robô se apoia em três pilares principais:

    • Visão avançada: Ace utiliza três sensores de visão baseados em eventos, que capturam mudanças de luz em vez de imagens fixas, complementados por nove câmeras de alta velocidade para rastrear o ambiente e o adversário com precisão milimétrica.
    • Decisão em tempo real: O robô emprega aprendizado por reforço profundo, treinado em simulações com milhões de rallies virtuais, recalculando trajetórias a cada poucos milissegundos para gerar comandos contínuos ao seu braço robótico.
    • Execução física rápida e precisa: Seu braço robótico combina dois tipos de juntas para movimentos rápidos e precisos, equipado com raquete e mecanismo para manuseio da bola, possibilitando saques com um braço só e rebatidas em velocidades próximas a 20 metros por segundo.

    Superando o desafio da transição do virtual para o real

    Um dos grandes avanços do Ace é a redução da lacuna entre simulação e realidade. Muitos sistemas de IA funcionam bem em ambientes virtuais, mas perdem desempenho diante do ruído e da imprevisibilidade do mundo real. Ace mostrou capacidade de reagir instantaneamente a mudanças inesperadas, como quando a bola tocou a rede e mudou a trajetória, conseguindo retornar o lance e vencer o ponto.

    Imagem relacionada ao artigo de The Conversation AI
    Imagem de apoio da materia original.

    Impactos práticos para a robótica além do esporte

    Embora impressionante no tênis de mesa, o potencial do Ace vai muito além do esporte. Na indústria, robôs normalmente executam tarefas estruturadas, mas o desafio atual é a adaptação a objetos irregulares e ambientes não controlados, como residências, hospitais e canteiros de obras.

    As habilidades de previsão e resposta rápida do Ace podem ser aplicadas para criar automações mais flexíveis e seguras, capazes de interagir com humanos sem barreiras de segurança, algo ainda raro hoje em dia.

    Limitações atuais e o papel complementar da inteligência humana

    Jogadores profissionais ainda exploram limitações do Ace, como alcance, velocidade e a capacidade de lidar com golpes extremamente enganosos. Isso evidencia que a inteligência não é apenas predição e controle, mas também integração complexa entre percepção, movimento e estratégia, algo que os humanos fazem com maestria.

    Curiosamente, robôs como o Ace podem ampliar o desempenho humano, inspirando atletas a explorar novas possibilidades técnicas, ao demonstrar que certas jogadas antes consideradas impossíveis podem ser alcançadas.

    Links úteis

  • Sony apresenta Ace, robô de tênis de mesa que vence jogadores profissionais

    Robô Ace é pioneiro em competir e vencer atletas de elite no tênis de mesa

    Desenvolvido pela divisão de inteligência artificial da Sony, o robô Ace representa um avanço significativo na robótica esportiva. Diferente de modelos anteriores, como o FOREPHUS da Omron, que competia apenas contra amadores, Ace é o primeiro robô capaz de disputar partidas regulares de tênis de mesa seguindo as regras oficiais da International Table Tennis Federation (ITTF) e vencer jogadores de alto nível.

    Desafios da integração entre IA e robótica física

    Enquanto a inteligência artificial já supera humanos em jogos abstratos como xadrez e Go, esportes físicos como o tênis de mesa apresentam desafios adicionais. Isso porque o robô precisa processar e reagir em tempo real a uma bola que se move em alta velocidade, com variações de efeito que alteram sua trajetória.

    Imagem relacionada ao artigo de The Verge AI
    Imagem de apoio da materia original.

    Para isso, Ace conta com um sistema mecânico articulado com oito juntas que controlam o posicionamento e a orientação da raquete, além de permitir golpes potentes. A parte visual é composta por um complexo conjunto de câmeras: nove câmeras tradicionais ao redor da mesa capturam a posição da bola em três dimensões, enquanto três sistemas de controle ocular medem a velocidade angular e o giro da bola para prever com precisão seu trajeto.

    Resultados comprovados em competições reais

    Segundo estudo publicado na revista Nature, durante testes realizados em abril de 2025, Ace venceu três de cinco partidas contra atletas com mais de dez anos de treinamento e perdeu apenas para jogadores profissionais que atuam em ligas oficiais. Posteriormente, em dezembro de 2025 e nos meses seguintes, o robô continuou a superar profissionais do esporte, conforme reportado pela Reuters.

    Implicações práticas e futuras aplicações

    O sucesso de Ace demonstra a capacidade da IA aliada à robótica avançada de replicar e até superar habilidades humanas em esportes que exigem rapidez e precisão. Essa tecnologia pode influenciar treinamentos esportivos, desenvolvimento de robôs assistentes e aprimoramento de sistemas de visão computacional em ambientes dinâmicos.

    Mais informações e recursos

    • Projeto desenvolvido pela divisão de IA da Sony: https://ace.ai.sony/
    • Estudo completo publicado na revista Nature (acesso via bases científicas)
    • Reportagens e atualizações sobre IA e robótica esportiva no The Verge: Fonte original
  • Google Photos revoluciona edição com re-composição 3D automática de fotos

    O desafio das fotos “quase perfeitas”

    Quantas vezes você olhou para uma foto no seu celular e desejou ter capturado o momento de um ângulo diferente? Talvez um pouco mais da lateral do rosto, ou uma posição da câmera ligeiramente mais baixa para valorizar a cena. Ou ainda, um selfie com sorriso perfeito, mas com a distorção da lente grande-angular que altera a aparência natural.

    Até agora, as edições tradicionais — como corte e zoom — ajudam, mas não solucionam o problema fundamental: a perspectiva da imagem permanece fixa e limitada ao que foi originalmente capturado. Zoomar não altera o paralaxe e recortar não revela o que ficou fora do enquadramento.

    Imagem relacionada ao artigo de Google Research
    Imagem de apoio da materia original.

    Uma solução inovadora: re-composição 3D com IA generativa

    Pesquisadores do Google anunciaram uma nova abordagem para editar a perspectiva de fotos após terem sido tiradas, já disponível na funcionalidade Auto frame do Google Photos. Essa tecnologia usa modelos de aprendizado de máquina para interpretar a foto como uma cena 3D, permitindo alterar automaticamente o posicionamento da câmera dentro desse espaço tridimensional.

    Além de preservar o que estava visível originalmente, o sistema gera conteúdo adicional oculto na imagem original, criando uma nova perspectiva autêntica do momento congelado no tempo.

    Imagem relacionada ao artigo de Google Research
    Imagem de apoio da materia original.

    Como funciona o método em duas etapas

    1. Estimativa da cena 3D e parâmetros da câmera: Um modelo interno estima um mapa 3D de pontos para cada pixel, reconstruindo a geometria da cena, com foco especial em corpos e rostos humanos para evitar distorções que prejudiquem a identidade. Simultaneamente, o sistema estima a distância focal e outros parâmetros da câmera original.
    2. Renderização e preenchimento generativo: A partir do mapa 3D, a imagem é re-renderizada com novos parâmetros de câmera, controlando posição, orientação e distância focal. Como o mapa 3D é incompleto, áreas ocultas aparecem como “buracos” na nova visão. Para preencher essas lacunas, um modelo generativo de difusão latente, treinado em pares de imagens com parâmetros conhecidos, produz conteúdo coerente e faz ajustes finais para garantir naturalidade e fidelidade.

    Ajustes automáticos para retratos e correção de distorções

    O sistema também usa modelos para detectar a posição e orientação 3D dos rostos principais na foto, calculando automaticamente os parâmetros ideais da câmera para melhorar o enquadramento, especialmente em retratos. Além disso, corrige distorções comuns de lentes grande-angulares frontais, ajustando os parâmetros virtuais da câmera para restaurar proporções naturais e favorecer a aparência do sujeito, como se a foto tivesse sido tirada de uma distância mais adequada.

    Disponibilidade e integração no Google Photos

    Essa tecnologia está implementada no recurso Auto frame do Google Photos, disponível para fotos que contenham pessoas. Os usuários podem acessar a imagem re-composicionada com o novo ângulo de câmera como uma opção adicional de edição, tornando o processo simples e automático, com apenas uma ação.

    Por que essa pesquisa importa no mundo real

    Ao permitir que usuários alterem o ponto de vista de fotos já tiradas, o Google oferece uma solução para o problema clássico das imagens “quase perfeitas” que não podem ser refeitas. A combinação de reconstrução 3D precisa com IA generativa possibilita uma edição que preserva a autenticidade, respeitando a identidade e o contexto da cena. Isso amplia as possibilidades criativas e práticas para fotógrafos amadores e profissionais, melhorando a qualidade das memórias digitais.

    Links úteis

  • Como rodar a demo Gemma 4 VLA no NVIDIA Jetson Orin Nano Super: guia completo

    Apresentação da Gemma 4 VLA no Jetson Orin Nano Super

    A NVIDIA, em parceria com a Hugging Face, disponibilizou uma demonstração da Gemma 4, um modelo multimodal com capacidade Visual Language Agent (VLA), rodando localmente no Jetson Orin Nano Super, uma placa compacta com GPU NVIDIA e 8 GB de RAM. Essa demo mostra a integração de reconhecimento de voz, processamento do modelo de linguagem, visão computacional via webcam e síntese de voz, tudo em um dispositivo embarcado.

    A inovação está no fato de que a Gemma 4 decide autonomamente quando precisa usar a visão para responder a uma pergunta, capturando imagens da webcam, interpretando-as e incorporando essa informação na resposta, sem depender de gatilhos fixos ou palavras-chave.

    Requisitos e equipamentos necessários

    • Hardware: NVIDIA Jetson Orin Nano Super (8 GB RAM), webcam USB (exemplo: Logitech C920), microfone USB integrado à webcam, alto-falante USB e teclado USB para controle (ex: pressionar tecla SPACE).
    • Sistema operacional: Linux (distribuição compatível com Jetson).
    • Softwares e bibliotecas: Python 3, pacotes básicos de sistema (git, cmake, build-essential, alsa-utils, pulseaudio-utils, v4l-utils, entre outros).

    Passo a passo para instalação e execução da demo Gemma 4 VLA

    1. Instalar pacotes básicos do sistema

    sudo apt update
    sudo apt install -y git build-essential cmake curl wget pkg-config \
    python3-pip python3-venv python3-dev \
    alsa-utils pulseaudio-utils v4l-utils psmisc 
    ffmpeg libsndfile1
    

    Esses pacotes cobrem ferramentas de compilação, áudio, webcam e ambiente Python.

    2. Configurar ambiente Python

    python3 -m venv .venv
    source .venv/bin/activate
    pip install --upgrade pip
    pip install opencv-python-headless onnx_asr kokoro-onnx soundfile huggingface-hub numpy
    

    3. Otimizar uso de memória RAM (opcional, mas recomendado)

    Como o Jetson Orin Nano tem 8 GB, liberar RAM e adicionar swap ajuda a evitar erros de falta de memória durante a execução:

    sudo fallocate -l 8G /swapfile
    sudo chmod 600 /swapfile
    sudo mkswap /swapfile
    sudo swapon /swapfile
     echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab
    
    sudo systemctl stop docker 2>/dev/null || true
    sudo systemctl stop containerd 2>/dev/null || true
    pkill -f tracker-miner-fs-3 || true
    pkill -f gnome-software || true
    free -h
    

    Feche também navegadores, IDEs e outros programas que consumam muita memória.

    4. Baixar e servir o modelo Gemma 4 com llama.cpp

    Clone e compile o repositório llama.cpp com suporte CUDA para melhor desempenho:

    cd ~
    git clone https://github.com/ggml-org/llama.cpp.git
    cd llama.cpp
    cmake -B build \
      -DGGML_CUDA=ON \
      -DCMAKE_CUDA_ARCHITECTURES="87" \
      -DGGML_NATIVE=ON \
      -DCMAKE_BUILD_TYPE=Release
    cmake --build build --config Release -j4
    

    Depois, baixe o modelo e o arquivo de “vision projector”, imprescindível para a funcionalidade visual:

    mkdir -p ~/models && cd ~/models
    wget -O gemma-4-E2B-it-Q4_K_M.gguf https://huggingface.co/unsloth/gemma-4-E2B-it-GGUF/resolve/main/gemma-4-E2B-it-Q4_K_M.gguf
    wget -O mmproj-gemma4-e2b-f16.gguf https://huggingface.co/ggml-org/gemma-4-E2B-it-GGUF/resolve/main/mmproj-gemma4-e2b-f16.gguf
    

    Inicie o servidor llama:

    ~/llama.cpp/build/bin/llama-server \
      -m ~/models/gemma-4-E2B-it-Q4_K_M.gguf \
      --mmproj ~/models/mmproj-gemma4-e2b-f16.gguf \
      -c 2048 \
      --image-min-tokens 70 --image-max-tokens 70 \
      --ubatch-size 512 --batch-size 512 \
      --host 0.0.0.0 --port 8080 \
      -ngl 99 --flash-attn on \
      --no-mmproj-offload --jinja -np 1
    

    O parâmetro -ngl 99 carrega todas as camadas do modelo na GPU para máxima performance.

    5. Identificar dispositivos de áudio e webcam

    Liste microfones disponíveis:

    arecord -l
    

    Liste os alto-falantes PulseAudio:

    pactl list short sinks
    

    Liste webcams:

    v4l2-ctl --list-devices
    

    Teste rápido para gravação e reprodução:

    export MIC_DEVICE="plughw:3,0"
    export SPK_DEVICE="alsa_output.usb-Generic_USB2.0_Device_20130100ph0-00.analog-stereo"
    arecord -D "$MIC_DEVICE" -f S16_LE -r 16000 -c 1 -d 3 /tmp/test.wav
    paplay --device="$SPK_DEVICE" /tmp/test.wav
    

    Ouça para confirmar que o áudio está funcionando.

    6. Executar a demo Gemma 4 VLA

    Com o servidor ativo, ative o ambiente Python e defina variáveis:

    source .venv/bin/activate
    export MIC_DEVICE="plughw:3,0"
    export SPK_DEVICE="alsa_output.usb-Generic_USB2.0_Device_20130100ph0-00.analog-stereo"
    export WEBCAM=0
    export VOICE="af_jessica"
    python3 Gemma4_vla.py
    

    Pressione SPACE para iniciar a gravação, fale sua pergunta e pressione SPACE novamente para parar. A Gemma 4 decide se precisa usar a webcam para responder, interpretando a imagem capturada e respondendo com contexto visual.

    Como a Gemma 4 funciona na demo

    O pipeline é o seguinte:

    • Você fala → Parakeet STT faz a transcrição localmente → Gemma 4 recebe o texto e a definição da ferramenta “look_and_answer”
    • Se a pergunta requer visão, Gemma 4 aciona a captura da webcam para análise
    • Gemma 4 responde usando o contexto visual e Kokoro TTS sintetiza a fala para o alto-falante

    Não há palavras-chave ou lógica fixa; o modelo decide autonomamente quando usar a visão, graças ao suporte nativo a chamadas de ferramentas ativado pelo parâmetro --jinja no servidor llama.

    Alternativa para testar Gemma 4 em modo texto

    Se quiser experimentar a Gemma 4 sem configurar áudio e webcam, existe uma imagem Docker pronta com llama.cpp compilado para Jetson Orin. Ela roda apenas em modo texto (sem visão):

    sudo docker run -it --rm --pull always \
      --runtime=nvidia --network host \
      -v $HOME/.cache/huggingface:/root/.cache/huggingface \
      ghcr.io/nvidia-ai-iot/llama_cpp:latest-jetson-orin \
      llama-server -hf unsloth/gemma-4-E2B-it-GGUF:Q4_K_S
    

    Depois, basta usar qualquer cliente compatível com OpenAI para se conectar em http://localhost:8080 e conversar com o modelo.

    Dicas para solução de problemas comuns

    • Falta de memória: repita os passos de limpeza de RAM e swap, feche programas desnecessários.
    • Sem som: confira se a variável SPK_DEVICE está correta e corresponde a um sink do PulseAudio real.
    • Microfone grava silêncio: verifique se MIC_DEVICE aponta para o dispositivo correto e teste gravação manual.
    • Primeira execução lenta: normal, pois baixa modelos e gera arquivos de voz; execuções subsequentes são mais rápidas.

    Links úteis

  • Hugging Face lança modelos multimodais com Sentence Transformers para busca e reranking

    A Hugging Face lançou uma atualização importante na biblioteca Sentence Transformers, agora com suporte a modelos multimodais para embedding e reranking. Disponível a partir da versão 5.4, essa novidade permite codificar e comparar entradas em texto, imagens, áudio e vídeo pela mesma API, ampliando as aplicações em busca semântica, recuperação visual e pipelines multimodais.

    Modelos multimodais: conceito e benefícios

    Modelos tradicionais convertem texto em vetores fixos, enquanto os multimodais mapeiam diferentes tipos de dados (texto, imagem, áudio, vídeo) para um espaço vetorial compartilhado. Isso possibilita, por exemplo, comparar uma consulta textual com documentos em imagens ou vídeos usando funções de similaridade comuns.

    Imagem relacionada ao artigo de HuggingFace
    Imagem de apoio da materia original.

    Já os modelos multimodais do tipo reranker avaliam a relevância entre pares mistos — texto, imagem ou combinação —, aprimorando a ordenação dos resultados, embora com maior custo computacional por processar cada par individualmente.

    Quem pode usar e como acessar

    Desenvolvedores e pesquisadores que atuam com sistemas de busca, recuperação de informação e geração aumentada por recuperação (RAG) que envolvam múltiplas modalidades podem se beneficiar. Exemplos incluem busca visual, comparação cruzada entre texto e imagem, e reranking multimodal.

    Para utilizar, instale a biblioteca sentence-transformers com os extras das modalidades desejadas. Por exemplo, para imagens:

    pip install -U "sentence-transformers[image]"

    Também é possível combinar áudio, vídeo e outras modalidades conforme a necessidade.

    Modelos avançados baseados em Vision-Language Models (VLM), como o Qwen3-VL-2B, exigem GPUs com pelo menos 8 GB de VRAM para desempenho adequado; variantes maiores (8B) requerem cerca de 20 GB. Usuários sem GPU local podem usar serviços em nuvem ou Google Colab. A execução em CPU é possível, porém lenta, recomendando-se modelos CLIP ou somente texto nesses casos.

    Uso prático dos modelos multimodais

    Embedding multimodal

    Carregar um modelo multimodal segue o mesmo processo dos modelos de texto, com a necessidade atual do argumento revision para acessar integrações ainda em merge:

    from sentence_transformers import SentenceTransformer
    model = SentenceTransformer(
        "Qwen/Qwen3-VL-Embedding-2B",
        revision="refs/pr/23"
    )

    O método encode() aceita imagens via URL, caminho local ou objeto PIL, além de texto e outras modalidades:

    img_embeddings = model.encode([
        "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg",
        "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg",
    ])

    Similaridade cruzada entre modalidades

    Como os embeddings multimodais compartilham o mesmo espaço vetorial, é possível calcular diretamente similaridades entre textos e imagens:

    Imagem relacionada ao artigo de HuggingFace
    Imagem de apoio da materia original.
    text_embeddings = model.encode([
        "A green car parked in front of a yellow building",
        "A bee on a pink flower",
    ])
    similarities = model.similarity(text_embeddings, img_embeddings)

    Embora os valores absolutos sejam menores devido ao modality gap, a ordenação semântica é preservada, garantindo eficácia na busca cruzada.

    Codificação de consultas e documentos

    Para recuperação, recomenda-se encode_query() e encode_document(), que aplicam prompts específicos para consultas e documentos, melhorando a precisão:

    query_embeddings = model.encode_query([
        "Find me a photo of a vehicle parked near a building",
    ])
    doc_embeddings = model.encode_document([
        "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg",
    ])

    Reranking multimodal

    Modelos reranker multimodais, como o Qwen/Qwen3-VL-Reranker-2B, pontuam a relevância de pares mistos, ordenando documentos de diferentes modalidades em relação a uma consulta:

    from sentence_transformers import CrossEncoder
    model = CrossEncoder(
        "Qwen/Qwen3-VL-Reranker-2B",
        revision="refs/pr/11"
    )
    query = "A green car parked in front of a yellow building"
    documents = [
        "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg",
        "A vintage Volkswagen Beetle painted in bright green sits in a driveway.",
        {"text": "A car in a European city", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg"},
    ]
    rankings = model.rank(query, documents)

    O reranker destaca corretamente os documentos mais relevantes, combinando texto e imagens para maior precisão.

    Padrão recomendado: recuperar e reranquear

    Uma prática eficiente é usar um modelo de embedding para recuperar rapidamente candidatos e um reranker para refinar a ordenação:

    embedder = SentenceTransformer("Qwen/Qwen3-VL-Embedding-2B", revision="refs/pr/23")
    query_embedding = embedder.encode_query("revenue growth chart")
    corpus_embeddings = embedder.encode_document(document_screenshots)
    similarities = embedder.similarity(query_embedding, corpus_embeddings)
    top_k_indices = similarities.argsort(descending=True)[0][:10]
    
    reranker = CrossEncoder("nvidia/llama-nemotron-rerank-vl-1b-v2", trust_remote_code=True)
    top_k_documents = [document_screenshots[i] for i in top_k_indices]
    rankings = reranker.rank("revenue growth chart", top_k_documents)

    Formatos de entrada e suporte multimodal

    Os modelos aceitam diversos formatos por modalidade:

    • Texto: strings simples
    • Imagem: URLs, caminhos locais, objetos PIL, arrays NumPy ou tensores Torch
    • Áudio: arquivos, URLs, arrays, dicionários com taxa de amostragem
    • Vídeo: arquivos, URLs, arrays, dicionários com metadados
    • Multimodal: dicionários com chaves para modalidades, ex: {“text”: “legenda”, “image”: “url”}

    Para verificar modalidades suportadas, use as propriedades modalities e o método supports():

    print(model.modalities)  # ex: ['text', 'image', 'video', 'message']
    print(model.supports("image"))  # True ou False

    Disponibilidade e preços

    Os modelos multimodais estão disponíveis gratuitamente no Hugging Face Hub, respeitando os limites da plataforma. Para uso intensivo ou com recursos avançados, a Hugging Face oferece planos pagos com acesso a GPUs, armazenamento e serviços empresariais. Consulte a página oficial de preços para mais informações.

    Links úteis

  • Gemma 4: A Nova Fronteira da Inteligência Multimodal On-Device da Hugging Face

    Apresentação do Gemma 4 e seu impacto na IA multimodal

    A Hugging Face lançou a família de modelos Gemma 4, desenvolvida pela Google DeepMind, trazendo avanços significativos em inteligência multimodal embarcada (on-device). Com licenças Apache 2.0, esses modelos são abertos, altamente compatíveis com diversas bibliotecas e dispositivos, e oferecem suporte a entradas de texto, imagens, áudio e vídeo, além de geração de texto.

    Arquitetura e inovações técnicas do Gemma 4

    O Gemma 4 evolui a partir de versões anteriores, incorporando componentes que equilibram eficiência, compatibilidade e desempenho em contextos de longo alcance e agentes autônomos. Entre suas principais características estão:

    Imagem relacionada ao artigo de HuggingFace
    Imagem de apoio da materia original.
    • Per-Layer Embeddings (PLE): um esquema que cria vetores de embedding dedicados para cada camada do decodificador, permitindo especialização sem aumentar muito o custo computacional.
    • Shared KV Cache: otimização que reutiliza estados de chave e valor em camadas finais, reduzindo memória e cálculo durante inferência, especialmente útil para contextos longos e uso em dispositivos locais.
    • Encoder visual e de áudio: o encoder de imagens preserva proporções originais e permite diferentes orçamentos de tokens para balancear qualidade e desempenho; o encoder de áudio segue arquitetura USM-style conformer similar ao Gemma-3n.
    • Suporte a contextos muito longos: até 256 mil tokens em modelos maiores, com atenção alternada entre janelas locais e atenção global.

    Modelos disponíveis e capacidades multimodais

    O Gemma 4 está disponível em quatro variantes, todas baseadas em fine-tuning base e por instrução:

    • E2B: 2,3 bilhões de parâmetros efetivos (5,1B com embeddings), janela de contexto de 128k tokens, suporte a áudio.
    • E4B: 4,5 bilhões efetivos (8B com embeddings), 128k tokens, suporte a áudio.
    • 31B: modelo denso com 31 bilhões de parâmetros, 256k tokens de contexto.
    • 26B: modelo MoE (mixture-of-experts) com 26 bilhões totais e 4 bilhões ativos, 256k tokens.

    Esses modelos são capazes de processar imagens, texto e vídeo (com áudio nos menores) de forma integrada. Em testes informais, o desempenho multimodal se mostrou comparável ao da geração de texto, com alta qualidade.

    Principais funcionalidades multimodais testadas

    Detecção de objetos e apontamento em interfaces

    O Gemma 4 pode identificar elementos em interfaces gráficas (GUI), respondendo nativamente em JSON com as coordenadas de caixas delimitadoras. Por exemplo, ao solicitar a caixa delimitadora do botão “view recipe”, o modelo retorna as coordenadas relativas à imagem, facilitando a integração em sistemas automatizados.

    Reconhecimento e descrição de objetos em imagens

    Testes com imagens do cotidiano, como bicicletas, mostram que o modelo consegue identificar objetos e retornar coordenadas precisas, com variações de detalhamento conforme o tamanho do modelo.

    Raciocínio multimodal e geração de código

    O Gemma 4 é capaz de interpretar imagens e gerar código HTML para reconstrução de páginas web, produzindo até 4000 tokens para garantir fidelidade ao layout original. Isso demonstra capacidade avançada de “pensamento multimodal” e execução de tarefas complexas.

    Imagem relacionada ao artigo de HuggingFace
    Imagem de apoio da materia original.

    Compreensão e descrição de vídeos com áudio

    Os modelos menores aceitam vídeos com áudio, analisando o conteúdo visual e auditivo para responder perguntas sobre a cena e a letra da música, mesmo sem treinamento explícito em vídeos. Modelos maiores processam vídeo sem áudio, descrevendo com riqueza de detalhes apresentações musicais ao vivo, iluminação, público e atmosfera.

    Legenda automática de imagens

    Todos os checkpoints do Gemma 4 geram legendas detalhadas e precisas para imagens complexas, descrevendo cenários urbanos e naturais com nuances, como uma gaivota em uma praça europeia, destacando elementos arquitetônicos e ambientais.

    Integração e fine-tuning facilitados

    O Gemma 4 foi projetado para ser integrado com múltiplas ferramentas e bibliotecas populares, como MLX, mistral.rs, transformers, llama.cpp, transformers.js, entre outras. Essa flexibilidade permite rodar os modelos localmente, em dispositivos móveis e na nuvem.

    Para quem deseja adaptar o modelo a necessidades específicas, há suporte a fine-tuning com TRL, incluindo exemplos práticos para o Google Vertex AI e Unsloth Studio, facilitando personalizações e melhorias de desempenho.

    Como experimentar o Gemma 4

    A Hugging Face disponibiliza notebooks e scripts para testar o Gemma 4, incluindo:

    O lançamento do Gemma 4 representa um avanço notável na inteligência artificial multimodal para dispositivos locais, combinando alta performance, flexibilidade e abertura. Com suporte a áudio, vídeo, imagens e texto, e compatibilidade ampla, ele abre novas possibilidades para aplicações em assistentes pessoais, automação, análise multimídia e muito mais.

    Links úteis