Blog

  • NVIDIA Apresenta SpatialClaw: Agente de IA Que Usa Código Como Interface para Raciocínio Espacial

    NVIDIA Apresenta SpatialClaw: Agente de IA Que Usa Código Como Interface para Raciocínio Espacial

    Capa: NVIDIA SpatialClaw

    A NVIDIA Research acaba de lançar o SpatialClaw, um framework “training-free” (sem necessidade de treinamento) para raciocínio espacial. O sistema ataca uma fraqueza persistente nos modelos de visão-linguagem (VLMs): a dificuldade em julgar onde objetos estão posicionados, como se relacionam e como se movem em 3D.

    A grande sacada do SpatialClaw é que ele não retreina o modelo. Em vez disso, muda a interface de ação que o agente usa para invocar ferramentas de percepção. A equipe de pesquisa argumenta que a interface é o gargalo, e a solução é tratar código como a interface de ação.

    Os números impressionam: em 20 benchmarks, o SpatialClaw atinge 59,9% de precisão média, superando o agente espacial SpaceTools em 11,2 pontos percentuais.

    O que é o SpatialClaw

    O SpatialClaw é um loop de agente envolvendo um kernel Python com estado. O kernel é pré-carregado com frames de entrada e um conjunto de primitivas. As ferramentas de percepção são funções Python comuns — suas saídas (máscaras, mapas de profundidade, geometria de câmera e trajetórias) são variáveis Python normais.

    O kernel expõe seis pontos de entrada públicos:

    • InputImages: armazena os frames amostrados
    • Metadata: contém frame rate, duração e índices dos frames
    • tools: expõe primitivas de percepção e geometria
    • show(): incorpora uma imagem no próximo contexto do agente
    • vlm: despacha consultas para uma sessão VLM separada
    • ReturnAnswer(): submete a resposta final

    Duas ferramentas de percepção são centrais. A tools.Reconstruct utiliza Depth Anything 3 e retorna profundidade por frame, intrínsecos e extrínsecos da câmera, e mapas de pontos densos. A tools.SAM3 utiliza SAM 3 e produz máscaras de imagem ou vídeo a partir de prompts de texto, ponto ou caixa delimitadora.

    O framework é totalmente training-free — o mesmo prompt de sistema, conjunto de ferramentas e hiperparâmetros funcionam em todos os benchmarks e backbones.

    Por que a Interface de Ação Importa

    A equipe estudou três interfaces de ação na mesma pergunta: medir a distância mais próxima entre um aquecedor e uma porta.

    • Single-pass code: escreve um programa completo e executa uma vez. Assume uma estratégia antes de ver qualquer máscara ou mapa de profundidade. Um erro de suposição se propaga direto para a resposta.

    • Structured tool-call: invoca ferramentas nomeadas via schema JSON fixo. Não consegue combinar livremente outputs com NumPy ou SciPy para cálculos em tempo de teste. O resultado é incorreto.

    • SpatialClaw: compõe ferramentas em código, inspeciona resultados, e então revisa. Primeiro calcula uma distância de centroide, depois percebe que o centroide usa mediana. O agente troca para scipy.spatial.KDTree e encontra o ponto mais próximo real: 0,9439 m contra um ground truth de 0,9 m.

    Benchmark e Resultados

    O SpatialClaw foi testado em 20 benchmarks distribuídos em cinco categorias: single-image, multi-view, general, video/4D, e compreensão geral de vídeo. Ele melhora sobre o baseline sem ferramentas em todos os seis backbones testados — variando de 26B a 397B parâmetros nas famílias Qwen3.5/3.6 e Gemma4.

    Comparação controlada isolando a interface (backbone Gemma4-31B):

    Interface de Ação Média (20 bench.) Δ vs no-tool
    No-tool baseline 53,4 —
    Single-pass code 55,2 +1,8
    Structured tool-call 56,7 +3,3
    SpatialClaw (code as action) 59,9 +6,5

    Os ganhos mais expressivos estão em tarefas dinâmicas. No Gemma4-31B, o DSI-Bench subiu +17,6 pontos e o MindCube subiu +15,3 pontos — categorias que exigem computação geométrica encadeada entre frames e pontos de vista.

    Por que Isso Importa

    O SpatialClaw mostra que a interface de ação é tão importante quanto o modelo em si. Ao tratar código como a linguagem de ação do agente, a NVIDIA conseguiu ganhos substanciais sem nenhum fine-tuning. Isso abre caminho para agentes de IA mais capazes em tarefas que exigem raciocínio espacial — de robótica a navegação autônoma e AR/VR.

    O código e o paper estão disponíveis no site oficial do projeto.

  • Ferramentas Server-Side para Agentes de IA: Arquitetura, Latência e Quando Migrar

    Ferramentas Server-Side para Agentes de IA: Arquitetura, Latência e Quando Migrar

    Ferramentas Server-Side para Agentes de IA: Arquitetura, Latência e Quando Migrar

    Todo agente de IA eventualmente encontra o mesmo problema estrutural: o modelo consegue raciocinar, mas não consegue agir sem ferramentas. Alguém precisa executar essas ferramentas — buscar resultados de pesquisa, consultar o banco de dados, chamar a API — e esse “alguém” geralmente é o seu código.

    A maioria das equipes constrói isso da mesma forma: o modelo retorna uma chamada de ferramenta (tool call), seu código a captura, executa a ferramenta, formata o resultado e envia de volta. Repita até que o modelo tenha o que precisa para responder. O loop funciona, mas significa que sua equipe mantém toda a camada de ferramentas: conexões, credenciais, lógica de retry, tratamento de erros e observabilidade — nada disso é o seu produto.

    Existe uma alternativa: mover a execução das ferramentas para dentro da camada de inferência, para que as ferramentas sejam executadas como parte da chamada da API, e não entre chamadas.

    O que são Server-Side Tools?

    Server-Side Tools (Ferramentas do Lado do Servidor) permitem que você adicione execução de ferramentas diretamente nas requisições de inferência. Você continua usando suas chaves de acesso ao modelo, mas o próprio servidor gerencia a execução das ferramentas, sem que seu código precise orquestrar cada passo do loop.

    Client-side vs Server-side

    Client-side (lado do cliente): melhor para desenvolvimento. Você tem visibilidade total, debug local e controle sobre cada chamada. Ideal para prototipagem e iteração rápida.

    Server-side (lado do servidor): melhor para produção. Remove a sobrecarga de infraestrutura quando você está pronto para enviar para produção. O servidor gerencia o loop de ferramentas, retry e formatação.

    Latência e cold starts

    Um ponto importante: cold starts ainda são responsabilidade sua. Se o seu servidor MCP (Model Context Protocol) “esfriar” por inatividade, o tempo de inicialização aparece no tempo de resposta da sua API. A recomendação é manter os servidores MCP aquecidos para produção.

    Falha de ferramenta ≠ falha do agente

    É importante separar as preocupações: uma ferramenta que retorna timeout é um problema de infraestrutura. O modelo respondendo mal mesmo com ferramentas funcionando é um problema de prompt. Acompanhe essas métricas separadamente.

    Quando usar Tool Search

    Se você tem mais de 20 a 30 definições de ferramentas, o Tool Search (busca preguiçosa de ferramentas) reduz o custo de tokens de entrada em cada turno. Abaixo desse número, carregar todas as ferramentas a cada requisição funciona bem.

    MCP e rede

    Para uso server-side, os servidores MCP precisam estar publicamente acessíveis. Se suas ferramentas vivem em uma rede privada, use MCP client-side como alternativa.

    Observabilidade desde o início

    Configure tracing antes de precisar. Quando algo quebrar em produção, você vai querer saber exatamente qual chamada de ferramenta causou o problema. A API de Agent Tracing permite rastrear cada passo do agente.

    Conclusão

    A escolha entre client-side e server-side tools depende do estágio do seu produto. Em desenvolvimento, o client-side oferece flexibilidade. Em produção, o server-side reduz complexidade operacional. O importante é entender os trade-offs de latência, alcance de rede e observabilidade antes de decidir.

  • Python 3.14 e seu Novo Compilador JIT: O Fim da Lentidão?

    Python 3.14 e seu Novo Compilador JIT: O Fim da Lentidão?

    Python 3.14 e seu Novo Compilador JIT: O Fim da Lentidão?

    O lançamento do Python 3.14 marca um ponto importante na evolução de uma das linguagens de programação mais populares do mundo. Embora o Python seja reconhecido por sua legibilidade e vasto ecossistema, sua velocidade de execução sempre foi o “elefante na sala”. Com a versão 3.14, a equipe do CPython entregou duas das funcionalidades mais aguardadas dos últimos tempos.

    O fim do GIL

    A verdadeira concorrência agora está disponível no Python. O GIL (Global Interpreter Lock), que por décadas limitou a execução paralela a uma única thread por vez, foi removido de forma opcional. Isso significa que você pode finalmente aproveitar múltiplos núcleos de CPU em Python sem workarounds como multiprocessing.

    O compilador JIT (Just-In-Time)

    O JIT é a grande novidade que vamos explorar aqui. Trata-se de um recurso experimental que agora vem empacotado diretamente nos instaladores oficiais — resultado de anos de preparação arquitetural da equipe do CPython.

    Como funciona?

    No Python tradicional (CPython), seu código é compilado para bytecode, que é interpretado linha por linha pela máquina virtual. O JIT muda esse fluxo: ele monitora quais partes do código são executadas com mais frequência (os “hot paths”). Quando uma função ou loop é considerado “quente”, o JIT traduz o bytecode para código de máquina nativo — instruções que a CPU entende diretamente. Na próxima execução, não há interpretação: o código roda diretamente.

    Copy-and-patch

    O JIT do Python 3.14 usa uma técnica chamada “copy-and-patch”, que o torna leve e portátil entre diferentes arquiteturas de CPU sem precisar de um backend de compilação complexo como o LLVM. Isso é fundamental para manter a simplicidade que a comunidade Python valoriza.

    O que mudou em relação ao 3.13?

    O Python 3.13 já tinha um JIT experimental, mas ele vinha desabilitado por padrão — era preciso compilar o CPython a partir do código-fonte com flags específicas como --enable-experimental-jit. No 3.14, o JIT está disponível nos instaladores oficiais .msi (Windows) e .pkg (macOS), bastando ativá-lo com uma flag de runtime.

    Benchmarks iniciais

    Os primeiros testes mostram ganhos expressivos em workloads com loops pesados e operações numéricas — exatamente onde o Python tradicional mais sofre. Funções matemáticas, processamento de dados e algoritmos que executam muitas iterações são os maiores beneficiados.

    Vale a pena migrar?

    Se você trabalha com ciência de dados, machine learning ou qualquer área que dependa de processamento intensivo em Python, o 3.14 com JIT ativado merece sua atenção. O fato de ser opcional significa que você pode testar sem riscos: ative o JIT, rode seus benchmarks e decida se o ganho compensa.

    O Python está ficando mais rápido — e o JIT do 3.14 é a prova concreta de que a linguagem está evoluindo sem perder sua essência.

  • Governo dos EUA proíbe Anthropic de liberar Fable 5 e Mythos 5: aliados reagem e Europa pede soberania em IA

    Governo dos EUA proíbe Anthropic de liberar Fable 5 e Mythos 5: aliados reagem e Europa pede soberania em IA

    O governo dos Estados Unidos emitiu uma ordem sem precedentes na indústria de inteligência artificial: proibiu a Anthropic de disponibilizar seus dois modelos mais avançados — Fable 5 e Mythos 5 — para qualquer pessoa fora do país, incluindo aliados históricos. A decisão provocou uma crise diplomática, reacendeu o debate sobre soberania tecnológica e colocou em xeque o futuro do acesso global à IA de ponta.

    O que aconteceu

    Na última semana, o governo Trump emitiu uma ordem de controle de exportação que forçou a Anthropic a retirar completamente do ar os modelos Fable 5 e Mythos 5 para garantir conformidade. A empresa já havia concedido acesso ao Claude Mythos Preview para 200 instituições em 15 países para testes de vulnerabilidade, e as versões públicas estavam programadas para lançamento no início de junho.

    A Anthropic afirmou que o governo dos EUA não forneceu uma razão oficial para a ordem, mas que seu entendimento é de que a administração Trump acreditava ter descoberto um método de “jailbreaking” do Fable 5 — uma técnica para contornar as salvaguardas de segurança do modelo.

    “Corrija este código”: as três palavras que acionaram o alarme

    Segundo a Fortune, tudo começou com três palavras: “Fix this code” (Corrija este código). Um prompt aparentemente inofensivo teria demonstrado uma capacidade do Fable 5 que alarmou as agências de segurança nacional dos EUA, levando à ordem de bloqueio em questão de dias.

    O caso levantou questões sobre o equilíbrio entre segurança nacional e inovação: o Fable 5 foi bloqueado, mas o GPT-5.5 da OpenAI — um modelo de capacidade comparável — não sofreu a mesma restrição, como apontou o Mashable.

    Terremoto na Europa: Macron chama decisão de “nacionalista”

    A proibição enviou ondas de choque imediatas pela Europa, que é fortemente dependente de IA desenvolvida nos EUA. O presidente francês Emmanuel Macron classificou a ordem como um “alerta” sobre os perigos da IA, mas criticou duramente a abordagem:

    “A reação é, em alguns aspectos, estritamente nacionalista. Os limites são uma coisa ruim.”

    Macron falou durante a reunião do G7 esta semana, alertando contra o perigo da “não cooperação entre democracias”. O porta-voz da Comissão Europeia para soberania tecnológica, Thomas Regnier, reforçou que abordar questões de segurança em IA é um “desafio compartilhado, não confinado a uma única jurisdição ou país”.

    “Uma nação que depende de outros para sua tecnologia pode ser desconectada da noite para o dia”

    O impacto mais profundo da decisão americana foi acelerar os apelos por autossuficiência tecnológica entre os aliados dos EUA. O primeiro-ministro canadense Mark Carney declarou:

    “A situação em que estamos coletivamente agora com Mythos e Fable é algo que pode acontecer com dependência excessiva. Ninguém fez nada de errado nesta situação. Mas teremos feito algo errado se simplesmente aceitarmos isso, não aprendermos a lição e não diversificarmos.”

    O ex-ministro francês Bruno Retailleau, candidato à presidência em 2027, foi ainda mais direto:

    “Uma nação que depende de outros para sua tecnologia é uma nação que pode ser desconectada da noite para o dia. Devemos tratar a IA como tratamos a energia nuclear: devemos pensar nela como parte de nossa soberania. Dominá-la ou sofrê-la: não há outro caminho.”

    O “efeito Streisand” da proibição

    Ironicamente, o banimento pode estar ajudando a marca da Anthropic. A cobertura massiva da mídia global — da Al Jazeera à Forbes, do Time à NBC News — transformou o Fable 5 no modelo de IA mais comentado do momento.

    Enquanto isso, modelos open-source correram para preencher a lacuna: segundo o The New Stack, quatro modelos abertos diferentes responderam à demanda antes mesmo que a Anthropic pudesse restaurar o acesso. A empresa também lançou uma nova política de privacidade oferecendo uma alternativa para consumidores americanos contornarem as restrições, conforme reportou a CIO.com.

    O que está em jogo

    Para os investidores, a proibição chega em um momento crítico: a Anthropic se prepara para um IPO e a decisão do governo americano adiciona uma camada de incerteza regulatória sem precedentes. Para os desenvolvedores que construíam sobre a plataforma, o bloqueio repentino foi um lembrete brutal dos riscos de depender de um único fornecedor de IA.

    Para o mundo, o caso Fable 5 é um marco: a primeira vez que um governo ocidental bloqueia o acesso a um modelo de IA de ponta por razões de segurança nacional — e um sinal claro de que a geopolítica da inteligência artificial entrou em uma nova fase.


    O que você acha? A decisão do governo americano foi acertada ou exagerada? A Europa deveria acelerar seus próprios modelos de IA? Deixe sua opinião nos comentários.

  • Filme Sobre Sam Altman é Abandonado pela Amazon MGM

    Filme Sobre Sam Altman é Abandonado pela Amazon MGM

    O filme Artificial, dirigido por Luca Guadagnino e estrelado por Andrew Garfield como Sam Altman, foi abandonado pela Amazon MGM, segundo informações do Puck e confirmadas pelo Deadline.

    O longa, que cobre os cinco dias turbulentos de 2023 em que Altman foi demitido e recontratado como CEO da OpenAI, estava em desenvolvimento há cerca de um ano. O elenco também inclui Monica Barbaro (de A Complete Unknown) como a CTO da OpenAI, Mira Murati, Ike Barinholtz como Elon Musk, e Yura Borisov (de Anora) como o cientista-chefe da OpenAI, Ilya Sutskever.

    Em comunicado ao Deadline, o estúdio afirmou que acredita que o filme “será mais bem servido se for lançado por um estúdio diferente e está trabalhando em estreita colaboração com a equipe de filmagem para encontrar um novo lar para o filme”.

    Laços entre Amazon e OpenAI

    A decisão ocorre em meio aos laços comerciais cada vez mais estreitos entre Amazon e OpenAI. Em fevereiro, a Amazon anunciou um investimento de US$ 50 bilhões no laboratório de IA, consolidando a AWS como principal parceira de nuvem da OpenAI. O investimento massivo levanta questões sobre se a decisão de abandonar o filme tem relação com a parceria estratégica entre as duas empresas.

    Uma história que Hollywood queria contar

    O projeto de Guadagnino havia gerado grande expectativa em Hollywood por ser uma das primeiras produções de grande orçamento a abordar os eventos dramáticos de novembro de 2023 — o fim de semana em que Altman foi abruptamente demitido pelo conselho da OpenAI, seguido por uma revolta de funcionários, ameaças de demissão em massa e sua reintegração dias depois, em um dos episódios mais surreais da história do Vale do Silício.

    Com Andrew Garfield no papel principal e um diretor aclamado como Guadagnino (Call Me By Your Name, Challengers), o filme prometia ser um dos lançamentos mais comentados sobre o mundo da tecnologia.

    Ainda não há informações sobre qual estúdio poderia assumir o projeto, mas fontes indicam que outras distribuidoras já demonstraram interesse.


    Fonte: The Verge

  • Bilionário Ambani Quer IA em Cada Chamada, App e Casa

    Bilionário Ambani Quer IA em Cada Chamada, App e Casa

    Enquanto a Índia busca um competidor local na corrida global da inteligência artificial, o bilionário Mukesh Ambani está posicionando a Reliance Industries como campeã nacional, lançando serviços de IA para chamadas telefônicas, aplicativos móveis e casas conectadas.

    Na reunião anual de acionistas na sexta-feira, o conglomerado sediado em Mumbai anunciou o Jio Call Agent, um assistente de IA que pode participar de chamadas telefônicas para transcrever conversas, gerar resumos e realizar tarefas como reservar transporte, pedir comida e fazer reservas. O serviço, que pode ser ativado dizendo “Hey Jio”, deve ser lançado ainda este ano para os mais de 500 milhões de usuários da Jio.

    Ao integrar o serviço diretamente na sua rede de telecomunicações em vez de oferecê-lo como um aplicativo independente, a Jio aposta que a assistência de IA pode se tornar um recurso nativo das chamadas telefônicas. A abordagem pode reduzir a dependência dos consumidores de aplicativos de terceiros e dar à Reliance uma vantagem de distribuição poderosa em um mercado de IA cada vez mais concorrido.

    Um ecossistema completo de IA

    A Reliance também revelou uma versão com IA do seu aplicativo MyJio, capaz de realizar tarefas em nome dos usuários — desde ativar eSIMs até selecionar planos de roaming — por meio de comandos em linguagem natural. A empresa também apresentou o TeleFrame, um display doméstico que usa agentes de IA para exibir proativamente informações e recomendações, como alertas meteorológicos, agendas e lembretes domésticos.

    Os anúncios marcam a próxima fase das ambições de IA da Reliance, enquanto a Índia busca construir capacidades domésticas em um campo amplamente dominado por empresas dos Estados Unidos e da China. O movimento segue o lançamento da Reliance Intelligence no ano passado, por meio da qual o conglomerado pretende desenvolver infraestrutura e serviços de IA para consumidores, empresas e governos, incluindo aplicações que suportam 22 idiomas indianos.

    “A Índia não deve ser uma mera consumidora de IA criada em outros lugares. Deve se tornar criadora, adotante e líder global em IA”, disse Ambani, de 69 anos.

    Investimentos massivos e parcerias estratégicas

    A Reliance vem acelerando suas ambições de IA por meio de parcerias com Google, Meta e Nvidia. No início deste ano, a empresa anunciou planos de investir US$ 110 bilhões em infraestrutura de IA, enquanto busca se estabelecer como uma grande player no emergente ecossistema de IA da Índia.

    Na reunião de acionistas, a Reliance também revelou um conjunto de serviços de IA para saúde, educação, agricultura e pequenas empresas. Os produtos, batizados de JioHealthIQ, JioLearnIQ, JioKrishiIQ e AI Vyapar, são projetados para operar em vários idiomas indianos e atender às necessidades locais.

    O encontro também trouxe uma grande novidade para investidores que aguardam a estreia da Jio na bolsa de valores. Ambani disse que o conselho da Jio Platforms aprovou um prospecto preliminar para uma oferta pública inicial (IPO) que incluiria uma emissão de até 270 milhões de ações.


    Fonte: TechCrunch

  • Subquadratic afirma ter resolvido o gargalo matemático dos transformers — e tem benchmarks independentes para provar

    Subquadratic afirma ter resolvido o gargalo matemático dos transformers — e tem benchmarks independentes para provar

    A startup de Miami Subquadratic saiu do stealth com uma afirmação ousada: resolveu um gargalo matemático que limita os modelos de linguagem há quase uma década. Um mês depois, a empresa começou a mostrar as provas.

    O problema é a atenção densa (dense attention), o mecanismo central dos transformers. Quando um LLM processa texto, cada token precisa ser multiplicado por todos os outros tokens. Isso gera uma expansão quadrática de computações — dobre o texto e você quadruplica os cálculos. É por isso que rodar modelos como GPT-4 e Claude custa caro, consome energia absurda e fica lento com contextos longos.

    A Subquadratic diz ter resolvido isso com atenção esparsa dinâmica (sparse attention). Em vez de multiplicar cada token por todos os outros, o modelo seleciona dinamicamente apenas as relações importantes. “Atenção esparsa diz que nem todas essas relações são importantes, porque elas não são”, explica Alex Whedon, CTO e cofundador. “Se você está lendo um livro, não vai comparar a primeira com a segunda palavra, primeira com a terceira — isso é insano.”

    O resultado é o SubQ, um LLM que segundo a empresa é até 56 vezes mais rápido que modelos usando FlashAttention, processa 12 vezes mais texto de uma vez e consome muito menos energia — tudo isso igualando o desempenho dos melhores modelos de OpenAI, Google DeepMind e Anthropic em tarefas como código.

    A comunidade recebeu com ceticismo. Dan McAteer, engenheiro de IA, resumiu o clima no X: “SubQ é o maior avanço desde o Transformer… ou é a Theranos da IA.”

    Mas a Subquadratic contratou a Appen, empresa independente que avalia modelos, para rodar seus testes. Os resultados parecem validar as afirmações. “Fiquei tipo ‘uau, isso pode mudar o jogo’”, disse Jeanine Sinanan-Singh, diretora de pesquisa em IA generativa da Appen. “Modelos sofrem com velocidade e ineficiência.”

    O SubQ não substitui os modelos atuais em todas as tarefas, mas pode oferecer ganhos enormes de velocidade por uma fração do custo para tarefas específicas — como analisar centenas de documentos ou bases de código inteiras.

    O CEO Justin Dangel é ambicioso: “Esperamos estar iniciando uma nova era de eficiência. Achamos que ninguém vai continuar construindo sobre transformers densos.”

    A startup ainda não liberou o SubQ para testes públicos, mas prometeu divulgar benchmarks verificados antes de qualquer anúncio futuro. O artigo completo da MIT Technology Review tem todos os detalhes técnicos: A startup claims it broke through a bottleneck that’s holding back LLMs.

  • Liquid AI lança LFM2.5-Embedding e ColBERT-350M: novos modelos de busca multilíngue em 11 idiomas

    Liquid AI lança LFM2.5-Embedding e ColBERT-350M: novos modelos de busca multilíngue em 11 idiomas

    A Liquid AI — startup fundada por ex-pesquisadores do MIT e conhecida por sua arquitetura alternativa aos transformers — acaba de lançar dois novos modelos de embedding que prometem busca multilíngue ultrarrápida em 11 idiomas, incluindo o português.

    Dois modelos, um backbone

    Os LFM2.5-Embedding-350M e LFM2.5-ColBERT-350M compartilham o mesmo backbone de 350 milhões de parâmetros, baseado na arquitetura LFM2.5 da Liquid AI. A diferença está na forma como representam o texto:

    • Embedding (Bi-Encoder Denso): Converte cada documento em um único vetor de 1024 dimensões. Ideal para busca rápida com o menor índice possível. Escolha quando velocidade e custo de armazenamento são prioridade.

    • ColBERT (Late-Interaction): Converte cada token em um vetor de 128 dimensões, permitindo comparação palavra por palavra entre consulta e documento. Oferece precisão superior e melhor generalização, com o trade-off de um índice maior. Também pode ser usado como reranker.

    Ambos os modelos são voltados para busca de contexto curto, como catálogos de produtos, bases de conhecimento FAQ e documentação de suporte — um encaixe natural para pipelines RAG (Retrieval-Augmented Generation).

    Arquitetura bidirecional adaptada

    O ponto de partida é o checkpoint LFM2.5-350M-Base, um modelo de uso geral que a Liquid AI adaptou com patches bidirecionais. Originalmente, a arquitetura LFM2 é causal (cada token olha apenas para o passado), o que funciona para geração de texto, mas não é ideal para recuperação de informação.

    A equipe substituiu a máscara de atenção causal por uma bidirecional, permitindo que cada token atenda ao contexto tanto à esquerda quanto à direita. As convoluções curtas também foram tornadas não-causais, misturando informações locais simetricamente ao redor de cada token.

    O resultado: 17 camadas (10 de convolução, 6 de atenção e 1 de pooling/densa), contexto de até 32.768 tokens e documentos afinados para 512 tokens — preservando a eficiência do backbone LFM2 enquanto produz as representações de contexto completo que a recuperação exige.

    Resultados em 11 idiomas

    Os modelos foram avaliados em dois benchmarks:

    • NanoBEIR: recuperação multilíngue
    • MKQA-11: QA cross-lingual de domínio aberto

    Ambos cobrem 11 idiomas: árabe, alemão, inglês, espanhol, francês, italiano, japonês, coreano, norueguês, português e sueco.

    O ColBERT lidera em ambas as médias, com 0,605 no NanoBEIR (melhoria significativa sobre os 0,540 do LFM2-ColBERT-350M anterior). O Embedding chega perto no MKQA-11, com 0,691. Ambos superam o Qwen3-Embedding-0.6B, um modelo maior.

    Latência e deploy

    A Liquid AI disponibilizou variantes GGUF para llama.cpp, permitindo execução em CPUs, laptops e dispositivos edge. Em uma MacBook Pro M4 Max (FP16), a latência mediana de consulta fica abaixo de 10 ms para embeddings pré-computados. Em GPUs H100 (FP16), as latências chegam a 1 ms.

    Para uso via Python, o Embedding roda com sentence-transformers e o ColBERT com PyLate, incluindo índice PLAID com FastPLAID para busca eficiente de similaridade. Ambos suportam fine-tuning com dados próprios.

    Disponibilidade

    Os modelos estão disponíveis no Hugging Face sob os identificadores LiquidAI/LFM2.5-Embedding-350M e LiquidAI/LFM2.5-ColBERT-350M. A Liquid AI recomenda o Embedding para pipelines RAG que priorizam custo e velocidade, e o ColBERT quando a precisão é o fator decisivo — especialmente em cenários cross-lingual onde a interação tardia captura nuances que embeddings densos podem perder.

  • Subquadratic afirma ter resolvido o gargalo que limita os LLMs — e os testes independentes mostram velocidade 56x maior

    Subquadratic afirma ter resolvido o gargalo que limita os LLMs — e os testes independentes mostram velocidade 56x maior

    A startup americana Subquadratic saiu do modo stealth no mês passado com uma afirmação ambiciosa: resolveram o gargalo matemático que tem limitado os grandes modelos de linguagem (LLMs) há quase uma década. Agora, a empresa sediada em Miami começa a apresentar evidências independentes que tornam suas alegações muito mais difíceis de ignorar.

    O problema da atenção quadrática

    Para entender por que as alegações da Subquadratic são tão impactantes, é preciso mergulhar em como os LLMs funcionam. O mecanismo central de um LLM é um tipo de rede neural chamada transformer, que executa um processo conhecido como atenção densa (“dense attention”). Quando um transformer processa um texto, ele codifica cada palavra (ou token) com um número e depois multiplica cada número por todos os outros números daquele texto. Um texto de 10.000 palavras dispara quase 50 milhões de multiplicações individuais.

    Conforme o texto aumenta, o número de cálculos dispara de forma quadrática — dobre o número de palavras e você quadruplica os cálculos. É por isso que os LLMs são notórios devoradores de energia e dinheiro.

    SubQ: atenção esparsa e velocidade 56x maior

    A solução da Subquadratic é abandonar a atenção densa em favor da atenção esparsa (“sparse attention”), que reduz drasticamente os cálculos. Em vez de multiplicar cada token por todos os outros, o modelo seleciona dinamicamente quais pares de tokens são relevantes para o contexto específico.

    “Se você está lendo um livro, você não vai comparar a primeira e a segunda palavra, primeira e terceira — isso é insano”, explica Alex Whedon, CTO e cofundador da Subquadratic.

    O modelo se chama SubQ e, segundo testes independentes conduzidos pela empresa Appen, é 56 vezes mais rápido que modelos que usam FlashAttention (a técnica anterior de atenção esparsa). Em benchmarks de código como o LiveCodeBench, o SubQ atingiu 89,7% de precisão — competitivo com os melhores modelos de codificação do mercado.

    Custo e capacidade de contexto sem precedentes

    O SubQ possui uma janela de contexto de até 12 milhões de tokens — 12 vezes maior que a maioria dos modelos atuais, limitados a cerca de 1 milhão. Em uma demonstração, o SubQ processou e raciocinou sobre 400 documentos simultâneos em segundos. Quando o Perplexity recebeu a mesma tarefa, sequer conseguiu carregar todos os documentos.

    Em termos de custo, a diferença é ainda mais gritante: executar o Opus 4.6 da Anthropic no teste RULER 128 custa cerca de US$ 2.600. O SubQ? Oito dólares.

    Nos testes de “needle-in-a-haystack”, o SubQ obteve 98% de precisão com janelas de contexto de 6 e 12 milhões de tokens — praticamente perfeito em escalas que poucos modelos sequer testam.

    Ceticismo justificado

    Apesar dos números impressionantes, o ceticismo é compreensível. A Subquadratic é uma empresa pequena com recursos limitados, e o modelo ainda não está amplamente disponível para testes públicos. Dezenas de milhares já se inscreveram na lista de espera, incluindo mais de 500 clientes empresariais, mas poucos tiveram acesso até agora.

    Outro ponto levantado por pesquisadores: a Subquadratic reutilizou pesos de um modelo open-source chinês (Qwen) para inicializar o SubQ, em vez de treinar do zero. Embora seja uma prática comum na indústria, isso enfraquece a alegação de terem reinventado completamente o funcionamento dos LLMs.

    “A evidência pública ainda não justifica a alegação mais forte de que eles resolveram o gargalo da atenção quadrática”, pondera Will Depue, pesquisador independente que trabalhou anteriormente na OpenAI.

    Uma nova era de eficiência?

    A Subquadratic insiste que a reinvenção é o único caminho para startups competirem com gigantes. “Esperamos estar iniciando uma nova era de eficiência”, diz Justin Dangel, CEO e cofundador. “Achamos que ninguém estará construindo em cima de transformers daqui a alguns anos.”

    Se o SubQ cumprir o que promete, a equação da IA generativa pode mudar radicalmente — mais rápida, mais barata e capaz de processar volumes de dados antes impensáveis. O copo está meio cheio de evidências, mas o gole final ainda depende de acesso público e testes independentes em larga escala.

  • EUA acusam ASML de enviar máquina de chips EUV para a China; empresa nega

    EUA acusam ASML de enviar máquina de chips EUV para a China; empresa nega

    Máquina de litografia ASML

    EUA acusam ASML de enviar máquina de chips EUV para a China; empresa nega veementemente

    Segundo a Bloomberg, o Secretário de Comércio dos EUA, Howard Lutnick, disse a executivos seniores da ASML que está preocupado com a possibilidade de uma das máquinas de litografia ultravioleta extrema (EUV) da fabricante holandesa — os únicos equipamentos capazes de imprimir os padrões de semicondutores mais avançados do planeta — ter parado na China. Se confirmado, seria uma violação grave dos controles de exportação que proíbem a venda de EUV para a China desde o primeiro governo Trump.

    A ASML nega categoricamente. “Nenhuma máquina desse tipo existe na China e nunca existiu”, afirma a empresa. O Departamento de Comércio se recusou a responder se tem evidências de um sistema EUV real em solo chinês.

    Por que isso importa

    A ASML é uma empresa holandesa que a maioria das pessoas nunca ouviu falar, mas é, de longe, a companhia mais importante na infraestrutura global de IA que não se chama Nvidia ou está entre os hyperscalers. Ela fabrica as únicas máquinas do planeta capazes de litografia EUV — o processo de imprimir os circuitos microscópicos que definem os chips mais avançados.

    Cada processador de ponta feito pela TSMC, a fundição por trás dos chips da Nvidia e da Apple, depende de ferramentas da ASML que levaram cerca de duas décadas e bilhões incalculáveis para desenvolver. Não existe segundo fornecedor. Esse monopólio fez da ASML a empresa pública mais valiosa da Europa, com valor de mercado oscilando em torno de US$ 700 bilhões.

    É exatamente essa escala que torna a questão da China tão crítica. Se uma única máquina EUV chegou às mãos chinesas, isso representaria uma das violações mais sérias do regime de controle de exportação que os EUA construíram nos últimos anos para manter a capacidade avançada de IA fora da base militar e industrial de Pequim.

    A defesa da ASML

    Em entrevista ao TechCrunch seis semanas antes da notícia estourar, o CEO Christophe Fouquet detalhou as salvaguardas da empresa:

    • A ASML rastreia cada máquina que já enviou — elas estão em uso ativo com clientes monitorados ou foram desmontadas e devolvidas à empresa
    • A empresa construiu um firewall interno: funcionários com acesso à tecnologia EUV são isolados dos que não têm, e a equipe da ASML na China fica do lado errado desse muro por design
    • A ASML só conseguiu construir uma máquina EUV porque 80% já existia de décadas de conhecimento prévio. Resolver o único problema genuinamente novo — gerar a luz EUV — levou 20 anos sozinho

    A mensagem implícita de Fouquet: é impossível fazer engenharia reversa de uma máquina que nunca se teve, e ninguém na China teve uma.

    Há também uma lógica comercial simples: a ASML espera que cerca de 20% de sua receita de 2026 venha de vendas já permitidas para a China (ferramentas DUV de geração mais antiga). Arriscar a proibição do EUV colocaria essa receita — e a posição da empresa como monopólio mais valioso da indústria europeia — em jogo por uma única venda ilegal.

    Contexto político delicado

    O Departamento de Comércio, sob Lutnick, concordou no final do ano passado em investir até US$ 150 milhões na xLight, uma startup que desenvolve tecnologia de fonte de luz de próxima geração — vista como potencial desafiante de longo prazo ao monopólio EUV da ASML. O próprio CEO da xLight afirmou no ano passado que a empresa se vê como futura parceira da ASML, não rival, construindo hardware para se plugar nas máquinas da holandesa em vez de substituí-las.

    Nada disso prova que as alegações são falsas. O governo ainda não tornou públicas suas evidências, e vale suspender o julgamento até que o faça. Mas, por enquanto, o impasse permanece: os EUA dizem que sim, a ASML diz que não — e o chip mais avançado do mundo está no centro dessa disputa geopolítica.


    Fonte: TechCrunch

  • Ensaios de interfaces cérebro-computador disparam: número de voluntários mais que dobra

    Ensaios de interfaces cérebro-computador disparam: número de voluntários mais que dobra

    Interface cérebro-computador

    Ensaios de interfaces cérebro-computador disparam: número de voluntários mais que dobra

    O número de pessoas com eletrodos implantados no cérebro mais que dobrou nos últimos dois anos, saltando de 67 voluntários identificados até o final de 2023 para uma estimativa de 150 atualmente. Os ensaios clínicos de interfaces cérebro-computador (BCIs) estão finalmente decolando — e os resultados são animadores.

    O caso de Casey Harrell

    Casey Harrell, um homem com ELA (esclerose lateral amiotrófica), é considerado o “primeiro power user” de um implante cerebral, segundo os pesquisadores que trabalham com ele. Paralisado e incapaz de falar sem o dispositivo, Harrell já passou quase três anos usando um BCI que permite “falar”, navegar na internet e realizar seu trabalho como ativista climático de forma praticamente independente.

    Implantado em julho de 2023 por uma equipe da Universidade da Califórnia em Davis, o dispositivo evoluiu significativamente desde então. Os pesquisadores refinaram a precisão e introduziram recursos como modo de privacidade e um “filtro de palavrões” que permite a Harrell conversar com a filha sem risco de xingamentos acidentais.

    Para Harrell, o dispositivo é “nada menos que revolucionário”. Permitiu que ele mantivesse sua renda, reconectasse com amigos e família e lesse para sua filha. Ele é um entre um número crescente de voluntários que, como ele mesmo diz, querem “pagar adiante e fazer a pesquisa científica… [e] obter algum benefício pessoal”.

    A explosão dos ensaios clínicos

    Em 2024, Michelle Patrick-Krueger e colegas da Universidade de Houston publicaram um levantamento de todos os ensaios de BCI realizados entre 1998 (quando acreditam que o primeiro dispositivo foi implantado) e o final de 2023. Identificaram 21 grupos de pesquisa que testaram BCIs em 67 voluntários no total.

    “Desde então, esse número aumentou muito”, afirma Mariska Vansteensel, pesquisadora de BCI do University Medical Center Utrecht. Em janeiro, a Neuralink (empresa fundada pelo trilionário Elon Musk) anunciou que implantou seu dispositivo em 21 pessoas nos últimos dois anos.

    Outras empresas também estão na corrida:

    • Synchron: testa dispositivos na América do Norte e Austrália
    • Neuracle (Xangai): realiza ensaios desde novembro de 2024 e obteve aprovação para uso fora de estudos clínicos
    • Precision Neuroscience: cofundada por um ex-cocriador da Neuralink, testa um BCI que fica na superfície do cérebro

    A China, inclusive, tornou-se o primeiro país a aprovar um BCI invasivo para uso médico — um marco que deve acelerar ainda mais o setor.

    Como funcionam os BCIs

    Os BCIs vêm em diferentes formas. O dispositivo de Harrell inclui eletrodos embutidos no cérebro que captam a atividade elétrica associada à fala, conectados a duas portas no topo da cabeça que se plugam em um computador. O software decodifica os sinais cerebrais em fonemas e prevê o que o usuário quer dizer.

    Mas alguns BCIs são totalmente implantados e sem fio. Outros são menos invasivos, com eletrodos na superfície do cérebro ou até em toucas externas. Quanto mais próximo dos neurônios, melhor o sinal — mas maior o risco cirúrgico.

    A equipe que trabalha com Harrell faz parte do BrainGate, projeto de pesquisa em BCI que já dura duas décadas. Nos primeiros 17 anos, o foco era comunicação “apontar e clicar” — controlar um cursor com atividade cerebral. Nos últimos anos, o time pivotou para decodificação de fala. Hoje, o dispositivo de Harrell usa um clone de voz baseado em gravações anteriores da sua própria voz.

    Desafios pela frente

    Apesar do progresso, os BCIs ainda são experimentais. A maioria dos implantes foi feita em pessoas com lesões na medula espinhal, e sabemos muito menos sobre como funcionam em outras condições como a ELA. Em alguns casos, dispositivos que inicialmente ajudaram pacientes — inclusive pessoas completamente travadas em síndrome de encarceramento — eventualmente pararam de funcionar. Os cientistas ainda não sabem exatamente por quê.

    “A única maneira de descobrir é com mais pesquisa — e a participação de voluntários como Harrell”, conclui a autora Jessica Hamzelou, do MIT Technology Review. A expectativa é que o campo esteja completamente diferente dentro de dois anos.


    Fonte: MIT Technology Review

  • Barret Zoph deixa a OpenAI novamente após apenas cinco meses

    Barret Zoph deixa a OpenAI novamente após apenas cinco meses

    OpenAI

    Barret Zoph, chefe de vendas enterprise da OpenAI, está deixando a empresa apenas cinco meses após seu retorno, segundo informações do The Verge.

    Zoph havia retornado à OpenAI em meados de janeiro, depois de uma passagem como cofundador e CTO da Thinking Machines Lab, a empresa concorrente fundada por Mira Murati, ex-CTO da OpenAI. Ao retornar, a OpenAI o colocou para liderar o avanço no setor enterprise — uma função estratégica importante, já que a empresa prometeu abandonar as chamadas “side quests” e focar em geradores de receita como enterprise e coding antes do IPO planejado.

    Uma saída conturbada

    A saída de Zoph carrega uma história complicada. Ele deixou a OpenAI originalmente no final de 2024 para se juntar à Thinking Machines Lab de Murati, mas saiu dessa posição abruptamente em janeiro de 2026 após relatos de má conduta envolvendo um relacionamento não revelado com uma colega. Murati publicou no X na época que a Thinking Machines Lab havia “se separado” de Zoph e que ele seria substituído como CTO.

    A Thinking Machines Lab tem suas próprias tensões com a OpenAI. Murati assumiu brevemente o cargo de CEO durante a remoção de Sam Altman em novembro de 2023 e, durante o recente julgamento da OpenAI, testemunhou que não podia confiar em tudo que Altman dizia.

    O vai e vem de talentos

    Quando Murati deixou a OpenAI em setembro de 2024 para fundar a Thinking Machines Lab, vários funcionários a seguiram. Mas três deles — incluindo Zoph, Luke Metz e Sam Schoenholz — retornaram juntos à OpenAI em janeiro deste ano. Fidji Simo, CEO de Aplicações da OpenAI, escreveu no X na época que estava “animada em receber Barret Zoph, Luke Metz e Sam Schoenholz de volta” e que a decisão “estava sendo trabalhada há várias semanas”.

    A OpenAI confirmou a saída de Zoph ao The Verge. Ele publicou uma mensagem de despedida nos canais do Slack da empresa, mas não respondeu a pedidos de comentário da imprensa.


    Esta movimentação acontece em um momento delicado para a OpenAI, que se prepara para seu IPO enquanto gerencia tensões internas e a concorrência crescente de startups fundadas por ex-executivos da casa.