Tag: IA

  • Claude-Mem: a “memória infinita” que faz o Claude Code lembrar do que já fez

    Claude-Mem: a “memória infinita” que faz o Claude Code lembrar do que já fez

    Meta description: Conheça o Claude-Mem, a camada de memória persistente para Claude Code que registra o que o agente fez, comprime o histórico com IA e injeta apenas o contexto relevante nas próximas sessões.

    Claude-Mem: a “memória infinita” que faz o Claude Code lembrar do que já fez

    Se você já usou um assistente de programação por mais de uma sessão, provavelmente viveu este cenário: o trabalho anda, a conversa cresce, e depois o sistema parece esquecer decisões importantes. O Claude-Mem foi criado para resolver exatamente isso. Ele adiciona uma camada de memória persistente ao Claude Code — e também a outras ferramentas compatíveis — para que o agente consiga continuar projetos sem começar do zero a cada nova conversa.

    Em linguagem simples: o Claude-Mem guarda o que foi aprendido, organiza esse histórico de forma inteligente e devolve só o que importa quando o trabalho continua. O resultado é um uso muito mais eficiente do contexto e, consequentemente, menos desperdício de tokens. A documentação do projeto destaca uma abordagem em camadas que pode trazer cerca de 10x de economia em relação a métodos tradicionais. Em situações práticas, isso ajuda bastante a reduzir custo, ruído e retrabalho — e pode chegar muito perto daquela sensação de “quase não gastei contexto nenhum”.

    O problema que ele resolve

    Modelos de IA são ótimos para raciocinar, mas têm um problema estrutural: o contexto é limitado e caro. Se você coloca tudo dentro da janela de conversa, gasta tokens demais. Se coloca pouco, o agente esquece. O Claude-Mem tenta resolver justamente essa tensão com uma ideia simples:

    • registrar tudo o que importa ao longo da sessão;
    • compactar esse material para não desperdiçar tokens;
    • recuperar só o que faz sentido na hora de continuar o trabalho.

    Isso é especialmente útil em tarefas longas, como manutenção de código, debugging em múltiplas etapas, revisões de arquitetura, investigação de bugs históricos e projetos que avançam em várias sessões ao longo de dias ou semanas.

    Como o Claude-Mem funciona por dentro

    De acordo com a documentação oficial, a arquitetura do projeto combina alguns blocos centrais:

    • Hooks de ciclo de vida que observam o que acontece durante a sessão;
    • Worker service local, com API HTTP e interface web em http://localhost:37777;
    • Banco SQLite para armazenar sessões, observações e resumos;
    • Busca híbrida, unindo indexação textual e vetorial;
    • MCP search tools para consultar a memória de forma progressiva e econômica.

    O ponto mais interessante é o fluxo de consulta em três níveis:

    1. Search — traz um índice compacto com IDs e pistas rápidas;
    2. Timeline — mostra o contexto cronológico ao redor de um ponto relevante;
    3. Get observations — abre o detalhe completo apenas do que realmente importa.

    Esse desenho evita o erro clássico de “carregar tudo por via das dúvidas”. Em vez disso, o sistema começa pequeno, filtra bem e só aprofunda quando necessário.

    Quais são as funcionalidades mais fortes

    1. Memória persistente entre sessões

    O grande valor do Claude-Mem é manter o histórico útil vivo mesmo depois que a sessão termina. Isso reduz repetição, evita que o agente peça de novo as mesmas informações e ajuda a manter coerência em projetos longos.

    2. Progressive disclosure

    Em vez de despejar todo o histórico no prompt, o Claude-Mem revela o contexto em camadas. Isso melhora a eficiência e mantém o uso de tokens sob controle.

    3. Busca semântica e cronológica

    O projeto não depende só de palavras-chave. Ele também permite navegar por contexto temporal e por observações detalhadas, o que facilita encontrar decisões antigas, mudanças de rota e causas de bugs.

    4. Interface web local

    O worker service expõe uma UI web local, o que ajuda a inspecionar a memória, acompanhar o que foi armazenado e entender como o contexto está sendo recuperado.

    5. Privacidade e controle

    O Claude-Mem inclui recursos para controlar o que entra na memória, inclusive com tags <private> para excluir conteúdos sensíveis do armazenamento.

    6. Compatibilidade ampla

    Embora a vitrine principal seja o Claude Code, o projeto também conversa com outras ferramentas e ecossistemas, como Gemini CLI, OpenCode, Cursor e integrações via MCP.

    Por que ele economiza tantos tokens?

    A resposta está no método. Em vez de resgatar o passado inteiro a cada nova consulta, o Claude-Mem usa um funil de recuperação:

    • primeiro encontra o que parece relevante;
    • depois mostra o contexto ao redor;
    • só então abre os detalhes.

    Na documentação, o projeto descreve esse modelo como uma forma de alcançar ~10x de economia de tokens em comparação com abordagens tradicionais de RAG que tentam carregar muito conteúdo logo de início. Em uso real, isso pode ser ainda mais valioso quando o agente lida com sessões grandes, porque o ganho não é apenas financeiro: o modelo também tende a ficar mais rápido, mais focado e menos confuso.

    Em resumo: menos contexto irrelevante significa menos custo, menos ruído e mais chance de o agente acertar a próxima ação.

    Como instalar o Claude-Mem

    A forma mais direta de instalar é via npx:

    npx claude-mem install

    Se você usa o Gemini CLI, o instalador também detecta a pasta correta automaticamente:

    npx claude-mem install --ide gemini-cli

    Para o OpenCode:

    npx claude-mem install --ide opencode

    Há também instalação pela marketplace de plugins dentro do Claude Code:

    /plugin marketplace add thedotmack/claude-mem
    /plugin install claude-mem

    Depois da instalação, é preciso reiniciar o Claude Code ou a CLI compatível para que a memória comece a aparecer automaticamente nas novas sessões.

    Requisitos e dependências

    • Node.js 20+
    • Claude Code com suporte a plugins
    • Bun para o worker service
    • uv para partes da busca vetorial
    • SQLite 3 para persistência local

    Ou seja: não é só um “prompt hack”. É uma camada de memória de verdade, com persistência local e serviços auxiliares para consulta e recuperação de contexto.

    Como usar no dia a dia

    Na prática, o uso é quase invisível. O sistema observa a sessão, registra o que aconteceu e vai alimentando a memória. Quando você retoma um trabalho depois, ele tenta recuperar o que interessa sem você precisar refazer todo o briefing.

    Para buscas mais específicas, a documentação mostra exemplos como:

    search(query="authentication bug", type="bugfix", limit=10)
    
    timeline(anchor=<observation_id>, depth_before=3, depth_after=3)
    
    get_observations(ids=[123, 456, 789])

    Esse trio é o coração da experiência. Primeiro você encontra, depois contextualiza, por fim aprofunda.

    Casos de uso em que ele brilha

    • Debugging longo — quando um erro leva várias etapas para ser resolvido;
    • Refatorações grandes — quando decisões antigas precisam ser lembradas com precisão;
    • Code archaeology — para entender por que algo foi feito de determinada forma;
    • Projetos multi-sessão — quando o trabalho se estende por dias ou semanas;
    • Times e agentes múltiplos — quando vários fluxos precisam acessar o mesmo histórico de forma eficiente.

    Limitações e cuidados

    Apesar do nome chamativo, o Claude-Mem não é magia. Ele ajuda muito, mas ainda depende de alguns cuidados:

    • nem tudo deve ir para a memória — conteúdo sensível precisa ser excluído ou marcado como privado;
    • o ganho real depende do fluxo — quanto mais você evita carregar contexto inútil, maior o benefício;
    • instalação e integração exigem ambiente compatível — Node, Bun, SQLite e a CLI certa;
    • memória não substitui disciplina — uma boa organização de projeto ainda faz diferença.

    Vale a pena?

    Se você usa Claude Code com frequência e trabalha em tarefas que ultrapassam uma sessão, a resposta curta é: sim, vale muito a pena testar. O Claude-Mem ataca um problema real de produtividade para quem vive de contexto técnico. Ele reduz repetição, melhora continuidade, ajuda a recuperar decisões antigas e pode cortar de forma expressiva o gasto com tokens.

    O melhor cenário é justamente aquele em que você alterna entre explorar, resolver, revisar e continuar. Nessa rotina, ter uma memória persistente muda o jogo.

    Conclusão

    O Claude-Mem mostra que a próxima fronteira dos agentes de IA não é apenas “responder melhor”, mas lembrar melhor. Em vez de depender de prompts cada vez maiores, ele organiza o conhecimento em camadas, recupera o que importa e mantém a continuidade entre sessões. Para quem usa Claude Code como copiloto de desenvolvimento, isso pode representar um salto enorme em eficiência — inclusive na economia de tokens.

    Se a promessa de até 95% de redução soa exagerada à primeira vista, o ponto principal continua sendo válido: quanto mais inteligente for a recuperação do contexto, menos você paga para repetir o que já foi aprendido.

    Fonte: github.com/thedotmack/claude-mem

  • In the Weights: ex-OpenAI criam busca de vaidade que mede o quanto a IA te conhece

    In the Weights: ex-OpenAI criam busca de vaidade que mede o quanto a IA te conhece

    Dois ex-funcionários da OpenAI acabam de lançar uma ferramenta que pode se tornar a nova obsessão do mundo tech: o In the Weights, um site que mede o quanto você é “lembrado” pelos modelos de inteligência artificial.

    Criado por Thomas Dimson e Joey Flynn — que chegaram à OpenAI quando a startup de design Global Illumination foi adquirida — o site consulta diversos modelos de IA (incluindo Grok, Gemini, múltiplas versões do GPT, Claude e Llama) com perguntas do tipo “Quem é [nome]?” e atribui uma pontuação de “força” baseada nas respostas.

    Como funciona

    O In the Weights envia o nome da pessoa para cada modelo, coleta até 10 resultados com descrições curtas e níveis de confiança, e então agrupa respostas similares para gerar uma pontuação consolidada. O slogan do site não economiza na ambição:

    “Estar nos pesos significa que sua existência foi considerada importante no processo de criação de inteligência artificial sobre-humana.”

    Resultados surpreendentes

    Os criadores relataram que a recepção tem sido “insana”. Dimson contou ao TechCrunch que achava que seria uma “curiosidade moderada”, mas o site parece ter tocado em um nervo: “as pessoas querem saber se vão viver para sempre na superinteligência — e o fator comparação também não atrapalha.”

    Um aspecto curioso: modelos diferentes da mesma família (como versões distintas do GPT) retornam resultados diferentes para a mesma pessoa, revelando vieses e diferenças de treinamento. O GPT-5.4 Mini, por exemplo, classificou um nome como “forma ambígua que pode se referir a múltiplas pessoas com as iniciais A.H.A.”

    Motivação

    Dimson explicou que ele e Flynn queriam “reativar a criatividade” após deixarem a OpenAI. A ideia surgiu da percepção de que buscas de vaidade no Google são o objetivo errado em 2026, já que cada vez mais o tráfego migra para LLMs.

    Os próximos passos incluem investigar por que modelos da mesma série retornam resultados diferentes, quais modelos têm viés para diferentes tipos de pessoas, e quem “deveria ter um artigo na Wikipédia mas não tem.”

    Para os curiosos de plantão: o site está no ar e aceita consultas públicas. Qual será o seu score?

    Fonte: TechCrunch (Anthony Ha)

  • The Atlantic expõe datasets com milhões de músicas usadas para treinar IA

    The Atlantic expõe datasets com milhões de músicas usadas para treinar IA

    The Atlantic acaba de lançar uma ferramenta que expõe uma realidade incômoda para a indústria da inteligência artificial: milhões de músicas protegidas por direitos autorais estão disponíveis gratuitamente em datasets usados para treinar modelos de IA generativa — e agora qualquer pessoa pode pesquisar quais artistas foram usados.

    O repórter Alex Reisner, do The Atlantic, descobriu e tornou públicos quatro datasets de música usados para treinar modelos de IA. Dois desses conjuntos são gigantescos: um com 12 milhões e outro com 9 milhões de faixas. Os outros dois, menores mas ainda expressivos, contêm mais de 100 mil músicas cada.

    Google e Stability AI já confirmaram o uso desses datasets em artigos de pesquisa. Embora alguns conjuntos, como o Free Music Archive, permitam streaming para uso pessoal, o licenciamento para aplicações comerciais é obrigatório — e raramente respeitado.

    Como os dados são acessados

    Reisner explica que três dos quatro datasets são distribuídos como listas de links para músicas no YouTube e Spotify. Desenvolvedores de IA usam ferramentas automatizadas para baixar o áudio real — ferramentas que permitem burlar logins, anúncios e mecanismos de monetização dos criadores. Essas práticas violam os termos de serviço de ambas as plataformas.

    De Lady Gaga a Radiohead

    Os nomes que aparecem nos datasets vão de estrelas pop como Lady Gaga e Fred Again.., a ícones como Radiohead, Aphex Twin, Wu-Tang Clan e Bruce Springsteen, além de artistas experimentais como Hainbach.

    Os leitores podem acessar o site AI Watchdog do The Atlantic e pesquisar pessoalmente quais músicas, livros e outras mídias estão sendo usadas para treinar os modelos de IA ao redor do mundo.

    Por que isso importa

    Esta revelação chega em um momento de crescente tensão entre criadores de conteúdo e empresas de IA. Com processos judiciais em andamento movidos por grandes gravadoras e associações de direitos autorais, a transparência forçada por investigações como a do The Atlantic pressiona ainda mais por regulação e remuneração justa.

    A pergunta que fica: se os próprios datasets de treinamento se baseiam em conteúdo protegido obtido de forma questionável, qual o valor ético da música gerada por IA?

    Fonte: The Verge / The Atlantic (Alex Reisner)

  • Como Tornar Imagens de PDFs Pesquisáveis para RAG Sem Gastar com Todas Elas

    Como Tornar Imagens de PDFs Pesquisáveis para RAG Sem Gastar com Todas Elas

    Este artigo de Kezhan Shi, publicado no Towards Data Science, apresenta uma abordagem inteligente para tornar imagens de PDFs pesquisáveis em sistemas RAG — sem gastar dinheiro lendo todas elas.

    A série “Enterprise Document Intelligence” constrói um sistema RAG empresarial a partir de quatro blocos fundamentais. Neste quinto volume, o foco está em processar imagens de documentos de forma econômica, usando uma cascata ordenada por custo: um filtro barato, uma verificação de tipo, OCR clássico e, por último, um modelo de visão.

    O problema: nem toda imagem vale a pena

    O reflexo natural seria jogar um modelo de visão em cada imagem do PDF e seguir em frente. Mas essa é a abordagem errada. Um documento real está cheio de imagens que ninguém pesquisaria: o logotipo da empresa em cada página, ícones minúsculos, linhas divisórias, marcas d’água. Processar tudo com modelos caros é desperdício de dinheiro e de latência.

    A cascata de custo

    A solução proposta funciona em três etapas, da mais barata para a mais cara:

    1. Filtro gratuito: eliminar o ruído

    Antes de qualquer chamada de modelo, um filtro analisa sinais já disponíveis no dataframe de imagens e algumas estatísticas de pixel:

    • Tamanho mínimo: imagens com poucos pixels ou área muito pequena são ícones ou bullets, não figuras. Removidas.
    • Proporção suspeita: imagens muito longas e finas são linhas ou divisores. Fora.
    • Repetição entre páginas: o mesmo hash de conteúdo aparecendo na maioria das páginas é “chrome” — logotipo, cabeçalho, rodapé. Descartado.

    Em um relatório típico, só essa etapa remove a grande maioria das imagens antes de qualquer modelo rodar. O que sobra são as poucas que realmente carregam significado.

    2. Classificação por tipo

    As imagens que sobrevivem ao filtro não são todas lidas da mesma forma. Uma captura de tela de tabela é texto — OCR clássico resolve. Um gráfico de linhas não é texto — seu significado está nos eixos e na forma visual.

    A classificação usa sinais baratos de pixel: variação, saturação, proporção de fundo branco, densidade de bordas:

    • Painel em branco: dispersão de pixel baixa → pular (sem custo)
    • Imagem de texto: baixa saturação, estrutura de traços, fundo branco → OCR clássico (barato)
    • Imagem visual: saturada, sem margens brancas → modelo de visão (caro)

    O classificador é deliberadamente conservador: na dúvida, manda para o modelo de visão. Um OCR perdido custa uma chamada de visão; um OCR executado em um diagrama retorna labels soltos e lixo.

    3. Ação por tipo

    Tipo de imagem Ação Custo
    Muito pequena / formato estranho / repetida Descartar Zero
    Painel em branco / uniforme Pular Zero
    Imagem de texto (tabela, scan) OCR clássico Baixo
    Imagem visual (gráfico, foto) Modelo de visão Alto

    A escolha de design mais importante

    O artigo destaca dois princípios fundamentais:

    1. Logotipos são pegos pelo filtro de repetição, não pelo classificador: um logotipo pode ter duas cores chapadas ou ser uma marca d’água colorida. Tentar detectar logo por aparência é frágil. Mas um logo é “chrome” porque se repete em todas as páginas — e isso o filtro já captura.

    2. O classificador não tenta ser inteligente demais: classificar gráfico vs. diagrama vs. foto com sinais baratos não é confiável. Então o classificador só desvia imagens para OCR quando tem certeza absoluta de que é texto. Todo o resto vai para o modelo de visão. O viés é assimétrico de propósito.

    Por que isso importa

    Para quem constrói sistemas RAG empresariais, este artigo oferece um roteiro prático para processar documentos PDF sem desperdício. A lógica da cascata — começar pelo método mais barato e só escalar quando necessário — é um padrão que vale para muito além de processamento de documentos.

    O artigo completo, com implementações em Python e exemplos de código, está disponível no Towards Data Science.

  • Controles de Exportação de IA: A História Mostra Por Que Restringir o Mythos Não Vai Funcionar

    Controles de Exportação de IA: A História Mostra Por Que Restringir o Mythos Não Vai Funcionar

    Capa: Controles de exportação de IA

    Na semana passada, citando preocupações não especificadas de segurança nacional, a Casa Branca ordenou que a Anthropic restringisse a exportação de seus poderosos modelos de IA — Fable e Mythos — para qualquer pessoa fora dos Estados Unidos, incluindo estrangeiros dentro do país. Pouco depois, a gigante de IA desligou abruptamente ambos os modelos, que estão indisponíveis para qualquer pessoa há uma semana.

    Este episódio é o primeiro teste real sobre se o governo dos EUA pode usar controles de exportação para conter a IA de fronteira da mesma forma que tentou — com resultados muito irregulares — conter a criptografia e o spyware antes dela. E, por mais dramático que pareça, o desfecho desse impasse pode moldar não apenas o acesso da Anthropic a mercados estrangeiros, mas também o manual que outros laboratórios de IA terão que seguir.

    O que desencadeou a proibição?

    Desde que a Anthropic lançou o Mythos em abril, a empresa o comercializou como uma espécie de “máquina cibernética do apocalipse” que poderia causar estragos na internet se liberada amplamente. Por isso, antes da proibição, apenas cerca de 150 empresas e organizações governamentais tinham acesso ao modelo. O objetivo era ajudar defensores a proteger seus sistemas antes que agentes mal-intencionados alcançassem capacidades similares.

    Dois eventos subsequentes teriam desencadeado a proibição:

    1. A Anthropic deu a uma operadora de telecom sul-coreana acesso ao Mythos através de seu programa limitado de parceiros, e autoridades americanas se alarmaram ao identificar a empresa como suspeita de ter laços com a China. (A empresa, amplamente reportada como SK Telecom, negou qualquer conexão com a China.)

    2. O CEO da Amazon, Andy Jassy, também teria alertado o governo após pesquisadores da Amazon encontrarem uma forma de contornar as salvaguardas do Fable 5. A Anthropic contesta o rótulo de “jailbreak”, chamando-o de um problema restrito e já corrigido, não uma derrota completa das medidas de segurança do modelo.

    O resultado: o Departamento de Comércio emitiu uma diretiva de controle de exportação, e a Anthropic teve que restringir o acesso a seus produtos em cerca de 90 minutos após ser notificada.

    A história se repete

    Nada disso é novo. Governos vêm tentando usar controles de exportação para limitar a proliferação do que consideram tecnologia cibernética perigosa há décadas, com resultados no máximo medianos.

    As “Guerras da Criptografia” (anos 90)

    O governo dos EUA protagonizou talvez o fracasso mais espetacular dessa abordagem nos anos 90. Na época, cientistas da computação desenvolviam tecnologias de criptografia como o PGP (Pretty Good Privacy), que podia criptografar dados tornando-os virtualmente impossíveis de decifrar.

    O governo via o PGP como uma arma perigosa e abriu uma investigação criminal contra seu criador, Phil Zimmermann, por suposta violação de controles de exportação de armas. Zimmermann contra-atacou publicando o código-fonte do PGP como um livro impresso, iniciando o que hoje se conhece como as “Guerras da Criptografia”. A investigação foi encerrada, abrindo caminho para os algoritmos de criptografia usados hoje por bilhões de pessoas no Signal e WhatsApp.

    Spyware e o Acordo de Wassenaar (anos 2010)

    No início dos anos 2010, pesquisadores descobriram spyware ocidental sendo usado contra dissidentes no Oriente Médio. Governos expandiram o Acordo de Wassenaar para classificar software de vigilância como “dual-use”, forçando fabricantes de spyware a obter licenças de exportação.

    Mas o acordo sempre teve duas fraquezas inerentes: vários países não aderem a ele — incluindo Israel, que abriga alguns dos fabricantes de spyware mais ativos do mundo — e o acordo depende de cada país aplicá-lo a empresas dentro de suas fronteiras conforme seu próprio critério.

    A Itália, por exemplo, permitiu que um dos principais fabricantes de spyware do país continuasse vendendo para o exterior mesmo após múltiplos escândalos. E vários fabricantes simplesmente mudaram suas operações para países com controles de exportação frouxos.

    O que esperar do caso Mythos

    No momento em que escrevo, o impasse entre a Anthropic e o governo Trump continua. Há uma chance razoável de que o governo recue e suspenda a restrição no interesse de manter a competitividade dos EUA na corrida da IA — ou que aprove o acesso de parceiros confiáveis.

    Mas, dadas as experiências passadas com tentativas de controlar o alcance de software, controles de exportação mandatados pelo governo provavelmente não são a abordagem certa para impedir que atores mal-intencionados explorem a IA. A história mostra que o software sempre encontra um caminho.

    E, talvez mais importante, a comunidade internacional ainda não tem nenhuma estrutura viável para controles globais de exportação de IA. Até que isso mude, assistiremos a mais episódios como este — com resultados igualmente incertos.

  • NVIDIA Apresenta SpatialClaw: Agente de IA Que Usa Código Como Interface para Raciocínio Espacial

    NVIDIA Apresenta SpatialClaw: Agente de IA Que Usa Código Como Interface para Raciocínio Espacial

    Capa: NVIDIA SpatialClaw

    A NVIDIA Research acaba de lançar o SpatialClaw, um framework “training-free” (sem necessidade de treinamento) para raciocínio espacial. O sistema ataca uma fraqueza persistente nos modelos de visão-linguagem (VLMs): a dificuldade em julgar onde objetos estão posicionados, como se relacionam e como se movem em 3D.

    A grande sacada do SpatialClaw é que ele não retreina o modelo. Em vez disso, muda a interface de ação que o agente usa para invocar ferramentas de percepção. A equipe de pesquisa argumenta que a interface é o gargalo, e a solução é tratar código como a interface de ação.

    Os números impressionam: em 20 benchmarks, o SpatialClaw atinge 59,9% de precisão média, superando o agente espacial SpaceTools em 11,2 pontos percentuais.

    O que é o SpatialClaw

    O SpatialClaw é um loop de agente envolvendo um kernel Python com estado. O kernel é pré-carregado com frames de entrada e um conjunto de primitivas. As ferramentas de percepção são funções Python comuns — suas saídas (máscaras, mapas de profundidade, geometria de câmera e trajetórias) são variáveis Python normais.

    O kernel expõe seis pontos de entrada públicos:

    • InputImages: armazena os frames amostrados
    • Metadata: contém frame rate, duração e índices dos frames
    • tools: expõe primitivas de percepção e geometria
    • show(): incorpora uma imagem no próximo contexto do agente
    • vlm: despacha consultas para uma sessão VLM separada
    • ReturnAnswer(): submete a resposta final

    Duas ferramentas de percepção são centrais. A tools.Reconstruct utiliza Depth Anything 3 e retorna profundidade por frame, intrínsecos e extrínsecos da câmera, e mapas de pontos densos. A tools.SAM3 utiliza SAM 3 e produz máscaras de imagem ou vídeo a partir de prompts de texto, ponto ou caixa delimitadora.

    O framework é totalmente training-free — o mesmo prompt de sistema, conjunto de ferramentas e hiperparâmetros funcionam em todos os benchmarks e backbones.

    Por que a Interface de Ação Importa

    A equipe estudou três interfaces de ação na mesma pergunta: medir a distância mais próxima entre um aquecedor e uma porta.

    • Single-pass code: escreve um programa completo e executa uma vez. Assume uma estratégia antes de ver qualquer máscara ou mapa de profundidade. Um erro de suposição se propaga direto para a resposta.

    • Structured tool-call: invoca ferramentas nomeadas via schema JSON fixo. Não consegue combinar livremente outputs com NumPy ou SciPy para cálculos em tempo de teste. O resultado é incorreto.

    • SpatialClaw: compõe ferramentas em código, inspeciona resultados, e então revisa. Primeiro calcula uma distância de centroide, depois percebe que o centroide usa mediana. O agente troca para scipy.spatial.KDTree e encontra o ponto mais próximo real: 0,9439 m contra um ground truth de 0,9 m.

    Benchmark e Resultados

    O SpatialClaw foi testado em 20 benchmarks distribuídos em cinco categorias: single-image, multi-view, general, video/4D, e compreensão geral de vídeo. Ele melhora sobre o baseline sem ferramentas em todos os seis backbones testados — variando de 26B a 397B parâmetros nas famílias Qwen3.5/3.6 e Gemma4.

    Comparação controlada isolando a interface (backbone Gemma4-31B):

    Interface de Ação Média (20 bench.) Δ vs no-tool
    No-tool baseline 53,4 —
    Single-pass code 55,2 +1,8
    Structured tool-call 56,7 +3,3
    SpatialClaw (code as action) 59,9 +6,5

    Os ganhos mais expressivos estão em tarefas dinâmicas. No Gemma4-31B, o DSI-Bench subiu +17,6 pontos e o MindCube subiu +15,3 pontos — categorias que exigem computação geométrica encadeada entre frames e pontos de vista.

    Por que Isso Importa

    O SpatialClaw mostra que a interface de ação é tão importante quanto o modelo em si. Ao tratar código como a linguagem de ação do agente, a NVIDIA conseguiu ganhos substanciais sem nenhum fine-tuning. Isso abre caminho para agentes de IA mais capazes em tarefas que exigem raciocínio espacial — de robótica a navegação autônoma e AR/VR.

    O código e o paper estão disponíveis no site oficial do projeto.

  • Governo dos EUA proíbe Anthropic de liberar Fable 5 e Mythos 5: aliados reagem e Europa pede soberania em IA

    Governo dos EUA proíbe Anthropic de liberar Fable 5 e Mythos 5: aliados reagem e Europa pede soberania em IA

    O governo dos Estados Unidos emitiu uma ordem sem precedentes na indústria de inteligência artificial: proibiu a Anthropic de disponibilizar seus dois modelos mais avançados — Fable 5 e Mythos 5 — para qualquer pessoa fora do país, incluindo aliados históricos. A decisão provocou uma crise diplomática, reacendeu o debate sobre soberania tecnológica e colocou em xeque o futuro do acesso global à IA de ponta.

    O que aconteceu

    Na última semana, o governo Trump emitiu uma ordem de controle de exportação que forçou a Anthropic a retirar completamente do ar os modelos Fable 5 e Mythos 5 para garantir conformidade. A empresa já havia concedido acesso ao Claude Mythos Preview para 200 instituições em 15 países para testes de vulnerabilidade, e as versões públicas estavam programadas para lançamento no início de junho.

    A Anthropic afirmou que o governo dos EUA não forneceu uma razão oficial para a ordem, mas que seu entendimento é de que a administração Trump acreditava ter descoberto um método de “jailbreaking” do Fable 5 — uma técnica para contornar as salvaguardas de segurança do modelo.

    “Corrija este código”: as três palavras que acionaram o alarme

    Segundo a Fortune, tudo começou com três palavras: “Fix this code” (Corrija este código). Um prompt aparentemente inofensivo teria demonstrado uma capacidade do Fable 5 que alarmou as agências de segurança nacional dos EUA, levando à ordem de bloqueio em questão de dias.

    O caso levantou questões sobre o equilíbrio entre segurança nacional e inovação: o Fable 5 foi bloqueado, mas o GPT-5.5 da OpenAI — um modelo de capacidade comparável — não sofreu a mesma restrição, como apontou o Mashable.

    Terremoto na Europa: Macron chama decisão de “nacionalista”

    A proibição enviou ondas de choque imediatas pela Europa, que é fortemente dependente de IA desenvolvida nos EUA. O presidente francês Emmanuel Macron classificou a ordem como um “alerta” sobre os perigos da IA, mas criticou duramente a abordagem:

    “A reação é, em alguns aspectos, estritamente nacionalista. Os limites são uma coisa ruim.”

    Macron falou durante a reunião do G7 esta semana, alertando contra o perigo da “não cooperação entre democracias”. O porta-voz da Comissão Europeia para soberania tecnológica, Thomas Regnier, reforçou que abordar questões de segurança em IA é um “desafio compartilhado, não confinado a uma única jurisdição ou país”.

    “Uma nação que depende de outros para sua tecnologia pode ser desconectada da noite para o dia”

    O impacto mais profundo da decisão americana foi acelerar os apelos por autossuficiência tecnológica entre os aliados dos EUA. O primeiro-ministro canadense Mark Carney declarou:

    “A situação em que estamos coletivamente agora com Mythos e Fable é algo que pode acontecer com dependência excessiva. Ninguém fez nada de errado nesta situação. Mas teremos feito algo errado se simplesmente aceitarmos isso, não aprendermos a lição e não diversificarmos.”

    O ex-ministro francês Bruno Retailleau, candidato à presidência em 2027, foi ainda mais direto:

    “Uma nação que depende de outros para sua tecnologia é uma nação que pode ser desconectada da noite para o dia. Devemos tratar a IA como tratamos a energia nuclear: devemos pensar nela como parte de nossa soberania. Dominá-la ou sofrê-la: não há outro caminho.”

    O “efeito Streisand” da proibição

    Ironicamente, o banimento pode estar ajudando a marca da Anthropic. A cobertura massiva da mídia global — da Al Jazeera à Forbes, do Time à NBC News — transformou o Fable 5 no modelo de IA mais comentado do momento.

    Enquanto isso, modelos open-source correram para preencher a lacuna: segundo o The New Stack, quatro modelos abertos diferentes responderam à demanda antes mesmo que a Anthropic pudesse restaurar o acesso. A empresa também lançou uma nova política de privacidade oferecendo uma alternativa para consumidores americanos contornarem as restrições, conforme reportou a CIO.com.

    O que está em jogo

    Para os investidores, a proibição chega em um momento crítico: a Anthropic se prepara para um IPO e a decisão do governo americano adiciona uma camada de incerteza regulatória sem precedentes. Para os desenvolvedores que construíam sobre a plataforma, o bloqueio repentino foi um lembrete brutal dos riscos de depender de um único fornecedor de IA.

    Para o mundo, o caso Fable 5 é um marco: a primeira vez que um governo ocidental bloqueia o acesso a um modelo de IA de ponta por razões de segurança nacional — e um sinal claro de que a geopolítica da inteligência artificial entrou em uma nova fase.


    O que você acha? A decisão do governo americano foi acertada ou exagerada? A Europa deveria acelerar seus próprios modelos de IA? Deixe sua opinião nos comentários.

  • Bilionário Ambani Quer IA em Cada Chamada, App e Casa

    Bilionário Ambani Quer IA em Cada Chamada, App e Casa

    Enquanto a Índia busca um competidor local na corrida global da inteligência artificial, o bilionário Mukesh Ambani está posicionando a Reliance Industries como campeã nacional, lançando serviços de IA para chamadas telefônicas, aplicativos móveis e casas conectadas.

    Na reunião anual de acionistas na sexta-feira, o conglomerado sediado em Mumbai anunciou o Jio Call Agent, um assistente de IA que pode participar de chamadas telefônicas para transcrever conversas, gerar resumos e realizar tarefas como reservar transporte, pedir comida e fazer reservas. O serviço, que pode ser ativado dizendo “Hey Jio”, deve ser lançado ainda este ano para os mais de 500 milhões de usuários da Jio.

    Ao integrar o serviço diretamente na sua rede de telecomunicações em vez de oferecê-lo como um aplicativo independente, a Jio aposta que a assistência de IA pode se tornar um recurso nativo das chamadas telefônicas. A abordagem pode reduzir a dependência dos consumidores de aplicativos de terceiros e dar à Reliance uma vantagem de distribuição poderosa em um mercado de IA cada vez mais concorrido.

    Um ecossistema completo de IA

    A Reliance também revelou uma versão com IA do seu aplicativo MyJio, capaz de realizar tarefas em nome dos usuários — desde ativar eSIMs até selecionar planos de roaming — por meio de comandos em linguagem natural. A empresa também apresentou o TeleFrame, um display doméstico que usa agentes de IA para exibir proativamente informações e recomendações, como alertas meteorológicos, agendas e lembretes domésticos.

    Os anúncios marcam a próxima fase das ambições de IA da Reliance, enquanto a Índia busca construir capacidades domésticas em um campo amplamente dominado por empresas dos Estados Unidos e da China. O movimento segue o lançamento da Reliance Intelligence no ano passado, por meio da qual o conglomerado pretende desenvolver infraestrutura e serviços de IA para consumidores, empresas e governos, incluindo aplicações que suportam 22 idiomas indianos.

    “A Índia não deve ser uma mera consumidora de IA criada em outros lugares. Deve se tornar criadora, adotante e líder global em IA”, disse Ambani, de 69 anos.

    Investimentos massivos e parcerias estratégicas

    A Reliance vem acelerando suas ambições de IA por meio de parcerias com Google, Meta e Nvidia. No início deste ano, a empresa anunciou planos de investir US$ 110 bilhões em infraestrutura de IA, enquanto busca se estabelecer como uma grande player no emergente ecossistema de IA da Índia.

    Na reunião de acionistas, a Reliance também revelou um conjunto de serviços de IA para saúde, educação, agricultura e pequenas empresas. Os produtos, batizados de JioHealthIQ, JioLearnIQ, JioKrishiIQ e AI Vyapar, são projetados para operar em vários idiomas indianos e atender às necessidades locais.

    O encontro também trouxe uma grande novidade para investidores que aguardam a estreia da Jio na bolsa de valores. Ambani disse que o conselho da Jio Platforms aprovou um prospecto preliminar para uma oferta pública inicial (IPO) que incluiria uma emissão de até 270 milhões de ações.


    Fonte: TechCrunch

  • Subquadratic afirma ter resolvido o gargalo matemático dos transformers — e tem benchmarks independentes para provar

    Subquadratic afirma ter resolvido o gargalo matemático dos transformers — e tem benchmarks independentes para provar

    A startup de Miami Subquadratic saiu do stealth com uma afirmação ousada: resolveu um gargalo matemático que limita os modelos de linguagem há quase uma década. Um mês depois, a empresa começou a mostrar as provas.

    O problema é a atenção densa (dense attention), o mecanismo central dos transformers. Quando um LLM processa texto, cada token precisa ser multiplicado por todos os outros tokens. Isso gera uma expansão quadrática de computações — dobre o texto e você quadruplica os cálculos. É por isso que rodar modelos como GPT-4 e Claude custa caro, consome energia absurda e fica lento com contextos longos.

    A Subquadratic diz ter resolvido isso com atenção esparsa dinâmica (sparse attention). Em vez de multiplicar cada token por todos os outros, o modelo seleciona dinamicamente apenas as relações importantes. “Atenção esparsa diz que nem todas essas relações são importantes, porque elas não são”, explica Alex Whedon, CTO e cofundador. “Se você está lendo um livro, não vai comparar a primeira com a segunda palavra, primeira com a terceira — isso é insano.”

    O resultado é o SubQ, um LLM que segundo a empresa é até 56 vezes mais rápido que modelos usando FlashAttention, processa 12 vezes mais texto de uma vez e consome muito menos energia — tudo isso igualando o desempenho dos melhores modelos de OpenAI, Google DeepMind e Anthropic em tarefas como código.

    A comunidade recebeu com ceticismo. Dan McAteer, engenheiro de IA, resumiu o clima no X: “SubQ é o maior avanço desde o Transformer… ou é a Theranos da IA.”

    Mas a Subquadratic contratou a Appen, empresa independente que avalia modelos, para rodar seus testes. Os resultados parecem validar as afirmações. “Fiquei tipo ‘uau, isso pode mudar o jogo’”, disse Jeanine Sinanan-Singh, diretora de pesquisa em IA generativa da Appen. “Modelos sofrem com velocidade e ineficiência.”

    O SubQ não substitui os modelos atuais em todas as tarefas, mas pode oferecer ganhos enormes de velocidade por uma fração do custo para tarefas específicas — como analisar centenas de documentos ou bases de código inteiras.

    O CEO Justin Dangel é ambicioso: “Esperamos estar iniciando uma nova era de eficiência. Achamos que ninguém vai continuar construindo sobre transformers densos.”

    A startup ainda não liberou o SubQ para testes públicos, mas prometeu divulgar benchmarks verificados antes de qualquer anúncio futuro. O artigo completo da MIT Technology Review tem todos os detalhes técnicos: A startup claims it broke through a bottleneck that’s holding back LLMs.

  • Subquadratic afirma ter resolvido o gargalo que limita os LLMs — e os testes independentes mostram velocidade 56x maior

    Subquadratic afirma ter resolvido o gargalo que limita os LLMs — e os testes independentes mostram velocidade 56x maior

    A startup americana Subquadratic saiu do modo stealth no mês passado com uma afirmação ambiciosa: resolveram o gargalo matemático que tem limitado os grandes modelos de linguagem (LLMs) há quase uma década. Agora, a empresa sediada em Miami começa a apresentar evidências independentes que tornam suas alegações muito mais difíceis de ignorar.

    O problema da atenção quadrática

    Para entender por que as alegações da Subquadratic são tão impactantes, é preciso mergulhar em como os LLMs funcionam. O mecanismo central de um LLM é um tipo de rede neural chamada transformer, que executa um processo conhecido como atenção densa (“dense attention”). Quando um transformer processa um texto, ele codifica cada palavra (ou token) com um número e depois multiplica cada número por todos os outros números daquele texto. Um texto de 10.000 palavras dispara quase 50 milhões de multiplicações individuais.

    Conforme o texto aumenta, o número de cálculos dispara de forma quadrática — dobre o número de palavras e você quadruplica os cálculos. É por isso que os LLMs são notórios devoradores de energia e dinheiro.

    SubQ: atenção esparsa e velocidade 56x maior

    A solução da Subquadratic é abandonar a atenção densa em favor da atenção esparsa (“sparse attention”), que reduz drasticamente os cálculos. Em vez de multiplicar cada token por todos os outros, o modelo seleciona dinamicamente quais pares de tokens são relevantes para o contexto específico.

    “Se você está lendo um livro, você não vai comparar a primeira e a segunda palavra, primeira e terceira — isso é insano”, explica Alex Whedon, CTO e cofundador da Subquadratic.

    O modelo se chama SubQ e, segundo testes independentes conduzidos pela empresa Appen, é 56 vezes mais rápido que modelos que usam FlashAttention (a técnica anterior de atenção esparsa). Em benchmarks de código como o LiveCodeBench, o SubQ atingiu 89,7% de precisão — competitivo com os melhores modelos de codificação do mercado.

    Custo e capacidade de contexto sem precedentes

    O SubQ possui uma janela de contexto de até 12 milhões de tokens — 12 vezes maior que a maioria dos modelos atuais, limitados a cerca de 1 milhão. Em uma demonstração, o SubQ processou e raciocinou sobre 400 documentos simultâneos em segundos. Quando o Perplexity recebeu a mesma tarefa, sequer conseguiu carregar todos os documentos.

    Em termos de custo, a diferença é ainda mais gritante: executar o Opus 4.6 da Anthropic no teste RULER 128 custa cerca de US$ 2.600. O SubQ? Oito dólares.

    Nos testes de “needle-in-a-haystack”, o SubQ obteve 98% de precisão com janelas de contexto de 6 e 12 milhões de tokens — praticamente perfeito em escalas que poucos modelos sequer testam.

    Ceticismo justificado

    Apesar dos números impressionantes, o ceticismo é compreensível. A Subquadratic é uma empresa pequena com recursos limitados, e o modelo ainda não está amplamente disponível para testes públicos. Dezenas de milhares já se inscreveram na lista de espera, incluindo mais de 500 clientes empresariais, mas poucos tiveram acesso até agora.

    Outro ponto levantado por pesquisadores: a Subquadratic reutilizou pesos de um modelo open-source chinês (Qwen) para inicializar o SubQ, em vez de treinar do zero. Embora seja uma prática comum na indústria, isso enfraquece a alegação de terem reinventado completamente o funcionamento dos LLMs.

    “A evidência pública ainda não justifica a alegação mais forte de que eles resolveram o gargalo da atenção quadrática”, pondera Will Depue, pesquisador independente que trabalhou anteriormente na OpenAI.

    Uma nova era de eficiência?

    A Subquadratic insiste que a reinvenção é o único caminho para startups competirem com gigantes. “Esperamos estar iniciando uma nova era de eficiência”, diz Justin Dangel, CEO e cofundador. “Achamos que ninguém estará construindo em cima de transformers daqui a alguns anos.”

    Se o SubQ cumprir o que promete, a equação da IA generativa pode mudar radicalmente — mais rápida, mais barata e capaz de processar volumes de dados antes impensáveis. O copo está meio cheio de evidências, mas o gole final ainda depende de acesso público e testes independentes em larga escala.

  • Elastic adquire startup de IA DeductiveAI por até US$ 85 milhões

    Elastic adquire startup de IA DeductiveAI por até US$ 85 milhões

    A Elastic, empresa conhecida pelo Elasticsearch, concordou em adquirir a startup de IA DeductiveAI por até US$ 85 milhões, segundo uma fonte com conhecimento direto do acordo.

    Fundada em 2023, a DeductiveAI saiu do stealth em novembro do ano passado, quando anunciou uma rodada seed de US$ 7,5 milhões liderada pela CRV, com participação da Databricks Ventures, Thomvest Ventures e PrimeSet. O investimento avaliou a startup em US$ 33 milhões, de acordo com o PitchBook.

    A aquisição marca uma saída rápida para a DeductiveAI, que opera em um setor de rápido crescimento conhecido como AI SRE (Site Reliability Engineering com IA). Ferramentas de SRE com IA se tornaram essenciais diante do enorme volume de código gerado por inteligência artificial. Substituir a depuração manual por IA permite que engenheiros de SRE se concentrem mais em desenvolvimento de produto do que em apagar incêndios constantemente.

    Tendência de aquisições de startups de IA

    A aquisição reflete uma tendência mais ampla: grandes empresas de tecnologia estabelecidas estão comprando startups nativas de IA para integrar tecnologias baseadas em agentes em suas suítes de produtos existentes.

    A Elastic, que abriu capital em 2018, é mais conhecida pelo Elasticsearch, o mecanismo de busca e análise que ajuda organizações a armazenar, pesquisar, analisar e monitorar grandes volumes de dados em tempo quase real. Seu software de observabilidade pode se beneficiar significativamente da tecnologia da DeductiveAI.

    Segundo a fonte, integrar a tecnologia de IA da DeductiveAI à Elastic permitirá que os clientes monitorem automaticamente o desempenho e resolvam falhas de sistema em tempo real.

    Competição no setor

    A DeductiveAI foi cofundada por Rakesh Kothari, anteriormente VP de engenharia da ThoughtSpot, e Sameer Agarwal, ex-Apache Software Foundation e Meta, que também foi um dos engenheiros fundadores da Databricks.

    Embora a DeductiveAI tenha alcançado aproximadamente US$ 1 milhão em receita recorrente anual (ARR), seu crescimento ficou atrás da Resolve AI, uma das líderes do setor. A Resolve, fundada há dois anos pelo ex-executivo da Splunk Spiros Xanthos, foi avaliada em US$ 1,5 bilhão em abril, quando levantou uma extensão de Série A de US$ 40 milhões.

    O acordo demonstra o apetite contínuo do mercado por soluções de IA aplicadas a operações de TI e confiabilidade de sistemas — um nicho que deve crescer à medida que mais código gerado por IA chega à produção.

  • Baseten levanta US$ 1,5 bilhão e valuation salta para US$ 13 bilhões em apenas 5 meses

    Baseten levanta US$ 1,5 bilhão e valuation salta para US$ 13 bilhões em apenas 5 meses

    Baseten levanta US$ 1,5 bilhão e valuation salta para US$ 13 bilhões em apenas 5 meses

    A startup de inferência de IA Baseten está prestes a fechar uma rodada de financiamento impressionante de US$ 1,5 bilhão, avaliando a empresa em US$ 13 bilhões, segundo informações do Wall Street Journal.

    O que torna esse número ainda mais surpreendente é o intervalo entre as rodadas. Há apenas cinco meses, em janeiro de 2026, a Baseten anunciou uma Série E de US$ 300 milhões com valuation de US$ 5 bilhões. E essa rodada veio apenas nove meses depois de uma Série D de US$ 150 milhões.

    Se confirmada, esta nova rodada representa um aumento de 160% no valuation em menos de seis meses — um ritmo quase sem precedentes mesmo no frenético mercado de IA.

    Split-priced round: valuation turbinado artificialmente?

    O WSJ revela que a rodada utiliza uma estrutura de split-priced round, tática que startups estão adotando para inflar o valuation principal e fazer os investidores-líderes parecerem mais bem-sucedidos no papel. Alguns investidores entram com valuation de US$ 13 bilhões, enquanto outros aportam com valuation de US$ 11 bilhões.

    A rodada é co-liderada por Spark Capital, Sands Capital, Altimeter Capital e Wellington Management.

    A corrida do ouro da inferência

    A Baseten compete no mercado de inferência de IA como serviço — permitindo que empresas executem modelos de linguagem de grande escala (LLMs) em produção sem gerenciar infraestrutura própria. Com a explosão de agentes de IA, RAG (geração aumentada por recuperação) e aplicações que exigem latência baixíssima, a demanda por plataformas de inferência dedicadas disparou.

    Concorrentes como Together AI, Fireworks AI e Groq também captaram centenas de milhões nos últimos meses, confirmando que Wall Street e o venture capital enxergam a inferência como a próxima grande frente de infraestrutura de IA — depois da corrida pelos chips e data centers.

    O frenesi de investimentos levanta questões sobre sustentabilidade. Com valuations dobrando a cada semestre, a pressão por receita proporcional será enorme quando essas startups eventualmente abrirem capital ou enfrentarem um mercado menos generoso.

    Fonte: TechCrunch e Wall Street Journal