Blog

  • Líderes do G7 temem que EUA possam ‘desligar’ acesso à IA americana a qualquer momento

    Líderes do G7 temem que EUA possam ‘desligar’ acesso à IA americana a qualquer momento

    Durante a cúpula do G7 nesta quarta-feira (17), líderes mundiais como o presidente francês Emmanuel Macron e o primeiro-ministro indiano Narendra Modi expressaram preocupação com a possibilidade de os Estados Unidos cortarem o acesso a modelos de IA americanos da noite para o dia.

    Macron alertou líderes do G7 e executivos de alto escalão — incluindo o CEO da Anthropic Dario Amodei, o CEO da OpenAI Sam Altman e o presidente Donald Trump — durante um almoço, que se os EUA “de um dia para o outro puderem desligar o interruptor”, isso poderia prejudicar não apenas as economias de clientes europeus, mas também a segurança de infraestruturas críticas.

    O gatilho: bloqueio dos modelos da Anthropic

    As declarações ocorrem poucos dias após o governo Trump bloquear a Anthropic de exportar seus modelos mais recentes — Mythos 5 e Fable 5 — por motivos de segurança nacional. A ordem veio depois que a Amazon sinalizou à Casa Branca que certas salvaguardas de segurança poderiam ser contornadas.

    Embora especialistas em cibersegurança tenham apontado que os jailbreaks demonstrados não eram diferentes dos riscos já conhecidos em todos os grandes modelos de linguagem, o episódio expôs um risco que muitas empresas internacionais já enfrentam: qualquer empresa ou governo que construa sobre infraestrutura de IA americana agora precisa lidar com a possibilidade de que o acesso possa ser revogado da noite para o dia.

    O esquema de “parceiros confiáveis”

    Durante a reunião, os líderes do G7 discutiram a criação de um esquema de “trusted partners” (parceiros confiáveis) que concederia acesso a modelos avançados de IA de empresas como Anthropic e OpenAI para nações fora dos EUA, mantendo uma espécie de rede de comércio aberto que contorna as restrições americanas.

    Aidan Gomez, cofundador e CEO da empresa canadense de IA empresarial Cohere, reforçou: “A restrição recente ao acesso aos modelos da Anthropic confirma o que nós da Cohere sempre soubemos: que empresas e nações democráticas permanecendo dependentes de um pequeno punhado de big techs é perigoso para a resiliência.”

    Soberania de IA em xeque

    Os comentários foram feitos enquanto Europa e outros países não americanos tentam promover a soberania de IA — um caso cada vez mais difícil de defender quando os modelos americanos continuam avançando e ninguém quer ficar para trás.

    Como observou Macron, faria sentido para Washington apoiar tal esquema e garantir acesso mais amplo ao Mythos. Afinal, ninguém vai querer comprar acesso à IA americana se ele puder desaparecer da noite para o dia.

  • NVIDIA usa agentes de IA para treinar robôs a instalar GPUs com 99% de sucesso

    NVIDIA usa agentes de IA para treinar robôs a instalar GPUs com 99% de sucesso

    Pesquisadores do laboratório GEAR (Generalist Embodied Agent Research) da NVIDIA, em colaboração com a Carnegie Mellon University e a UC Berkeley, desenvolveram o ENPIRE — um framework que permite que agentes de IA de código dirijam de forma autônoma o treinamento de robôs.

    O resultado? Robôs que aprenderam a instalar GPUs em placas-mãe, cortar abraçadeiras e organizar pinos com 99% de taxa de sucesso.

    Como funciona o ENPIRE

    O ENPIRE (harness de agente) envolve modelos de IA com quatro módulos principais: verificação e reset automático de tarefas, refinamento de políticas robóticas, avaliação paralela em múltiplos robôs físicos e análise de falhas com ingestão de artigos científicos para melhorar o código de treinamento.

    “Nós apenas lemos os relatórios pela manhã”, brincou Jim Fan, diretor de IA da NVIDIA, em um post no LinkedIn.

    O framework foi testado com três agentes de código diferentes: OpenAI Codex com GPT-5.5, Anthropic Claude Code com Opus 4.7 e Moonshot AI Kimi Code com Kimi K2.6.

    Equipes de agentes são melhores que agentes solo

    Um dos achados mais interessantes: times maiores de agentes produzem resultados mais rápidos. Uma equipe de oito agentes alcançou 99% de sucesso na tarefa Push-T em apenas duas horas, comparado a três horas com quatro agentes e quase cinco horas com um único agente.

    Na tarefa de inserção e organização de pinos, os agentes atingiram quase 100% de sucesso mais rápido que o método estado da arte com supervisão humana.

    Limitações importantes

    Os pesquisadores também identificaram gargalos significativos: os robôs frequentemente ficavam ociosos enquanto os agentes estavam ocupados “lendo logs, escrevendo código ou esperando o modelo de linguagem”. Times maiores gastavam mais tempo resumindo ideias uns dos outros.

    Além disso, o sucesso mais rápido veio com maior consumo de tokens — uma consideração importante em um momento em que empresas como Anthropic estão revisando seus modelos de precificação baseada em tokens.

    Código aberto e futuro

    A equipe da NVIDIA prometeu abrir o código do ENPIRE para que qualquer pessoa possa hospedar seu próprio “laboratório de robótica autônomo em casa”. O anúncio se alinha com a visão da NVIDIA para IA física, que inclui parcerias com a Unitree para robôs humanoides de referência e colaboração com a Hyundai para fabricação em massa de robôs com IA.

  • OpenAI lança LifeSciBench: benchmark com 750 tarefas para avaliar IA em ciências da vida

    OpenAI lança LifeSciBench: benchmark com 750 tarefas para avaliar IA em ciências da vida

    A OpenAI acaba de anunciar o LifeSciBench, um novo benchmark projetado para medir a capacidade de sistemas de IA em apoiar pesquisas científicas reais na área de ciências da vida — não apenas responder perguntas de biologia.

    O benchmark foi desenvolvido com a colaboração de 173 cientistas com doutorado e experiência direta em biotecnologia e indústria farmacêutica. Ao todo, são 750 tarefas cobrindo sete fluxos de trabalho e sete domínios biológicos, com 19.020 critérios de avaliação definidos por especialistas.

    O que o LifeSciBench mede

    Diferente de benchmarks anteriores, o LifeSciBench avalia se os modelos conseguem lidar com a complexidade real da pesquisa científica: interpretar evidências incompletas, reconciliar resultados conflitantes, projetar experimentos difíceis, fazer troubleshooting de ensaios e decidir próximos passos sob incerteza.

    Os fluxos de trabalho avaliados incluem: manipulação de evidências, análise, design e otimização, raciocínio científico, validação e operações, tradução (do laboratório para a clínica) e comunicação científica.

    Construção do dataset

    79% das tarefas exigem múltiplas etapas de raciocínio ou tomada de decisão, com média de quatro etapas por tarefa. O benchmark inclui 1.062 artefatos — figuras, PDFs, tabelas, arquivos de sequência e referências web. Mais da metade das tarefas (53%) exige que os modelos interpretem ou sintetizem informações de pelo menos um artefato.

    Cada tarefa passou por rigoroso processo de revisão: média de seis ciclos de revisão automatizada e pelo menos duas rodadas de revisão por especialistas, com 90% de concordância entre revisores do domínio relevante.

    Resultados com modelos frontier

    O GPT-Rosalind (versão mais recente da OpenAI focada em ciências) melhora significativamente em relação ao GPT-5.5, elevando a taxa de aprovação geral de 25,7% para 36,1%.

    Os pontos fortes incluem Comunicação Científica (71,1% de aprovação) e Tradução (57,7%). Já os pontos fracos persistem em Design e Predição (30,7%) e Análise (30,3%).

    O maior gap está no uso de artefatos: o GPT-Rosalind cai de 45,1% de aprovação em tarefas só com texto para 28,1% em tarefas com figuras ou arquivos. Em tarefas que exigem saídas numéricas exatas, a aprovação é de apenas 14,8%.

    Validação independente

    O benchmark foi validado por 453 revisores externos, dos quais 97% possuem Ph.D. ou doutorado equivalente, com média de 12 anos de experiência e 14 publicações revisadas por pares. A concordância sobre a qualidade das tarefas superou 96% em todas as categorias.

    O LifeSciBench representa um passo importante para medir a utilidade real da IA na pesquisa em ciências da vida, mas a OpenAI reconhece que o benchmark não substitui estudos de uso em ambientes de pesquisa ao vivo. O próximo passo é conectar o desempenho no benchmark a estudos de deployment em fluxos de trabalho reais.

  • Anthropic é a primeira startup de IA a entrar na coalizão Frontier de remoção de carbono

    Anthropic é a primeira startup de IA a entrar na coalizão Frontier de remoção de carbono

    A Anthropic se tornou a primeira startup puramente de IA a ingressar na Frontier, uma das maiores coalizões de remoção de carbono do mundo. O anúncio chega em um momento em que as empresas de IA estão sob crescente escrutínio pelo alto consumo de energia de seus data centers.

    A Frontier foi fundada por gigantes de tecnologia como Stripe, Google e Shopify para ajudá-las a cumprir suas promessas climáticas. O novo aporte da Anthropic — cujo valor não foi revelado — quase dobra os compromissos totais da coalizão, que agora somam US$ 1,8 bilhão. Até agora, a Frontier já contratou quase US$ 700 milhões em mais de 50 projetos para remover 1,8 milhão de toneladas de carbono.

    O movimento é notável por ser o primeiro acordo climático da Anthropic. A empresa ainda não publicou um relatório de sustentabilidade e historicamente favoreceu uma abordagem “todas as opções acima” para energia — expressão que costuma se traduzir em grandes compras de energia poluente. A entrada na Frontier pode sinalizar uma mudança de postura.

    A coalizão também anunciou que o financiamento para projetos futuros terá um nível mais alto de escrutínio. A Frontier financiará menos projetos, focando naqueles com maior chance de remover uma gigatonelada (1 bilhão de toneladas métricas) de CO₂ ou mais por ano.

    Desde seu lançamento em 2022, a Frontier apoiou uma variedade de tecnologias de remoção de carbono, incluindo captura direta do ar, intemperismo acelerado de rochas, bio-óleo, antiácidos oceânicos e bioenergia com captura e sequestro de carbono.

    A mudança da Frontier — de muitas apostas pequenas para poucas apostas grandes — imita o que parece estar acontecendo na Microsoft, que tem sido a maior compradora de créditos de remoção de carbono. Para qualquer novo contrato, a empresa de remoção de carbono precisa “mostrar um caminho para subsídio ou suporte governamental”, disse um porta-voz da Frontier ao TechCrunch.

    O Painel Intergovernamental sobre Mudanças Climáticas da ONU (IPCC) já afirmou que a tecnologia de remoção de dióxido de carbono será necessária se o mundo quiser atingir emissões líquidas zero — embora poucas empresas ou consumidores estejam dispostos a pagar a conta. Assim como aconteceu com a água limpa, o problema quase certamente recairá sobre os governos.

    A entrada da Anthropic na Frontier representa um passo importante para o setor de IA, que enfrenta um dilema crescente: como equilibrar a expansão massiva de infraestrutura computacional com responsabilidade climática.

  • Governo Trump usa regras de exportação para bloquear modelos da Anthropic — e especialistas dizem que isso não faz sentido

    Governo Trump usa regras de exportação para bloquear modelos da Anthropic — e especialistas dizem que isso não faz sentido

    A Anthropic passou grande parte desta semana lutando para colocar seus modelos de IA mais recentes de volta ao ar, depois que o governo Trump ordenou abruptamente que a empresa cortasse o acesso de todos os cidadãos estrangeiros — incluindo usuários dentro dos EUA e seus próprios funcionários — forçando a Anthropic a bloquear o Fable 5 e o Mythos 5 para todo mundo.

    O governo Trump não explicou publicamente a base legal da ordem, mas em comunicado no seu site, a Anthropic afirmou que o governo citou “autoridades de segurança nacional” para justificar uma “diretiva de controle de exportação” sobre os modelos. A Anthropic também alegou que as preocupações do governo sobre um “jailbreak” supostamente usado por grupos ligados à China para acessar seus modelos não permitiam burlar todas as salvaguardas da empresa.

    Mas por que o governo usou regras de controle de exportação para isso? Especialistas afirmam que o episódio parece sem precedentes, expondo uma fase incerta e instável na governança da IA. E, afinal, o que exatamente a Anthropic estaria exportando?

    Controles de exportação tradicionalmente se aplicam a coisas que podem ser enviadas através de fronteiras: armas, hardware, ferramentas. Com o tempo, o escopo se expandiu para cobrir bens menos tangíveis, como software, código-fonte e dados técnicos. Mas ainda são coisas discretas que podem ser copiadas ou transferidas — não simplesmente usadas através de uma API remota.

    “Até onde sei, esta é a primeira vez que controles de exportação dos EUA são usados para controlar o acesso a um modelo de IA dessa forma”, disse um especialista.

    A ordem da Anthropic não se encaixa nesse arcabouço. Não há transferência óbvia: Mythos e Fable permanecem hospedados nos servidores da Anthropic, e os usuários não recebem código-fonte, pesos do modelo ou uma cópia — apenas as respostas do chatbot.

    Hanna Dohmen, analista sênior do Centro de Segurança e Tecnologia Emergente da Universidade de Georgetown, disse ao The Verge que é “uma questão em aberto” se a ordem força as regras existentes sem ver a linguagem precisa por trás dela. “De qualquer forma, essa regulação é bastante notável porque realmente parece estar tentando empurrar os limites do que os controles de exportação podem fazer”, afirmou.

    “Dizer que esta é uma área indefinida da regulação de controles de exportação seria um eufemismo”, disse Andrew Reddie, professor da UC Berkeley. Ele afirmou que regras de controle de exportação dão ao governo “ampla latitude” para restringir o acesso, mas que mirar modelos hospedados em nuvem de uma empresa doméstica está “fora do escopo das regras existentes”.

    Isso deixa a indústria em uma posição difícil. Se a Anthropic foi alvo porque Mythos e Fable são excepcionalmente capazes, a ordem levanta questões óbvias para a próxima geração de modelos da OpenAI, Google, Meta, xAI e qualquer outro laboratório de fronteira. Se foram alvo por questões específicas de salvaguarda, a pergunta é: como qualquer empresa pode garantir que seus modelos nunca sofrerão jailbreak?

    “Se criar modelos imunes a jailbreak é o requisito para implantação global, virtualmente nenhum modelo satisfaz essa condição”, disse Reddie.

    Tudo isso aponta para o mesmo problema: o governo Trump quer ter as duas coisas em IA. Repetidamente disse que quer uma abordagem de não intervenção e defender a tecnologia americana, mas forçou uma campeã nacional a remover abruptamente seus modelos de fronteira por meio de uma ordem que ainda não explicou publicamente.

    O episódio já adiciona combustível aos argumentos de que governos e empresas fora dos EUA deveriam ser cautelosos ao depender de empresas americanas para acesso a tecnologia estratégica — exatamente o oposto do que a liderança americana em IA precisa.

  • Odyssey, startup de world models, alcança valuation de US$ 1,45 bilhão com investimento da Amazon

    Odyssey, startup de world models, alcança valuation de US$ 1,45 bilhão com investimento da Amazon

    A Odyssey, startup de world models fundada por ex-executivos de veículos autônomos, acaba de levantar uma rodada Série B de US$ 310 milhões com valuation de US$ 1,45 bilhão. A rodada foi liderada pela Natural Capital, com participação da Amazon, AMD Ventures, GV e outros investidores de peso.

    Os world models (modelos de mundo) são considerados a próxima fronteira da IA além dos modelos de linguagem baseados em texto. Eles coletam dados do mundo físico e os simulam com física precisa. No caso da Odyssey, a abordagem foi inspirada no Google Earth: a startup enviou pessoas com câmeras acopladas às costas para mapear o mundo real — diferente do Google, que usa carros equipados com câmeras.

    Esse método faz sentido considerando o currículo dos fundadores. Oliver Cameron (CEO) foi cofundador da Voyage, startup de veículos autônomos adquirida pela Cruise (GM), onde depois se tornou VP de Produto. Jeff Hawke (CTO) foi engenheiro da Wayve, promissora startup britânica de direção autônoma.

    Fundada em 2023, a Odyssey já oferece diversos world models para diferentes casos de uso, desde criação de videogames até robótica. A empresa é mais conhecida por gerar vídeos interativos ricos a partir de prompts de texto — uma capacidade que vai muito além dos geradores de vídeo convencionais.

    Com o investimento da Amazon, a startup anunciou que a AWS será seu provedor de nuvem preferencial e que otimizará seus modelos para os chips Trainium, concorrente direto dos chips de IA da Nvidia.

    Além dos VCs, a Odyssey atraiu uma lista impressionante de investidores-anjo, incluindo Jeff Dean (Google), Elad Gil, Garry Tan (Y Combinator), Guillermo Rauch (Vercel) e Kyle Vogt (fundador da Cruise). No total, a empresa já levantou US$ 337 milhões.

    O aporte coloca a Odyssey no seleto grupo de unicórnios de IA focados em simulação do mundo físico — um campo que promete transformar setores como games, cinema, robótica e simulação industrial.

  • Google publica na Nature: IA médica AMIE agora gerencia doenças complexas

    Google publica na Nature: IA médica AMIE agora gerencia doenças complexas

    A Google publicou hoje na prestigiada revista Nature uma pesquisa que mostra a evolução do AMIE (Articulate Medical Intelligence Explorer) — seu sistema de IA para raciocínio clínico — passando de consultas diagnósticas pontuais para o gerenciamento de doenças de longo prazo.

    Do diagnóstico ao tratamento contínuo

    Dar um diagnóstico é apenas o primeiro passo. O verdadeiro desafio médico está em gerenciar condições de saúde ao longo do tempo: acompanhar sintomas em múltiplas consultas, interpretar diretrizes clínicas atualizadas e ajustar medicações. É exatamente isso que a nova versão do AMIE promete fazer.

    Utilizando os recursos de contexto longo dos modelos Gemini, o AMIE para gerenciamento de doenças incorpora dois componentes principais:

    • Um agente de diálogo empático para conversas em tempo real com pacientes;
    • Um agente de raciocínio profundo que cruza centenas de páginas de conhecimento clínico autoritativo, incluindo formulários de medicamentos e diretrizes clínicas.

    Resultados do estudo

    Em um estudo cego conduzido com pacientes-atores, médicos especialistas compararam o desempenho do AMIE com o de 21 médicos de atenção primária. Os resultados foram notáveis:

    • O AMIE igualou os clínicos em raciocínio de gerenciamento geral;
    • O sistema teve pontuação significativamente superior em precisão de planejamento e alinhamento com diretrizes clínicas;
    • Isso sugere que a IA poderia, no futuro, apoiar o cuidado médico, liberando mais tempo dos médicos para interagir com os pacientes.

    Próximos passos

    O Google anunciou que está explorando como o AMIE pode funcionar em ambientes clínicos reais e já lançou um estudo nacional para avaliar o uso de IA em atendimento virtual no mundo real.

    A publicação na Nature — uma das revistas científicas mais respeitadas do mundo — confere um selo de validação importante para a pesquisa em IA médica e aponta para um futuro onde sistemas de IA atuam como assistentes confiáveis no cuidado contínuo de pacientes.


    Fonte: Google Blog

  • Google aposta no Gemini para reinventar a caixa de som inteligente

    Google aposta no Gemini para reinventar a caixa de som inteligente

    Após anos de atualizações incrementais, o Google está apostando que sua IA Gemini pode reinventar a caixa de som inteligente. A empresa anunciou nesta quarta-feira o Google Home Speaker, seu primeiro dispositivo de áudio construído especificamente para o Gemini, com preço de US$ 99,99.

    Chega de comandos rígidos

    O Google Home Speaker representa uma mudança radical em relação aos assistentes de voz tradicionais. Em vez de comandos que precisam ser formulados de maneira exata para funcionar, o novo dispositivo entende linguagem natural e pedidos em múltiplas etapas.

    Você pode dizer algo como: “desligue todas as luzes, exceto a do meu abajur” ou “escureça as luzes da cozinha, coloque uma música relaxante e configure um timer de 20 minutos” — e o Gemini entenderá perfeitamente.

    Outra novidade é a capacidade de fazer correções no meio da frase. Dizer “desligue a cafeteira… quer dizer, ligue ela!” será interpretado corretamente pela IA, sem necessidade de repetir o comando.

    Conversas naturais com 10 novas vozes

    O dispositivo virá com 10 novas vozes capazes de manter conversas bidirecionais sobre tópicos que vão além de tarefas de casa inteligente. Os usuários poderão fazer perguntas mais complexas e aprofundar temas, como já fazem com o Gemini no smartphone.

    O recurso “Conversa Contínua” mantém o microfone ativo brevemente após cada interação, permitindo perguntas de follow-up sem precisar repetir o “OK, Google”.

    Assinatura Google Home Premium

    Mas nem todos os recursos avançados serão gratuitos. O Google lançará o plano Google Home Premium por US$ 10/mês (ou US$ 100/ano), que inclui:

    • Conversas mais fluidas com o Gemini Live (acionado com “Hey Google, vamos conversar”)
    • Análise de atividades capturadas pelas câmeras Nest
    • Resumos do que aconteceu em casa enquanto você estava fora

    A empresa oferecerá 6 meses grátis dos recursos premium para incentivar a adoção.

    Design e disponibilidade

    Com design similar às versões anteriores — envolto em tecido 3D trançado e formato arredondado de 8,6 × 10,7 cm —, o aparelho estará disponível nas cores Jade e Berry nos EUA, além de Hazel e Porcelain no resto do mundo. Um anel de luz na base indica se o dispositivo está ouvindo, processando ou respondendo.

    O Google Home Speaker já está em pré-venda e começa a ser enviado ainda este mês.


    Fonte: TechCrunch

  • Crise entre Casa Branca e Anthropic: entenda a polêmica do modelo Fable

    Crise entre Casa Branca e Anthropic: entenda a polêmica do modelo Fable

    A Casa Branca impôs restrições de controle de exportação ao modelo Fable 5 da Anthropic na sexta-feira à noite, impedindo que governos e cidadãos estrangeiros utilizassem o produto. A decisão forçou a Anthropic a desligar completamente o acesso aos modelos Mythos 5 e Fable 5, mergulhando sua base de usuários no caos e levantando questões profundas sobre o futuro da regulação de IA nos EUA.

    O que aconteceu?

    Na noite de sexta-feira, o governo Trump impôs restrições de controle de exportação aos modelos mais recentes da Anthropic — Mythos 5 e Fable 5. A medida impediu que governos e cidadãos estrangeiros acessassem esses modelos, forçando a empresa a interromper o serviço para todos os usuários.

    Segundo aliados da Casa Branca, executivos de tecnologia — incluindo Andy Jassy, CEO da Amazon — entraram em contato com o governo alertando que os modelos poderiam sofrer jailbreak, representando uma ameaça iminente à segurança cibernética nacional.

    Versões conflitantes

    As narrativas divergem significativamente dependendo da fonte:

    • O Washington Post reportou que a Anthropic teve apenas 90 minutos para derrubar seus modelos;
    • Um funcionário da Casa Branca disse à Politico que o governo “implorou à Anthropic por horas”;
    • O New York Times relatou que a Amazon encontrou uma forma de jailbreak nos guardrails de segurança do Fable;
    • Outra fonte contestou dizendo que o mesmo resultado poderia ser obtido com o ChatGPT 5.5 da OpenAI;
    • O Semafor indicou possível envolvimento de um grupo ligado à China, sem confirmação de jailbreak;
    • O Axios sugeriu que a administração simplesmente não gostava da “vibe woke” da Anthropic.

    O fator político

    A repórter Tina Nguyen, do The Verge, destaca um ponto crucial: na ausência de legislação federal específica para IA, a regulação depende inteiramente das “vibes” de declarações no Truth Social ou de ordens executivas assinadas por Trump.

    Dean Ball, ex-conselheiro de IA da Casa Branca, foi direto em sua análise: “O que a lei diz não importa. A Anthropic é inimiga política desta administração, em parte porque escolheu explicitamente se tornar uma.”

    Enquanto concorrentes se adaptaram rapidamente ao ambiente político, a Anthropic manteve uma postura que muitos em Washington consideram abertamente antagônica — e não há facções dentro do governo correndo para defendê-la.

    Este episódio serve como um alerta para todas as empresas de IA de fronteira: na prática, você precisa de um sinal verde explícito do governo para operar.


    Fonte: The Verge

  • Pramaana Labs capta US$ 27 milhões para levar verificação formal à IA

    Pramaana Labs capta US$ 27 milhões para levar verificação formal à IA

    A startup Pramaana Labs anunciou uma rodada seed de US$ 27 milhões liderada pela Khosla Ventures, com participação da Accel, Boldcap, Nexus Venture Partners, Premji Invest e Unbound. A empresa quer resolver um dos maiores problemas da inteligência artificial atual — a confiabilidade — usando uma abordagem emprestada da ciência da computação: verificação formal.

    O conceito é aplicar métodos matemáticos rigorosos para garantir que as respostas de um LLM estejam corretas, especialmente em domínios onde erros podem custar caro. A Pramaana vai focar inicialmente em três verticais: direito tributário, descoberta de medicamentos e preparação de impostos.

    Como funciona

    A arquitetura da Pramaana combina um LLM convencional — que oferece flexibilidade para processar linguagem natural — com uma camada determinística de verificação construída sobre a linguagem de programação LEAN, usada originalmente para provar teoremas matemáticos.

    “É como matemática no sentido de que você tem muitas regras que precisa seguir”, explicou o CEO e cofundador Ranjan Rajagopalan ao TechCrunch. “Uma vez que você tem uma versão codificada, o raciocínio em cima disso se torna determinístico.”

    Time de peso

    Para cada vertical, a Pramaana está construindo seu próprio sistema de verificação formal supervisionado por especialistas. Na área tributária, a empresa trabalha com Danny Werfel, ex-comissário da Receita Federal americana (IRS). Professores do IIT Delhi, IIT Madras e UC Berkeley supervisionam os sistemas de cibersegurança e descoberta de fármacos.

    Rajagopalan cita como inspiração o projeto francês CATALA, que formalizou grande parte do sistema tributário francês em código executável.

    O problema da confiabilidade

    A rodada acontece num momento em que empresas lutam para transformar pilotos de IA em partes funcionais do negócio. A confiabilidade — ou a falta dela — é o principal obstáculo. Alucinações e erros podem ser inconvenientes em um chatbot, mas em áreas como direito ou medicina, podem ter consequências graves.

    “Os problemas mais difíceis do mundo não são insolúveis. Eles estão não-formalizados”, diz Rajagopalan. “Todo domínio onde estar errado pode custar a alguém sua saúde, dinheiro ou liberdade tem regras.” Agora, essas regras só precisam ser codificadas.

    Fonte: TechCrunch

  • Meta lança busca com IA baseada em posts do Facebook

    Meta lança busca com IA baseada em posts do Facebook

    A Meta acaba de lançar o AI Mode, um novo modo de busca com inteligência artificial dentro do aplicativo do Facebook. A novidade transforma a barra de pesquisa da rede social em uma ferramenta que responde perguntas complexas usando como fonte posts públicos do Facebook, Grupos e Reels do Instagram.

    A ideia é ambiciosa: em vez de mostrar links, o AI Mode gera respostas sintetizadas a partir do conteúdo postado por usuários. A Meta sugere usos como planejamento de viagens e descoberta de eventos locais — “escapadas de verão perto de mim” foi o exemplo usado no comunicado oficial.

    Funciona, mas nem sempre

    A jornalista Allison Johnson, do The Verge, testou a ferramenta e encontrou resultados mistos. Para recomendações genéricas como destinos de verão, o AI Mode trouxe sugestões razoáveis — ainda que acompanhadas de um mapa gerado por IA que colocava cidades em locais errados.

    Quando as perguntas ficaram mais específicas, os problemas apareceram. Ao perguntar sobre atividades para o fim de semana, a IA sugeriu nadar na piscina comunitária — mas avisou que estaria fechada, citando um post do Facebook da própria piscina. Ao verificar a fonte, o post simplesmente não existia e a piscina estaria aberta normalmente. Alucinação clássica.

    Desinformação resistente (quase)

    O teste incluiu tentativas de extrair desinformação do sistema. A IA não caiu em perguntas sobre vacinas causando autismo, quem fez o 11 de setembro ou fraude eleitoral nos EUA. Mas, questionada se os manifestantes de 6 de janeiro no Capitólio eram “patriotas”, produziu uma justificativa teórica duvidosa — algo que “aquele seu tio esquisito postaria no Facebook”. Uma pergunta seguinte foi bloqueada com “não posso ajudar com isso”.

    Ferramenta útil ou pesadelo?

    O AI Mode está disponível como opção na busca do app do Facebook. A curadoria de conteúdo depende do que as pessoas postam — e isso inclui desde grupos de bairro úteis até teorias da conspiração. A Meta aposta que consegue filtrar o ruído. Por enquanto, o resultado é uma ferramenta com potencial genuíno, mas que ainda tropeça nos mesmos problemas de confiabilidade que afligem outras IAs de busca.

    Fonte: The Verge

  • Google Home Speaker com Gemini chega em 29 de junho por US$ 99

    Google Home Speaker com Gemini chega em 29 de junho por US$ 99

    O Google anunciou oficialmente o lançamento do Google Home Speaker, seu primeiro smart speaker novo em seis anos. As pré-vendas começam hoje, 17 de junho, e os envios iniciam em 29 de junho — um pequeno atraso em relação à janela de primavera prometida.

    O dispositivo chega custando $99 dólares e mantém o hardware apresentado há nove meses: design arredondado levemente achatado, botões touch-capacitivos no topo, anel de luz na base para indicar status e som 360 graus. Está disponível em quatro cores: porcelana (branco), avelã (preto), jade (verde) e berry (vermelho) — sendo as duas últimas exclusivas dos EUA.

    Feito para o Gemini

    Diferente dos Nest speakers anteriores, o Google Home Speaker foi projetado especificamente para o Gemini for Home, a nova experiência de assistente conversacional do Google. Segundo Anish Kattukaran, chief product officer do Google Home, o dispositivo executa modelos locais para cancelamento de ruído, supressão de eco e separação de som, garantindo que o Gemini consiga ouvir comandos mesmo em ambientes barulhentos.

    O Gemini for Home oferece uma experiência mais natural que o Google Assistant tradicional: entende linguagem natural, lida com perguntas complexas e acompanha quando você hesita, gagueja ou muda de ideia no meio da frase. Também permite conversas contínuas sem precisar repetir a palavra de ativação.

    Áudio e conectividade

    O Google Home Speaker entrega som 360 graus e, embora o Google não afirme que iguala a qualidade do Nest Audio (seu flagship anterior), promete ser “um upgrade massivo sobre o Nest Mini”. É possível parear dois speakers para som estéreo ou conectá-los ao Google TV Streamer para som surround espacial.

    O dispositivo funciona como controlador Matter e Thread Border Router, integrando-se ao ecossistema de casa inteligente. Alguns recursos exigem assinatura do Google Home Premium.

    Preço e disponibilidade

    Com lançamento global previsto para breve, o Google Home Speaker chega primeiro aos EUA por $99. O Google não confirmou ainda a data de disponibilidade no Brasil.

    Fonte: The Verge