Categoria: Notícias de Tecnologia

  • iOS 27: os recursos práticos de IA que vão transformar seu iPhone além da Siri

    iOS 27: os recursos práticos de IA que vão transformar seu iPhone além da Siri

    iOS 27: os recursos práticos de IA que vão transformar seu iPhone além da Siri

    A grande estrela da WWDC foi a reformulação da Siri com IA, mas as funcionalidades de inteligência artificial que realmente vão impactar o dia a dia dos usuários de iPhone estão espalhadas de forma mais sutil pelo iOS 27. Em vez de pedir que as pessoas adotem uma nova Siri turbinada, a Apple está incorporando IA nos aplicativos e serviços que os usuários já conhecem.

    Divisão de conta no restaurante com Apple Cash

    Sabe aquela confusão na hora de dividir a conta? O iOS 27 resolve com um recurso baseado em Apple Intelligence: basta tirar uma foto do recibo da conta do restaurante. A IA extrai automaticamente os itens pedidos, quantidades, gorjeta e total. Você seleciona o que consumiu e envia a solicitação para o grupo no iMessage. Cada pessoa marca seus itens — podendo até dividir meio a meio — e paga com Apple Cash normalmente, com dois cliques.

    Senhas atualizadas automaticamente após vazamentos

    Com tantos vazamentos de dados, ter uma senha forte não é mais suficiente. O novo recurso de atualização de senhas do iOS 27 usa IA para agir de forma autônoma: identifica senhas comprometidas em vazamentos de dados e, sem que você precise fazer nada, navega de forma segura pelos sites, faz login e atualiza suas credenciais para versões novas e mais seguras.

    Sugestões inteligentes no iMessage

    O Mensagens ganha sugestões contextuais com um toque. Se um amigo pedir para você levar algo no encontro, o app sugere adicionar à lista de Lembretes. Se alguém pedir as fotos de um evento, a IA seleciona as imagens certas usando palavras-chave, localização e reconhecimento de pessoas. Se estiverem marcando um jantar, o app oferece adicionar ao Calendário. Tudo aparece como uma ferramenta útil no chat — nada de robôs falantes.

    Contexto em chamadas telefônicas

    Ligar para o atendimento ao cliente de uma companhia aérea e ficar desesperado procurando o código de reserva? No iOS 27, o recurso Call Context exibe automaticamente seu código de confirmação direto na tela da chamada, extraído do seu e-mail com total privacidade — tudo processado no dispositivo.

    Calendário com linguagem natural

    Adicionar eventos ao Calendário agora é tão simples quanto descrevê-los: “Almoço com Ana sexta ao meio-dia no restaurante italiano”. A IA extrai contatos, locais e cria o título sozinha, sem que você precise navegar por campos.

    Atalhos para todo mundo

    O app Atalhos sempre foi poderoso, mas intimidador para não-técnicos. No iOS 27, você descreve o que quer em português simples. Exemplos: configurar o alarme com base nos eventos do dia seguinte, abrir seus apps de produtividade ao conectar o teclado no iPad, ou enviar automaticamente seu horário de chegada ao parceiro quando sair do trabalho.

    Casa inteligente com notificações unificadas

    Cansado de 5 notificações quando seu parceiro chega em casa (portão, porta da garagem, entrada…)? O app Casa agora usa IA para condensar múltiplas ações em uma única notificação inteligente. A busca por clipes de eventos (como entregas) também ficou mais inteligente.

    Safari organiza abas por tema

    O navegador agora entende o que você está pesquisando e agrupa abas por assunto: viagem, trabalho, finanças. Os grupos aparecem no topo do navegador, com toda a privacidade preservada — o processamento acontece no dispositivo.

    Todos esses recursos já estão disponíveis no beta para desenvolvedores e chegam ao público geral no segundo semestre.

  • Governo Trump força Anthropic a tirar modelos Fable 5 e Mythos 5 do ar: quem se beneficia?

    Governo Trump força Anthropic a tirar modelos Fable 5 e Mythos 5 do ar: quem se beneficia?

    Governo Trump força Anthropic a tirar modelos Fable 5 e Mythos 5 do ar: quem se beneficia?

    O governo Trump forçou a Anthropic a retirar do ar seus dois modelos de IA mais recentes — Fable 5 e Mythos 5 — citando “preocupações de segurança nacional”. A ordem de controle de exportação, emitida numa sexta-feira, exigiu que a Anthropic garantisse que os modelos não pudessem ser usados por cidadãos estrangeiros. Sem conseguir fazer essa distinção técnica, a empresa simplesmente desligou ambos os modelos.

    O que realmente motivou a ação?

    Segundo o podcast Equity do TechCrunch, os jornalistas Sean O’Kane, Rebecca Bellan e Anthony Ha discutiram os bastidores da decisão. O gatilho imediato foi um alerta de pesquisadores da Amazon que supostamente encontraram uma forma de burlar as salvaguardas do Fable 5. O CEO da Amazon, Andy Jassy, levou essas preocupações diretamente à Casa Branca — e a situação escalou rapidamente.

    Mas especialistas em cibersegurança questionam a fundamentação técnica. Eles assinaram uma carta aberta pedindo que Trump revogue a ordem, argumentando que remover capacidades avançadas de cibersegurança dos defensores de rede nos EUA é, na verdade, perigoso. A própria Anthropic afirmou que os mesmos tipos de jailbreak poderiam ser encontrados em vários outros modelos de IA.

    Relação conturbada com o governo

    Sean O’Kane destacou que a Anthropic “não tem a melhor relação com o governo Trump, de uma forma que a diferencia dos outros grandes laboratórios de IA”. A empresa foi rotulada como risco à cadeia de suprimentos e há um grande processo judicial em andamento entre as partes. Rebecca Bellan observou que há um elemento de retaliação na ação.

    Ironicamente, o embate pode acabar sendo benéfico para a Anthropic. Na crise anterior com o governo, os downloads do Claude dispararam. Há uma percepção pública de que, se o governo está tentando restringir o acesso, o modelo deve ser realmente poderoso. Como Rebecca resumiu: “Todo mundo ama um bad boy.”

    E os concorrentes?

    Para outras empresas de IA, a situação é ambígua. Por um lado, se manterem boas relações com o governo, podem operar sem interferência. Por outro, depender de “não irritar o governo” não é exatamente um ambiente regulatório estável.

    Anthony Ha resumiu o paradoxo central da comunicação da Anthropic: a empresa passa semanas dizendo que a IA está perigosa demais e precisa de regulação — e então lança “o modelo mais insano e poderoso de todos os tempos”. Esse discurso duplo naturalmente atrai escrutínio intenso.

    O episódio é um microcosmo do debate mais amplo sobre IA: as empresas promovem sua tecnologia como revolucionária e transformadora, mas depois se surpreendem quando reguladores e o público reagem com preocupação.

  • In the Weights: ex-OpenAI criam busca de vaidade que mede o quanto a IA te conhece

    In the Weights: ex-OpenAI criam busca de vaidade que mede o quanto a IA te conhece

    Dois ex-funcionários da OpenAI acabam de lançar uma ferramenta que pode se tornar a nova obsessão do mundo tech: o In the Weights, um site que mede o quanto você é “lembrado” pelos modelos de inteligência artificial.

    Criado por Thomas Dimson e Joey Flynn — que chegaram à OpenAI quando a startup de design Global Illumination foi adquirida — o site consulta diversos modelos de IA (incluindo Grok, Gemini, múltiplas versões do GPT, Claude e Llama) com perguntas do tipo “Quem é [nome]?” e atribui uma pontuação de “força” baseada nas respostas.

    Como funciona

    O In the Weights envia o nome da pessoa para cada modelo, coleta até 10 resultados com descrições curtas e níveis de confiança, e então agrupa respostas similares para gerar uma pontuação consolidada. O slogan do site não economiza na ambição:

    “Estar nos pesos significa que sua existência foi considerada importante no processo de criação de inteligência artificial sobre-humana.”

    Resultados surpreendentes

    Os criadores relataram que a recepção tem sido “insana”. Dimson contou ao TechCrunch que achava que seria uma “curiosidade moderada”, mas o site parece ter tocado em um nervo: “as pessoas querem saber se vão viver para sempre na superinteligência — e o fator comparação também não atrapalha.”

    Um aspecto curioso: modelos diferentes da mesma família (como versões distintas do GPT) retornam resultados diferentes para a mesma pessoa, revelando vieses e diferenças de treinamento. O GPT-5.4 Mini, por exemplo, classificou um nome como “forma ambígua que pode se referir a múltiplas pessoas com as iniciais A.H.A.”

    Motivação

    Dimson explicou que ele e Flynn queriam “reativar a criatividade” após deixarem a OpenAI. A ideia surgiu da percepção de que buscas de vaidade no Google são o objetivo errado em 2026, já que cada vez mais o tráfego migra para LLMs.

    Os próximos passos incluem investigar por que modelos da mesma série retornam resultados diferentes, quais modelos têm viés para diferentes tipos de pessoas, e quem “deveria ter um artigo na Wikipédia mas não tem.”

    Para os curiosos de plantão: o site está no ar e aceita consultas públicas. Qual será o seu score?

    Fonte: TechCrunch (Anthony Ha)

  • The Atlantic expõe datasets com milhões de músicas usadas para treinar IA

    The Atlantic expõe datasets com milhões de músicas usadas para treinar IA

    The Atlantic acaba de lançar uma ferramenta que expõe uma realidade incômoda para a indústria da inteligência artificial: milhões de músicas protegidas por direitos autorais estão disponíveis gratuitamente em datasets usados para treinar modelos de IA generativa — e agora qualquer pessoa pode pesquisar quais artistas foram usados.

    O repórter Alex Reisner, do The Atlantic, descobriu e tornou públicos quatro datasets de música usados para treinar modelos de IA. Dois desses conjuntos são gigantescos: um com 12 milhões e outro com 9 milhões de faixas. Os outros dois, menores mas ainda expressivos, contêm mais de 100 mil músicas cada.

    Google e Stability AI já confirmaram o uso desses datasets em artigos de pesquisa. Embora alguns conjuntos, como o Free Music Archive, permitam streaming para uso pessoal, o licenciamento para aplicações comerciais é obrigatório — e raramente respeitado.

    Como os dados são acessados

    Reisner explica que três dos quatro datasets são distribuídos como listas de links para músicas no YouTube e Spotify. Desenvolvedores de IA usam ferramentas automatizadas para baixar o áudio real — ferramentas que permitem burlar logins, anúncios e mecanismos de monetização dos criadores. Essas práticas violam os termos de serviço de ambas as plataformas.

    De Lady Gaga a Radiohead

    Os nomes que aparecem nos datasets vão de estrelas pop como Lady Gaga e Fred Again.., a ícones como Radiohead, Aphex Twin, Wu-Tang Clan e Bruce Springsteen, além de artistas experimentais como Hainbach.

    Os leitores podem acessar o site AI Watchdog do The Atlantic e pesquisar pessoalmente quais músicas, livros e outras mídias estão sendo usadas para treinar os modelos de IA ao redor do mundo.

    Por que isso importa

    Esta revelação chega em um momento de crescente tensão entre criadores de conteúdo e empresas de IA. Com processos judiciais em andamento movidos por grandes gravadoras e associações de direitos autorais, a transparência forçada por investigações como a do The Atlantic pressiona ainda mais por regulação e remuneração justa.

    A pergunta que fica: se os próprios datasets de treinamento se baseiam em conteúdo protegido obtido de forma questionável, qual o valor ético da música gerada por IA?

    Fonte: The Verge / The Atlantic (Alex Reisner)

  • Nobel da Química John Jumper deixa o Google DeepMind e vai para a Anthropic

    Nobel da Química John Jumper deixa o Google DeepMind e vai para a Anthropic

    O mundo da inteligência artificial acaba de presenciar uma das movimentações de talentos mais significativas dos últimos anos. John Jumper, que dividiu o Prêmio Nobel de Química de 2024 com Demis Hassabis pelo desenvolvimento do AlphaFold, anunciou nesta sexta-feira (20) que está deixando o Google DeepMind após quase 9 anos para se juntar à rival Anthropic.

    Em uma publicação no X (antigo Twitter), Jumper expressou gratidão a Hassabis e à equipe do DeepMind:

    “Demis Hassabis arriscou de verdade ao me deixar liderar a equipe do AlphaFold apenas seis meses depois que terminei meu PhD, e toda a equipe do GDM me ensinou muito sobre como fazer ciência de verdade.”

    Ele acrescentou que o DeepMind “é um lugar especial” e que continuará animado para saber das descobertas incríveis que eles farão no futuro.

    O cérebro por trás do AlphaFold

    Jumper e Hassabis conquistaram o Nobel de Química em 2024 pelo trabalho revolucionário com o AlphaFold, um modelo de inteligência artificial capaz de prever a estrutura tridimensional de proteínas a partir de suas sequências genéticas. A ferramenta resolveu um desafio de 50 anos na biologia estrutural e acelerou drasticamente pesquisas em áreas como desenvolvimento de medicamentos e compreensão de doenças.

    Segundo a Bloomberg, Jumper também era peça-chave na equipe do Google que desenvolve ferramentas de codificação com IA — produtos que a empresa tem encontrado dificuldades para vender para o setor corporativo.

    Êxodo de talentos no DeepMind

    Jumper não é o único grande nome deixando o Google DeepMind esta semana. Noam Shazeer, cofundador da Character AI, também anunciou sua saída — mas, no caso dele, o destino é a OpenAI.

    As saídas simultâneas de dois pesquisadores de altíssimo calibre levantam questões sobre o momento atual do DeepMind e a capacidade da empresa de reter talentos em um mercado cada vez mais competitivo. A Anthropic, fundada em 2021 por ex-funcionários da OpenAI, tem se posicionado como um dos principais polos de pesquisa em segurança de IA, com foco em desenvolver sistemas confiáveis e alinhados com valores humanos.

    A chegada de um Nobel laureate como Jumper reforça a ambição da Anthropic de competir de igual para igual com OpenAI, Google e Meta na corrida pela inteligência artificial de ponta.

  • Como Tornar Imagens de PDFs Pesquisáveis para RAG Sem Gastar com Todas Elas

    Como Tornar Imagens de PDFs Pesquisáveis para RAG Sem Gastar com Todas Elas

    Este artigo de Kezhan Shi, publicado no Towards Data Science, apresenta uma abordagem inteligente para tornar imagens de PDFs pesquisáveis em sistemas RAG — sem gastar dinheiro lendo todas elas.

    A série “Enterprise Document Intelligence” constrói um sistema RAG empresarial a partir de quatro blocos fundamentais. Neste quinto volume, o foco está em processar imagens de documentos de forma econômica, usando uma cascata ordenada por custo: um filtro barato, uma verificação de tipo, OCR clássico e, por último, um modelo de visão.

    O problema: nem toda imagem vale a pena

    O reflexo natural seria jogar um modelo de visão em cada imagem do PDF e seguir em frente. Mas essa é a abordagem errada. Um documento real está cheio de imagens que ninguém pesquisaria: o logotipo da empresa em cada página, ícones minúsculos, linhas divisórias, marcas d’água. Processar tudo com modelos caros é desperdício de dinheiro e de latência.

    A cascata de custo

    A solução proposta funciona em três etapas, da mais barata para a mais cara:

    1. Filtro gratuito: eliminar o ruído

    Antes de qualquer chamada de modelo, um filtro analisa sinais já disponíveis no dataframe de imagens e algumas estatísticas de pixel:

    • Tamanho mínimo: imagens com poucos pixels ou área muito pequena são ícones ou bullets, não figuras. Removidas.
    • Proporção suspeita: imagens muito longas e finas são linhas ou divisores. Fora.
    • Repetição entre páginas: o mesmo hash de conteúdo aparecendo na maioria das páginas é “chrome” — logotipo, cabeçalho, rodapé. Descartado.

    Em um relatório típico, só essa etapa remove a grande maioria das imagens antes de qualquer modelo rodar. O que sobra são as poucas que realmente carregam significado.

    2. Classificação por tipo

    As imagens que sobrevivem ao filtro não são todas lidas da mesma forma. Uma captura de tela de tabela é texto — OCR clássico resolve. Um gráfico de linhas não é texto — seu significado está nos eixos e na forma visual.

    A classificação usa sinais baratos de pixel: variação, saturação, proporção de fundo branco, densidade de bordas:

    • Painel em branco: dispersão de pixel baixa → pular (sem custo)
    • Imagem de texto: baixa saturação, estrutura de traços, fundo branco → OCR clássico (barato)
    • Imagem visual: saturada, sem margens brancas → modelo de visão (caro)

    O classificador é deliberadamente conservador: na dúvida, manda para o modelo de visão. Um OCR perdido custa uma chamada de visão; um OCR executado em um diagrama retorna labels soltos e lixo.

    3. Ação por tipo

    Tipo de imagem Ação Custo
    Muito pequena / formato estranho / repetida Descartar Zero
    Painel em branco / uniforme Pular Zero
    Imagem de texto (tabela, scan) OCR clássico Baixo
    Imagem visual (gráfico, foto) Modelo de visão Alto

    A escolha de design mais importante

    O artigo destaca dois princípios fundamentais:

    1. Logotipos são pegos pelo filtro de repetição, não pelo classificador: um logotipo pode ter duas cores chapadas ou ser uma marca d’água colorida. Tentar detectar logo por aparência é frágil. Mas um logo é “chrome” porque se repete em todas as páginas — e isso o filtro já captura.

    2. O classificador não tenta ser inteligente demais: classificar gráfico vs. diagrama vs. foto com sinais baratos não é confiável. Então o classificador só desvia imagens para OCR quando tem certeza absoluta de que é texto. Todo o resto vai para o modelo de visão. O viés é assimétrico de propósito.

    Por que isso importa

    Para quem constrói sistemas RAG empresariais, este artigo oferece um roteiro prático para processar documentos PDF sem desperdício. A lógica da cascata — começar pelo método mais barato e só escalar quando necessário — é um padrão que vale para muito além de processamento de documentos.

    O artigo completo, com implementações em Python e exemplos de código, está disponível no Towards Data Science.

  • Reino Unido vai usar IA para verificar idade de requerentes de asilo mesmo sabendo que a tecnologia é falha

    Reino Unido vai usar IA para verificar idade de requerentes de asilo mesmo sabendo que a tecnologia é falha

    A verificação de idade já está por toda parte na internet — de restrições a redes sociais na Austrália a bloqueios de conteúdo adulto em mais da metade dos estados americanos. Mas agora uma das tecnologias centrais por trás dessas checagens está prestes a invadir o mundo offline, com consequências potencialmente devastadoras.

    A partir do próximo ano, o governo britânico planeja usar estimativa facial de idade (FAE, na sigla em inglês) — um sistema de inteligência artificial que escaneia o rosto e sugere quantos anos uma pessoa tem — para determinar a idade de requerentes de asilo que chegam às fronteiras do Reino Unido. Esta é considerada a primeira vez que um sistema do tipo é usado nesse contexto.

    Como funciona (e como falha)

    A tecnologia FAE analisa características faciais e as compara com padrões de envelhecimento em seu banco de dados de treinamento. Na teoria, deveria identificar se uma pessoa é maior ou menor de idade. Na prática, uma investigação conjunta da WIRED e Lighthouse Reports, em colaboração com o jornal The Independent, revelou que a realidade é bem diferente.

    Os repórteres obtiveram um relatório interno do governo britânico que detalha os testes das tecnologias FAE. O documento mostra que os sistemas confundem crianças com adultos com frequência e apresentam sérios vieses — especialmente contra os grupos que mais solicitam asilo ao Reino Unido.

    O que está em jogo

    Muitos requerentes de asilo chegam ao Reino Unido sem documentos que comprovem a idade. Se um menor de idade for incorretamente classificado como adulto por esse sistema de IA, as consequências são graves:

    • Perda de proteções legais específicas para crianças
    • Encarceramento em centros de detenção para adultos
    • Processos de asilo mais rigorosos e acelerados
    • Risco de deportação sem as salvaguardas previstas para menores

    Vieses documentados

    O relatório interno indica que a tecnologia tem desempenho particularmente ruim com pessoas de determinadas etnias — justamente os grupos que mais buscam asilo no Reino Unido. Isso ecoa problemas já conhecidos em sistemas de reconhecimento facial, que historicamente apresentam taxas de erro mais altas para pessoas não-brancas.

    A decisão do governo britânico de seguir adiante com a implementação, mesmo tendo acesso a esses dados, levanta questões sobre transparência, responsabilidade e os limites éticos da automação de decisões que podem mudar — ou destruir — vidas.

    Um alerta global

    O caso do Reino Unido serve como alerta para outros países que consideram adotar tecnologias semelhantes. A União Europeia, por exemplo, debate atualmente os limites do uso de reconhecimento facial em espaços públicos como parte do AI Act.

    Enquanto isso, a indústria de verificação de idade online continua crescendo aceleradamente, e a linha entre o mundo digital e o físico fica cada vez mais tênue. A pergunta que fica é: quantos erros um algoritmo pode cometer antes que decidamos que a vida de uma pessoa vale mais do que a conveniência da automação?


    Fonte: Ars Technica / WIRED

  • Siri AI na Prática: Um Assistente Inteligente e Prestativo

    Siri AI na Prática: Um Assistente Inteligente e Prestativo

    O novo Siri AI chegou — e pela primeira vez em anos, a Apple parece estar cumprindo o que prometeu. O WIRED testou a nova versão do assistente de voz, que faz parte do iOS 27 e é alimentado pelo Google Gemini, em um dia inteiro como turista em San Francisco. O resultado: um assistente conversacional, onipresente e genuinamente útil.

    Um Siri completamente diferente

    Esta versão do Siri — conversacional, onipresente e realmente útil — estava atrasada há anos. Na WWDC 2026, a Apple finalmente revelou como o assistente ganharia vida como parte do iOS 27. Agora, o Siri é altamente personalizado com base nas suas mensagens, fotos e e-mails. Ele também entende melhor perguntas e interage com aplicativos. Basicamente, não tem nada a ver com o Siri de antigamente.

    A evolução é marcante até mesmo nesta versão beta. Enquanto antes o Siri era uma experiência limitada e isolada, agora ele está integrado à barra de pesquisa do iPhone e aparece quando você desliza para baixo no meio da tela. Você pode conversar naturalmente ou digitar perguntas de acompanhamento — e todo o histórico fica salvo em um app dedicado.

    Google Gemini é o cérebro por trás do novo Siri

    A parceria da Apple com o Google é o motor principal desta reformulação. O Google Gemini agora alimenta o modelo subjacente do assistente, chamado de Apple Intelligence. O resultado é um Siri mais sintonizado com o que você está procurando, em vez de apenas sugerir links de sites.

    Quando o repórter do WIRED perguntou genericamente “O que devo fazer hoje?”, o Siri vasculhou as mensagens recentes e destacou planos que ele havia começado a discutir com amigos mas nunca finalizou — uma capacidade de personalização que nenhum outro assistente oferece atualmente.

    Privacidade como prioridade

    Na WWDC 2026, a Apple repetidamente enfatizou sua abordagem de preservação de privacidade para o Siri AI. Como parte do Private Cloud Compute, a empresa afirma que não armazena dados dos usuários e só acessa informações quando você faz uma pergunta ao Siri. Usuários que não quiserem participar podem desativar o Siri AI nas configurações.

    Teste de campo: turista por um dia em San Francisco

    O repórter testou o Siri AI em um iPhone 16 Pro Max percorrendo pontos turísticos de San Francisco. Logo na primeira parada, na Golden Gate Bridge, ele abriu o app de câmera e tirou uma foto rápida da trilha — sem fazer nenhuma pergunta. O Siri respondeu automaticamente com um breve histórico do Cypress Tree Tunnel, reconhecendo os ciprestes de Monterey na imagem.

    Ao pedir recomendações de restaurantes para brunch, o Siri mostrou duas opções com avaliações online e direções no mapa para cada uma. Ele destacou um local como melhor para brunch tradicional com atmosfera aconchegante e outro como experiência mais retrô.

    Um dos momentos mais impressionantes: o repórter pediu ao Siri para encontrar fotos da última vez que foi à Costa Rica. O assistente localizou tudo de dois anos atrás e exibiu as imagens no app Siri.

    Automação e integração profunda

    O Siri AI também mostrou habilidades de automação. Quando o repórter pediu para tirar uma selfie, o assistente abriu o app de câmera, fez uma contagem regressiva e capturou a foto com a câmera frontal. Depois, enviou a imagem por mensagem para um contato específico — tudo por comando de voz.

    Mas ainda há arestas a aparar nesta versão beta. Em uma tentativa, o Siri incluiu “com uma” antes do emoji de caveira na mensagem, e em outra usou um emoji de escola. Também sugeriu enviar a mensagem para um contato chamado Adam — que o repórter garantiu não existir.

    Compatibilidade de dispositivos

    Nem todos os iPhones terão acesso completo ao Siri AI:

    • Recursos completos: apenas iPhone Air, iPhone 17 Pro e iPhone 17 Max
    • Compatível com limitações: todos os modelos iPhone 16 e iPhone 17
    • Compatível (mínimo): iPhone 15 Pro e Pro Max
    • Sem suporte: modelos anteriores

    O assistente também estará disponível em iPads, MacBooks, Apple Watch e até no Vision Pro.

    Um assistente utilitário, não um amigo sintético

    O que mais se destaca no novo Siri é seu tom utilitário e direto. Ele não tenta ser seu amigo sintético nem dizer o que você quer ouvir. É um assistente direto e objetivo, feliz em ajudar mas sem enrolação.

    Ao contrário do app do ChatGPT ou Claude, o Siri AI está integrado diretamente no iPhone, pronto para ir além de responder perguntas e começar a automatizar mais aspectos da experiência do usuário.

    Resta saber se os usuários de iPhone vão quebrar seus padrões atuais de uso e realmente reimaginar seus hábitos diários com o Siri AI quando ele finalmente chegar aos seus bolsos ainda este ano.


    Fonte: WIRED — Siri AI Hands On: A Smart, Helpful Assistant

  • Yandex Lança YaFF: Formato Wire Zero-Copy para Protobuf com Leitura 22× Mais Rápida

    Yandex Lança YaFF: Formato Wire Zero-Copy para Protobuf com Leitura 22× Mais Rápida

    Yandex YaFF

    A Yandex acaba de abrir o código do YaFF (Yet another Flat Format), um formato wire zero-copy para o ecossistema Protobuf. Com licença Apache 2.0 e implementação inicial em C++ (v0.1.0), o YaFF promete leituras até 22× mais rápidas que o Protobuf tradicional e 3,8× mais rápidas que o FlatBuffers.

    O problema que o YaFF resolve

    Em backends de alta carga, o parsing de Protobuf pode consumir dois dígitos percentuais de CPU — o que, em escala, se traduz em milhares de núcleos físicos. A alternativa zero-copy mais comum é o FlatBuffers (também do Google), mas ele não é um substituto direto para Protobuf: exige manutenção de um schema separado e uma camada de conversão adicional.

    O YaFF ataca exatamente essa lacuna: leituras zero-copy preservando a semântica do Protobuf. O arquivo .proto continua sendo a fonte única da verdade — o formato muda apenas como os dados são organizados na memória.

    Como funcionam os layouts

    O YaFF oferece quatro layouts que determinam como a mensagem é armazenada no buffer:

    • Fixed: struct empacotada simples, sem header e schema congelado. Ideal para primitivas pequenas inline.
    • Flat: adiciona um header de 2 bytes e suporta evolução de schema. Melhor para dados densos em caminhos quentes.
    • Sparse: acessa campos via tabela de metadados (6 bytes de overhead), adequado para schemas esparsos com evolução livre.
    • Dynamic (padrão): seleciona Flat ou Sparse em tempo de execução, usando Flat enquanto o schema permitir.

    Benchmarks impressionantes

    A Yandex publicou benchmarks reproduzíveis em um AMD EPYC 7713 com Clang 20.1.8. Os números mostram nanossegundos medianos por leitura:

    Formato Tempo de leitura (ns) Lentidão vs struct C++
    Struct C++ pura 8,14 1,0×
    YaFF Flat Layout 9,79 1,2×
    YaFF Sparse Layout 21,23 2,6×
    FlatBuffers 37,30 4,6×
    Protobuf 219,35 26,9×

    O YaFF Flat Layout fica a apenas 1,2× da struct C++ pura — um feito notável para um formato que mantém compatibilidade com Protobuf.

    Caso de uso real: economia de 10-20% de CPU

    O YaFF já roda no sistema de recomendação de anúncios da Yandex, onde reporta economia de 10 a 20% de CPU em escala de produção. A adoção é incremental: basta introduzi-lo em um caminho quente, mantendo a conversão bidirecional com Protobuf nas bordas.

    O código em ação

    #include "feed.pb.h"   // gerado pelo protoc
    #include "feed.yaff.h"  // gerado pelo yaff_generate()
    
    // 1. Serializa uma mensagem Protobuf existente para buffer YaFF
    feed::FeedResponse proto = LoadFeedResponse();
    const auto buffer = yaff::Serialize<protoyaff::feed::FeedResponse>(proto);
    
    // 2. Lê campos diretamente do buffer — sem parsing
    const auto& response = yaff::ReadMessage<protoyaff::feed::FeedResponse>(buffer.Data());
    for (const auto& item : response.items()) {
        std::string_view title = item.title();
        std::string_view author = item.author().name();
    }
    
    // 3. Converte de volta para Protobuf quando necessário
    feed::FeedResponse restored;
    response.ParseTo(restored);
    

    Disponibilidade

    O YaFF está disponível no GitHub com documentação completa em yaff.tech. A integração é feita via CMake (find_package) ou Conan. A geração de código utiliza protobuf_generate() seguido de yaff_generate(), com os tipos gerados no namespace protoyaff::<package>.


    Fonte: MarkTechPost | Repositório: GitHub

  • Controles de Exportação de IA: A História Mostra Por Que Restringir o Mythos Não Vai Funcionar

    Controles de Exportação de IA: A História Mostra Por Que Restringir o Mythos Não Vai Funcionar

    Capa: Controles de exportação de IA

    Na semana passada, citando preocupações não especificadas de segurança nacional, a Casa Branca ordenou que a Anthropic restringisse a exportação de seus poderosos modelos de IA — Fable e Mythos — para qualquer pessoa fora dos Estados Unidos, incluindo estrangeiros dentro do país. Pouco depois, a gigante de IA desligou abruptamente ambos os modelos, que estão indisponíveis para qualquer pessoa há uma semana.

    Este episódio é o primeiro teste real sobre se o governo dos EUA pode usar controles de exportação para conter a IA de fronteira da mesma forma que tentou — com resultados muito irregulares — conter a criptografia e o spyware antes dela. E, por mais dramático que pareça, o desfecho desse impasse pode moldar não apenas o acesso da Anthropic a mercados estrangeiros, mas também o manual que outros laboratórios de IA terão que seguir.

    O que desencadeou a proibição?

    Desde que a Anthropic lançou o Mythos em abril, a empresa o comercializou como uma espécie de “máquina cibernética do apocalipse” que poderia causar estragos na internet se liberada amplamente. Por isso, antes da proibição, apenas cerca de 150 empresas e organizações governamentais tinham acesso ao modelo. O objetivo era ajudar defensores a proteger seus sistemas antes que agentes mal-intencionados alcançassem capacidades similares.

    Dois eventos subsequentes teriam desencadeado a proibição:

    1. A Anthropic deu a uma operadora de telecom sul-coreana acesso ao Mythos através de seu programa limitado de parceiros, e autoridades americanas se alarmaram ao identificar a empresa como suspeita de ter laços com a China. (A empresa, amplamente reportada como SK Telecom, negou qualquer conexão com a China.)

    2. O CEO da Amazon, Andy Jassy, também teria alertado o governo após pesquisadores da Amazon encontrarem uma forma de contornar as salvaguardas do Fable 5. A Anthropic contesta o rótulo de “jailbreak”, chamando-o de um problema restrito e já corrigido, não uma derrota completa das medidas de segurança do modelo.

    O resultado: o Departamento de Comércio emitiu uma diretiva de controle de exportação, e a Anthropic teve que restringir o acesso a seus produtos em cerca de 90 minutos após ser notificada.

    A história se repete

    Nada disso é novo. Governos vêm tentando usar controles de exportação para limitar a proliferação do que consideram tecnologia cibernética perigosa há décadas, com resultados no máximo medianos.

    As “Guerras da Criptografia” (anos 90)

    O governo dos EUA protagonizou talvez o fracasso mais espetacular dessa abordagem nos anos 90. Na época, cientistas da computação desenvolviam tecnologias de criptografia como o PGP (Pretty Good Privacy), que podia criptografar dados tornando-os virtualmente impossíveis de decifrar.

    O governo via o PGP como uma arma perigosa e abriu uma investigação criminal contra seu criador, Phil Zimmermann, por suposta violação de controles de exportação de armas. Zimmermann contra-atacou publicando o código-fonte do PGP como um livro impresso, iniciando o que hoje se conhece como as “Guerras da Criptografia”. A investigação foi encerrada, abrindo caminho para os algoritmos de criptografia usados hoje por bilhões de pessoas no Signal e WhatsApp.

    Spyware e o Acordo de Wassenaar (anos 2010)

    No início dos anos 2010, pesquisadores descobriram spyware ocidental sendo usado contra dissidentes no Oriente Médio. Governos expandiram o Acordo de Wassenaar para classificar software de vigilância como “dual-use”, forçando fabricantes de spyware a obter licenças de exportação.

    Mas o acordo sempre teve duas fraquezas inerentes: vários países não aderem a ele — incluindo Israel, que abriga alguns dos fabricantes de spyware mais ativos do mundo — e o acordo depende de cada país aplicá-lo a empresas dentro de suas fronteiras conforme seu próprio critério.

    A Itália, por exemplo, permitiu que um dos principais fabricantes de spyware do país continuasse vendendo para o exterior mesmo após múltiplos escândalos. E vários fabricantes simplesmente mudaram suas operações para países com controles de exportação frouxos.

    O que esperar do caso Mythos

    No momento em que escrevo, o impasse entre a Anthropic e o governo Trump continua. Há uma chance razoável de que o governo recue e suspenda a restrição no interesse de manter a competitividade dos EUA na corrida da IA — ou que aprove o acesso de parceiros confiáveis.

    Mas, dadas as experiências passadas com tentativas de controlar o alcance de software, controles de exportação mandatados pelo governo provavelmente não são a abordagem certa para impedir que atores mal-intencionados explorem a IA. A história mostra que o software sempre encontra um caminho.

    E, talvez mais importante, a comunidade internacional ainda não tem nenhuma estrutura viável para controles globais de exportação de IA. Até que isso mude, assistiremos a mais episódios como este — com resultados igualmente incertos.

  • NVIDIA Apresenta SpatialClaw: Agente de IA Que Usa Código Como Interface para Raciocínio Espacial

    NVIDIA Apresenta SpatialClaw: Agente de IA Que Usa Código Como Interface para Raciocínio Espacial

    Capa: NVIDIA SpatialClaw

    A NVIDIA Research acaba de lançar o SpatialClaw, um framework “training-free” (sem necessidade de treinamento) para raciocínio espacial. O sistema ataca uma fraqueza persistente nos modelos de visão-linguagem (VLMs): a dificuldade em julgar onde objetos estão posicionados, como se relacionam e como se movem em 3D.

    A grande sacada do SpatialClaw é que ele não retreina o modelo. Em vez disso, muda a interface de ação que o agente usa para invocar ferramentas de percepção. A equipe de pesquisa argumenta que a interface é o gargalo, e a solução é tratar código como a interface de ação.

    Os números impressionam: em 20 benchmarks, o SpatialClaw atinge 59,9% de precisão média, superando o agente espacial SpaceTools em 11,2 pontos percentuais.

    O que é o SpatialClaw

    O SpatialClaw é um loop de agente envolvendo um kernel Python com estado. O kernel é pré-carregado com frames de entrada e um conjunto de primitivas. As ferramentas de percepção são funções Python comuns — suas saídas (máscaras, mapas de profundidade, geometria de câmera e trajetórias) são variáveis Python normais.

    O kernel expõe seis pontos de entrada públicos:

    • InputImages: armazena os frames amostrados
    • Metadata: contém frame rate, duração e índices dos frames
    • tools: expõe primitivas de percepção e geometria
    • show(): incorpora uma imagem no próximo contexto do agente
    • vlm: despacha consultas para uma sessão VLM separada
    • ReturnAnswer(): submete a resposta final

    Duas ferramentas de percepção são centrais. A tools.Reconstruct utiliza Depth Anything 3 e retorna profundidade por frame, intrínsecos e extrínsecos da câmera, e mapas de pontos densos. A tools.SAM3 utiliza SAM 3 e produz máscaras de imagem ou vídeo a partir de prompts de texto, ponto ou caixa delimitadora.

    O framework é totalmente training-free — o mesmo prompt de sistema, conjunto de ferramentas e hiperparâmetros funcionam em todos os benchmarks e backbones.

    Por que a Interface de Ação Importa

    A equipe estudou três interfaces de ação na mesma pergunta: medir a distância mais próxima entre um aquecedor e uma porta.

    • Single-pass code: escreve um programa completo e executa uma vez. Assume uma estratégia antes de ver qualquer máscara ou mapa de profundidade. Um erro de suposição se propaga direto para a resposta.

    • Structured tool-call: invoca ferramentas nomeadas via schema JSON fixo. Não consegue combinar livremente outputs com NumPy ou SciPy para cálculos em tempo de teste. O resultado é incorreto.

    • SpatialClaw: compõe ferramentas em código, inspeciona resultados, e então revisa. Primeiro calcula uma distância de centroide, depois percebe que o centroide usa mediana. O agente troca para scipy.spatial.KDTree e encontra o ponto mais próximo real: 0,9439 m contra um ground truth de 0,9 m.

    Benchmark e Resultados

    O SpatialClaw foi testado em 20 benchmarks distribuídos em cinco categorias: single-image, multi-view, general, video/4D, e compreensão geral de vídeo. Ele melhora sobre o baseline sem ferramentas em todos os seis backbones testados — variando de 26B a 397B parâmetros nas famílias Qwen3.5/3.6 e Gemma4.

    Comparação controlada isolando a interface (backbone Gemma4-31B):

    Interface de Ação Média (20 bench.) Δ vs no-tool
    No-tool baseline 53,4 —
    Single-pass code 55,2 +1,8
    Structured tool-call 56,7 +3,3
    SpatialClaw (code as action) 59,9 +6,5

    Os ganhos mais expressivos estão em tarefas dinâmicas. No Gemma4-31B, o DSI-Bench subiu +17,6 pontos e o MindCube subiu +15,3 pontos — categorias que exigem computação geométrica encadeada entre frames e pontos de vista.

    Por que Isso Importa

    O SpatialClaw mostra que a interface de ação é tão importante quanto o modelo em si. Ao tratar código como a linguagem de ação do agente, a NVIDIA conseguiu ganhos substanciais sem nenhum fine-tuning. Isso abre caminho para agentes de IA mais capazes em tarefas que exigem raciocínio espacial — de robótica a navegação autônoma e AR/VR.

    O código e o paper estão disponíveis no site oficial do projeto.

  • Ferramentas Server-Side para Agentes de IA: Arquitetura, Latência e Quando Migrar

    Ferramentas Server-Side para Agentes de IA: Arquitetura, Latência e Quando Migrar

    Ferramentas Server-Side para Agentes de IA: Arquitetura, Latência e Quando Migrar

    Todo agente de IA eventualmente encontra o mesmo problema estrutural: o modelo consegue raciocinar, mas não consegue agir sem ferramentas. Alguém precisa executar essas ferramentas — buscar resultados de pesquisa, consultar o banco de dados, chamar a API — e esse “alguém” geralmente é o seu código.

    A maioria das equipes constrói isso da mesma forma: o modelo retorna uma chamada de ferramenta (tool call), seu código a captura, executa a ferramenta, formata o resultado e envia de volta. Repita até que o modelo tenha o que precisa para responder. O loop funciona, mas significa que sua equipe mantém toda a camada de ferramentas: conexões, credenciais, lógica de retry, tratamento de erros e observabilidade — nada disso é o seu produto.

    Existe uma alternativa: mover a execução das ferramentas para dentro da camada de inferência, para que as ferramentas sejam executadas como parte da chamada da API, e não entre chamadas.

    O que são Server-Side Tools?

    Server-Side Tools (Ferramentas do Lado do Servidor) permitem que você adicione execução de ferramentas diretamente nas requisições de inferência. Você continua usando suas chaves de acesso ao modelo, mas o próprio servidor gerencia a execução das ferramentas, sem que seu código precise orquestrar cada passo do loop.

    Client-side vs Server-side

    Client-side (lado do cliente): melhor para desenvolvimento. Você tem visibilidade total, debug local e controle sobre cada chamada. Ideal para prototipagem e iteração rápida.

    Server-side (lado do servidor): melhor para produção. Remove a sobrecarga de infraestrutura quando você está pronto para enviar para produção. O servidor gerencia o loop de ferramentas, retry e formatação.

    Latência e cold starts

    Um ponto importante: cold starts ainda são responsabilidade sua. Se o seu servidor MCP (Model Context Protocol) “esfriar” por inatividade, o tempo de inicialização aparece no tempo de resposta da sua API. A recomendação é manter os servidores MCP aquecidos para produção.

    Falha de ferramenta ≠ falha do agente

    É importante separar as preocupações: uma ferramenta que retorna timeout é um problema de infraestrutura. O modelo respondendo mal mesmo com ferramentas funcionando é um problema de prompt. Acompanhe essas métricas separadamente.

    Quando usar Tool Search

    Se você tem mais de 20 a 30 definições de ferramentas, o Tool Search (busca preguiçosa de ferramentas) reduz o custo de tokens de entrada em cada turno. Abaixo desse número, carregar todas as ferramentas a cada requisição funciona bem.

    MCP e rede

    Para uso server-side, os servidores MCP precisam estar publicamente acessíveis. Se suas ferramentas vivem em uma rede privada, use MCP client-side como alternativa.

    Observabilidade desde o início

    Configure tracing antes de precisar. Quando algo quebrar em produção, você vai querer saber exatamente qual chamada de ferramenta causou o problema. A API de Agent Tracing permite rastrear cada passo do agente.

    Conclusão

    A escolha entre client-side e server-side tools depende do estágio do seu produto. Em desenvolvimento, o client-side oferece flexibilidade. Em produção, o server-side reduz complexidade operacional. O importante é entender os trade-offs de latência, alcance de rede e observabilidade antes de decidir.