Tag: open-source

Nous Research LanÃ§a Modo Blank Slate no Hermes Agent: Agente MÃnimo com Controle Total

A Nous Research acaba de lanÃ§ar um novo modo de configuraÃ§Ã£o para o Hermes Agent, seu framework open-source de agentes de IA auto-melhorÃ¡veis. Chamado de Blank Slate (“tela em branco”), o modo inverte a lÃ³gica tradicional de onboarding: em vez de um agente completamente carregado com todas as funcionalidades ativas, vocÃª comeÃ§a com quase nada â€” e habilita apenas o que realmente precisa.

O que Ã© o Blank Slate

Em uma instalaÃ§Ã£o limpa, o comando hermes setup agora oferece trÃªs modos de configuraÃ§Ã£o:

Quick Setup: usa o portal da Nous com login OAuth gratuito, sem necessidade de chaves API. Ã‰ o caminho mais rÃ¡pido e recomendado para iniciantes.
Full Setup: vocÃª percorre cada provedor, ferramenta e opÃ§Ã£o manualmente, fornecendo suas prÃ³prias chaves. Controle total.
Blank Slate (novo): o caminho mÃnimo. Apenas trÃªs componentes vÃªm ativados por padrÃ£o: provedor e modelo, File Operations (operaÃ§Ãµes de arquivo) e Terminal. Todo o resto fica desabilitado.

Tudo que comeÃ§a desligado no Blank Slate: web, navegador, execuÃ§Ã£o de cÃ³digo, visÃ£o computacional, memÃ³ria, delegaÃ§Ã£o, cron jobs, skills, plugins e servidores MCP. CompressÃ£o, checkpoints, roteamento inteligente e captura de memÃ³ria tambÃ©m ficam fora.

Por que o formato de configuraÃ§Ã£o importa

O Blank Slate nÃ£o apenas alterna funcionalidades em tempo de execuÃ§Ã£o â€” ele grava a decisÃ£o em disco. O modo escreve uma lista explÃcita em platform_toolsets.cli e outra em agent.disabled_toolsets. Juntas, essas duas chaves fixam a superfÃcie do agente de forma permanente.

O efeito Ã© durÃ¡vel: nada que vocÃª deixou de fora serÃ¡ carregado depois, nem mesmo apÃ³s um hermes update. Uma atualizaÃ§Ã£o nÃ£o pode reativar silenciosamente um toolset que vocÃª desligou.

A separaÃ§Ã£o de responsabilidades tambÃ©m Ã© clara: tokens e segredos ficam em ~/.hermes/.env, enquanto configuraÃ§Ãµes nÃ£o sensÃveis vÃ£o para ~/.hermes/config.yaml. O CLI roteia cada valor para o arquivo correto.

Casos de uso ideais

TrÃªs cenÃ¡rios se beneficiam do Blank Slate:

Ambientes de seguranÃ§a restrita: quando vocÃª quer um agente sem acesso Ã web e sem navegador. O Blank Slate entrega apenas arquivos e terminal. Nada alcanÃ§a a rede a menos que vocÃª adicione explicitamente.
Times com configuraÃ§Ã£o reprodutÃvel: vocÃª fixa um toolset conhecido em todas as mÃ¡quinas da equipe. AtualizaÃ§Ãµes nÃ£o introduzem surpresas â€” a superfÃcie Ã© idÃªntica em qualquer lugar.
Desenvolvedores que constroem do zero: se vocÃª quer entender exatamente o que cada componente faz antes de ativÃ¡-lo, o Blank Slate Ã© o ponto de partida ideal. Habilite skills, plugins e MCP Ã medida que cada necessidade surgir.

ComparaÃ§Ã£o entre os modos

Modo	PadrÃ£o ativo	AutenticaÃ§Ã£o	Ideal para
Quick Setup (Portal Nous)	Modelo + Tool Gateway	OAuth gratuito, sem API keys	Primeira execuÃ§Ã£o mais rÃ¡pida
Full Setup	Todas as ferramentas (escolha manual)	Suas prÃ³prias chaves	Controle total e personalizado
Blank Slate	Provider, File Ops, Terminal	Apenas auth do provider	SeguranÃ§a, minimalismo, reprodutibilidade

Disponibilidade

O Blank Slate estÃ¡ disponÃvel agora no Hermes Agent. Para usar, execute hermes setup em uma instalaÃ§Ã£o limpa e selecione a terceira opÃ§Ã£o. Se vocÃª jÃ¡ tem um agente rodando com Quick ou Full Setup, pode reconfigurar com hermes setup agent para ajustar toolkits individuais.

A Nous Research continua expandindo o Hermes Agent como uma alternativa open-source robusta no ecossistema de agentes de IA â€” agora com ainda mais controle nas mÃ£os do desenvolvedor.

20 de junho de 2026

Yandex LanÃ§a YaFF: Formato Wire Zero-Copy para Protobuf com Leitura 22Ã— Mais RÃ¡pida

A Yandex acaba de abrir o cÃ³digo do YaFF (Yet another Flat Format), um formato wire zero-copy para o ecossistema Protobuf. Com licenÃ§a Apache 2.0 e implementaÃ§Ã£o inicial em C++ (v0.1.0), o YaFF promete leituras atÃ© 22Ã— mais rÃ¡pidas que o Protobuf tradicional e 3,8Ã— mais rÃ¡pidas que o FlatBuffers.

O problema que o YaFF resolve

Em backends de alta carga, o parsing de Protobuf pode consumir dois dÃgitos percentuais de CPU â€” o que, em escala, se traduz em milhares de nÃºcleos fÃsicos. A alternativa zero-copy mais comum Ã© o FlatBuffers (tambÃ©m do Google), mas ele nÃ£o Ã© um substituto direto para Protobuf: exige manutenÃ§Ã£o de um schema separado e uma camada de conversÃ£o adicional.

O YaFF ataca exatamente essa lacuna: leituras zero-copy preservando a semÃ¢ntica do Protobuf. O arquivo .proto continua sendo a fonte Ãºnica da verdade â€” o formato muda apenas como os dados sÃ£o organizados na memÃ³ria.

Como funcionam os layouts

O YaFF oferece quatro layouts que determinam como a mensagem Ã© armazenada no buffer:

Fixed: struct empacotada simples, sem header e schema congelado. Ideal para primitivas pequenas inline.
Flat: adiciona um header de 2 bytes e suporta evoluÃ§Ã£o de schema. Melhor para dados densos em caminhos quentes.
Sparse: acessa campos via tabela de metadados (6 bytes de overhead), adequado para schemas esparsos com evoluÃ§Ã£o livre.
Dynamic (padrÃ£o): seleciona Flat ou Sparse em tempo de execuÃ§Ã£o, usando Flat enquanto o schema permitir.

Benchmarks impressionantes

A Yandex publicou benchmarks reproduzÃveis em um AMD EPYC 7713 com Clang 20.1.8. Os nÃºmeros mostram nanossegundos medianos por leitura:

Formato	Tempo de leitura (ns)	LentidÃ£o vs struct C++
Struct C++ pura	8,14	1,0Ã—
YaFF Flat Layout	9,79	1,2Ã—
YaFF Sparse Layout	21,23	2,6Ã—
FlatBuffers	37,30	4,6Ã—
Protobuf	219,35	26,9Ã—

O YaFF Flat Layout fica a apenas 1,2Ã— da struct C++ pura â€” um feito notÃ¡vel para um formato que mantÃ©m compatibilidade com Protobuf.

Caso de uso real: economia de 10-20% de CPU

O YaFF jÃ¡ roda no sistema de recomendaÃ§Ã£o de anÃºncios da Yandex, onde reporta economia de 10 a 20% de CPU em escala de produÃ§Ã£o. A adoÃ§Ã£o Ã© incremental: basta introduzi-lo em um caminho quente, mantendo a conversÃ£o bidirecional com Protobuf nas bordas.

O cÃ³digo em aÃ§Ã£o

#include "feed.pb.h"   // gerado pelo protoc
#include "feed.yaff.h"  // gerado pelo yaff_generate()

// 1. Serializa uma mensagem Protobuf existente para buffer YaFF
feed::FeedResponse proto = LoadFeedResponse();
const auto buffer = yaff::Serialize<protoyaff::feed::FeedResponse>(proto);

// 2. LÃª campos diretamente do buffer â€” sem parsing
const auto& response = yaff::ReadMessage<protoyaff::feed::FeedResponse>(buffer.Data());
for (const auto& item : response.items()) {
    std::string_view title = item.title();
    std::string_view author = item.author().name();
}

// 3. Converte de volta para Protobuf quando necessÃ¡rio
feed::FeedResponse restored;
response.ParseTo(restored);

Disponibilidade

O YaFF estÃ¡ disponÃvel no GitHub com documentaÃ§Ã£o completa em yaff.tech. A integraÃ§Ã£o Ã© feita via CMake (find_package) ou Conan. A geraÃ§Ã£o de cÃ³digo utiliza protobuf_generate() seguido de yaff_generate(), com os tipos gerados no namespace protoyaff::<package>.

Fonte: MarkTechPost | RepositÃ³rio: GitHub

20 de junho de 2026

NVIDIA Apresenta SpatialClaw: Agente de IA Que Usa CÃ³digo Como Interface para RaciocÃnio Espacial

A NVIDIA Research acaba de lanÃ§ar o SpatialClaw, um framework “training-free” (sem necessidade de treinamento) para raciocÃnio espacial. O sistema ataca uma fraqueza persistente nos modelos de visÃ£o-linguagem (VLMs): a dificuldade em julgar onde objetos estÃ£o posicionados, como se relacionam e como se movem em 3D.

A grande sacada do SpatialClaw Ã© que ele nÃ£o retreina o modelo. Em vez disso, muda a interface de aÃ§Ã£o que o agente usa para invocar ferramentas de percepÃ§Ã£o. A equipe de pesquisa argumenta que a interface Ã© o gargalo, e a soluÃ§Ã£o Ã© tratar cÃ³digo como a interface de aÃ§Ã£o.

Os nÃºmeros impressionam: em 20 benchmarks, o SpatialClaw atinge 59,9% de precisÃ£o mÃ©dia, superando o agente espacial SpaceTools em 11,2 pontos percentuais.

O que Ã© o SpatialClaw

O SpatialClaw Ã© um loop de agente envolvendo um kernel Python com estado. O kernel Ã© prÃ©-carregado com frames de entrada e um conjunto de primitivas. As ferramentas de percepÃ§Ã£o sÃ£o funÃ§Ãµes Python comuns â€” suas saÃdas (mÃ¡scaras, mapas de profundidade, geometria de cÃ¢mera e trajetÃ³rias) sÃ£o variÃ¡veis Python normais.

O kernel expÃµe seis pontos de entrada pÃºblicos:

InputImages: armazena os frames amostrados
Metadata: contÃ©m frame rate, duraÃ§Ã£o e Ãndices dos frames
tools: expÃµe primitivas de percepÃ§Ã£o e geometria
show(): incorpora uma imagem no prÃ³ximo contexto do agente
vlm: despacha consultas para uma sessÃ£o VLM separada
ReturnAnswer(): submete a resposta final

Duas ferramentas de percepÃ§Ã£o sÃ£o centrais. A tools.Reconstruct utiliza Depth Anything 3 e retorna profundidade por frame, intrÃnsecos e extrÃnsecos da cÃ¢mera, e mapas de pontos densos. A tools.SAM3 utiliza SAM 3 e produz mÃ¡scaras de imagem ou vÃdeo a partir de prompts de texto, ponto ou caixa delimitadora.

O framework Ã© totalmente training-free â€” o mesmo prompt de sistema, conjunto de ferramentas e hiperparÃ¢metros funcionam em todos os benchmarks e backbones.

Por que a Interface de AÃ§Ã£o Importa

A equipe estudou trÃªs interfaces de aÃ§Ã£o na mesma pergunta: medir a distÃ¢ncia mais prÃ³xima entre um aquecedor e uma porta.

Single-pass code: escreve um programa completo e executa uma vez. Assume uma estratÃ©gia antes de ver qualquer mÃ¡scara ou mapa de profundidade. Um erro de suposiÃ§Ã£o se propaga direto para a resposta.
Structured tool-call: invoca ferramentas nomeadas via schema JSON fixo. NÃ£o consegue combinar livremente outputs com NumPy ou SciPy para cÃ¡lculos em tempo de teste. O resultado Ã© incorreto.
SpatialClaw: compÃµe ferramentas em cÃ³digo, inspeciona resultados, e entÃ£o revisa. Primeiro calcula uma distÃ¢ncia de centroide, depois percebe que o centroide usa mediana. O agente troca para scipy.spatial.KDTree e encontra o ponto mais prÃ³ximo real: 0,9439 m contra um ground truth de 0,9 m.

Benchmark e Resultados

O SpatialClaw foi testado em 20 benchmarks distribuÃdos em cinco categorias: single-image, multi-view, general, video/4D, e compreensÃ£o geral de vÃdeo. Ele melhora sobre o baseline sem ferramentas em todos os seis backbones testados â€” variando de 26B a 397B parÃ¢metros nas famÃlias Qwen3.5/3.6 e Gemma4.

ComparaÃ§Ã£o controlada isolando a interface (backbone Gemma4-31B):

Interface de AÃ§Ã£o	MÃ©dia (20 bench.)	Î” vs no-tool
No-tool baseline	53,4	â€”
Single-pass code	55,2	+1,8
Structured tool-call	56,7	+3,3
SpatialClaw (code as action)	59,9	+6,5

Os ganhos mais expressivos estÃ£o em tarefas dinÃ¢micas. No Gemma4-31B, o DSI-Bench subiu +17,6 pontos e o MindCube subiu +15,3 pontos â€” categorias que exigem computaÃ§Ã£o geomÃ©trica encadeada entre frames e pontos de vista.

Por que Isso Importa

O SpatialClaw mostra que a interface de aÃ§Ã£o Ã© tÃ£o importante quanto o modelo em si. Ao tratar cÃ³digo como a linguagem de aÃ§Ã£o do agente, a NVIDIA conseguiu ganhos substanciais sem nenhum fine-tuning. Isso abre caminho para agentes de IA mais capazes em tarefas que exigem raciocÃnio espacial â€” de robÃ³tica a navegaÃ§Ã£o autÃ´noma e AR/VR.

O cÃ³digo e o paper estÃ£o disponÃveis no site oficial do projeto.

19 de junho de 2026

MiniMax lanÃ§a MSA: atenÃ§Ã£o esparsa treinada em modelo de 109B parÃ¢metros com 3 trilhÃµes de tokens
A MiniMax acaba de lanÃ§ar o MSA (MiniMax Sparse Attention), um novo mecanismo de atenÃ§Ã£o esparsa que resolve um dos gargalos mais caros dos modelos de linguagem modernos: o custo quadrÃ¡tico da atenÃ§Ã£o softmax em contexto longo.

Testado dentro de um modelo Mixture-of-Experts de 109 bilhÃµes de parÃ¢metros treinado com dados multimodais nativos e um orÃ§amento de 3 trilhÃµes de tokens, o MSA consegue reduzir o custo computacional por token em 28,4Ã— em contextos de 1 milhÃ£o de tokens. Em hardware real (NVIDIA H800), os ganhos chegam a 14,2Ã— no prefill e 7,6Ã— na decodificaÃ§Ã£o.

Como funciona o MSA

O MSA divide a atenÃ§Ã£o em dois ramos:
- Index Branch (Ramo de IndexaÃ§Ã£o): decide quais blocos de chave-valor cada query deve ler. A seleÃ§Ã£o Ã© feita em granularidade de bloco (128 tokens por bloco), e cada query mantÃ©m atÃ© 16 blocos â€” um orÃ§amento fixo de 2.048 tokens de contexto, independentemente do tamanho total da entrada.
- Main Branch (Ramo Principal): executa a atenÃ§Ã£o softmax exata apenas sobre os blocos selecionados pelo Index Branch. Como o orÃ§amento Ã© fixo, o custo nÃ£o cresce com o contexto.
A seleÃ§Ã£o Ã© compartilhada dentro de cada grupo GQA (Grouped Query Attention), mas independente entre grupos diferentes. Isso significa que diferentes grupos podem atender a regiÃµes distintas de longo alcance â€” uma flexibilidade que mÃ©todos anteriores nÃ£o ofereciam.

Treinamento com KL Divergence

O maior desafio tÃ©cnico Ã© que a seleÃ§Ã£o Top-k nÃ£o Ã© diferenciÃ¡vel, entÃ£o o gradiente da perda de linguagem nÃ£o consegue treinar o Index Branch. A equipe da MiniMax resolveu isso com uma perda de alinhamento KL: o Index Branch aprende a imitar a distribuiÃ§Ã£o de atenÃ§Ã£o do Main Branch, como um aluno aprendendo com um professor.

TrÃªs mecanismos estabilizam o treinamento esparso:
1. Gradient Detach: o gradiente da perda KL nÃ£o se propaga para o backbone do modelo, apenas para as projeÃ§Ãµes do indexador.
2. Indexer Warmup: nas primeiras iteraÃ§Ãµes (40B tokens), ambos os ramos rodam atenÃ§Ã£o completa. O indexador aprende com a perda KL antes de comeÃ§ar a rotear de fato.
3. Local Block ForÃ§ado: um slot Ã© sempre reservado para o bloco local da query, garantindo que o contexto imediato nunca seja descartado.

Resultados competitivos com atenÃ§Ã£o completa

Nos benchmarks, o MSA se mantÃ©m competitivo com o baseline de atenÃ§Ã£o completa:

Benchmark Full Attention MSA-PT MSA-CPT

MMLU 67,0 67,2 66,8

GSM8K 76,2 77,7 73,7

HumanEval 61,0 64,0 57,9

RULER-8K 79,8 84,2 77,2

RULER-32K 75,0 77,5 75,7

O modelo suporta duas rotas de treinamento: MSA-PT (prÃ©-treinamento do zero com warmup de 40B tokens) e MSA-CPT (conversÃ£o de um checkpoint denso de 2,6T tokens com mais 400B tokens de treino).

Kernel open source e MiniMax-M3

A MiniMax liberou o kernel de inferÃªncia sob licenÃ§a MIT no repositÃ³rio fmha_sm100, com suporte a BF16, FP8, NVFP4 e FP4. O kernel Ã© otimizado para GPUs NVIDIA SM100, mas a arquitetura de dois ramos Ã© genÃ©rica e pode ser adaptada para outras plataformas.

O MSA jÃ¡ estÃ¡ em produÃ§Ã£o no MiniMax-M3, o modelo multimodal mais recente da empresa, e foi otimizado para casos de uso que exigem contexto extremamente longo:
- Agentes de longa duraÃ§Ã£o: centenas de etapas de raciocÃnio e aÃ§Ã£o acumulam transcriÃ§Ãµes enormes.
- RaciocÃnio sobre repositÃ³rios de cÃ³digo: um agente que carrega um repositÃ³rio inteiro pode exceder centenas de milhares de tokens.
- MemÃ³ria persistente: assistentes que mantÃªm estado conversacional crescente.
- CompreensÃ£o de vÃdeos longos: o modelo Ã© nativamente multimodal e obteve as melhores pontuaÃ§Ãµes em benchmarks como VideoMME.
Por que isso importa

A atenÃ§Ã£o esparsa nÃ£o Ã© uma ideia nova â€” DeepSeek (NSA), Microsoft (InfLLM-V2), MoBA e MiniMax (Lightning Indexer) jÃ¡ exploraram o conceito. Mas o MSA se destaca por trÃªs fatores:
1. Granularidade de bloco por grupo GQA: cada grupo tem sua prÃ³pria seleÃ§Ã£o, mantendo leituras KV contÃguas e permitindo especializaÃ§Ã£o.
2. Co-design algoritmo-kernel: o kernel exp-free Top-k Ã© 5,1Ã— mais rÃ¡pido que torch.topk em contexto de 128K.
3. CÃ³digo aberto e pronto para produÃ§Ã£o: kernel MIT, modelo em produÃ§Ã£o, treino documentado com orÃ§amento de 3T tokens.
O paper completo estÃ¡ disponÃvel no arXiv e o cÃ³digo no GitHub da MiniMax.

Para desenvolvedores e pesquisadores que trabalham com contextos longos, o MSA representa um avanÃ§o significativo: prova que Ã© possÃvel treinar atenÃ§Ã£o esparsa nativamente, mantendo qualidade competitiva com atenÃ§Ã£o densa, sem os truques de pÃ³s-treino que muitas vezes degradam a performance em tarefas de raciocÃnio longo.
17 de junho de 2026

Benchmark	Full Attention	MSA-PT	MSA-CPT
MMLU	67,0	67,2	66,8
GSM8K	76,2	77,7	73,7
HumanEval	61,0	64,0	57,9
RULER-8K	79,8	84,2	77,2
RULER-32K	75,0	77,5	75,7

Google Cloud LanÃ§a Open Knowledge Format (OKF): O Novo PadrÃ£o para Conhecimento de Agentes de IA

O Google Cloud acaba de formalizar uma ideia que vinha ganhando forÃ§a na comunidade de IA: a necessidade de um formato padronizado para que agentes de IA possam ler, escrever e compartilhar conhecimento organizacional. Nascia assim o Open Knowledge Format (OKF), anunciado em 12 de junho de 2026 por Sam McVeety e Amir Hormati, lÃderes tÃ©cnicos do Google Cloud.

O OKF nÃ£o Ã© um serviÃ§o, plataforma ou runtime. Ã‰ uma especificaÃ§Ã£o aberta e neutra que transforma o conhecimento institucional em algo trivial: uma pasta de arquivos Markdown com frontmatter YAML. Sem SDK proprietÃ¡rio, sem vendor lock-in, sem banco de dados. Se vocÃª consegue fazer cat em um arquivo, vocÃª jÃ¡ sabe ler OKF.

O Problema que o OKF Resolve

Hoje, quando uma empresa quer construir um agente de IA que entenda seus dados internos â€” esquemas de banco, definiÃ§Ãµes de mÃ©tricas, runbooks de incidentes, caminhos de joins entre tabelas â€” o conhecimento estÃ¡ fragmentado em silos incompatÃveis:

CatÃ¡logos de metadados com APIs proprietÃ¡rias
Wikis corporativas
ComentÃ¡rios em cÃ³digo e docstrings
Documentos em drives compartilhados
A cabeÃ§a de alguns engenheiros seniores

Cada time reconstrÃ³i do zero a mesma lÃ³gica de montagem de contexto. Cada vendor reinventa os mesmos modelos de dados. E o conhecimento fica preso na ferramenta que o criou.

A InspiraÃ§Ã£o: O “LLM Wiki” do Karpathy

A ideia nÃ£o surgiu do vÃ¡cuo. Em abril de 2026, Andrej Karpathy publicou um gist que viralizou com mais de 5.000 estrelas, descrevendo o conceito de uma “wiki mantida por LLMs”. A premissa: LLMs nÃ£o ficam entediados, nÃ£o esquecem de atualizar referÃªncias cruzadas e podem editar 15 arquivos em uma Ãºnica passada.

O OKF pega esse padrÃ£o emergente e adiciona a camada de interoperabilidade que faltava. Como resumiu Chaz Chumley (@DataChaz): “O Google estÃ¡ formalizando o poder do LLM Wiki.”

Como Funciona na PrÃ¡tica

Um bundle OKF Ã© simplesmente um diretÃ³rio de arquivos .md. Cada arquivo representa um conceito â€” uma tabela, dataset, mÃ©trica, API ou playbook. O caminho do arquivo Ã© sua identidade.

Exemplo de estrutura:

sales/
â”œâ”€â”€ index.md
â”œâ”€â”€ datasets/
â”‚   â”œâ”€â”€ index.md
â”‚   â””â”€â”€ pedidos_db.md
â”œâ”€â”€ tabelas/
â”‚   â”œâ”€â”€ index.md
â”‚   â”œâ”€â”€ pedidos.md
â”‚   â””â”€â”€ clientes.md
â””â”€â”€ metricas/
    â”œâ”€â”€ index.md
    â””â”€â”€ usuarios_ativos_semanais.md

Exemplo de arquivo de conceito (tabelas/pedidos.md):

---
type: Tabela BigQuery
title: Pedidos
description: Uma linha por pedido concluÃdo.
resource: https://console.cloud.google.com/bigquery?p=acme&d=vendas&t=pedidos
tags: [vendas, receita]
timestamp: 2026-05-28T14:30:00Z
---

# Schema

| Coluna        | Tipo   | DescriÃ§Ã£o                          |
|---------------|--------|------------------------------------|
| `pedido_id`   | STRING | Identificador Ãºnico global.        |
| `cliente_id`  | STRING | Chave estrangeira para clientes.   |

# Joins

Unido com clientes via `cliente_id`.

PrincÃpios de Design

O OKF segue trÃªs princÃpios fundamentais:

Minimamente opinativo â€” Apenas o campo type Ã© obrigatÃ³rio. Todo o resto Ã© decisÃ£o do produtor.
IndependÃªncia produtor/consumidor â€” Um bundle escrito por um humano pode ser lido por um agente. Um bundle gerado por pipeline pode ser navegado visualmente. O formato Ã© o contrato.
Formato, nÃ£o plataforma â€” Sem lock-in de cloud, banco de dados, modelo ou framework. Nenhuma conta proprietÃ¡ria Ã© necessÃ¡ria.

OKF vs. Alternativas

O que diferencia o OKF de abordagens existentes:

Abordagem	Armazenamento	PortÃ¡til	SDK necessÃ¡rio	LegÃvel por agentes
OKF v0.1	Markdown + YAML	Sim	NÃ£o	Sim, sem traduÃ§Ã£o
Notion	Banco proprietÃ¡rio	Apenas exportaÃ§Ã£o	API necessÃ¡ria	Via API
Obsidian vault	Arquivos Markdown	Sim	NÃ£o	ConvenÃ§Ãµes prÃ³prias
CatÃ¡logo de metadados	Vendor store	Apenas exportaÃ§Ã£o	SDK do vendor	EspecÃfico do vendor
RAG index	Vector store	NÃ£o	Sim	Chunks, nÃ£o conceitos

DiferenÃ§a crucial do RAG: RAG recupera chunks brutos e re-deriva conhecimento a cada query. OKF armazena conceitos curados e interligados que o agente lÃª e atualiza diretamente, com controle de versÃ£o.

O Que Foi LanÃ§ado

Junto com a especificaÃ§Ã£o, o Google publicou trÃªs implementaÃ§Ãµes de referÃªncia:

Agente de Enriquecimento â€” Percorre datasets do BigQuery e redige conceitos OKF para cada tabela/view, depois os enriquece com citaÃ§Ãµes, schemas e paths de joins usando uma segunda passagem de LLM.
Visualizador HTML EstÃ¡tico â€” Converte qualquer bundle OKF em um grafo interativo em um Ãºnico arquivo autocontido (sem backend, sem instalaÃ§Ã£o, sem dados saindo da pÃ¡gina).
Bundles de Exemplo â€” TrÃªs bundles prontos para navegar: dataset GA4 e-commerce, Stack Overflow pÃºblico e datasets Bitcoin.

Tudo estÃ¡ disponÃvel no GitHub em GoogleCloudPlatform/knowledge-catalog.

Por Que Isso Importa

O OKF ataca um ponto de dor real e universal: a fragmentaÃ§Ã£o do conhecimento institucional. Em vez de mais uma ferramenta proprietÃ¡ria, o Google escolheu o caminho oposto â€” um formato aberto, mÃnimalo e portÃ¡til que qualquer um pode adotar.

Para times de dados, significa tratar conhecimento como cÃ³digo: versionar no git, revisar via PRs, automatizar com pipelines. Para agentes de IA, significa ter um “manual de instruÃ§Ãµes da empresa” que podem ler e atualizar sem depender de integraÃ§Ãµes frÃ¡geis.

Se o OKF ganhar adoÃ§Ã£o ampla, pode se tornar o “Markdown do conhecimento de agentes” â€” assim como o README.md virou padrÃ£o universal para documentaÃ§Ã£o de projetos, o OKF pode virar o padrÃ£o para documentaÃ§Ã£o que mÃ¡quinas tambÃ©m entendem.

16 de junho de 2026

Z.ai LanÃ§a GLM-5.2: Contexto de 1 MilhÃ£o de Tokens e Dois NÃveis de RaciocÃnio
A Z.ai acaba de lanÃ§ar o GLM-5.2, a quarta iteraÃ§Ã£o da linha GLM-5 em apenas quatro meses, trazendo um salto impressionante: 1 milhÃ£o de tokens de contexto utilizÃ¡vel e dois nÃveis de esforÃ§o de raciocÃnio. O modelo jÃ¡ estÃ¡ disponÃvel para todos os planos do GLM Coding (Lite, Pro, Max, Team).

Contexto de 1 MilhÃ£o de Tokens

A variante glm-5.2[1m] oferece uma janela de contexto de 1.000.000 de tokens, aproximadamente 5 vezes maior que os 200K do GLM-5.1. Isso permite que um agente de codificaÃ§Ã£o mantenha um repositÃ³rio inteiro de mÃ©dio porte (cÃ³digo-fonte, testes, configuraÃ§Ãµes, histÃ³rico) na memÃ³ria de trabalho, eliminando a necessidade de sumarizaÃ§Ã£o constante.

Cada resposta pode retornar atÃ© 131.072 tokens de saÃda, uma capacidade massiva para tarefas complexas.

Dois NÃveis de EsforÃ§o de RaciocÃnio

O GLM-5.2 introduz dois modos de raciocÃnio:
- High â€” para tarefas padrÃ£o
- Max â€” recomendado para trabalhos de codificaÃ§Ã£o complexos e em mÃºltiplas etapas
No Claude Code, o esforÃ§o pode ser configurado via /effort. As opÃ§Ãµes xhigh, max e ultracode sÃ£o mapeadas para o modo Max do GLM-5.2.

Arquitetura

A Z.ai nÃ£o divulgou a arquitetura exata do GLM-5.2 no lanÃ§amento, mas a comunidade aponta que a base GLM-5 Ã© um modelo Mixture-of-Experts de 744 bilhÃµes de parÃ¢metros, ativando 40 bilhÃµes por token. O GLM-5.1 manteve a mesma espinha dorsal com pÃ³s-treinamento redirecionado.

Sem Benchmarks no LanÃ§amento

Um ponto curioso: nenhum benchmark foi publicado no lanÃ§amento. A Z.ai optou por focar em disponibilidade, contexto e no roadmap open-source. NÃºmeros de SWE-bench, Terminal-Bench ou Code Arena ainda estÃ£o pendentes.

Casos de Uso
- RefatoraÃ§Ã£o de repositÃ³rios inteiros â€” carregue um repo de 40 arquivos Python em uma Ãºnica sessÃ£o
- ExecuÃ§Ãµes de agentes de longa duraÃ§Ã£o â€” ciclos sustentados de planejar-executar-testar-corrigir; o GLM-5.1 sustentou ~1.700 passos de agente por atÃ© 8 horas
- SubstituiÃ§Ã£o direta do Claude Code â€” troque apenas a URL base e o identificador do modelo
- AnÃ¡lise de documentos extensos â€” alimente especificaÃ§Ãµes, logs ou transcriÃ§Ãµes alÃ©m de 200K tokens sem truncamento
Open Source e LicenÃ§a MIT

O modelo serÃ¡ liberado sob licenÃ§a MIT, com pesos pendentes para a prÃ³xima semana â€” seguindo a tradiÃ§Ã£o de abertura da Z.ai com a linha GLM-5.

Compatibilidade

O GLM-5.2 Ã© compatÃvel desde o primeiro dia com Claude Code, Cline, OpenCode e OpenClaw (8 ferramentas no total), utilizando um endpoint compatÃvel com a API Anthropic por meio de uma simples troca de URL base e modelo.

A Z.ai continua sua trajetÃ³ria agressiva de lanÃ§amentos, posicionando o GLM-5.2 como uma alternativa open-source viÃ¡vel para codificaÃ§Ã£o assistida por IA em larga escala.
15 de junho de 2026
Databricks LanÃ§a Omnigent: O Meta-Harness Open Source que Unifica Claude Code, Codex e Pi
A Databricks acaba de lanÃ§ar um projeto que pode mudar a forma como engenheiros trabalham com agentes de IA. Omnigent Ã© um “meta-harness” open source â€” uma camada de abstraÃ§Ã£o acima dos harnesses existentes como Claude Code, OpenAI Codex e Pi â€” que permite compor, governar e compartilhar agentes de IA a partir de uma Ãºnica interface unificada.

O projeto foi anunciado por Matei Zaharia (criador do Apache Spark) e Kasey Uhlenhuth, e estÃ¡ disponÃvel sob a licenÃ§a Apache 2.0 no GitHub em omnigent-ai/omnigent. Foi desenvolvido em colaboraÃ§Ã£o com a Neon.

O problema que o Omnigent resolve

Engenheiros hoje usam 4 ou 5 agentes simultaneamente â€” copiando texto entre Claude Code, Codex, ferramentas de busca, documentos e Slack. Cada harness entende apenas suas prÃ³prias sessÃµes. O Omnigent cria uma camada compartilhada para composiÃ§Ã£o, controle e colaboraÃ§Ã£o.

“A interface voltada ao usuÃ¡rio Ã© sempre a mesma: mensagens e arquivos entram, streams de texto e chamadas de ferramentas saem. O Omnigent padroniza essa interface para que os harnesses se tornem intercambiÃ¡veis.”

TrÃªs capacidades principais

1. ComposiÃ§Ã£o

Combine modelos, harnesses e tÃ©cnicas sem reescrever cÃ³digo. Alterne entre Claude Code, Codex, Pi e agentes personalizados com mudanÃ§as de uma linha.

2. Controle (polÃticas com estado)

As polÃticas rastreiam aÃ§Ãµes dos agentes e aplicam guardrails na camada do meta-harness â€” nÃ£o apenas em prompts. Exemplos prÃ¡ticos:
– Pausar o agente apÃ³s cada US$ 100 gastos em custos de LLM
– Exigir aprovaÃ§Ã£o humana para git push depois que o agente instala um novo pacote npm

3. ColaboraÃ§Ã£o em tempo real

Compartilhe sessÃµes ao vivo por URL. Colegas podem assistir o agente trabalhar, conversar com ele, comentar em arquivos e atÃ© co-pilotar ou bifurcar a sessÃ£o.

Arquitetura
- Runner: encapsula qualquer agente em uma sessÃ£o sandboxed com API uniforme
- Server: fornece polÃticas e compartilhamento, expondo cada sessÃ£o via terminal, web UI (localhost:6767) e APIs web
- OmniBox Sandbox: sandbox no nÃvel do sistema operacional com proxy de saÃda. Por exemplo: mantenha o token do GitHub oculto do agente e injete-o apenas em requisiÃ§Ãµes aprovadas
A CLI Ã© instalada como omnigent ou omni. Na primeira execuÃ§Ã£o, detecta automaticamente credenciais de modelos existentes.

Agentes de exemplo incluÃdos

Polly â€” Orquestrador multi-agente para cÃ³digo

NÃ£o escreve cÃ³digo. Planeja e delega trabalho para sub-agentes em worktrees git paralelas. Cada diff Ã© revisado por um vendor diferente. O usuÃ¡rio faz o merge final.

Debby â€” Parceiro de brainstorming com duas cabeÃ§as

Uma cabeÃ§a Ã© Claude, a outra Ã© GPT. Toda pergunta vai para ambas, com respostas lado a lado. O comando /debate dispara crÃtica mÃºtua antes de convergir.

Por que isso importa

A Databricks tem mais de 5.000 engenheiros usando agentes em escala. A experiÃªncia mostrou que os melhores resultados vÃªm de padrÃµes multi-agente, nÃ£o de um Ãºnico modelo em um Ãºnico harness. O Omnigent Ã© a resposta open source para essa necessidade real.

O projeto tambÃ©m inclui uma demonstraÃ§Ã£o conceitual interativa que simula o fluxo completo: Polly planeja uma tarefa, delega para trÃªs sub-agentes (Claude Code, Codex, Pi) em paralelo, um medidor de custo sobe, polÃticas de orÃ§amento e seguranÃ§a disparam, e as interfaces de terminal, web e mobile mostram a mesma sessÃ£o sincronizada.

Disponibilidade

O Omnigent estÃ¡ disponÃvel agora no GitHub: github.com/omnigent-ai/omnigent sob licenÃ§a Apache 2.0. O roadmap inclui otimizaÃ§Ã£o automÃ¡tica no nÃvel do meta-harness usando GEPA, introspecÃ§Ã£o baseada em cÃ³digo dentro de agentes, servidor MCP para que agentes trabalhem entre sessÃµes e deploy simplificado no Fly.io, Railway, Modal e Daytona.
14 de junho de 2026

Zyphra LanÃ§a Zamba2-VL: Modelos de VisÃ£o-Linguagem HÃbridos que Reduzem LatÃªncia em Uma Ordem de Magnitude

A Zyphra acaba de abrir o cÃ³digo do Zamba2-VL, uma famÃlia de modelos de visÃ£o-linguagem (VLMs) que combina camadas state-space Mamba2 com blocos Transformer compartilhados. DisponÃvel em trÃªs tamanhos â€” 1.2B, 2.7B e 7B parÃ¢metros â€” sob licenÃ§a Apache 2.0, o grande diferencial estÃ¡ na velocidade: o tempo atÃ© o primeiro token (TTFT) Ã© reduzido em cerca de uma ordem de magnitude em contextos visuais longos.

Arquitetura HÃbrida Mamba2-Transformer

Enquanto VLMs tradicionais usam atenÃ§Ã£o densa de Transformer â€” que escala quadraticamente com o comprimento da sequÃªncia â€” o Zamba2-VL adota uma abordagem mista:

Camadas Mamba2 (state-space): Carregam o grosso da computaÃ§Ã£o de forma barata, com complexidade near-linear e estado recorrente de tamanho fixo.
Blocos Transformer compartilhados: Preservam a capacidade de recuperaÃ§Ã£o em contexto que modelos puramente SSM perdem. Cada bloco de atenÃ§Ã£o carrega um adaptador LoRA Ãºnico por camada para adicionar expressividade.
Vision Encoder: Vision Transformer do Qwen2.5-VL, escolhido pelos embeddings posicionais rotativos 2D e processamento nativo de resoluÃ§Ã£o dinÃ¢mica.
Tokenizer: Mistral v0.1.

O modelo foi treinado com 100 bilhÃµes de tokens de dados visÃ£o-texto e texto puro de datasets web abertos.

“A atenÃ§Ã£o de Transformer escala quadraticamente com o comprimento da sequÃªncia. Inputs multimodais tornam sequÃªncias muito longas rapidamente. O Zamba2-VL evita o KV cache crescente da atenÃ§Ã£o, herdando prefill near-linear e estado recorrente de tamanho fixo.”

Performance em Benchmarks

O Zamba2-VL-2.7B foi avaliado em 14 benchmarks e mostra resultados competitivos, especialmente em tarefas de contagem visual:

Benchmark	Zamba2-VL-2.7B	Qwen3-VL-2B	InternVL3.5-2B
DocVQA	90.9	93.3	89.4
CountBenchQA	87.5	87.9	70.0
PixMoCount	82.5	55.7	32.8
ChartQA	79.6	78.7	81.6
MathVista	51.0	51.8	61.4
MMMU	37.7	40.9	49.9

Destaques: Performance excepcional em contagem visual â€” no PixMoCount, o modelo de 2.7B atinge 82.5 contra apenas 32.8 do InternVL3.5-2B. O modelo de 1.2B tambÃ©m impressiona com 62.5 no mesmo benchmark. Em compreensÃ£o de documentos (DocVQA), fica competitivo com 90.9.

LimitaÃ§Ãµes: Desempenho mais fraco em raciocÃnio pesado em conhecimento (MMMU, MathVista) e OCR (OCRBench) comparado aos lÃderes da categoria.

Vantagem de Velocidade

O principal argumento de venda Ã© a velocidade de inferÃªncia. Em um prefill de 32K tokens, nenhum VLM Transformer puro igualou a pontuaÃ§Ã£o do Zamba2-VL com latÃªncia similar. A diferenÃ§a Ã© mais dramÃ¡tica nos modelos menores (1.2B e 2.7B), mirando deployment on-device e edge.

Uma imagem de alta resoluÃ§Ã£o (~3.400 tokens) jÃ¡ mostra paridade computacional no prefill, mas com sequÃªncias mais longas (ex: PDFs de mÃºltiplas pÃ¡ginas, clipes de vÃdeo curtos), o design hÃbrido se torna dramaticamente mais barato â€” escalando O(n) contra O(nÂ²) dos Transformers puros.

Casos de Uso

ExtraÃ§Ã£o de documentos e formulÃ¡rios: Faturas, recibos â€” forte performance em DocVQA.
InventÃ¡rio e contagem visual: Destaque em PixMoCount e CountBenchQA para cenÃ¡rios de varejo.
Assistentes on-device: Baixo TTFT nos modelos de 1.2B e 2.7B para celulares e dispositivos edge.
Inputs visuais longos: PDFs de mÃºltiplas pÃ¡ginas e vÃdeos curtos se beneficiam do prefill linear.

Com este lanÃ§amento, a Zyphra demonstra que arquiteturas hÃbridas state-space/Transformer sÃ£o uma alternativa viÃ¡vel e eficiente para VLMs, especialmente quando latÃªncia e deployment em dispositivos sÃ£o prioridades.

12 de junho de 2026

Varya: IA de vÃdeo 20x mais barata e 10x mais rÃ¡pida chega Ã Ãndia

A startup indiana Avataar AI, apoiada pela Peak XV e selecionada pela MissÃ£o de IA da Ãndia, acaba de lanÃ§ar o Varya â€” um modelo de geraÃ§Ã£o de vÃdeo por IA que promete ser 20 vezes mais barato e 10 vezes mais rÃ¡pido que os concorrentes atuais.

O segredo estÃ¡ na destilaÃ§Ã£o: a equipe pegou o modelo Wan 2.2 da Alibaba, que originalmente precisava de 50 passos de inferÃªncia, e o comprimiu para apenas 4 passos. O resultado? Um vÃdeo de 5 segundos em 720p que antes levava 1.230 segundos para ser gerado agora sai em apenas 45 segundos em uma GPU NVIDIA H200.

PreÃ§o que viabiliza escala populacional

O custo Ã© o grande diferencial. Enquanto serviÃ§os como Veo (Google), Kling, Luma e Runway cobram a partir de US$ 0,10 por segundo de vÃdeo gerado, o Varya custa apenas â‚¹ 0,48 (cerca de US$ 0,005) por segundo. Uma reduÃ§Ã£o de aproximadamente 20 vezes.

“A Ãndia Ã© um mercado onde o vÃdeo domina. Se a IA de vÃdeo quiser chegar a estudantes, professores, pequenas empresas e serviÃ§os pÃºblicos, os custos precisam cair drasticamente. O custo Ã© o maior fator de adoÃ§Ã£o de IA na Ãndia”, afirmou Rajan Anandan, Managing Director da Peak XV.

IA com consciÃªncia cultural

Outro diferencial importante: o Varya foi treinado com dados curados para reconhecer elementos culturais indianos â€” festivais, culinÃ¡ria, vestimentas e arquitetura â€” evitando saÃdas genÃ©ricas ou estereotipadas. Isso resolve um problema real de viÃ©s em modelos de imagem e vÃdeo que frequentemente falham ao representar culturas nÃ£o ocidentais.

LanÃ§amento aberto e ecossistema

O modelo estÃ¡ sendo lanÃ§ado como open-weight no portal AI Kosh, o repositÃ³rio central de IA do governo indiano, incluindo pesos e dados de treinamento. A Avataar tambÃ©m negocia parcerias com Adobe Firefly e Higgsfield para distribuiÃ§Ã£o empresarial.

O lanÃ§amento acontece no contexto da MissÃ£o de IA da Ãndia, um programa de US$ 1,2 bilhÃ£o que oferece computaÃ§Ã£o em GPU subsidiada para startups selecionadas em troca da liberaÃ§Ã£o pÃºblica de seus modelos. A Avataar foi uma das 12 startups escolhidas.

EstratÃ©gia pragmÃ¡tica da Ãndia

O Varya exemplifica a abordagem indiana para IA: em vez de competir diretamente em modelos fundacionais (domÃnio dos EUA e China), o paÃs foca em aplicaÃ§Ãµes prÃ¡ticas, otimizaÃ§Ã£o de modelos existentes e construÃ§Ã£o de ecossistemas de desenvolvedores. A meta do governo Ã© atrair US$ 200 bilhÃµes em investimentos em IA atÃ© 2028 e mais que dobrar a capacidade de GPU em seis meses.

Com o Varya, a Ãndia mostra que Ã© possÃvel fazer mais com menos â€” e que inovaÃ§Ã£o em IA nÃ£o precisa vir apenas dos grandes laboratÃ³rios do Vale do SilÃcio.

12 de junho de 2026

Como Usar Skills e o Agents SDK da OpenAI para Acelerar a ManutenÃ§Ã£o de Software Livre â€” Tutorial Completo

Autor: Tiago Oliveira | Fonte: OpenAI Developers Blog (Kazuhiro Sera, 09/03/2026)

Manter um projeto open source ativo Ã© um trabalho que nunca acaba. Issues, pull requests, verificaÃ§Ãµes de qualidade, releases â€” tudo isso se acumula rÃ¡pido. A equipe da OpenAI enfrentou esse mesmo desafio nos repositÃ³rios do OpenAI Agents SDK (Python e TypeScript) e encontrou uma soluÃ§Ã£o elegante: skills locais no repositÃ³rio, um arquivo AGENTS.md com regras obrigatÃ³rias e GitHub Actions para rodar tudo em CI.

O resultado? Entre dezembro de 2025 e fevereiro de 2026, os dois repositÃ³rios fizeram 457 PRs mergeados, um salto de 44% em relaÃ§Ã£o aos 316 PRs dos trÃªs meses anteriores.

Neste tutorial, vocÃª vai aprender a reproduzir essa configuraÃ§Ã£o no seu prÃ³prio projeto open source, do inÃcio ao fim. Todos os cÃ³digos, templates e comandos estÃ£o aqui.

Ãndice

O que sÃ£o skills e por que elas funcionam
Estrutura de diretÃ³rios e arquivos
Escrevendo o AGENTS.md
Criando sua primeira skill: SKILL.md
Skill 1: VerificaÃ§Ã£o obrigatÃ³ria de cÃ³digo
Skill 2: SincronizaÃ§Ã£o de documentaÃ§Ã£o
Skill 3: ExecuÃ§Ã£o automÃ¡tica de exemplos
Skill 4: RevisÃ£o de release
Skill 5: EstratÃ©gia de implementaÃ§Ã£o
Skill 6: ValidaÃ§Ã£o de changesets (monorepo JS)
Skill 7: Resumo de PR
Skill 8: Busca de documentaÃ§Ã£o atualizada da API
Skill 9: Melhoria de cobertura de testes
Skill 10: AtualizaÃ§Ã£o coordenada de toolchain (pnpm)
Escrevendo descriÃ§Ãµes que funcionam como roteamento
Separando o que vai no modelo e o que vai nos scripts
Automatizando testes de integraÃ§Ã£o
Adicionando verificaÃ§Ãµes de release
Rodando workflows no CI com GitHub Actions
Codex na revisÃ£o de PRs
Checklist final e prÃ³ximos passos

1. O que sÃ£o skills e por que elas funcionam

Uma skill Ã© um pequeno pacote de conhecimento operacional. No diretÃ³rio .agents/skills/ do seu repositÃ³rio, cada skill contÃ©m:

Um arquivo SKILL.md (manifesto obrigatÃ³rio com frontmatter YAML)
Opcionalmente: diretÃ³rios scripts/, references/ e assets/

O modelo de progressive disclosure (divulgaÃ§Ã£o progressiva) faz com que o Codex:

Primeiro veja apenas os metadados (name e description) de todas as skills
Carregue o SKILL.md completo somente quando a skill for selecionada
Leia referÃªncias ou execute scripts apenas quando necessÃ¡rio

Isso mantÃ©m o contexto do agente enxuto e focado. As skills nÃ£o poluem o prompt inicial â€” elas entram em cena sob demanda.

O setup bÃ¡sico da OpenAI Ã© simples:

PolÃtica do repositÃ³rio no AGENTS.md
Skills locais em .agents/skills/
Scripts e referÃªncias opcionais dentro de cada skill
Codex GitHub Action para rodar os mesmos workflows no CI

2. Estrutura de diretÃ³rios e arquivos

Comece criando esta estrutura na raiz do seu repositÃ³rio:

seu-projeto/
â”œâ”€â”€ AGENTS.md                          # Regras globais e gatilhos de skills
â”œâ”€â”€ .agents/
â”‚   â””â”€â”€ skills/
â”‚       â”œâ”€â”€ code-change-verification/
â”‚       â”‚   â”œâ”€â”€ SKILL.md
â”‚       â”‚   â””â”€â”€ scripts/
â”‚       â”‚       â””â”€â”€ verify.sh
â”‚       â”œâ”€â”€ docs-sync/
â”‚       â”‚   â””â”€â”€ SKILL.md
â”‚       â”œâ”€â”€ examples-auto-run/
â”‚       â”‚   â”œâ”€â”€ SKILL.md
â”‚       â”‚   â””â”€â”€ scripts/
â”‚       â”‚       â””â”€â”€ run-examples.sh
â”‚       â”œâ”€â”€ final-release-review/
â”‚       â”‚   â”œâ”€â”€ SKILL.md
â”‚       â”‚   â””â”€â”€ scripts/
â”‚       â”‚       â””â”€â”€ get-prev-tag.sh
â”‚       â”œâ”€â”€ implementation-strategy/
â”‚       â”‚   â””â”€â”€ SKILL.md
â”‚       â”œâ”€â”€ openai-knowledge/
â”‚       â”‚   â””â”€â”€ SKILL.md
â”‚       â”œâ”€â”€ pr-draft-summary/
â”‚       â”‚   â”œâ”€â”€ SKILL.md
â”‚       â”‚   â””â”€â”€ scripts/
â”‚       â”‚       â””â”€â”€ collect-context.sh
â”‚       â”œâ”€â”€ test-coverage-improver/
â”‚       â”‚   â””â”€â”€ SKILL.md
â”‚       â”œâ”€â”€ changeset-validation/       # (apenas para monorepo JS)
â”‚       â”‚   â””â”€â”€ SKILL.md
â”‚       â””â”€â”€ pnpm-upgrade/               # (apenas para monorepo JS)
â”‚           â””â”€â”€ SKILL.md
â””â”€â”€ .github/
    â””â”€â”€ workflows/
        â””â”€â”€ codex-ci.yml

Vamos criar cada arquivo passo a passo.

3. Escrevendo o AGENTS.md

O AGENTS.md Ã© o arquivo de instruÃ§Ãµes que viaja com o cÃ³digo e Ã© lido pelo Codex antes de qualquer trabalho comeÃ§ar. A recomendaÃ§Ã£o oficial Ã© mantÃª-lo pequeno e colocar as regras mais importantes no topo.

Crie o arquivo AGENTS.md na raiz do repositÃ³rio:

# AGENTS.md

## Project overview

- Core SDK code lives under `src/agents/` or `packages/*/src/`.
- Tests live under `tests/` or `packages/*/test/`.
- Sample apps and integration surfaces live under `examples/`.

## Mandatory skill usage

- Use `$implementation-strategy` before editing runtime or API changes that may affect compatibility boundaries.
- Run `$code-change-verification` when runtime code, tests, examples, or build/test behavior changes.
- Use `$openai-knowledge` for OpenAI API or platform work.
- Use `$pr-draft-summary` when substantial code work is ready for review.

## Build and test commands

- Python: `make format`, `make lint`, `make typecheck`, `make tests`
- TypeScript: `pnpm i`, `pnpm build`, `pnpm -r build-check`, `pnpm lint`, `pnpm test`

## Compatibility rules

- Preserve positional compatibility for public constructors and dataclass fields.
- Append new optional parameters at the end when possible.
- Add compatibility tests if reordering is unavoidable.

ðŸ’¡ Dica da OpenAI: O AGENTS.md nÃ£o serve apenas para gatilhos de skills. No repositÃ³rio Python, eles tambÃ©m registram regras de compatibilidade de API pÃºblica ali. Mantenha regras crÃticas de release no mesmo lugar que os gatilhos de skills.

Adicionando regras especÃficas para monorepo JavaScript

Se seu projeto Ã© um monorepo JavaScript com Changesets, adicione:

## Additional mandatory skills (JavaScript monorepo)

- Run `$changeset-validation` when anything under `packages/` or `.changeset/` changes.

4. Criando sua primeira skill: SKILL.md

Toda skill comeÃ§a com um arquivo SKILL.md contendo frontmatter YAML. Os campos obrigatÃ³rios sÃ£o name e description.

Template mÃnimo:

---
name: nome-da-skill
description: DescriÃ§Ã£o clara de quando usar esta skill, quais gatilhos, e qual saÃda esperar.
---

# Nome da Skill

## Quando usar

- Gatilho 1: condiÃ§Ã£o especÃfica
- Gatilho 2: condiÃ§Ã£o especÃfica

## Passos

1. Primeiro passo
2. Segundo passo
3. Terceiro passo

## Scripts

- `scripts/meu-script.sh`: o que ele faz e quando usar

## SaÃda esperada

Descreva o formato exato da saÃda.

Agora vamos criar cada skill individualmente, comeÃ§ando pela mais importante.

5. Skill 1: VerificaÃ§Ã£o obrigatÃ³ria de cÃ³digo

Esta Ã© a skill mais usada nos repositÃ³rios da OpenAI. Ela nÃ£o roda uma stack completa de validaÃ§Ã£o sempre â€” apenas quando cÃ³digo de runtime, testes, exemplos ou comportamento de build/teste foi alterado.

Para projetos Python

Arquivo: .agents/skills/code-change-verification/SKILL.md

---
name: code-change-verification
description: Run the mandatory verification stack when changes affect runtime code, tests, or build/test behavior. Format, lint, type-check, and run the test suite before marking work complete.
---

# Code Change Verification

## Trigger

Run when runtime code, tests, examples, or build/test behavior changes.  
Do NOT run for docs-only changes.

## Required pass criteria

The work is NOT complete until ALL of these pass:

make format
make lint
make typecheck
make tests


## Process

1. Run `make format` and fix any formatting issues
2. Run `make lint` and resolve all lint errors
3. Run `make typecheck` and fix all type errors
4. Run `make tests` and ensure all tests pass
5. If any step fails, fix the issue and re-run from step 1
6. Report results: number of files formatted, lint violations fixed, type errors resolved, tests passed/failed

## Output

âœ… Verification complete
Format: N files formatted
Lint: clean
Typecheck: clean
Tests: N passed, 0 failed

Arquivo: .agents/skills/code-change-verification/scripts/verify.sh

#!/usr/bin/env bash
set -euo pipefail

echo "=== Code Change Verification ==="

echo ""
echo "[1/4] Formatting..."
make format
echo "âœ… Format complete"

echo ""
echo "[2/4] Linting..."
make lint
echo "âœ… Lint complete"

echo ""
echo "[3/4] Type checking..."
make typecheck
echo "âœ… Typecheck complete"

echo ""
echo "[4/4] Running tests..."
make tests
echo "âœ… Tests complete"

echo ""
echo "=== âœ… Verification passed ==="

Para projetos TypeScript/JavaScript (monorepo)

A stack de verificaÃ§Ã£o para JS segue esta ordem exata:

## Required pass criteria (JavaScript monorepo)

The work is NOT complete until ALL of these pass in order:

pnpm i
pnpm build
pnpm -r build-check
pnpm -r -F “@openai/*” dist:check
pnpm lint
pnpm test

A skill codifica a definiÃ§Ã£o de “verificado” do repositÃ³rio, e o AGENTS.md torna essa definiÃ§Ã£o obrigatÃ³ria. Sem ela, o Codex nÃ£o considera o trabalho como concluÃdo.

6. Skill 2: SincronizaÃ§Ã£o de documentaÃ§Ã£o

Esta skill audita a documentaÃ§Ã£o contra o cÃ³digo e encontra documentaÃ§Ã£o faltante, incorreta ou desatualizada. Ã‰ um workflow report-first: inspeciona, prioriza e pede aprovaÃ§Ã£o antes de editar.

---
name: docs-sync
description: Audit documentation against the codebase. Find missing, incorrect, or outdated docs. Prioritize findings and ask for approval before making edits.
---

# Documentation Sync

## When to use

- After adding new public API surface
- After changing existing public behavior
- When preparing a release
- When asked to review documentation quality

## Process

1. Scan the current diff or changed files
2. Map each changed public API to its documentation
3. For each mapping, check:
   - Is the API documented at all?
   - Are parameter types and return types correct?
   - Are docstrings up to date?
   - Are code examples still valid?
   - Are any deprecated APIs still documented as current?
4. Prioritize findings by severity:
   - ðŸ”´ Missing: public API with no documentation
   - ðŸŸ¡ Incorrect: documented but wrong types/behavior
   - ðŸ”µ Stale: documented but API has changed
5. Present findings as a report and ask for approval before editing

## Important rules

- Source docstrings and comments are the source of truth for generated reference docs
- Never patch generated output by hand â€” fix the source instead

## Output format

Documentation Audit

ðŸ”´ Missing (N)

function_name() in path/to/file.py â€” no docstring or docs page

ðŸŸ¡ Incorrect (N)

Class.method() â€” docstring says str but returns Optional[str]

ðŸ”µ Stale (N)

old_function() â€” still documented but deprecated in v2.0

Recommended actions

7. Skill 3: ExecuÃ§Ã£o automÃ¡tica de exemplos

Esta skill executa todos os exemplos do repositÃ³rio em modo automÃ¡tico, coleta logs, e faz o Codex comparar cada saÃda com o cÃ³digo fonte para validar o comportamento esperado. O runner executa os exemplos; o Codex interpreta os resultados.

---
name: examples-auto-run
description: Run all examples in auto mode, collect per-example logs, and validate output against source code intent. Use when example code changes or before releases.
---

# Examples Auto-Run

## Trigger

- Example code changed
- SDK runtime code changed (examples may be affected)
- Preparing for release
- Asked to validate example behavior

## Process

1. Run the example runner in auto mode:
   - Python: `uv run examples/run_examples.py --auto-mode --write-rerun --main-log /tmp/examples-main.log --logs-dir /tmp/example-logs/`
   - TypeScript: `pnpm examples:start-all` (in auto mode)
2. For each example that ran successfully:
   a. Read the example source code and comments
   b. Infer the intended flow and expected behavior
   c. Open the matching per-example log
   d. Compare intended behavior with actual stdout and stderr
   e. Flag any mismatch between intent and output
3. For failed examples:
   a. Check the rerun file for the failure reason
   b. Report the failure with the relevant log excerpt
4. Produce a summary report

## Auto-mode behavior

The runner auto-handles:
- Auto-answering common interactive prompts
- Auto-approving HITL, MCP, apply_patch, and shell actions (where supported)
- Skipping examples not suitable for automation (realtime, Next.js apps needing extra runtime)

## Output format

Examples Run Report

Summary

Total: N
âœ… Passed: N
âŒ Failed: N
âï¸ Skipped: N

âœ… Passed examples

Example	Intent verified?	Notes
basic_agent	âœ…	Output matches expected flow
tool_use	âœ…	All tools called correctly

âŒ Failed examples

Example	Error	Log excerpt
streaming	Timeout after 30s	`ConnectionError: ...`

âï¸ Skipped

realtime_voice â€” requires realtime setup

8. Skill 4: RevisÃ£o de release

Esta skill compara a tag da release anterior com o release candidate atual e verifica se estÃ¡ tudo pronto para publicar.

---
name: final-release-review
description: Compare the previous release tag with the current release candidate. Check for backward compatibility, regressions, and missing migration notes. Start from "safe to release" and only block with concrete evidence.
---

# Final Release Review

## Trigger

- Preparing a new release
- Release candidate branch or tag is ready

## Process

1. Fetch the previous release tag: `scripts/get-prev-tag.sh`
2. Diff it against the current `main` (or release candidate):
   ```bash
   git diff <prev-tag>..HEAD --stat
   git diff <prev-tag>..HEAD
   ```
3. Inspect the diff for:
   - **Backward compatibility issues** in public APIs and user-facing SDK behavior
   - **Regressions**, including smaller changes in expected behavior
   - **Missing migration notes** or release-note updates for changes that need them
4. Classify each finding with risk level:
   - ðŸ”´ BLOCKING: confirmed regression or breaking change without migration path
   - ðŸŸ¡ MODERATE: behavior change that users should know about
   - ðŸŸ¢ LOW: internal refactor, no user impact
5. Make overall release readiness call

## Gate decision rules

- Start from "**safe to release**"
- Switch to **blocked** ONLY when the diff shows concrete evidence of a real problem
- Every blocked call MUST include a specific unblock checklist

## Output format

Release readiness review

Release call:
ðŸŸ¢ GREEN LIGHT TO SHIP.

OR
ðŸ”´ BLOCKED.

Scope summary:
– N files changed (+X/-Y); key areas touched: …

:
– Risk: ðŸ”´/ðŸŸ¡/ðŸŸ¢
– Evidence:
– Action:

Unblock checklist (if blocked):
– [ ] …

Exemplo real do repositÃ³rio Python da OpenAI (PR #2480):

Release readiness review (excerpt)

Release call:
ðŸŸ¢ GREEN LIGHT TO SHIP. Minor-version bump includes expected breaking change
(Python 3.9 drop) with no concrete regressions found.

Scope summary:

- 38 files changed (+1450/-789); key areas touched: `src/agents/tool.py`,
  `src/agents/extensions/`, `src/agents/realtime/`, `tests/`,
  `pyproject.toml`, `uv.lock`.

Python 3.9 support removed

- Risk: ðŸŸ¡ MODERATE. Users pinned to Python 3.9 will be unable to install the
  0.9.0 release.
- Evidence: `pyproject.toml` now sets `requires-python = ">=3.10"` and drops
  the Python 3.9 classifier; CI skip logic for 3.9 was removed.
- Action: Ensure release notes clearly call out the Python 3.9 drop and that
  packaging metadata remains `>=3.10`.

Script auxiliar: .agents/skills/final-release-review/scripts/get-prev-tag.sh

#!/usr/bin/env bash
# Get the most recent semver tag before the current HEAD
git tag --sort=-v:refname | grep -E '^v?[0-9]+\.[0-9]+\.[0-9]+' | head -1

9. Skill 5: EstratÃ©gia de implementaÃ§Ã£o

Antes de editar cÃ³digo de runtime ou API, o Codex deve decidir a fronteira de compatibilidade e a abordagem de implementaÃ§Ã£o.

---
name: implementation-strategy
description: Decide the compatibility boundary and implementation approach before editing runtime or API changes. Use before modifying public APIs, constructors, or behavior.
---

# Implementation Strategy

## Trigger

- Before editing runtime code or public API
- Before changing constructor signatures or dataclass fields
- Before modifying behavior that users depend on

## Process

1. Identify the scope of the change:
   - What public APIs are affected?
   - What internal code paths are touched?
   - What tests and examples will need updating?
2. Determine compatibility boundary:
   - Can the change be purely additive?
   - If breaking: is there a deprecation path?
   - Are there positional parameter constraints?
3. Propose the implementation approach:
   - Order of changes (internal first, then public)
   - Migration strategy for existing users
   - Test plan
4. Get confirmation before proceeding

## Compatibility rules

- Preserve positional meaning of exported constructor parameters and dataclass fields
- Append new optional ones at the end when possible
- Add compatibility tests if reordering is unavoidable

## Output format

Implementation Strategy

Scope

Affected APIs: …
Affected internals: …
Tests to update: …

Compatibility

Breaking change? yes/no
Deprecation path: …
Positional impact: …

Approach

Test plan

10. Skill 6: ValidaÃ§Ã£o de changesets (monorepo JS)

Esta skill Ã© especÃfica para monorepos JavaScript que usam Changesets. Ela valida que os changesets e bump levels correspondem ao diff real dos pacotes.

---
name: changeset-validation
description: Validate that changesets and bump levels match the actual package diff. Create or update changesets when packages/ or .changeset/ changes. Enforce Conventional Commit summaries and bump-level policy.
---

# Changeset Validation

## Trigger

- Any change under `packages/`
- Any change in `.changeset/`

## Process

1. Check if a branch changeset already exists
2. If yes: update it instead of creating a new one
3. If no: create one
4. Write the changeset summary in Conventional Commit style (one line)
5. Determine the required bump level from the actual package diff
6. Validate the bump level against repo policy

## Repo-specific policy

- Keep the summary to one line in Conventional Commit style (doubles as commit title)
- Before 1.0: avoid major bumps for normal feature work
- Preview-only additions labeled explicitly: treat as patch if they don't change existing behavior
- Validate the required bump level against actual package changes

## Bump level rules

| Change type | Bump |
|------------|------|
| Bug fix | patch |
| New feature (backward compatible) | minor |
| Breaking change | major |
| Preview-only addition | patch |
| Docs only | no bump needed |

## Output format

Changeset Validation

Changeset:

Summary: feat: add streaming support to agent runner
Bump: minor
Packages affected: @openai/agents-core

Validation

âœ… Bump level matches diff
âœ… Summary follows Conventional Commit
âœ… No duplicate changesets

11. Skill 7: Resumo de PR

Esta skill Ã© acionada ao final de trabalho substantivo. Ela coleta automaticamente nome do branch, status da Ã¡rvore de trabalho, arquivos alterados, diff stats e commits recentes, e produz um bloco pronto para PR.

---
name: pr-draft-summary
description: Create a PR title and draft description after substantive code changes are finished. Trigger when wrapping up a moderate-or-larger change (runtime code, tests, build config, docs with behavior impact) and you need the PR-ready summary block with change summary plus PR draft text.
---

# PR Draft Summary

## Trigger

- Substantive work is finished or ready for review
- Change touched: runtime code, tests, examples, docs with behavior impact, or build/test config
- NOT for: trivial typo fixes, formatting-only changes, single-line comment updates

## Process

1. Collect context automatically:
   ```bash
   git rev-parse --abbrev-ref HEAD          # branch name
   git status --short                        # working tree status
   git diff --stat origin/main...HEAD        # changed files + stats
   git log origin/main..HEAD --oneline       # recent commits
   ```
2. Analyze the collected context
3. Produce the PR draft block

## Output format (rigid)

Pull Request Draft

Branch name suggestion

git checkout -b /

Title

Description

<2-4 paragraphs describing the change, rationale, and impact>

Exemplo real de saÃda do pr-draft-summary:

# Pull Request Draft

## Branch name suggestion

git checkout -b fix/tracing-lazy-init-fork-safety

## Title

fix: #2489 lazily initialize tracing globals to avoid import-time fork hazards

## Description

This pull request fixes import-time tracing side effects that could break fork-based process models by moving tracing bootstrap to lazy, first-use initialization.

It updates tracing setup so initialization happens once on first access while preserving the existing public tracing APIs.

It also adds regression tests for import-time behavior, one-time bootstrap, and custom provider handling.

This pull request resolves #2489.

12. Skill 8: Busca de documentaÃ§Ã£o atualizada da API

Esta skill Ã© um wrapper fino sobre o OpenAI Docs MCP oficial. Em vez de deixar o modelo responder de memÃ³ria, ela instrui o Codex a buscar a documentaÃ§Ã£o atualizada.

---
name: openai-knowledge
description: Pull current OpenAI API and platform documentation through the official Docs MCP. Use for any work touching OpenAI API, Responses API, tools, streaming, Realtime, or MCP integrations.
---

# OpenAI Knowledge

## Trigger

- Work touches OpenAI API or platform integrations
- Implementing or modifying API calls
- Working with Responses API, tools, streaming, Realtime, or MCP

## Process

1. Use the OpenAI Developer Documentation MCP server to look up current docs
2. Search for the relevant API surface
3. Verify parameter names, types, and behavior against current docs
4. Do NOT rely on model memory for API details

## MCP Server Setup

If the MCP server is not configured in your local Codex environment:

1. Follow the Docs MCP quickstart
2. Use the official MCP server endpoint
3. Configure in your Codex settings

## Covered surfaces

- Responses API
- Tools and function calling
- Streaming
- Realtime API
- MCP integrations
- All platform-level features

13. Skill 9: Melhoria de cobertura de testes

Esta skill Ã© report-first: roda cobertura, encontra os maiores gaps e propÃµe testes de alto impacto. NÃ£o edita nada sem aprovaÃ§Ã£o.

---
name: test-coverage-improver
description: Run coverage, find the biggest gaps, and propose high-impact tests. Report-first workflow: inspect coverage artifacts, prioritize what matters, and ask for approval before writing tests.
---

# Test Coverage Improver

## Trigger

- After adding new features
- Before release
- When asked to improve test coverage

## Process

1. Run coverage:
   - Python: `pytest --cov=src --cov-report=term-missing`
   - TypeScript: `pnpm test --coverage`
2. Parse coverage report
3. Identify the biggest gaps by:
   - Lines uncovered (absolute count)
   - Critical paths with no coverage
   - Public API methods with 0% coverage
4. Prioritize: focus on high-impact, low-effort tests first
5. Present findings as a proposal
6. Ask for approval before writing tests

## Output format

Coverage Gap Report

Overall: XX% (was YY%)

Top gaps by impact

File	Uncovered lines	Risk	Proposed test
src/core.py	45	ðŸ”´ High	Test error path in `process()`
src/utils.py	32	ðŸŸ¡ Medium	Test edge cases in `parse()`

Proposed new tests (N)

test_process_error_handling â€” covers 15 lines, catches silent failures
test_parse_edge_cases â€” covers 12 lines, validates empty/null inputs
…

Approval needed

Reply with which tests to implement, or “all” to proceed with all.

14. Skill 10: AtualizaÃ§Ã£o coordenada de toolchain (pnpm)

Skill especÃfica para monorepos JavaScript: atualiza a versÃ£o do pnpm, o campo packageManager e os pins de workflow juntos, de forma coordenada.

---
name: pnpm-upgrade
description: Update the pnpm toolchain, packageManager field, and CI workflow pins in a coordinated way. Avoid broad search-and-replace.
---

# pnpm Upgrade

## Trigger

- New pnpm version available
- CI workflow needs toolchain update

## Process

1. Check current pnpm version: `pnpm --version`
2. Check latest available: `npm view pnpm version`
3. Update in coordinated order:
   a. Update local pnpm: `pnpm self-update` or `npm i -g pnpm@latest`
   b. Update `packageManager` field in `package.json`:
      ```json
      "packageManager": "pnpm@X.Y.Z"
      ```
   c. Update CI workflow pins (`.github/workflows/*.yml`):
      Find and update any `pnpm/action-setup` version pins
   d. Update any other toolchain references
4. Run `pnpm i` to refresh lockfile with new version
5. Verify: `pnpm --version`

## Important

- Update ALL references together â€” never leave one behind
- Do NOT use broad search-and-replace â€” update each reference explicitly
- Verify the lockfile is compatible after the upgrade

## Output

pnpm Upgrade: X.Y.Z â†’ A.B.C

Updated

âœ… Local pnpm: A.B.C
âœ… package.json: "packageManager": "pnpm@A.B.C"
âœ… CI workflow: pnpm/action-setup@vN
âœ… Lockfile regenerated

Verification

pnpm --version â†’ A.B.C
pnpm i â†’ clean

15. Escrevendo descriÃ§Ãµes que funcionam como roteamento

O campo description no frontmatter do SKILL.md nÃ£o Ã© estilÃstico â€” Ã© estrutural. O modelo de progressive disclosure do Codex carrega name e description de todas as skills na inicializaÃ§Ã£o. O corpo completo do SKILL.md sÃ³ Ã© carregado quando a skill Ã© ativada.

Isso faz da description um dos principais sinais de roteamento antes mesmo de o Codex ler o resto da skill.

Exemplo ruim vs. bom para `code-change-verification`

âŒ Vago (ruim):

description: Run the mandatory verification stack in the OpenAI Agents JS monorepo.

Diz o que a skill faz, mas nÃ£o diz quando aplicÃ¡-la, que tipos de mudanÃ§as devem acionÃ¡-la, nem se as verificaÃ§Ãµes sÃ£o opcionais.

âœ… EspecÃfico (bom â€” a descriÃ§Ã£o real usada pela OpenAI):

description: Run the mandatory verification stack when changes affect runtime code, tests, or build/test behavior in the OpenAI Agents JS monorepo.

Exemplo ruim vs. bom para `pr-draft-summary`

âŒ Vago:

description: Create a PR title and draft description for a pull request.

âœ… EspecÃfico:

description: Create a PR title and draft description after substantive code changes are finished. Trigger when wrapping up a moderate-or-larger change (runtime code, tests, build config, docs with behavior impact) and you need the PR-ready summary block with change summary plus PR draft text.

A descriÃ§Ã£o boa funciona como metadado de roteamento. Ela diz ao Codex:

Ã‰ para mudanÃ§as substantivas, nÃ£o para todo turno de chat

âš ï¸ LiÃ§Ã£o prÃ¡tica da OpenAI: Se o roteamento das skills parecer nÃ£o confiÃ¡vel, corrija os metadados antes de adicionar mais cÃ³digo. Gaste tempo na description.

16. Separando o que vai no modelo e o que vai nos scripts

Uma divisÃ£o confiÃ¡vel entre modelo e scripts:

Fica com o modelo (Codex)	Vai para `scripts/`
Ler cÃ³digo fonte para inferir comportamento	Rodar comandos de verificaÃ§Ã£o em ordem fixa
Comparar logs com comportamento esperado	Iniciar exemplos, coletar logs, gerar rerun
Decidir se um diff de release tem risco real	Buscar tag da release anterior
Produzir explicaÃ§Ãµes acionÃ¡veis	Expor comandos helper (`start`, `stop`, `status`, `logs`)
InterpretaÃ§Ã£o, comparaÃ§Ã£o, report	Trabalho de shell determinÃstico e repetitivo

Regra prÃ¡tica: Se o modelo precisa redescobrir a mesma receita de shell toda vez, essa receita deveria ser um script. Se a tarefa depende de contexto, tradeoffs ou explicaÃ§Ã£o, essa parte deve ficar com o modelo.

Exemplo de script helper para `examples-auto-run`

#!/usr/bin/env bash
# .agents/skills/examples-auto-run/scripts/run-examples.sh
# Usage: ./run-examples.sh [--retry-failed]

set -euo pipefail

MAIN_LOG="/tmp/examples-main.log"
LOGS_DIR="/tmp/example-logs"
RERUN_FILE="/tmp/examples-rerun.txt"

mkdir -p "$LOGS_DIR"

echo "ðŸƒ Running examples in auto mode..."

if [ "${1:-}" = "--retry-failed" ] && [ -f "$RERUN_FILE" ]; then
    echo "ðŸ“‹ Retrying failed examples from $RERUN_FILE"
    # Run only the failed examples
    while IFS= read -r example; do
        echo "  â†³ $example"
    done < "$RERUN_FILE"
else
    # Full run
    uv run examples/run_examples.py \
        --auto-mode \
        --write-rerun \
        --main-log "$MAIN_LOG" \
        --logs-dir "$LOGS_DIR"
fi

echo "ðŸ“Š Main log: $MAIN_LOG"
echo "ðŸ“ Per-example logs: $LOGS_DIR/"
echo "ðŸ”„ Rerun file: $RERUN_FILE"

17. Automatizando testes de integraÃ§Ã£o

A OpenAI implementou testes de integraÃ§Ã£o em duas camadas:

Camada 1: ValidaÃ§Ã£o de exemplos no repositÃ³rio (`examples-auto-run`)

Antes dessa automaÃ§Ã£o, validar exemplos era parcialmente manual â€” vocÃª rodava os exemplos mas a Ãºltima milha dependia de inspeÃ§Ã£o visual. Isso nÃ£o escala.

Para automatizar, primeiro foi necessÃ¡rio construir o suporte para execuÃ§Ã£o nÃ£o-interativa de exemplos:

Auto-resposta para prompts interativos comuns
Auto-aprovaÃ§Ã£o de aÃ§Ãµes HITL, MCP, apply_patch e shell
Lista de skip para exemplos nÃ£o adequados para automaÃ§Ã£o (realtime, apps Next.js)
Logs estruturados por exemplo
Arquivos de rerun para reexecutar apenas falhas

Comando para Python:

uv run examples/run_examples.py --auto-mode --write-rerun \
  --main-log /tmp/examples-main.log \
  --logs-dir /tmp/example-logs/

Comando para TypeScript:

pnpm examples:start-all

O runner executa os exemplos e preserva stdout/stderr. O Codex entÃ£o interpreta os logs:

LÃª o cÃ³digo fonte e comentÃ¡rios do exemplo
Infere o fluxo pretendido
Abre o log correspondente
Compara comportamento esperado com stdout/stderr real
Faz isso para todos os exemplos bem-sucedidos, nÃ£o apenas uma amostra

Camada 2: Testes de integraÃ§Ã£o pÃ³s-publicaÃ§Ã£o (`integration-tests`, apenas JS)

Este workflow publica os pacotes em um registry Verdaccio local e testa instalaÃ§Ã£o e execuÃ§Ã£o em mÃºltiplos ambientes:

Node.js
Bun
Deno
Cloudflare Workers
Vite React app

Isso pega uma classe diferente de problemas: nÃ£o “o exemplo roda no repositÃ³rio?” mas “o pacote se comporta corretamente depois de publicado, instalado e integrado em runtime?”.

18. Adicionando verificaÃ§Ãµes de release

O workflow de revisÃ£o de release em ambos os repositÃ³rios:

Encontra a tag da release anterior
Faz diff contra a main atual
Pede ao Codex para inspecionar o diff buscando:
– Problemas de compatibilidade retroativa em APIs pÃºblicas
– RegressÃµes, incluindo mudanÃ§as sutis de comportamento
– Notas de migraÃ§Ã£o ou release notes faltantes
Emite um veredito de release readiness

Regra de decisÃ£o do gate: ComeÃ§a de “seguro para publicar” e sÃ³ muda para bloqueado quando o diff mostra evidÃªncia concreta de um problema real. Todo bloqueio deve vir com um checklist de desbloqueio especÃfico.

19. Rodando workflows no CI com GitHub Actions

Quando uma skill funciona bem localmente, o Codex GitHub Action facilita automatizar o mesmo workflow no CI.

Arquivo: .github/workflows/codex-ci.yml

name: Codex CI

on:
  pull_request:
    types: [opened, synchronize, reopened]
  issue_comment:
    types: [created]

jobs:
  codex:
    # Security: only run on trusted events or with explicit approval
    if: |
      github.event_name == 'pull_request' ||
      (github.event_name == 'issue_comment' &&
       github.event.comment.body == '/codex verify')
    runs-on: ubuntu-latest
    permissions:
      contents: read
      pull-requests: write
    steps:
      - uses: actions/checkout@v4

      - name: Setup environment
        run: |
          # Install your project dependencies here
          # Example for Python:
          pip install -e ".[dev]"
          # Example for TypeScript:
          # corepack enable
          # pnpm i

      - name: Run Codex
        uses: openai/codex-action@v1
        with:
          openai_api_key: ${{ secrets.OPENAI_API_KEY }}
          prompt: |
            Run $code-change-verification on the changes in this PR.
            Report the results as a PR comment.

Checklist de seguranÃ§a para GitHub Actions pÃºblico

A documentaÃ§Ã£o oficial de seguranÃ§a do Codex GitHub Action recomenda:

âœ… Limitar quem pode iniciar o workflow
âœ… Preferir eventos confiÃ¡veis ou aprovaÃ§Ã£o explÃcita
âœ… Sanitizar inputs de prompt vindos de PRs, commits, issues ou comentÃ¡rios
âœ… Manter OPENAI_API_KEY protegida com drop-sudo ou usuÃ¡rio nÃ£o privilegiado
âœ… Rodar o Codex como Ãºltimo passo do job

âš ï¸ Se um workflow tem capacidade de escrita e recebe input pÃºblico nÃ£o confiÃ¡vel, o risco estÃ¡ no design do trigger, no handling de input e nos privilÃ©gios de runtime em torno da skill â€” nÃ£o na skill em si.

20. Codex na revisÃ£o de PRs

Desde que o Codex GitHub PR auto review foi disponibilizado, o Codex se tornou um revisor Ãºtil na maioria das mudanÃ§as de cÃ³digo nos repositÃ³rios da OpenAI.

O que o Codex faz bem (review automatizado)

Bugs de programaÃ§Ã£o simples
RegressÃµes
Testes faltantes
PadrÃµes de correÃ§Ã£o repetitivos

O que ainda precisa de revisÃ£o humana

MudanÃ§as de API ou arquitetura com mÃºltiplos designs razoÃ¡veis
MudanÃ§as de comportamento que afetam expectativas de produto ou promessas de compatibilidade
DecisÃµes de nomenclatura, migraÃ§Ã£o e comunicaÃ§Ã£o de release
MudanÃ§as que exigem alinhamento entre maintainers ou times

O AGENTS.md pode codificar essa divisÃ£o: o repositÃ³rio diz ao Codex o que conta como importante para revisÃ£o de corretude, e o Codex aplica essa orientaÃ§Ã£o de forma consistente.

21. Checklist final e prÃ³ximos passos

âœ… Checklist de implementaÃ§Ã£o

[ ] Criar AGENTS.md na raiz com regras obrigatÃ³rias de skills
[ ] Criar diretÃ³rio .agents/skills/
[ ] Implementar code-change-verification (formataÃ§Ã£o + lint + typecheck + testes)
[ ] Implementar implementation-strategy (antes de editar APIs pÃºblicas)
[ ] Implementar pr-draft-summary (handoff de PR padronizado)
[ ] Implementar docs-sync (auditoria de documentaÃ§Ã£o)
[ ] Implementar examples-auto-run (execuÃ§Ã£o automÃ¡tica de exemplos com logs)
[ ] Implementar final-release-review (revisÃ£o de release com diff)
[ ] Implementar test-coverage-improver (gaps de cobertura)
[ ] (Monorepo JS) Implementar changeset-validation
[ ] (Monorepo JS) Implementar pnpm-upgrade
[ ] Revisar descriÃ§Ãµes de skills â€” sÃ£o especÃficas o suficiente para roteamento?
[ ] Extrair trabalho de shell determinÃstico para scripts/
[ ] Configurar Codex GitHub Action para CI
[ ] Revisar checklist de seguranÃ§a do GitHub Action
[ ] Ativar Codex PR auto review

Depois de implementar as skills, monitore:

NÃºmero de PRs mergeados por mÃªs (antes/depois)
Taxa de reprovaÃ§Ã£o no CI (verificaÃ§Ãµes que pegam problemas antes do merge)
Cobertura de testes (tendÃªncia ao longo do tempo)
FrequÃªncia de releases (ciclos mais curtos?)

ðŸ”— Recursos oficiais

Resumo

AGENTS.md diz ao Codex quais workflows sÃ£o obrigatÃ³rios
description nas skills diz quando rotear para cada workflow
scripts/ cuida das partes determinÃsticas
O modelo cuida das partes contextuais
Codex GitHub Action leva o mesmo processo para o CI

O resultado: trabalho de engenharia do dia a dia mais explÃcito, mais confiÃ¡vel e com 44% mais PRs mergeados. Comece com code-change-verification e pr-draft-summary â€” sÃ£o as skills de maior retorno imediato â€” e vÃ¡ expandindo conforme sua confianÃ§a no sistema cresce.

9 de junho de 2026

DuckDB lanÃ§a Quack: protocolo HTTP para anÃ¡lises multiusuÃ¡rio com banco leve e rÃ¡pido
O DuckDB, banco de dados analÃtico open source conhecido por sua leveza e alto desempenho em consultas SQL locais, anunciou recentemente o lanÃ§amento do Quack, um novo protocolo remoto que opera sobre HTTP para conectar mÃºltiplas instÃ¢ncias DuckDB a um mesmo banco de dados via rede.

O que Ã© o Quack e por que ele importa?

AtÃ© entÃ£o, o DuckDB funcionava principalmente como um banco de dados embutido em aplicaÃ§Ãµes, com foco em operaÃ§Ãµes locais. Com o Quack, o DuckDB ganha capacidades de cliente-servidor, permitindo que diversos usuÃ¡rios e aplicaÃ§Ãµes acessem simultaneamente o mesmo banco de dados pela rede, mantendo a leveza e a compatibilidade SQL que o caracterizam.

Isso torna possÃvel compartilhar conjuntos de dados, suportar usuÃ¡rios concorrentes, executar anÃ¡lises remotamente e criar serviÃ§os de dados em produÃ§Ã£o sem a necessidade de migrar para sistemas mais pesados e tradicionais.

Como o Quack funciona e suas vantagens tÃ©cnicas

Quack utiliza conexÃµes HTTP padrÃ£o para comunicaÃ§Ã£o entre clientes e servidores DuckDB, transmitindo dados no formato nativo do DuckDB. Segundo a equipe, esse mÃ©todo Ã© cerca de 3,5 vezes mais rÃ¡pido que o Arrow Flight SQL, protocolo concorrente baseado no Apache Arrow, alÃ©m de superar significativamente o desempenho do PostgreSQL em movimentaÃ§Ã£o de grandes volumes de dados.

Ao optar por desenvolver um protocolo prÃ³prio em vez de adotar o Arrow Flight SQL, os criadores do DuckDB garantem controle total sobre a evoluÃ§Ã£o e otimizaÃ§Ã£o do protocolo, especialmente para consultas pequenas, que podem ser enviadas e receber resultados em uma Ãºnica troca de mensagens, reduzindo latÃªncia.

Quem pode se beneficiar do Quack?

O Quack Ã© ideal para desenvolvedores e equipes que utilizam DuckDB e desejam escalar suas aplicaÃ§Ãµes para mÃºltiplos usuÃ¡rios sem abrir mÃ£o da simplicidade e agilidade. TambÃ©m Ã© uma soluÃ§Ã£o atraente para casos em que a centralizaÃ§Ã£o do estado do banco Ã© mais importante do que consultas locais isoladas â€” um cenÃ¡rio cada vez mais comum com o crescimento dos data lakes.

AlÃ©m disso, o protocolo serÃ¡ integrado ao DuckLake, permitindo que o DuckDB funcione como um catÃ¡logo remoto acessÃvel, ampliando ainda mais sua aplicabilidade em arquiteturas modernas de dados, especialmente em ambientes de engenharia e inteligÃªncia artificial.

Disponibilidade, licenciamento e roadmap

O Quack jÃ¡ estÃ¡ disponÃvel como uma extensÃ£o autocarregÃ¡vel na versÃ£o DuckDB v1.5.3. O DuckDB Ã© distribuÃdo sob a licenÃ§a MIT, o que garante uso livre e permissivo para projetos comerciais e pessoais.

Para usar o Quack, Ã© necessÃ¡rio habilitar a extensÃ£o nas instÃ¢ncias DuckDB que atuarÃ£o como cliente e servidor. A equipe DuckDB planeja lanÃ§ar uma versÃ£o 2.0 ainda em 2026, com melhorias de performance, suporte a bancos remotos, maior throughput de transaÃ§Ãµes, extensÃµes customizÃ¡veis do protocolo e recursos de replicaÃ§Ã£o.

RepercussÃ£o e perspectivas

A comunidade tÃ©cnica recebeu o anÃºncio do Quack com entusiasmo, destacando-o como um passo importante para anÃ¡lises multiusuÃ¡rio compartilhadas, sem sacrificar a leveza e facilidade de implantaÃ§Ã£o do DuckDB. ComentÃ¡rios em fÃ³runs e redes sociais ressaltam que o Quack resolve a limitaÃ§Ã£o histÃ³rica da falta de suporte a mÃºltiplos escritores simultÃ¢neos no DuckDB, abrindo caminho para novos casos de uso, como consultas entre notebooks e comunicaÃ§Ã£o direta via browser.

Links Ãºteis para comeÃ§ar com DuckDB Quack
1 de junho de 2026
Arm libera Metis: framework de IA para seguranÃ§a que supera ferramentas SAST tradicionais
Arm lanÃ§a Metis, framework de seguranÃ§a com inteligÃªncia artificial de Ãºltima geraÃ§Ã£o

A Arm anunciou a abertura do cÃ³digo-fonte do Metis, um framework de seguranÃ§a baseado em inteligÃªncia artificial agentic, projetado para detectar vulnerabilidades complexas em softwares de forma autÃ´noma. Diferentemente das ferramentas tradicionais de anÃ¡lise estÃ¡tica de seguranÃ§a (SAST), que dependem de padrÃµes fixos, o Metis utiliza raciocÃnio semÃ¢ntico para analisar dependÃªncias entre componentes e gera explicaÃ§Ãµes claras em linguagem natural sobre suas descobertas.

Como o Metis revoluciona a detecÃ§Ã£o de vulnerabilidades

Com a crescente complexidade dos cÃ³digos modernos, ferramentas SAST convencionais enfrentam dificuldades para identificar vulnerabilidades que envolvem mÃºltiplas funÃ§Ãµes ou bibliotecas, alÃ©m de apresentarem altas taxas de falso-positivos, que consomem tempo dos desenvolvedores e minam a confianÃ§a nas ferramentas.

O Metis supera essas limitaÃ§Ãµes ao aplicar uma abordagem “agentic”, combinando tÃ©cnicas avanÃ§adas de anÃ¡lise com fluxos de trabalho habilitados por IA. Ele utiliza retrieval-augmented generation (RAG) para aprimorar um modelo de linguagem grande (LLM) base com contexto especÃfico do projeto, extraÃdo do cÃ³digo-fonte, arquivos de build e documentaÃ§Ã£o. Isso permite ao Metis entender melhor o design do sistema e seu comportamento esperado.

Segundo a Arm, essa metodologia possibilita que o Metis analise repositÃ³rios completos, arquivos isolados, pull requests ou alteraÃ§Ãµes recentes no cÃ³digo, entregando atÃ© 10 vezes mais taxa de verdadeiros positivos e cerca de 50% menos falsos positivos em comparaÃ§Ã£o com as melhores ferramentas estÃ¡ticas atuais.

BenefÃcios prÃ¡ticos para equipes de desenvolvimento
- ReduÃ§Ã£o de falsos positivos: diminui o esforÃ§o desperdiÃ§ado em anÃ¡lises incorretas, permitindo foco nas vulnerabilidades reais;
- ExplicaÃ§Ãµes em linguagem natural: facilita o entendimento do problema e acelera a correÃ§Ã£o;
- Compatibilidade e extensibilidade: suporta qualquer LLM compatÃvel com OpenAI e mÃºltiplas linguagens como C, C++, Python, Go, TypeScript, Rust, entre outras;
- IntegraÃ§Ã£o com ferramentas SAST externas: pode validar e reduzir falsos positivos de outras soluÃ§Ãµes;
- Arquitetura plugin: possibilita a extensÃ£o para novos modelos, linguagens e prompts personalizados.
Disponibilidade e uso do Metis

O Metis estÃ¡ disponÃvel gratuitamente no GitHub sob licenÃ§a Apache 2.0, acessÃvel em https://github.com/arm/metis. A configuraÃ§Ã£o do framework Ã© flexÃvel, suportando implantaÃ§Ãµes com Ollama e vLLM, configuradas via arquivo metis.yaml. Por exemplo, para utilizar o Llama 3.1 com Ollama localmente, a configuraÃ§Ã£o deve incluir:
```
llm_provider:
  name: "ollama"
  base_url: "http://localhost:11434/v1"
  model: "llama3.1:8b"
  code_embedding_model: "nomic-embed-text:v1.5"
  docs_embedding_model: "nomic-embed-text:v1.5"
```
Para implantaÃ§Ãµes com vLLM, a Arm recomenda usar o LiteLLM como roteador para coordenar mÃºltiplas instÃ¢ncias do modelo, otimizando o processamento.

Atualmente, o foco do Metis Ã© a anÃ¡lise de vulnerabilidades em sistemas de software, mas a Arm jÃ¡ trabalha para expandir o suporte Ã verificaÃ§Ã£o de vulnerabilidades em hardware.

Internamente, a Arm jÃ¡ monitora mais de 130 projetos de software com o Metis, confirmando sua eficÃ¡cia e escalabilidade.

Impacto esperado e prÃ³ximos passos

Com a liberaÃ§Ã£o do Metis, a Arm oferece uma ferramenta poderosa para equipes de desenvolvimento e seguranÃ§a, que buscam aumentar a precisÃ£o na identificaÃ§Ã£o de vulnerabilidades e reduzir o tempo gasto com falsos alarmes. O uso de IA agentic com explicaÃ§Ãµes detalhadas em linguagem natural promete acelerar a anÃ¡lise e correÃ§Ã£o, elevando a seguranÃ§a dos sistemas.

Links Ãºteis
31 de maio de 2026

Tag: open-source

O que Ã© o Blank Slate

Por que o formato de configuraÃ§Ã£o importa

Casos de uso ideais

ComparaÃ§Ã£o entre os modos

Disponibilidade

O problema que o YaFF resolve

Como funcionam os layouts

Benchmarks impressionantes

Caso de uso real: economia de 10-20% de CPU

O cÃ³digo em aÃ§Ã£o

Disponibilidade

O que Ã© o SpatialClaw

Por que a Interface de AÃ§Ã£o Importa

Benchmark e Resultados

Por que Isso Importa

Como funciona o MSA

Treinamento com KL Divergence

Resultados competitivos com atenÃ§Ã£o completa

Kernel open source e MiniMax-M3

Por que isso importa

O Problema que o OKF Resolve

A InspiraÃ§Ã£o: O “LLM Wiki” do Karpathy

Como Funciona na PrÃ¡tica

PrincÃ­pios de Design

OKF vs. Alternativas

O Que Foi LanÃ§ado

Por Que Isso Importa

Contexto de 1 MilhÃ£o de Tokens

Dois NÃ­veis de EsforÃ§o de RaciocÃ­nio

Arquitetura

Sem Benchmarks no LanÃ§amento

Casos de Uso

Open Source e LicenÃ§a MIT

Compatibilidade

O problema que o Omnigent resolve

TrÃªs capacidades principais

1. ComposiÃ§Ã£o

2. Controle (polÃ­ticas com estado)

3. ColaboraÃ§Ã£o em tempo real

Arquitetura

Agentes de exemplo incluÃ­dos

Polly â€” Orquestrador multi-agente para cÃ³digo

Debby â€” Parceiro de brainstorming com duas cabeÃ§as

Por que isso importa

Disponibilidade

Arquitetura HÃ­brida Mamba2-Transformer

Performance em Benchmarks

Vantagem de Velocidade

Casos de Uso

PreÃ§o que viabiliza escala populacional

IA com consciÃªncia cultural

LanÃ§amento aberto e ecossistema

EstratÃ©gia pragmÃ¡tica da Ãndia

Como Usar Skills e o Agents SDK da OpenAI para Acelerar a ManutenÃ§Ã£o de Software Livre â€” Tutorial Completo

Ãndice

1. O que sÃ£o skills e por que elas funcionam

2. Estrutura de diretÃ³rios e arquivos

3. Escrevendo o AGENTS.md

Adicionando regras especÃ­ficas para monorepo JavaScript

4. Criando sua primeira skill: SKILL.md

5. Skill 1: VerificaÃ§Ã£o obrigatÃ³ria de cÃ³digo

Para projetos Python

Para projetos TypeScript/JavaScript (monorepo)

6. Skill 2: SincronizaÃ§Ã£o de documentaÃ§Ã£o

Documentation Audit

ðŸ”´ Missing (N)

ðŸŸ¡ Incorrect (N)

ðŸ”µ Stale (N)

Recommended actions

7. Skill 3: ExecuÃ§Ã£o automÃ¡tica de exemplos

Examples Run Report

Summary

âœ… Passed examples

âŒ Failed examples

â­ï¸ Skipped

8. Skill 4: RevisÃ£o de release

9. Skill 5: EstratÃ©gia de implementaÃ§Ã£o

Implementation Strategy

Scope

PrincÃpios de Design

Dois NÃveis de EsforÃ§o de RaciocÃnio

2. Controle (polÃticas com estado)

Agentes de exemplo incluÃdos

Arquitetura HÃbrida Mamba2-Transformer

EstratÃ©gia pragmÃ¡tica da Ãndia

Ãndice

Adicionando regras especÃficas para monorepo JavaScript

âŒ Failed examples

âï¸ Skipped

Exemplo ruim vs. bom para `code-change-verification`

Exemplo ruim vs. bom para `pr-draft-summary`

Exemplo de script helper para `examples-auto-run`

Camada 1: ValidaÃ§Ã£o de exemplos no repositÃ³rio (`examples-auto-run`)

Camada 2: Testes de integraÃ§Ã£o pÃ³s-publicaÃ§Ã£o (`integration-tests`, apenas JS)

BenefÃcios prÃ¡ticos para equipes de desenvolvimento