Nova funcionalidade para aprimorar agentes de IA com Supervised Fine-Tuning e Direct Preference Optimization
\n
A Amazon Web Services (AWS) anunciou uma solução integrada no Amazon SageMaker AI que permite melhorar significativamente a precisão na seleção de ferramentas por agentes baseados em pequenos modelos de linguagem (SLMs). Utilizando as técnicas de Supervised Fine-Tuning (SFT) e Direct Preference Optimization (DPO) em conjunto, essa novidade facilita o treinamento e a otimização de agentes para que eles escolham corretamente as ferramentas necessárias para executar tarefas complexas, reduzindo erros e aumentando a eficiência.
\n\n
Por que a precisão em tool-calling é essencial para agentes de IA?
\n
Agentes de IA que realizam tarefas complexas dependem da capacidade de chamar as ferramentas certas para acessar informações ou executar ações. Quando um agente escolhe a ferramenta incorreta, erra parâmetros ou interrompe fluxos de trabalho, isso resulta em aumento do tempo para concluir tarefas, elevação das taxas de erro, maiores custos de suporte e pior experiência para o usuário final. Com a adoção crescente de agentes autônomos em ambientes produtivos, garantir que eles selecionem corretamente as ferramentas tornou-se fundamental para automação confiável.
\n\n
Como funcionam SFT e DPO no Amazon SageMaker AI?
\n
Supervised Fine-Tuning (SFT) consiste em ajustar o modelo com um conjunto de dados de alta qualidade, que oferece exemplos explícitos de como ele deve interagir com ferramentas específicas, reconhecendo nuances de linguagem e comandos. Já o Direct Preference Optimization (DPO) incorpora feedback humano ou objetivos pré-definidos diretamente no loop de treinamento, alinhando a saída do modelo às preferências desejadas sem a complexidade dos métodos tradicionais de aprendizado por reforço.
\n
Essa combinação permite um refinamento robusto dos modelos, tornando-os mais aptos a gerar respostas adequadas e executar chamadas de ferramentas com maior acurácia, tudo isso utilizando a infraestrutura gerenciada do SageMaker AI, que automatiza o provisionamento de recursos e o gerenciamento do ambiente de treinamento.
\n\n
Quem pode utilizar e como acessar essa funcionalidade?
\n
Desenvolvedores, cientistas de dados e equipes de machine learning que já utilizam o Amazon SageMaker podem aproveitar essas técnicas para aprimorar seus agentes de linguagem. É necessário possuir uma conta AWS, configurar permissões com IAM e preparar o ambiente para execução dos jobs de treinamento, que podem ser realizados em instâncias otimizadas para GPU, como a ml.p4d.24xlarge.
\n
O processo pode ser iniciado diretamente no console do SageMaker ou via SDKs, com integração para notebooks Jupyter no SageMaker Studio. O código de exemplo, incluindo scripts para SFT e DPO, está disponível no repositório oficial da AWS no GitHub (link para o repositório).
\n\n
Configuração e treinamento: passos essenciais
\n
- \n
- Preparar o ambiente AWS com permissões IAM e configurar AWS CLI.
- Clonar o repositório com os scripts e datasets de exemplo.
- Utilizar o dataset When2Call, da NVIDIA, para treinar o modelo com exemplos de chamadas corretas e incorretas de ferramentas.
- Executar o fine-tuning supervisionado (SFT) para ajustar o modelo base Qwen3-1.7B.
- Aplicar o Direct Preference Optimization (DPO) para refinar o modelo com base em preferências explícitas.
- Monitorar métricas e realizar avaliações comparando o modelo base com as versões ajustadas.
\n
\n
\n
\n
\n
\n
\n
Todo o treinamento é realizado em jobs gerenciados pelo SageMaker AI, que suporta clusters multi-GPU e multi-nó, além de integração com MLflow para rastreamento e análise dos experimentos.
\n\n
Impacto prático para empresas e desenvolvedores
\n
Com essa funcionalidade, empresas que desenvolvem agentes conversacionais ou sistemas automatizados ganham maior controle sobre a qualidade das interações, reduzindo falhas causadas por chamadas incorretas de ferramentas. Isso melhora a experiência do usuário, otimiza processos internos e reduz custos operacionais relacionados a erros e suporte.
\n
A disponibilidade de uma solução gerenciada e escalável no SageMaker AI torna o processo de fine-tuning mais acessível, permitindo que equipes foquem em melhorar a lógica e o desempenho dos agentes, sem se preocupar com a complexidade da infraestrutura.
\n\n
Preços e limites
\n
Os custos associados ao uso do SageMaker AI para notebooks e jobs de treinamento variam conforme a configuração das instâncias e o tempo de uso. A AWS disponibiliza uma página detalhada com a tabela de preços do SageMaker AI. É importante verificar também as cotas de serviço para garantir a disponibilidade das instâncias necessárias, que podem ser consultadas no AWS Service Quotas.
\n\n
Links úteis para começar
\n

