Desafios na Avaliação de Agentes de Voz

\n

Agentes de voz conversacionais precisam equilibrar duas dimensões essenciais para o sucesso: precisão — a capacidade de completar corretamente a tarefa solicitada pelo usuário — e experiência conversacional — a fluidez, naturalidade e concisão na interação falada. Avaliar esses aspectos conjuntamente é complexo, pois um agente pode ser excelente em concluir uma tarefa, mas entregar uma experiência frustrante para o usuário, ou vice-versa.

\n

As abordagens existentes tendem a avaliar essas dimensões de forma isolada, focando apenas em transcrição, qualidade da fala ou dinâmicas conversacionais, sem integrar o desempenho em tarefas reais e a experiência do usuário em um único framework.

\n\n

O que é o EVA?

\n

O EVA (Evaluation of Voice Agents) é um framework inovador, desenvolvido pela equipe ServiceNow-AI e disponibilizado pela Hugging Face, que propõe uma avaliação end-to-end de agentes de voz, simulando conversas reais multi-turno em áudio. O diferencial do EVA é sua arquitetura bot-a-bot que combina avaliação de precisão (EVA-A) e experiência (EVA-X), permitindo identificar falhas de forma integrada.

\n

O EVA foi lançado com um conjunto inicial de 50 cenários no domínio de companhias aéreas, incluindo rebooking de voos, cancelamentos, vouchers e outros casos que exigem raciocínio temporal, cumprimento de políticas e manipulação de entidades nomeadas.

\n\n

Arquitetura e Componentes do EVA

\n

\n\n

Detalhes dos Dados e Cenários

\n

Cada cenário do EVA é estruturado para ser reproduzível, contendo:

\n

\n\n

Métricas de Avaliação: EVA-A e EVA-X

\n

EVA-A (Precisão)

\n

\n

EVA-X (Experiência)

\n

\n\n

Principais Resultados da Avaliação

\n

Testando 20 sistemas diversos — proprietários e open-source, em cascata e nativos de áudio — o EVA revelou um trade-off consistente entre precisão e experiência. Agentes com alta taxa de conclusão de tarefa tendem a oferecer experiências conversacionais inferiores, enquanto os que proporcionam melhor experiência falham mais na tarefa.

\n

Outros achados incluem:

\n

\n\n

Limitações Reconhecidas pelo EVA

\n

\n\n

Próximos Passos e Expansões

\n

O desenvolvimento do EVA prevê:

\n

\n\n

Como Começar a Usar o EVA

\n

O código-fonte, dataset e prompts de avaliação do EVA estão disponíveis no GitHub: https://github.com/ServiceNow/eva. Para mais informações, documentação e acesso à plataforma Hugging Face, visite https://huggingface.co/docs.

\n\n

Links úteis

\n

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *