Home / Inteligência Artificial / Amazon Polly lança API de Streaming Bidirecional para Síntese de Voz em Tempo Real

Amazon Polly lança API de Streaming Bidirecional para Síntese de Voz em Tempo Real

A Amazon Web Services (AWS) anunciou uma inovação importante para aplicações de inteligência artificial conversacional: a API Bidirectional Streaming do Amazon Polly. Essa novidade permite a síntese de voz em tempo real, com envio e recebimento simultâneo de texto e áudio, revolucionando a experiência de texto para fala (TTS) em sistemas que geram respostas incrementalmente, como assistentes virtuais baseados em modelos de linguagem de grande porte (LLMs).

\n\n

O que muda com a API Bidirectional Streaming do Amazon Polly

\n

Até então, as APIs tradicionais de TTS seguiam um modelo de requisição e resposta, onde era necessário aguardar o texto completo para iniciar a síntese de voz. O Amazon Polly já permitia o streaming de áudio, mas o envio do texto ainda dependia de ter o conteúdo integral pronto. Isso gerava atrasos, especialmente em aplicações que produzem texto token por token, como os LLMs.

\n

A nova API StartSpeechSynthesisStream rompe essa barreira ao possibilitar:

\n

    \n

  • Envio incremental de texto: texto pode ser enviado conforme é gerado, sem esperar por sentenças ou parágrafos completos;
  • \n

  • Recebimento imediato do áudio: o áudio sintetizado chega em tempo real, acompanhando a geração do texto;
  • \n

  • Comunicação duplex verdadeira: texto e áudio trafegam simultaneamente pela mesma conexão HTTP/2;
  • \n

  • Controle sobre a síntese: configurações de flush permitem disparar a síntese imediatamente para o texto acumulado.
  • \n

\n\n

Quem pode usar e onde acessar

\n

A API é indicada para desenvolvedores de aplicações de IA conversacional, assistentes virtuais, sistemas de tradução em tempo real, IVRs dinâmicos, ferramentas de acessibilidade, jogos com diálogos dinâmicos e legendagem ao vivo, entre outros casos que demandam respostas de voz rápidas e naturais.

\n

Está disponível para uso geral (GA) e pode ser acessada via AWS SDK com suporte para Java 2.x, JavaScript v3, .NET v4, C++, Go v2, Kotlin, PHP v3, Ruby v3, Rust e Swift. Ainda não há suporte para Python, .NET v3 e algumas versões do AWS CLI e PowerShell.

\n

Para começar, é necessário criar uma conta AWS (veja links úteis abaixo) e atualizar o SDK para a versão que oferece suporte à nova API. A documentação oficial detalha os parâmetros e exemplos de implementação.

\n\n

Como a API impacta na prática

\n

Benchmark realizado pela AWS com um texto de 7.045 caracteres mostrou que o tempo total de processamento caiu de cerca de 115 segundos para 70 segundos, uma melhoria de 39%. Além disso, o número de chamadas à API foi reduzido de 27 para apenas uma, simplificando a arquitetura e diminuindo custos operacionais.

\n

Essa redução de latência significa que usuários escutam a resposta quase em tempo real, mesmo enquanto o modelo de linguagem ainda está gerando o texto. Isso melhora significativamente a experiência do usuário, tornando as interações mais naturais e engajantes.

\n\n

Exemplo prático de integração

\n

O uso da API envolve criar um cliente assíncrono do Polly, configurar a solicitação com voz, engine, formato e taxa de amostragem, e depois enviar eventos de texto conforme os tokens são gerados pelo LLM. O áudio é recebido por meio de handlers que processam os pacotes em fluxo contínuo.

\n

Um exemplo em Java mostra como iniciar o stream, enviar fragmentos de texto e fechar a conexão ao final da geração. Também é possível controlar o momento da síntese com a configuração de flush para otimizar qualidade e latência.

\n\n

Benefícios para negócios e desenvolvedores

\n

    \n

  • Experiência do usuário aprimorada: menor tempo de espera e respostas mais fluidas;
  • \n

  • Arquitetura simplificada: elimina necessidade de servidores intermediários, lógica de separação de texto e reagrupamento de áudio;
  • \n

  • Redução de custos operacionais: menos chamadas API e infraestrutura mais enxuta;
  • \n

  • Flexibilidade: controle fino sobre o fluxo de síntese para diferentes cenários.
  • \n

\n\n

Links úteis para começar

\n

\n\n

Com a API de streaming bidirecional do Amazon Polly, desenvolvedores ganham uma ferramenta poderosa para criar experiências conversacionais mais rápidas, naturais e eficientes. A AWS reforça seu compromisso em facilitar a adoção de IA generativa e tecnologias de voz em aplicações de ponta.

Marcado:

Deixe um Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *