Home / Inteligência Artificial / Amazon Polly lança API de Streaming Bidirecional para Síntese de Voz em Tempo Real

Inteligência Artificial

Amazon Polly lança API de Streaming Bidirecional para Síntese de Voz em Tempo Real

26 de março de 2026 17:45

A Amazon Web Services (AWS) anunciou uma inovação importante para aplicações de inteligência artificial conversacional: a API Bidirectional Streaming do Amazon Polly. Essa novidade permite a síntese de voz em tempo real, com envio e recebimento simultâneo de texto e áudio, revolucionando a experiência de texto para fala (TTS) em sistemas que geram respostas incrementalmente, como assistentes virtuais baseados em modelos de linguagem de grande porte (LLMs).

\n\n

O que muda com a API Bidirectional Streaming do Amazon Polly

Até então, as APIs tradicionais de TTS seguiam um modelo de requisição e resposta, onde era necessário aguardar o texto completo para iniciar a síntese de voz. O Amazon Polly já permitia o streaming de áudio, mas o envio do texto ainda dependia de ter o conteúdo integral pronto. Isso gerava atrasos, especialmente em aplicações que produzem texto token por token, como os LLMs.

A nova API StartSpeechSynthesisStream rompe essa barreira ao possibilitar:

Envio incremental de texto: texto pode ser enviado conforme é gerado, sem esperar por sentenças ou parágrafos completos;

Recebimento imediato do áudio: o áudio sintetizado chega em tempo real, acompanhando a geração do texto;

Comunicação duplex verdadeira: texto e áudio trafegam simultaneamente pela mesma conexão HTTP/2;

Controle sobre a síntese: configurações de flush permitem disparar a síntese imediatamente para o texto acumulado.

\n\n

Quem pode usar e onde acessar

A API é indicada para desenvolvedores de aplicações de IA conversacional, assistentes virtuais, sistemas de tradução em tempo real, IVRs dinâmicos, ferramentas de acessibilidade, jogos com diálogos dinâmicos e legendagem ao vivo, entre outros casos que demandam respostas de voz rápidas e naturais.

Está disponível para uso geral (GA) e pode ser acessada via AWS SDK com suporte para Java 2.x, JavaScript v3, .NET v4, C++, Go v2, Kotlin, PHP v3, Ruby v3, Rust e Swift. Ainda não há suporte para Python, .NET v3 e algumas versões do AWS CLI e PowerShell.

Para começar, é necessário criar uma conta AWS (veja links úteis abaixo) e atualizar o SDK para a versão que oferece suporte à nova API. A documentação oficial detalha os parâmetros e exemplos de implementação.

\n\n

Como a API impacta na prática

Benchmark realizado pela AWS com um texto de 7.045 caracteres mostrou que o tempo total de processamento caiu de cerca de 115 segundos para 70 segundos, uma melhoria de 39%. Além disso, o número de chamadas à API foi reduzido de 27 para apenas uma, simplificando a arquitetura e diminuindo custos operacionais.

Essa redução de latência significa que usuários escutam a resposta quase em tempo real, mesmo enquanto o modelo de linguagem ainda está gerando o texto. Isso melhora significativamente a experiência do usuário, tornando as interações mais naturais e engajantes.

\n\n

Exemplo prático de integração

O uso da API envolve criar um cliente assíncrono do Polly, configurar a solicitação com voz, engine, formato e taxa de amostragem, e depois enviar eventos de texto conforme os tokens são gerados pelo LLM. O áudio é recebido por meio de handlers que processam os pacotes em fluxo contínuo.

Um exemplo em Java mostra como iniciar o stream, enviar fragmentos de texto e fechar a conexão ao final da geração. Também é possível controlar o momento da síntese com a configuração de flush para otimizar qualidade e latência.

\n\n

Benefícios para negócios e desenvolvedores

Experiência do usuário aprimorada: menor tempo de espera e respostas mais fluidas;

Arquitetura simplificada: elimina necessidade de servidores intermediários, lógica de separação de texto e reagrupamento de áudio;

Redução de custos operacionais: menos chamadas API e infraestrutura mais enxuta;

Flexibilidade: controle fino sobre o fluxo de síntese para diferentes cenários.

\n\n

Links úteis para começar

Documentação da API StartSpeechSynthesisStream

Criar conta AWS

Post oficial no AWS ML Blog

AWS re:Post

\n\n

Com a API de streaming bidirecional do Amazon Polly, desenvolvedores ganham uma ferramenta poderosa para criar experiências conversacionais mais rápidas, naturais e eficientes. A AWS reforça seu compromisso em facilitar a adoção de IA generativa e tecnologias de voz em aplicações de ponta.

Marcado:Amazon Polly API aws Desenvolvimento inteligência artificial conversacional llm síntese de voz streaming bidirecional tempo real text-to-speech

tiago

Amazon Polly lança API de Streaming Bidirecional para Síntese de Voz em Tempo Real

O que muda com a API Bidirectional Streaming do Amazon Polly

Quem pode usar e onde acessar

Como a API impacta na prática

Exemplo prático de integração

Benefícios para negócios e desenvolvedores

Links úteis para começar

Como acelerar o fine-tuning de LLMs com dados não estruturados usando SageMaker Unified Studio e Amazon S3

Reform UK propõe que Big Tech compartilhe custos de fraudes financeiras com bancos

Deixe um Comentário Cancelar resposta

Featured Posts

iOS 27: os recursos práticos de IA que vão transformar seu iPhone além da Siri

Governo Trump força Anthropic a tirar modelos Fable 5 e Mythos 5 do ar: quem se beneficia?

Claude-Mem: a “memória infinita” que faz o Claude Code lembrar do que já fez

Amazon Polly lança API de Streaming Bidirecional para Síntese de Voz em Tempo Real

O que muda com a API Bidirectional Streaming do Amazon Polly

Quem pode usar e onde acessar

Como a API impacta na prática

Exemplo prático de integração

Benefícios para negócios e desenvolvedores

Links úteis para começar

Como acelerar o fine-tuning de LLMs com dados não estruturados usando SageMaker Unified Studio e Amazon S3

Reform UK propõe que Big Tech compartilhe custos de fraudes financeiras com bancos

Related Posts

Deixe um Comentário Cancelar resposta

Social Icons

Featured Posts