Nova solução de voz da Mistral é leve, rápida e multilíngue
\n
A empresa francesa de inteligência artificial Mistral apresentou um novo modelo open-source para geração de fala, chamado Voxtral TTS. Voltado para assistentes de voz e aplicações empresariais como suporte ao cliente e agentes de vendas, o modelo traz inovação ao conseguir rodar em dispositivos de borda, como smartwatches, smartphones e laptops, com alto desempenho e baixo custo.
\n\n
Recursos e funcionalidades do Voxtral TTS
\n
- \n
- Suporte a nove idiomas: inglês, francês, alemão, espanhol, holandês, português, italiano, hindi e árabe;
- Capacidade de adaptação a uma voz personalizada com apenas cinco segundos de amostra;
- Captura de nuances vocais, como sotaques, inflexões, entonações e irregularidades naturais da fala;
- Transição fluida entre idiomas mantendo características vocais, ideal para dublagem e tradução em tempo real;
- Baixo tempo para início da fala (TTFA) de 90ms para um trecho de 10 segundos com 500 caracteres;
- Fator de tempo real (RTF) de 6x, permitindo gerar 10 segundos de áudio em aproximadamente 1,6 segundos.
\n
\n
\n
\n
\n
\n
\n\n
Para quem é indicado e como acessar
\n
O Voxtral TTS é direcionado a empresas que desejam montar agentes de voz para vendas, atendimento e outras interações com clientes, oferecendo uma alternativa open-source aos modelos proprietários de concorrentes como ElevenLabs, Deepgram e OpenAI. A Mistral aposta na facilidade de customização e no custo reduzido para atrair adoção corporativa.
\n

\n
Por ser open-source, o modelo pode ser acessado e adaptado por desenvolvedores e empresas diretamente nos repositórios oficiais da Mistral. O modelo é baseado no Ministral 3B, que oferece alta qualidade e desempenho.
\n\n
Impacto prático e próximos passos da Mistral
\n
Além do Voxtral TTS, a Mistral lançou anteriormente dois modelos de transcrição, um para processamento em lote e outro para uso em tempo real com baixa latência. A empresa planeja evoluir para uma plataforma completa e multimodal, capaz de processar e gerar áudio, texto e imagens, ampliando as possibilidades de agentes inteligentes.
\n
Segundo Pierre Stock, vice-presidente de operações científicas da Mistral, a meta é que o sistema seja capaz de entender e interagir com múltiplos tipos de dados simultaneamente, aumentando a eficiência e qualidade das interações automatizadas.
\n\n
Links úteis
\n
