Home / Inteligência Artificial / Mistral lança modelo open-source para geração de voz que roda em smartwatches e smartphones

Mistral lança modelo open-source para geração de voz que roda em smartwatches e smartphones

Nova solução de voz da Mistral é leve, rápida e multilíngue

\n

A empresa francesa de inteligência artificial Mistral apresentou um novo modelo open-source para geração de fala, chamado Voxtral TTS. Voltado para assistentes de voz e aplicações empresariais como suporte ao cliente e agentes de vendas, o modelo traz inovação ao conseguir rodar em dispositivos de borda, como smartwatches, smartphones e laptops, com alto desempenho e baixo custo.

\n\n

Recursos e funcionalidades do Voxtral TTS

\n

    \n

  • Suporte a nove idiomas: inglês, francês, alemão, espanhol, holandês, português, italiano, hindi e árabe;
  • \n

  • Capacidade de adaptação a uma voz personalizada com apenas cinco segundos de amostra;
  • \n

  • Captura de nuances vocais, como sotaques, inflexões, entonações e irregularidades naturais da fala;
  • \n

  • Transição fluida entre idiomas mantendo características vocais, ideal para dublagem e tradução em tempo real;
  • \n

  • Baixo tempo para início da fala (TTFA) de 90ms para um trecho de 10 segundos com 500 caracteres;
  • \n

  • Fator de tempo real (RTF) de 6x, permitindo gerar 10 segundos de áudio em aproximadamente 1,6 segundos.
  • \n

\n\n

Para quem é indicado e como acessar

\n

O Voxtral TTS é direcionado a empresas que desejam montar agentes de voz para vendas, atendimento e outras interações com clientes, oferecendo uma alternativa open-source aos modelos proprietários de concorrentes como ElevenLabs, Deepgram e OpenAI. A Mistral aposta na facilidade de customização e no custo reduzido para atrair adoção corporativa.

\n

Imagem relacionada ao artigo de TechCrunch AI
Imagem de apoio da materia original.

\n

Por ser open-source, o modelo pode ser acessado e adaptado por desenvolvedores e empresas diretamente nos repositórios oficiais da Mistral. O modelo é baseado no Ministral 3B, que oferece alta qualidade e desempenho.

\n\n

Impacto prático e próximos passos da Mistral

\n

Além do Voxtral TTS, a Mistral lançou anteriormente dois modelos de transcrição, um para processamento em lote e outro para uso em tempo real com baixa latência. A empresa planeja evoluir para uma plataforma completa e multimodal, capaz de processar e gerar áudio, texto e imagens, ampliando as possibilidades de agentes inteligentes.

\n

Segundo Pierre Stock, vice-presidente de operações científicas da Mistral, a meta é que o sistema seja capaz de entender e interagir com múltiplos tipos de dados simultaneamente, aumentando a eficiência e qualidade das interações automatizadas.

\n\n

Links úteis

\n

Marcado:

Deixe um Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *