Início / 7411 / NVIDIA lança Canary-1B-v2: ASR multilíngue open-source com 25 idiomas e exportação de legendas SRT | IA em Foco

NVIDIA lança Canary-1B-v2: ASR multilíngue open-source com 25 idiomas e exportação de legendas SRT | IA em Foco

A NVIDIA lançou oficialmente o modelo Canary-1B-v2, um sistema de reconhecimento de fala (ASR) e tradução multilíngue com 1 bilhão de parâmetros. O modelo é open-source, está disponível no NeMo da NVIDIA e suporta transcrição e tradução para 25 idiomas, incluindo o português.

O Canary-1B-v2 é uma evolução significativa dos modelos anteriores da linha Canary. Ele foi projetado para ser executado eficientemente em GPUs e entrega transcrições com timestamps de palavras e segmentos, além de exportação automática de legendas no formato SRT — ideal para criadores de conteúdo, plataformas de vídeo e acessibilidade.

Principais capacidades

  • ASR (Automatic Speech Recognition): transcrição precisa de fala para texto em inglês e outros idiomas suportados
  • Tradução de fala: converte áudio em um idioma para texto em outro idioma (ex: áudio em inglês → legendas em francês, alemão, espanhol)
  • Timestamps: geração de marcas de tempo por palavra e por segmento
  • Exportação SRT: legendas prontas para uso no YouTube, Vimeo e players de vídeo
  • Processamento em lote: transcrição de múltiplos arquivos em paralelo
  • Long-form: suporte a arquivos de áudio longos

Como usar

O modelo pode ser carregado com poucas linhas de código usando o NeMo toolkit da NVIDIA:

from nemo.collections.asr.models import ASRModel

model = ASRModel.from_pretrained("nvidia/canary-1b-v2").to("cuda").eval()

# Transcrição em inglês
result = model.transcribe(["audio.wav"], source_lang="en", target_lang="en")
print(result[0].text)

# Tradução EN → Português
result = model.transcribe(["audio.wav"], source_lang="en", target_lang="pt")
print(result[0].text)

O pipeline completo inclui preparação do áudio em 16 kHz mono, transcrição, tradução, geração de timestamps e exportação SRT — tudo em um fluxo de trabalho reprodutível que funciona tanto em notebooks Google Colab quanto em produção.

Por que isso importa

O Canary-1B-v2 coloca a NVIDIA em posição competitiva frente a modelos como Whisper (OpenAI) e SeamlessM4T (Meta), oferecendo uma alternativa open-source com desempenho otimizado para GPUs NVIDIA. A capacidade de exportar legendas SRT diretamente e o suporte a 25 idiomas tornam o modelo particularmente útil para empresas de mídia, plataformas de e-learning e ferramentas de acessibilidade.

Com 1 bilhão de parâmetros, o Canary-1B-v2 equilibra qualidade e eficiência computacional, sendo viável para execução em GPUs de consumo como a RTX 4090.


Fonte: Marktechpost

Deixe um Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *