A NVIDIA lançou oficialmente o modelo Canary-1B-v2, um sistema de reconhecimento de fala (ASR) e tradução multilíngue com 1 bilhão de parâmetros. O modelo é open-source, está disponível no NeMo da NVIDIA e suporta transcrição e tradução para 25 idiomas, incluindo o português.
O Canary-1B-v2 é uma evolução significativa dos modelos anteriores da linha Canary. Ele foi projetado para ser executado eficientemente em GPUs e entrega transcrições com timestamps de palavras e segmentos, além de exportação automática de legendas no formato SRT — ideal para criadores de conteúdo, plataformas de vídeo e acessibilidade.
Principais capacidades
- ASR (Automatic Speech Recognition): transcrição precisa de fala para texto em inglês e outros idiomas suportados
- Tradução de fala: converte áudio em um idioma para texto em outro idioma (ex: áudio em inglês → legendas em francês, alemão, espanhol)
- Timestamps: geração de marcas de tempo por palavra e por segmento
- Exportação SRT: legendas prontas para uso no YouTube, Vimeo e players de vídeo
- Processamento em lote: transcrição de múltiplos arquivos em paralelo
- Long-form: suporte a arquivos de áudio longos
Como usar
O modelo pode ser carregado com poucas linhas de código usando o NeMo toolkit da NVIDIA:
from nemo.collections.asr.models import ASRModel
model = ASRModel.from_pretrained("nvidia/canary-1b-v2").to("cuda").eval()
# Transcrição em inglês
result = model.transcribe(["audio.wav"], source_lang="en", target_lang="en")
print(result[0].text)
# Tradução EN → Português
result = model.transcribe(["audio.wav"], source_lang="en", target_lang="pt")
print(result[0].text)
O pipeline completo inclui preparação do áudio em 16 kHz mono, transcrição, tradução, geração de timestamps e exportação SRT — tudo em um fluxo de trabalho reprodutível que funciona tanto em notebooks Google Colab quanto em produção.
Por que isso importa
O Canary-1B-v2 coloca a NVIDIA em posição competitiva frente a modelos como Whisper (OpenAI) e SeamlessM4T (Meta), oferecendo uma alternativa open-source com desempenho otimizado para GPUs NVIDIA. A capacidade de exportar legendas SRT diretamente e o suporte a 25 idiomas tornam o modelo particularmente útil para empresas de mídia, plataformas de e-learning e ferramentas de acessibilidade.
Com 1 bilhão de parâmetros, o Canary-1B-v2 equilibra qualidade e eficiência computacional, sendo viável para execução em GPUs de consumo como a RTX 4090.
Fonte: Marktechpost









