Zipformer¶

Zipformer 是小米集团新一代 Kaldi 团队研发的新型语音编码器，它具有效果更好、计算更快、更省内存等诸多优点，是 google conformer 模型发布以后首个已知的在单数据集（Librispeech）上超越 conformer 论文的语音编码器，Zipformer 被 ICLR 2024 接收为 Oral 论文 (前 1.2%)。

概述¶

Zipformer 模型里面有众多的创新，主要的包括:

高效的模型结构：Downsampled encoder structure 和 Zipformer block
新 normalization：BiasNorm
新激活函数：Swoosh
新优化器：ScaledAdam 优化器
激活值限制策略：Balancer 和 Whitener

更多的细节请阅读论文, 中文用户也可以查阅我们的博客

快速开始¶

pip install zipformer

Note

下面的示例采用非流式的 medium 模型，更多模型请查看文档

命令行¶

# Use jit scripted model
# Transducer
zipformer inference --ms-model pkufool/zipformer-medium --model-type jit --ctc 0 en.wav zh.wav

# CTC
zipformer inference --ms-model pkufool/zipformer-medium --model-type jit --ctc 1 en.wav zh.wav

# Use onnx model
# Transducer
zipformer inference --ms-model pkufool/zipformer-medium --model-type onnx --ctc 0 en.wav zh.wav

# CTC
zipformer inference --ms-model pkufool/zipformer-medium --model-type onnx --ctc 1 en.wav zh.wav

Python API¶

from zipformer import inference

# jit scripted mdoel
result = inference([en.wav, zh.wav], ms_model='pkufool/zipformer-medium', model_type='jit', ctc=False)

result = inference([en.wav, zh.wav], ms_model='pkufool/zipformer-medium', model_type='jit', ctc=True)

# onnx model
result = inference([en.wav, zh.wav], ms_model='pkufool/zipformer-medium', model_type='onnx', ctc=False)

result = inference([en.wav, zh.wav], ms_model='pkufool/zipformer-medium', model_type='onnx', ctc=True)

# fp16 model
result = inference([en.wav, zh.wav], ms_model='pkufool/zipformer-medium', model_type='onnx', ctc=False, dtype='fp16')

result = inference([en.wav, zh.wav], ms_model='pkufool/zipformer-medium', model_type='onnx', ctc=True, dtype='fp16')

评论

如果您通过 github 登录评论有困难，您可以加入我们的微信和QQ群与广大开发者一起交流，也欢迎大家关注我们的微信公众号。