01月08日,星期一 11:45
火讯财经讯,据站长之家1月8日报道,开源对话AI工具包NVIDIANeMo宣布推出ParakeetASR模型系列,这是一系列最先进的自动语音识别(ASR)模型,能够以出色的准确性转录英语口语。英伟达宣布推出了四个Parakeet模型,这些模型基于RNNTransducer/ConnectionistTemporalClassification解码器,并且具有0.6-1.1亿参数。它们能够应对各种音频环境,并且在仅使用了64000小时的数据集进行训练后,在基准数据集上实现了出色的词错误率(WER)表现,优于以往的模型。根据开发人员的说法,这些模型对音乐和静音等非语音片段具有鲁棒性,并且在基准测试中优于OpenAI的Whisperv3。它们还通过预先训练的控制点提供用户友好的集成到项目中。