英伟达发的一款语音识别模型:Parakeet TDT 0.6B V2,核心能力是它准确的词级时间戳预测,还能自动加上标点符号和大小写
6亿参数,可以精确预测单词的时间戳,主要用于英语识别 ,可以一次性处理24分钟的长录音,不用分段处理 ,在口语数字和歌曲歌词转录上表现也比较好.
用于语音助手、转录、字幕生成以及语音分析平台都可以
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。