英伟达推出全新自动语音识别开源模型 1秒处理60分钟音频文件
创始人
2025-05-08 09:20:54
0

【太平洋科技快讯】英伟达近日推出了全新自动语音识别(ASR)开源模型Parakeet TDT 0.6B。该模型仅需1秒即可处理长达60分钟的音频文件,其处理速度是现有主流开源ASR模型的50倍。同时,在Hugging Face的Open ASR Leaderboard上,Parakeet TDT 0.6B的字错率(WER)低至6.05%,在开源模型中表现优异,为实时转录、语音分析、呼叫中心智能化以及音频内容索引等企业级应用提供了强大支持。

Parakeet TDT 0.6B基于先进的Transformer架构,采用6亿参数的编码-解码结构,并利用高质量转录数据进行微调。此外,该模型还针对英伟达硬件进行了优化,通过量化和融合内核技术提升了推理效率,并支持TDT(Transducer Decoder Transformer)架构。

除了速度和精度,Parakeet TDT 0.6B还内置了多项独特功能。该模型还支持将歌曲内容转录为歌词,这一功能在音乐索引和媒体平台中具有广泛的应用前景。此外,该模型还支持数字和时间戳格式化,能够显著提升会议记录、法律转录和医疗记录的可读性。标点恢复功能的加入,则进一步增强了下游自然语言处理(NLP)应用的表现。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
虚拟资料变现还值得做吗?闲鱼卖... 大家好,今天给大家带来的是咸鱼虚拟资料类项目分享,这个项目其实出来很久了,有些人觉得虚拟资料没水准,...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
vivo钱包遭用户投诉贷款利率... 文:WEMONEY研究室 随着移动互联网时代到来,智能手机已经成为了生活的必需品。目前,很多手机如...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...