百度研究院近日公布了位于硅谷的AI实验室(SVAIL)的最新研究成果,其中包括可精准识别英语和汉语普通话的机器学习算法。将这一算法应用到百度深度学习系统后,该系统即可实现端到端语音识别方案,通过使用神经网络而不是人工系统来进行语音识别,该技术的论文近日已正式发布。
SVAIL成立于2013年,百度试图探索像人一样学习的电脑系统,通过在硅谷建立实验室,百度可以吸引顶尖人才和有创造力的工程师,寻找各种创新。(删除类似 glass式的创新)
此次百度公布的深度语音识别技术依赖于近几年开始为人所知的深度学习技术,这是一项新兴计算机科学,主要是用硬件软件模拟人脑。SVAIL的深度学习系统于去年首推,其初衷是为了改善噪音环境下的英语语音识别准确度(比如餐厅、车内和公共交通内等)。SVAIL研究人员在过去的一年里努力改善深度语音识别中英语的识别性能,同时也在不断训练其普通话文本的转换能力。普通话语音识别已可以在多种场景中进行精准识别,并即将在网络搜索、移动设备等实际应用中进行大规模部署。
SVAIL基于深度学习系统的深度语音识别对多种英语口音的识别进步迅速,目前已可准确识别印度英语以及欧洲非英语国家的英语口音。卡耐基梅隆大学工程设计专业助理研究教授Ian Lane表示:“我去年曾经有幸抢先接触过仍处于初级阶段的深度语音识别,对于其潜力有一定了解。现在,仅仅一年的时间,深度语音识别已取得了巨大进步,可运用端到端系统来处理英语和普通话,并且即将进入实用阶段。百度批调度程序是十分高效的应用,有能力改变大型深度神经网络在云端GPU的部署方式,我很期待它在这方面的表现。”
在上发表的题为《深度语音识别2:英语与普通话的端到端语音识别》的论文中,SVAIL的研究人员称深度语音识别正在学习处理全球各地不同口音的英语。不过目前,这种处理还难以应用于移动设备所普遍使用的语音识别系统中。
百度首席科学家吴恩达表示:“SVAIL已证明我们的端到端深度学习方法能够识别有着天壤之别的不同语言。我们的方式关键在于利用高性能计算技术,该技术使试验速度比去年同期提高了7倍之多。凭借这种高效率,过去需花费数周才能完成的实验,现在只需几天即可。这样我们就可以更加快速的进行重复实验。”
英伟达首席科学家Bill Dally博士在谈到深度语音识别的高性能算法时称:“百度深度语音识别系统通过批调度的方式,在GPU上部署用于语音识别的DNN,其高效让我印象深刻。深度语音识别系统在拥有16个GPU的集群上的RNN培训效果也是十分引人瞩目。
———END———
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,永久会员只需99元,全站资源免费下载 点击查看详情
站 长 微 信: nanadh666