语音作为人机交互的全新进口,现已在曩昔几年席卷全国际。语音技能的前进,不只体现在林林总总的智能设备里,还在不断赋能移动设备输入法的革新,依托语音快捷的交互办法,输入法里语音输入也在悄然改变着用户与设备交互的形式。
在技能范畴,某些影响深远的技能研制往往被称为「登月计划」。本周,百度在语音范畴的「一小步」,也完成了人类语音「登月」的一大步。
在百度输入法发布会上,百度发布了语音范畴的四项严重技能打破。这其间,在线语音范畴全球创始的流式多级的切断注意力模型(SMLTA,全称为「Streaming trancated multi-layer attention」)成为焦点,这也意味着,学术界议论多年的注意力模型总算完成了大规模在线商用。
此举含义严重。一方面,这是业界第一个依据注意力模型的在线语音产品,凸显出百度在语音技能研制的抢先;另一方面,作为 AI 的根底功用,语音技能在百度 AI 技能赋能产品立异的效果越来越大,这也是当下百度 AI 战略落地的重要调查窗口。
接下来,本文将从此次发布的流式多级的切断注意力模型下手,揭秘这项技能背面的含义,一起结合语音技能赋能百度其他产品线的事例,进一步讨论这家公司的 AI 战略方向。
1. 技能打破:学术界一大难题的落地
曩昔几年,AI 被诟病的一大原因就是技能落地困难,一项实验室的技能即使再怎样先进,假使无法再商业化的场景里得以运用,多少都有些今世「屠龙术」的意味。
比方语音范畴的注意力模型(Attention模型)。
注意力模型是一种依据对一句话里每个音节或汉字音频特征的机器学习模型。经过机器学习的办法,将音频特征主动发掘出来。也就是说,这种办法下的语音辨认进程,变成了一个字一个字的翻滚生成进程。
因为摆脱了传统语音辨认的状况建模和按语音帧进行解码,该模型可以直接完成语音和文本一体化的端到端建模,具有学术界公认的建模精度。
但这个技能长期以来无法得以大规模运用。一方面,无法处理流式解码的问题,传统的注意力模型大都是依据整句的建模,比方 Google 的 LAS 模型就是其间的代表。整个建模进程需求经过云端/效劳器的解码才能。这也意味着,当用户经过语音交互时,语音需求上传到云端,这关于移动设备的用户体会影响非常大。
另一方面,如上文所言,在传统的注意力模型里,一般是经过机器学习提取整句音频信息,也就是说语音输入的语句越长,进行特征挑选的难度越大。犯错的概率越高,而一旦某个环节呈现过错,过错的传导还会进一步提过过错率,终究反映在用户体会上的感触则是,用户语音说完一段话后,机器彻底了解不了。
这也是此次百度流式多级的切断注意力模型 SMLTA 所要处理的难题。首要包含两个重要的技能打破,其一,运用 CTC 语音辨认算法,对接连语音进行主动切断,然后在这一系列语音小段的根底上树立注意力模型。其二,引进一种特别的多级Attention机制,完成特征层层递进的更精准的特征挑选。
依据百度官方的说法,因为一切核算经过 CPU 完成,不需求额定添加GPU,整个云端的核算资源耗费与此前的语音模型相等。而在输入法精度上,很多数据测试成果显现,相关于新近的模型,相对精确率提升了 15%。
更重要的是,这不只是业界第一次提出了流式多级的切断注意力模型 SMLTA,也在全球范围内,完成了依据注意力模型的在线语音辨认效劳的初次规模化运用。百度已成功将这种注意力模型布置上线到语音输入法全线产品,效劳我国数亿用户,也因而,此次技能打破不再仅仅是一个实验室技能的展示,而是成为一个个普通用户都可以享用的技能盈利。
2. 赋能:从内到外
一年前的百度输入法晋级里,依据 Deep Peak 2模型的语音模型,大幅提升了不同场景下语音辨认的精确率。而一年后,输入法晋级还带来了离线语音、中英混合输入、普通话方言混合输入的晋级。
这其间,离线语音辨认的场景最特别。因为语音辨认需求网络的支撑,当没有网络或许网络安稳的时分,常常呈现语音辨认成功率低、辨认速度慢等状况。
尽管经过离线语音已处理一部体会问题,但曩昔离线语音与在线语音比较,精确率相差悬殊,体会得不到底子处理。
针对这一场景,百度语音技能团队优化了输入法上嵌入式辨认的 deep peak2 体系,大幅提升了离线语音辨认精确率。依据百度泄漏的数字,现在百度输入法离线语音输入精确率已高于职业平均水平35%,这也让用户可以在没有网络的场景里流通快速运用。
上述注意力模型等一系列技能立异也是百度语音技能推进产品开展的一个缩影。
比方地图。上一年 12 月的新版地图里,语音就作为一个重要的交互办法,涵盖了导航道路、地址查找以及小度帮手等等。
而在翻译范畴,上一年 10 月,百度研制的具有猜测才能和可控推迟的即时机器翻译体系,完成了两种言语之间的高质量、低推迟翻译。这其间,经过上下文无关音素组合的中英文混合建模单元,让语音辨认的办法具有泛化性能好、对噪声鲁棒、中英文混合辨认等特色。
与此一起,正如百度高档副总裁、AI技能渠道体系(AIG)总负责人王海峰在百度大脑论坛上所言,「百度大脑既带动了百度事务的晋级,也在推进社会智能化晋级」。与职业其他 AI 巨子们现在的战略共同,语音技能不只是百度多个产品线立异的动力,也现已并正在经过百度大脑向职业赋能。
以远场辨认算法为例,经过麦克风阵列前端处理算法,可以辨认方针说话人 3-5米间隔的说话。现在,依据语音远场计划技能的「小度机器人人机语音交互点餐」已在上海肯德基旗舰店投入运用。
2018 年的百度国际大会上,百度大脑也带来多个语音技能晋级。比方「一次唤醒接连交互」的技能打破,用户只需唤醒一次就可以接连多轮对话,机器可以精确辨认用户说话时的犹疑中止、可以区别并跟从初次唤醒的用户等,用户的体会更天然、流通,为语音交互供给了更多幻想空间。
3. 写在终究
作为当下 AI 的一个单项技能,语音技能仍然有巨大的打破空间。一方面,语音辨认在安静环境、普通话辨认的辨认率确实现已比较高了,但在杂乱环境以及口音、方言等环境里的辨认率还不尽善尽美。
另一方面,语音技能不只是声响与文字之间的转化问题,也不是单纯的软件或硬件问题,面向未来的语音技能是硬软一体、语音言语一体、辨认和交互一体。
百度这次推出的流式多级的切断注意力模型SMLTA,无疑是中文在线语音辨认历史上的又一次打破。
而未来,百度语音的重要着力点是向下朝低端芯片开展,向上超语音语义一体化和交互开展。终究,百度语音将树立从硬件底层芯片、到上层的智能硬件体系,再到体系软件,语音客户端,语音效劳器及后端交互一体化的全链路语音交互技能。
依据百度巨大的用户和丰厚的产品,这些技能将让用户享用 AI 的福利,而透过百度大脑,还将继续赋能各行各业。
转载请注明出处。