您的位置 首页 高防服务器

家里用了语音识别开关,但家里老人普通话不是很好这怎么办?

要完成一次通过语音指令对设备的控制,主要涉及以下三个方面:自动语音识别技术,Automatic Speech Recognition,简称ASR,是一种将人的语音转换为文本的技术。

家里用了语音识别开关,但家里老人普通话不是很好这怎么办?

自然语言处理技术,Natural Language Processing,简称NLP,既要能让计算机理解自然语言文本的意义,也能以自然语言文本来表达给定的深层的意图、思想等。自动语音合成技术,Text To Speech,简称TTS,即“从文本到语音”,是一种把文字智能地转化为自然语音流技术。楼主所说的语音识别开关,即主要使用了以上三种核心技术。从描述看来,是对其中ASR部分不是很满意。

家里用了语音识别开关,但家里老人普通话不是很好这怎么办?

目前业界的ASR技术主要分为两个模型,即,语音模型和语义模型。语音模型就是通过深度神经网路,将语音转换为音节;而语义模型就好理解了,就跟“搜狗输入法”是一个道理,通过语义的通俗性,将语音转换为最终输出的文字。

家里用了语音识别开关,但家里老人普通话不是很好这怎么办?

ASR技术实际的体验受到各个方面的影响,其中“说话人因素”是一个重要影响因素,而方言就属于“说话人因素”。

目前业界有ASR技术的服务供应商是非常多了,常用的有,讯飞开放平台,阿里云,百度AI开放平台,思必驰,云知声等等,其中讯飞和阿里云中均具有方言ASR支持。

也就是说,楼主的疑问是,目前业界已经具备方言ASR,但是为何在实际使用上很多产品并不支持,或者支持的并不好?其实主要是存在主要由两个方面的原因导致的:

第一个,就是成本。首先,训练一个ASR的语音模型是成本非常高的,他需要通过获取高效的训练集完成语音模型的训练。语音的获取可以是多种多样的,但是在起步阶段,一般公司会选择找人录音的方式进行,这其中就会涉及到大量的人力成本支出。

其次,维护一个方言的人力投入大。后期为了不断优化语音模型,定期将线上保存的语音进行分析,修复其中的bad case,让自己的模型更加聪明。在定期优化过程中,有需要大量人员进行线上日志分析,线上数据标注,模型优化训练,服务回归测试等环节。

同时,考虑到方言的语音获取成本是比普通话难。一方面使用的人群数量较少,导致模型训练的数据量不足,需要额外途径获取,这样当然会产生额外支出;另一方面中国的方言差别是非常大,举个比较极限的例子,福建省,经常有每个县的发音都不尽相同。同时说法也很大,例如陕西话,对很好的表达,有的地方说“美滴很”,有的地方说“美滴太”。这也就意味着训练集获取成本高,维护难度大。

最后,可以创造的收益低。这个就更好说明了,同样花很大的力气支持一种方言,也许使用这种方言的中国人只有几百万,那么他们可创造的收益就非常低,企业是以盈利为导向的,必然无法所有方言均支持。

第二个,就是产品设计难度大。ASR的各个方言的模型是独立的。也就是说,你用“河南话”的ASR去识别,那么不管你输入的是“河南话”还是“粤语”,或者“客家话”,ASR通通将属于的语音当成“河南话”来识别,那么识别的结果当然就是错的。因此在产品设计上一般有两种解决方案:

让客户选择。在使用语音进行控制前,需要先告诉设备,你用的是什么方言。这样在产品解决方案上是最简单的,直接用对应的方言的ASR进行识别即可。但是用户体验非常差,一般家里可能会出现祖孙三代,由于普通话的不断普及,以及人口流动的不断深化,可能一个家庭都有多少不同的语音,每次说话前进行设置是非常麻烦的。

其次,在上述基础上,增加声纹识别。即先通过语音输入判断这是孩子说的话,还是妈妈说的,还是奶奶说的,然后通过不同的人选择不同的默认方言模型进行识别。这个会造成两种情况,第一需要增加声纹识别,即成本的增加;第二还是需要对不同的人设置不同的方言,即家具常用品的使用方法不便于对所有用户友好开放。

最后,不带声纹识别,而是将录音通过所有已经支持的方言,通过结果判断对应的方言。这种方式造成的成本增加比起上者是成倍数级别增加的。由于ASR识别需要占用的服务器资源是较大的,多个ASR模型并行识别会造成极大的服务器资源浪费。同时由于语义模型的问题,在真正使用场景,仅单一产品可以使用,而通用性产品对于“什么样的方言识别才是最佳的”根本没有自动判断标准。说的通俗一点,假如产品是一个语音控制开关,那么他只支持“把灯打开”“把灯关掉”个别指令,因此并行识别的时候,可以判断哪个方言模型识别的结果属于这个意图,那么模型选择该模型的输出;但是如果这个产品是一个智能音箱,你可以点播歌曲,也可以控制开关,若“河南话”模型输出的是“给我唱一首周杰伦的歌”,而“粤语”模型输出的结果是“把客厅的灯打开”,那么音箱如何知道哪个是对的?

综上所述,从实际体验和成本考虑,目前绝大多数的产品依然仅支持普通话,这样可以保证在成本可控的情况下支持最多客户群体以较好的体验进行使用。

关于作者: 维拓主机

热门文章