语音识别软件急须改进的若干问题(提纲)*

蒋平  吴振国

一、引言

 

1.语音识别软件作为听写输入程序的优势、现状和前景。

 

中文电子文本的输入方式有多种,如键盘输入,手写输入,扫描输入,听写输入。在各种输入方式中,听写输入是最有优势的一种。它输入速度很快,比键盘输入和手写输入快得多。也很方便,输入者不需花精力学习和记忆,也不需要特别的硬件设备。扫描输入虽然也很快,但前提是先要有现成的文字材料,而且还要有扫描仪设备,也不便于移动使用。听写输入不仅能输入文字,而且能输入命令,实现对机器的语音控制。虽然听写输入有明显的优势,但事实上目前采用听写输入的人不多,其中的原因当然是多方面的,但最根本的原因是,目前的听写输入的正确率很不理想。如果听写输入的正确率很高,肯定会成为最受欢迎的输入法。而且随着移动通讯的快速发展,手机上网的逐步普及,听写输入的优势会更为明显。因此,提高听写软件的识别正确率,就成了听写输入发挥优势,广泛应用的关键。

 

2.语音识别测试的目的、方法和结果。

 

要想提高听写软件的识别正确率,首先要分析现有的听写软件的问题所在,了解影响识别正确率的各种因素,然后才能对症下药,加以改进。因此我们对目前市面上最流行的听写软件——以IBM ViaVoice中文语音识别系统为核心的“汉王听写”软件,进行了听写输入正确率的测试。希望通过我们的测试及对测试结果的分析,能够给语音识别和听写软件的设计人员提供参考意见,对软件加以改进,大幅提高识别正确率,从而使听写输入广泛普及,大大提高文本输入的效率。

根据我们对听写输入软件试用的情况,我们初步假设影响听写识别正确率的主要因素有方音、语速、文体、同音字词等,并在此基础上设计和进行了听写输入测试。

第一,拟定测试材料。我们拟定了五十个语段,其中包括同音词、容易受方言影响而出错的词语和不同语体(口语、书面语、古诗词、体育节目现场直播)的语句[1]

第二,选测试人录音。我们挑选了13位录音人,其方言背景分别有粤语、闽语、湘语、赣语、客家话、晋语、江淮官话、西南官话等。每个方言区尽量有男女各一位。每位录音人将测试材料分别用慢速、中速和快速念三遍,进行录音并记录识别结果。

第三,标注识别错误。挑选受过语音训练的和普通话较好的同学对识别结果里的错误进行手工标注。负责标注的同学须将识别结果与录音和原始测试材料加以对比,对识别错误进行分类标注,如:声母错、韵母错、声调错、声韵调都错、字错(声韵调都对)、等等。

第四,分项统计。我们对每位录音人的识别错误进行了分项统计。

测试结果显示,该语音输入软件对不同录音人语音识别的正确率在4370%之间。其中方音、文体、同音字词对识别正确率的影响都很大,语速的影响不大。口音适应前后的区别也不明显。

针对是次测试所出现的错误类型,我们从语音匹配、词库建立、软件界面三方面分析了该类语音输入软件急须改进的方向。

 

二、语音的匹配问题。

 

1.音节音段的界限。

 

测试结果显示,识别错误中,有不少音节增减方面的问题,约占错误总数的15%左右。产生这类错误的原因有很多,但最主要的原因是语音识别软件对音节音段的界限缺乏准确的区分,常常把一个音节匹配为两个音节,或者将两个音节匹配为一个音节或三个音节。容易产生这类错误的词语类型,有待进一步统计分析。

 

2.语流音变的匹配。

 

语流音变的匹配问题,也是导致识别错误的重要因素之一。如“一、不”等的变调,上声去声的变调,轻声、儿化音变等,有不少发音人掌握不好,而语音识别软件对这类现象缺乏灵活的应对措施,因而产生了不少匹配错误。

 

3.方音的适应。

 

方音的适应能力,是我们这次测试的一个重点。从测试结果来看,方言口音较重,普通话水平较低的发音人,其识别正确率较低,而且差距相当大。最高识别正确率有70%,而最低的只有43%。而且我们还特地对口音适应前后的识别正确率进行了对比。每人识别三次中,第一次都是在口音适应之前进行的,后两遍都是在口音适应之后进行的。但从测试结果来看,口音识别前后的正确率没有明显差别。这说明软件的口音适应功能基本上没有什么作用。

 

4.异读的处理。

 

从规范标准的普通话来看,异读词本来不是太多。可是从发音人不太标准的普通话来看,异读词就比较多了。在这一点上,方音较重的“地方普通话”比典型的方音问题更多。同一个字,有时发音人念这个音,有时又念那个音,结果一些本来在规范的普通话中和纯粹的方言中都不是异读字词的,但这种地方普通话中实际上成了异读字词。而软件对这类情况缺乏适应能力,结果导致匹配错误。

 

三、词库的建立问题。

 

1.词库的容量。

 

目前语音识别软件的词库容量太小,比一些新的键盘输入法如“智能狂拼”的词库要小得多。结果导致虽然语音匹配正确,可是字词却是错的。所以测试结果中,声韵调都正确但字词错的比例相当大,占错误总数的18%左右,一般都比仅仅声母错、韵母错或声调错的比例大得多。另一个结果就是口语文体与书面文体的识别正确率差别很大。因为口语文体的句子中的词语一般都是软件的词库中有的,所以多能够正确识别,而书面语文体的句子中,有不少词语是词库中没有的,自然难以正确识别。所以加大软件的词库容量,是十分必要的。

 

2.词频的统计。

 

仅仅加大词库容量还不够,因为词库容量加大,必然导致词库中的同音词大大增加,那么就会遇到怎样选择同音词匹配的问题。解决同音词选择问题,是十分复杂的难题。但是词频统计会对同音词选择产生重要的作用。现在流行的一些键盘输入法,有不少对词频统计的作用缺乏足够的认识,往往没有把出现频率较高的字词放在同音字词选择的前面,结果对输入的效率产生负面影响。语音识别软件在这方面的问题更大。从识别结果来看,有不少识别错误如果在经过词频统计后,根据字词出现频率的多少安排同音字词选择的先后顺序,其错误都是可以避免的。

 

3.词语的搭配。

 

要在扩大词库容量,按词频安排同音字词选择的先后顺序的基础上进一步提高识别正确率,必须解决词语的搭配问题。如果不仅加大词库容量和按词频排序,而且对词语之间的搭配关系做进一步的分析,并将词语之间的搭配关系信息记录在词库中,据此让识别软件智能地选择同音字词,必然会大大提高识别正确率。虽然这个问题难度较大,但却是大幅提高识别正确率的关键。而且现在的有些键盘拼音输入软件如智能狂拼,在这方面取得了重要进展,其经验值得很好的借鉴。这方面人工智能的研究成果也值得很好的借鉴。

 

四、软件的界面问题。

 

目前市面上流行的听写软件的界面设计,与其他输入方法相比实在落后,而且对识别正确率有很大的负面影响。如果对软件的界面设计多下一点功夫,肯定会大大提高听写正确率。

 

1.整句识别。

 

现在的键盘输入法中,较好的拼音输入法都进入了整句输入的阶段。从语言文字处理的角度说,就是由字处理到词处理再到句处理逐步提高层次和水平。听写输入要想进一步提高识别正确率,也必须进入整句识别的阶段。这方面听写输入有必要向智能狂拼等键盘输入软件学习。在界面设计上,一定要设计备选提示条或提示窗口,提示条上的识别结果容许根据词语的搭配关系逐字逐词动态变化,容许输入者修改控制选择结果。

 

2.联想备选。

 

在整句识别的基础上,界面设计时应该向现在流行的一些优秀的手写输入软件、扫描识别OCR软件和文本校对软件学习,在识别的过程中或让输入者修改控制识别结果的过程中,设计一个联想备选窗口,当输入者用键盘或鼠标移动光标,修改提示条上的识别结果时,出现联想备选提示框,输入者就可以根据提示框中的备选字词按数字键进行选择。这样,输入者可以不用别的输入法就可以修改识别结果,而且速度比较快。

 

3.存疑标记。

 

从听写输入的发展方向来看,今后的听写输入还应该考虑设计无人值守输入模式。这样,我们可以把一段录音播放出来,让听写软件自动识别,输入者可以暂时不介入识别结果,等软件自动听写完录音之后,输入者再来修改识别结果。由于无人值守模式肯定会出现不少识别错误,可以考虑让软件对一些自动识别时有疑问的字词自动作出存疑标记,例如用不同的颜色标记,以提示识别者修改时注意,进一步减少输入错误。这方面听写软件可以向一些优秀的OCR软件、文本校对软件及翻译软件等学习。

 

4.文体选择。

 

为进一步提高识别正确率,在界面设计上,还可以考虑设计不同的文体识别模式供输入者选择。词库容量增大也不可能太大,否则听写软件占用系统资源太大,也会影响听写输入软件的使用。设计不同文体听写模式后,输入者可以根据输入内容选择相应的听写模式,让软件自动调用相应的词库,安排不同的词频和词语搭配关系。这样不仅能有效地提高识别正确率,而且有利于软件减少对计算机系统资源的占用。这方面可以向一些优秀词典翻译软件如金山词霸等学习借鉴。

 

五、结语。

 

1.迫切需要。

 

从计算机、网络和移动通讯的迅速发展和广泛普及来看,提高听写输入的识别正确率,推广和普及听写输入法有迫切需要。现在市面上手写输入软件很受欢迎,因为它满足了大量不愿意花精力学一种键盘输入法的又想用电脑的人的需要。键盘输入法大体上分形码输入和音码输入。可是用形码输入难记难学,用音码输入有些人不懂拼音和拼音不准,都有一定困难。于是不少人选择手写输入法。但实际上手写输入的致命弱点是速度太慢,而且字不能太潦草,否则识别准确率也会很低。相比之下,听写输入对于这些人应该更合适。但问题是,听写软件必须大幅度提高识别正确率,特别是提高对方音和语流音变的适应能力,才能提高其实用价值,受到人们的欢迎。

 

2.前景看好。

 

根据本文作者的分析,听写输入的前景十分广阔,发展空间很大。如果按本文所说的一些意见去做,听写输入的识别正确率肯定会大大提高,可望在较短时间内将普通文体的识别正确率真正提高到90%以上。这样必然会受到越来越多的人的欢迎,可望成为各种输入法中首选的输入法,有力地促进计算机、网络和移动通讯等产业的发展,提高人们的工作、生活的质量和效率。

 

3.逐步推进。

 

在提高识别正确率的各项措施中,有些措施是比较容易解决的,有些措施难度较大。相比之下,语音匹配的改进难度较大,界面设计的改进难度较小。词库容量的扩大和词频的统计难度较小,词语搭配和智能识别的难度较大。因此我们可以由易到难,逐步推进。



* 本项研究由本文第一作者主持,获香港特区政府研究资助局Earmarked Grant资助(RGC项目编号: CUHK4458/99H)。特此鸣谢。

[1] 朗大地教授参与了测试材料的设计。