52个论题之30:论伪词辨识

 

    伪词辨识或辨伪是HNC提出的一个新词,指一项理解处理,但它涉及的内容实际上是知识处理的一个古老课题,即校勘学。对文字文本,伪词辨识就是校对处理,伪词就是错讹。英语单词的拼写校正实际上也属于伪词辨识的范畴。本文讨论的对象是语音文本,而汉语语音文本会经常出现伪词现象,这是汉语“单双性”(指汉语的以双音词和单音词为主的词语现象)的必然表现。伪词主要是假双音词,当然也包括假多字词。对汉语语音文本的处理,可以说伪词辨识是最大的难关。文字文本处理面临的种种难题,相对于伪词辨识和处理来说,可以说是小巫见大巫了。

    本文的题目表明,它不涉及伪词辨识出来以后的处理问题,这属于典型的单音词感知处理范畴,本文当然不来重复。

    伪词辨识的要点在论题23中实际上已经说明了。伪词就是双音词的孤魂,辨认单音词孤魂的标准也就是辨认伪词的标准。论题23提出的6条辨认孤魂的标准同样适用于伪词的辨认。

    HNC九年来的艰辛探索历程,我的成功和失误都集中在一点,就是脱离软件而专心从事语言物理的研究。没有这一脱离,也许就创立不了HNC理论体系,然而,正是由于这一脱离,造成了语言物理与语言技术的鸿沟。我不能用现代软件思想和术语与软件设计者沟通,这常使我懊丧不已。我常常想,如果把打桥牌和下围棋的时间用于学习现代软件,也许就不致于像现在这么被动了。但最近的突然病变使我不再作此痴想。

    我在对晋耀红硕士论文的评语中说,“句类分析之路还有更多的科学高峰有待攀登。它需要语言物理学、认知物理学、概念加工软件技术三方面创新学科和创新人才的协同配合”。这个说法里隐含着把现在的语言声学、认知学和软件技术提高到玄学水平的意思。玄学的通俗解释就是不仅要知其然,还要力求知其所以然。许多技术问题表面上是工作量问题,实质上不是,是玄学水平问题。这使我想起很多往事,例如,81年左右时间压缩多路分析器(这是当时的尖端技术)的研制在总调时近一个月时间的险象环生而一筹莫展,我国第一台靠岸声纳半年海上测试过程中遇到的种种怪事,我国第一次洲际弹道导弹试验落水点(在太平洋)三种测试方案不同结果的纷争,都是由某人花了接近一个通宵的时间予以明确或解决的。其实这里没有什么诀窍,不过是玄学思路的运用而已。

    伪词辨识只有在玄学的水平上才能作出有效的处理。玄学的运用可简单概括为合格性检验和合理性检验两类。合格性检验通常有一定的准则为依据,合理性检验则需要综合运用多方面的知识。就伪词辨识来说,合格就是同行,不合格就是反同行;合理就是符合句类知识的预期,不合理就是违反了预期。这一句类分析的简明准则当然不能囊括伪词辨识的全部内涵,但是它抓住了问题的本质和要害,并能产生令人鼓舞的效果。如果不在这上面下苦功夫,即深刻领会HNC符号的意义及其知识库所提供的各项信息,进而迸发出相应的软件运用高招。而老是为语言的羽毛飞舞现象所困扰,抓不住要点。那HNC产品化的前途确实将陷入不符合现代技术发展要求的漫漫之路。

    就伪词辨识的技术实现来说,还应该进一步确定第一期的重点。简单地说,就是仅考虑双音段(或双字词)及四音段的辨伪,不考虑奇段,也基本不考虑四音节以上的偶段。这个策略的提出,完全没有统计上的依据,只是演绎的结果。因为奇段如果出现伪词,将产生至少三个单音词的辨认,目前不宜对软件提出这样过高的要求。双音段和四音段的“伪”,位置上是唯一确定或不难确定的,更长的偶段就比较复杂了。这就是上述辨伪策略的依据。但请注意对长偶段我加了基本二字,像论题24中所举的一个6音段中伪词“积肥”的例子,那是不应该放过的。

    在Paper3的总体框图中,新词伪词辨识与短时记忆及语境生成都属于机动处理模块,这就是说,不是每个音串的处理一定涉及这三个模块,它们都是句类分析过程中随机应变的处理。具体地说,在句类检验、在K调度和语义块构成分析过程中发现了不合格或不合理的词语,才进行伪词辨识处理。

    所以,伪词辨识是调度程序的任务,但随后的拆分及单音词连接处理则需要小专家的支持。

    论题29-1中提出的“重点音搭配知识库”有“近搭配时有无伪词干扰”的栏目,伪词辨识阶段可利用这一先验知识。对茫茫语海,你得善于把握航向,句类分析是航向的总纲,100个重点音也是航向指示的要点之一。对伪词辨识,这个航向要点还可以搞得更精确一些。这里更精确一些的意思是重点突出某些音节及其组合双音词的“行伪”特征,这一设想如何实现,请大家思考。汉语音节感知知识库的建设远没有达到非单音词知识库的完善程度,还需要作出重大努力。

    论题系列的急用部分打算到此为止,第6组论题中还有一个〈句类知识的运用〉,建议传江来写。此后将转向第7组和第8组论题。这两组论题实际上在Paper论文系列和〈问答〉系列中都有所阐述,〈论题〉拟从工程角度再作一些说明,未必有多少新意。Paper系列我觉得是一个不错的命名,可是出版社总编坚持不同意这一英语命名,只好屈从,改成论文系列。我一直羡慕西语word首字母大写具有特定意义的优点,没有想到这位主编如此坚持全盘中化。不过,在内部我仍将使用Paper论文系列的说法。

 

 

                                                       黄曾阳

                                                    1998年10月12日