许嘉璐先生论HNC理论

 

中文信息处理,就是利用计算机对汉语信息(包括书面的和口头的)进行处理。

到目前为止,中文信息处理基本上还停留在“字处理”阶段,也就是说计算机对汉语的“认知”是一个字一个字地进行。

中文信息处理,只有进入到语言处理阶段,才能真正实现自动化。

国家的几个科学攻关计划中都列有信息处理项目。这些项目都是以解决计算机对自然语言进行理解问题,也就是以开发智能型的汉语分析系统为奋斗目标。

当前这类研究基本上都是在语料——主要是词——的统计概率的基础上进行的。许多专家已经感觉到,统计概率的路已经走到尽头,必须另辟蹊径,这“蹊径”就是语义,以词义为基础,与句法规则结合,以句为突破的单位。

朝着这个目标努力,到目前为止,正在进行的众多研究项目,大体可以分为三种风格,或者说是三种思路、三个流派。

第一个流派是以传统计算语言学为基本理论,从词素分析入手,进而研究词-短语(词组)-语段-句子。

第二个流派是HNC理论。

出于对传统研究方法(词→短语→句→句群→篇章)是基于西方语言而建立的,其总体与汉语实际不适应的考虑,黄曾阳先生提出了概念层次网络理论(HNC)。

HNC理论认为,计算语言学界源于图灵标准而采用的句法分析和句法语义分析所提出的标准各有偏低和偏高的不足,不是描述人的语言感知过程的适当模式,因为“思维的机制绝不是语法或句法,而是概念联想网络的建立、激活、扩展、浓缩与存储”,从而提出计算机对汉语的处理不应该以图灵检验为标准,而应该以对语言模糊的消解能力为第一标准。

“自然语言的语句呈现出无限和不确定的表现特征,……在其背后是否存在一种有限和确定的语句结构?人们对此进行过多方面和多层次的探索。”传统语言学、乔姆斯基理论、依托于数理逻辑理论的句法语义分析、依托于隐马尔科夫模型等的各种统计处理,各有自己的答案。对自然语言特性的把握必须是微观和宏观并重的,对语句特性的把握更是如此。上述四种答案“与语言微观和宏观特性的联系大体依次呈现出反变和正变的趋向。”HNC的答案是:应该描述语言感知过程,为此,应从语言的深层入手,以语义表达为基础,把自然语言所表述的知识划分为概念、语言和常识三个独立的层面,建立语义完备性的概念表述数学表示式和语句的语义表述模式。人的语言交流过程,就是消解“模糊”的过程。因此,HNC把消解模糊作为自然语言理解初级阶段的标准(就书面而言,有词的多义模糊、语义块构成的分合模糊、指代冗缺模糊),即以消解模糊为攻克的第一步。

HNC认为,汉语以“字义基元化,词义组合化”方式构造新词,因此可以构建概念表述体系,亦即概念层次网络。HNC同时认为自然语言无限的语句可以用有限的句类物理表示式来表达。“语句的宏观特性可以用语句的句类表示式来表达,语句的微观特性可以用语义块的构成表示式来表达。”他们据此设计了局部联想网络解决词汇层面问题,设计了全局联想网络解决句类和语义块问题(句类是语句的语义类型)。据HNC课题组的研究,自然语言共有7个句类:作用、过程、转换、效应、关系、状态和判断。每个句类有自己的句类表示式,基本句类表示式共57个。此外,自然语言还有单个全局特征语义块的混合类和两个或多个全局特征语义块的复合句类。理论上二者应有3192+57×56+57×3192+3192×3192=10377192种。但是常见的混合句类只有理论值的十分之一左右,在计算机上是可以解决的。从理论上说,HNC的句类分析是对大脑语言感知过程的初步模拟,应该接近人的语言过程,但这需要长时间的逐步完善。

现在HNC课题组正按照“语义块感知和句类假设、句类检验、语义块构成分析”三步曲策略努力工作,期望能研究和开发出具有“自知之明”(即能在译文疑点处自动做出标记并给出多种解决方案)的汉/英互译系统。这一策略在规模较小的知识库支持下已经取得可喜结果。而其准确性最终要在更大的知识库支持下,在大规模语料中运行才能得到信度较高的印证。这正是这一课题当前工作的难点所在。

第三个流派是基于内涵模型论的语义分析。这一流派的理论设计,是陆汝占教授提出的。

以上三个流派都正在进行过程中,进展情况不一。第一个流派,不同单位和个人已经在一些局部取得了较好的成绩,面临着如何集成和如何解决词义、句子问题;第二个流派设想和计划比较庞大,在规模不够大的知识库内,已经得到部分技术实现,面临着继续扩大知识库、进行相当于“中试”或一定规模生产的过程,以便检验和完善其理论和技术设计;第三个流派,理论设计还较粗略,虽然用这一理论已经解决了一些实用问题,但是要证明它可以适用于整个现代汉语,还需要进一步推敲、实验、细化。

值得注意的是,第二、第三种思路都很重视我国传统语言学,特别是训诂学的经验和成果,或从中得到启发,或借用其对词语的训释。这是有道理的。我国的传统语言学,虽然在很长时间里与语文学难以彻底区分,但是古人对语言的体味观察入微,其中包含着一定的哲理和对语言环境的关心,这些往往反而是不“懂”语言的计算机所需要的。

从总体而言,现代汉语研究领域和计算机领域的隔绝状态并没有出现根本性的改变。这可以说是个致命的弱点。

其实,仅仅有语言学和计算机科学的结合还是不够的。上文所介绍的三个流派,基本上都是抓住了问题的两端:语言和计算机。从根本上说,要想使计算机像人脑那样工作,就要按照人脑运用语言时的活动机制去“武装”计算机。而至今为止,我国的人脑科学还没有取得可供计算机科学使用的成果,同时,无论是计算机界还是语言学界,对人脑学的关心也很不够。从当前的实际出发,我们只好还是集中力量在语言学和计算机科学的结合上多下功夫,以期为解决中文信息处理瓶颈问题作出阶段性的成绩。

摘自许嘉璐现状和设想——试论中文信息处理与现代汉语研究中国语文2000年第6期(总第279期)