简论黄曾阳先生创立的HNC理论*

苗传江

(北京语言文化大学语言信息处理研究所,北京 100083)

《中文信息学报》1997年第4期发表了中国科学院声学研究所研究员黄曾阳先生的论文“HNC理论概要”,这是一篇具有开创性的力作,它展示了自然语言理解的突破性进展,读后令人自豪和振奋。

HNC理论是黄曾阳先生用长达八年的时间潜心探索、精心架构的创新成果,包含极其丰富恢弘的内容,在概念的表述系统、语句的表述模式、知识库的建设、自然语言理解系统框架的设计等方面,都有独到的建树和精到的见解。HNC理论的精深内容和卓越的贡献远非一篇文章所能尽所欲言的,本文仅根据笔者初步的学习所得简论其两方面的内容和贡献。

1  HNC理论创立了自然语言表述和处理的合理模式

自然语言处理作为人工智能的一个分支,已有40年的发展历程,形成了计算语言学这一跨接语言、信息、认知科学和计算机技术的边缘学科,它的发展主要围绕三个方面:1.自然语言的表述和处理模式;2.自然语言知识的表示、获取和学习;3.研制开发自然语言的应用系统。其中,自然语言的表述和处理模式是根本,决定着整个自然语言理解的方向和进程。若干年来,自然语言理解的各个应用领域都无重大进展(比如机器翻译,特别是汉语与印欧语之间的翻译,搞了几十年,至今仍与实际应用水平相去甚远),其主要原因正是由于缺少科学完备的自然语言表述和处理模式。

纵观语言研究和自然语言处理的历史,在自然语言的表述和处理模式方面,源于印欧语系的语法学和句法分析一直居于主导地位。八大词类、六种句子成分、短语结构和句法树成为语言分析的基本概念和依托。对于这一传统分析模式,仅在70年代,就曾一度受到菲尔墨(Fillmore)和山克(Schank)的质疑和挑战。80年代以来,语料库语言学的兴起使人们对统计模式产生了过高的期望,以致忽视了菲-山挑战的实质意义。

黄曾阳先生认识到,自然语言传统分析模式(含统计模式)的根本弱点在于:它不是描述语言感知过程的适当模式。

面对语音流的五重模糊(发音模糊、音词转换模糊、词的多义模糊、语义构成的分合模糊、指代冗缺模糊),面对文字流的后三重模糊,大脑的语言感知应付裕如,表现了强大的解模糊能力,自然语言处理技术当前无从望其项背。

近20年来,自然语言处理囿于传统模式,不图突破。但是,它所面临的所有重大课题,从音词转换到机器翻译,从全文检索、信息抽取到智能阅读助手,都在呼唤语言表述及处理新模式的诞生;呼唤上下文联想处理向“知其所以然”的语义理解前进;呼唤向语言感知的方向靠拢。随着网络时代的来临,这一呼唤的迫切性和严峻性在与日俱增。

响应这一呼唤才意味着真正的突破,但突破的契机何在?悲观论者认为:语言感知过程密切依附于大脑中万亿神经网络,依附于浩瀚无垠的世界知识海洋,在对这个“网络”和“海洋”的奥秘未作出充分揭示之前,模拟语言感知过程是不现实的。

事情果真如此悲观么?不。黄曾阳先生对此进行了八年的艰苦探索后,形成了以下三大理论要点,这三大要点集中体现了HNC理论在自然语言表述和处理模式上的突破。

1.要把自然语言所表述的知识划分为概念、语言和常识三个独立的层面,对不同层面采取不同的知识表示策略和学习方式,形成各自的知识库系统。知识库建设的首要目标应定位于自然语言模糊消解。

这是HNC理论对迄今为止的知识库建设进行总结后得出的论断,具有极其重要的指导意义。

人工智能必须以知识为依托,自然语言理解必须以语言知识为依托。这是常识,没有人对此提出过疑义。但是人工智能和自然语言理解最需要什么样的知识?这些知识如何表达,又如何获得?这是知识库建设的基本问题。对这个问题的认识自人工智能诞生以来,已有的巨大的进步,但从自然语言理解的需要来看,这个进步是远远不够的。

人工智能的早期发起者几乎将知识混同于规则,这是不奇怪的,因为规则易于为计算机所把握。利用规则进行推理的过程,可利用产生式给以形式描述。这样,计算机的程序就可以模拟大脑思考。如果大脑的思考过程仅仅是逻辑推理,那么,知识等同于规则的认识就是正确的。当然,大脑的运作过程不仅仅是推理,但推理终究是大脑运作的基本表现之一。因此,规则的运用仍然可以取得显著的效果。20世纪70年代崭露头角的专家系统就是规则运用的巨大成果。不久前,IBM的“深蓝”计算机在与国际象棋世界冠军卡斯帕洛夫的人机大战中赢得了胜利,应该说体现了这一运用的顶峰成就。

逻辑推理对自然语言处理、语言学和知识库建设都有重大影响。在语言学上的近期突出表现是蒙塔古语言学的兴起,在知识库建设上的集中表现是美国的CYC计划。至于自然语言理解,应该说,到目前为止,所有的自然语言理解系统,从早期的LUNAR和HEARSAY到最近的LeMICON都是规则系统。尽管后者的知识获得是自学的,但知识的运用仍然是规则的。

以产生式形式表现的规则就是逻辑学的蕴涵关系,它是推理的基本形式。按照逻辑学的观点,知识就是一系列的命题,命题之间存在推理关系。规模空前、推理规则达100多万条的CYC知识库就是基于这一思路花了10年时间(1985~1995)建立起来的,当初其主建者曾宣称,到世纪之交,CYC知识库将成为计算机的基本配置之一。但是,到10年届满时,这个梦想完全落空,CYC被一些人视为失败的典型。

CYC建设的10年期间,正是语料库语言学大发展的10年,但主建者对此似乎置若罔闻,这成了批判者的基本论点,但主建者心里明白,他所追求的知识不是简单的统计可以得到的。那么,CYC的根本问题何在?

根本问题在于该知识库的目标和知识表示方式。

CYC知识库主建者将目标定位在建立一个万能的“常人”自然语言理解系统,以弥补领域专家系统的不足。例如,一个血管疾病的诊断专家系统并不能辨认患者年龄与体重的填写错误,CYC系统可以帮助它解决这类问题。显然这涉及浩瀚无边的常识性知识,如果对这类知识采用一价谓词加自然语言的方式加以描述,数以百万计甚至千万计的规则也难以包容,因此,CYC含有160万条规则是不奇怪的。但是,问题的要害不在于一阶谓词,而在于以自然语言充当命题的概念表述符号,这是规则膨胀的根本原因。

上述CYC的目标应该说是自然语言理解的天职。主建者在语料库的呼声压倒一切时不逐时流,按既定方针坚持到底,值得钦敬。问题在于CYC的目标不可能一蹴而就,主建者犯了70年代山克先生的同样错误,在沼泽地上建立高楼大厦。

自然语言理解的基础是语言知识,在语言知识里既包含与语言形式无关的概念知识,又包含与语言形式有关的纯语言知识,HNC理论把前者称为概念知识,把后者称为(纯)语言知识,把语言知识以外的世界知识称为常识性知识,并且认为,把知识划分为概念知识、(纯)语言知识和常识性知识,并分别建库,这应该是知识库建设的第一条根本原则,CYC及迄今为止的所有知识库都没有遵循这一原则。与CYC同时进行建设的大规模语言知识库还有美国的WordNet和日本的EDR,这两类知识库存在的根本问题与CYC相同,但主建者的总体思路还不如CYC。

语言知识库建设应将服务目标首先定位于自然语言五重或三重模糊的消解,HNC理论把这一点作为知识库建设的第二条根本原则。口语五重模糊和书面语三重模糊的消解是理解的前提,但模糊消解的具体办法多种多样;消解的过程与理解的过程既有同步性又有异步性;模糊消解的深度是可测定的,而理解的深度是不可测定的(至少在目前);对模糊消解进行假设检验可以是无条件的,而理解是有条件的。如果说,自然语言理解的最终目标——如同大脑一样理解自然语言——过于遥远,那么能否把模糊消解作为近期目标,集中兵力予以突破呢?

计算语言学界对此并未形成共识。从理论上这个问题很难阐述明白,但从语言信息产业的角度来看,则可以说是一目了然。语音识别、文字识别、全文检索、机器翻译、文字校对等方面都已有应用软件投放市场,这些软件的共同弱点何在?就是在模糊面前无能为力,而用户对此又十分敏感。因此提高语言信息产品的市场信誉,从而提高市场占有率的根本出路在于提高消解模糊的能力。这一点,不应存在任何疑义。明确语言知识库建设的这一中心目标十分重要,因为它关系到知识项的选择,关系到人工方式与语料库运用方式的分工等重大决策。

在知识表示方式上,HNC知识库不再象CYC等一样用自然语言充当表述符号,而是创立了两套描述自然语言的数学表示式,即概念表述的数学表示式和语句表示的数学表示式。

2.要建立网络式概念基元符号体系,即概念表述的数学表示式。这个符号体系或表示式应具有语义完备性,能够与自然语言的词语建立起语义映射关系,同时,它必须是高度数字化的,每一个符号基元(每个字母或数字)都应具有确定的意义,可充当概念联想的激活因子。

HNC理论建立了这样的体系,该体系由五元组、语义网络和概念组合结构组成,它是计算机把握并理解语言概念的基本前提,称为局部联想脉络,是HNC理论的基本内容之一。局部联想脉络的基本思路和做法是:把概念分为抽象概念和具体概念,对抽象概念用语义网络和五元组来表达,对具体概念采取挂靠展开近似表达的方法。

概念有抽象与具体之分。在一般人看来,抽象概念总是比具体概念难于把握,中文信息处理界已做的汉语语义分类工作,对抽象概念总有力不从心之感。HNC理论认为,实际上,抽象概念比具体概念更具有基元性、系统性,因而更容易表达;具体概念是客观存在物在人的思维中的直接反映,它里面包含了许多世界知识,而对世界知识是很难进行详尽表达的,所幸的是,人对具体概念理解和认识的深度可以比抽象概念浅,所以可以采取实用原则,“不求甚解”。HNC理论侧重于抽象概念的表达。

HNC理论设计了五元组、语义网络和概念组合结构来表达抽象概念。五元组是指{动态、静态、属性、值、效应}五大特性,它们是词性的基元,用以表达概念的外在表现。任何概念都具有五元组特性,比如英语中词根相同、词性不同的词就体现了同一概念内涵的不同的五元组特性,而汉语中的兼类词只不过是用一个词表达了同一概念内涵的几个五元组特性。语义网络用以表达概念的内涵。语义网络是树状的分层结构,每一层有若干个节点,每个节点代表一个概念基元(而不是词),每一层的若干节点分别用连续的数字标记,网络中的任一节点都可以通过从最高层开始到节点结束的一串数字唯一地确定和表示,这种数字串称为层次符号。节点代表的概念基元通过不同方式的组合就可以表达各种各样的、无数的概念,而不受语种限制。概念组合结构用以表达概念基元的组合方式。五元组符号、层次符号和概念组合结构符号组合起来,就构成HNC的概念表示式。

HNC用五元组和语义网络分别表达抽象概念的外在表现和内涵,这种表达方式便于描述概念之间的关联性。有的语义系统中分了事物类、运动类、时空类和属性类等几大类,这种分类割裂了概念之间的天然联系,因为按照这种分类,“总攻”和“进攻”、“航速”和“航行”、“斗志”和“昂扬”等大量概念上有天然联系的词会被划到不同的大类,表达它们之间的关联成为一个大问题,这一点是设计者已认识到的。在HNC的表达体系中,网络中的任何节点都具有五元组特性,上列词义只不过是同一概念节点的不同五元组表现而已,这样,它们之间的关系就显式地体现出来了。

HNC设计了抽象概念的三大语义网络:基本概念语义网络、基元概念语义网络和逻辑概念语义网络。三大语义网络是“概念基元”的聚类和系统,而绝非“词”的分类。语义网络的设计思想有两个主要来源:一是奎廉(Quillian)的语义网络、菲尔墨的格语法和山克的概念从属理论;二是汉语的“字义基元化,词义组合化”现象。第一个来源提出了“语义基元”的杰出思想并暗含着“总体表述”的雄伟目标,第二个来源则提供了语义基元的宝贵原料。汉语字少词多,仅用几千个汉字加以组合就构成许多的词。几千年来,汉语随着社会的发展而发展,新词不断增加,但组成词语的汉字却很少变化。汉字字义的基元和汉语词义的组合化是一个伟大的宝藏,HNC语义网络的建立深深发掘了这一宝藏。

HNC用语义网络表达概念,其首要目标和价值在于给出概念关联性知识和联想脉络的线索,而不是给出概念的精确表示。自然语言理解的中心任务是解模糊,如同音模糊消解、一词多义模糊消解等,这些模糊的消解统称为多义选一处理。对自然语言词汇的多义选一处理是人类理解自然语言过程中最频繁、最基本的操作。对这一操作过程的形式模拟不在于并行处理或快速计算,而在于以什么巧妙的方式完成大量语义距离的计算。语义网络层次符号的构造方式把最频繁、最基本的语义距离计算变成了对层次符号的简单逐层比较。这是HNC用语义网络层次符号表达概念的基本出发点。层次符号是一种灵活的分层结构,它到任一层都代表一个概念,至于这个(些)概念与相应的语言概念之间,究竟谁是谁的近似,已无关紧要。重要的是,层次网络符号对概念的局部联想脉络给出了明确的表示。

三大语义网络是HNC理论的核心,是精心构造和设计的结果,每一个节点的设置都颇费思虑。这一设计的完成是一项伟大的创造。

语义网络层次符号的设计为计算机理解自然语言提供了有力的手段、奠定了坚实的基础。当然,在工程实现上首先要完成用层次符号描写自然语言词汇语义的工作,这是一项浩大而艰巨的工程,但这个瓶颈问题跟过去相比已有本质的不同,过去缺乏语义描写的完备手段,现在手段已具备,剩下的只是工作量的问题了。

语言理解的基础是把握概念,而如何把握自然语言表达的纷繁万千的概念,语言学和自然语言理解长期以来都没有重大进展。传统语言学对词义有相当深入的研究,但缺乏系统性和宏观理论指导。现代语义学的义素分析法和语义场理论都富有启发意义,前者把词义分析成更小的单位,蕴涵着概念基元的思想;后者着眼于词义之间的关联性,蕴涵着系统网络的思想。但是,它们还难以应用于自然语言理解系统,因为它们还远不够完善,还没有解决表述自然语言概念的根本问题。义素分析法没有解决“自然语言到底有多少语义场”、“语义场该怎样划分”、“语义场之间和内部有怎样的关系”等问题。这些问题的根源在于缺少对自然语言概念的宏观把握。HNC理论设计的基元化、层次化、网络化的三大语义网络从根本上解决了这些问题。语义网络的各个节点,即概念基元,相当于义素。网络高中层节点的完备设计,加上可扩充的分层结构。使它具有了描述任何概念的能力。语义网络是一个整体的设计,是一个完整的系统,它各个节点下的网络都形成相关联的概念的聚类,这些聚类就相当于语义场。更重要的是,通过语义网络,语义场内部、语义场之间都建立了联系。

3.要建立语句的语义表达模式,即语句表述的数学表示式。这一模式的完备性应表现为可表述自然语言任何语句的语义结构,即乔姆斯基(Chomsky)所提出的语言深层结构。

HNC理论建立了这样的表述模式,这个模式是在句类和语义块基础上形成的句类格式,它是语句分析的基点,称为全局联想脉络,是HNC理论的另一基本内容。

HNC理论的句类是对语句的语义分类。自然语言的语句千变万化,如何进行语义分类呢?这一直是个无从下手的难题。HNC理论成功地解决了这一难题。三大语义网络中的基元概念语义网络有六个一级节点:作用、过程、转移、效应、关系、状态,这六个节点形成作用效应链。“作用效应链反映一切事物的最大共性,作用存在于一切事物的内部和相互之间,作用必然产生某种效应,在达到最终效应之前,必然伴随着某种过程或转移,在达到最终效应之后,必然出现新的关系或状态。过程、转移、关系和状态也是效应的一种表现形式。新的效应又会引发新的作用,如此循环往复,以至无穷,这就是宇宙间一切事物存在和发展的基本法则,也是语言表达和概念推理的基本法则。”HNC理论根据作用效应链的六个环节对语句进行分类,加上作为人类思维活动基本内容的判断,共形成7大基本句类。各基本句类在语句的语义构成上各有鲜明特点。基本句类下面有不同层次的子类,子类的定义有总体设计。基本句类可以构成混合句类。自然语言的语句虽然丰富而复杂,但它们表达的信息总是由7个基本句类组成的。基本句类、子类和混合句类构成HNC理论的句类系统,从已经对语言材料做过的大量分析来看,这个系统是完备的。

HNC理论的语义块是语句的语义构成单位。语义块概念的提出便于从语言深层描述语句。用传统语言学的词或短语无法清楚地界定一个句子是否完备,如果问一个句子应该或者可能有多少个词或短语,便难以回答。语义块是语义,即语言深层的定义,它不依赖于形式,可以明确地根据句类描述语句的构成。经过高度抽象和概括,HNC理论确定了四大主语义块(特征、作用者、对象、内容)和七大辅语义块(条件、手段、工具、途径、参照、因、果)。四大主语义块中,特征语义块决定句类。

HNC理论关于句类和语义块的基本论点是:语义块是句类的函数。这是该理论在建立语句语义表述模式上的精华之所在。这一论点包含着丰富的内容,有两点是基本的:不同的句类需要不同的语义块配置;语义块的具体内涵要根据句类来确定。语义块和句类之间的函数关系是概念层面的固有知识,与语种无关。句类和语义块配置构成句类格式,这就是语言的深层结构。有了句类和语义块的合理设计及它们之间的函数关系,HNC理论就可以完备地表述自然语言语句的语义结构了。

乔姆斯基提出语言的深层结构,被称为一场革命,但是他没有解决如何描述语言深层结构的问题。格语法理论的创立者菲尔墨是对宾语和主语进行语义分类的第一位先行者,最早想到了“语义块是句类函数”的概念,可惜他的理论匆忙出台,在理论的总体性和层次性方面都比较欠缺。HNC理论在他们的基础上创立了完备的语言深层结构表述模式,具有突破性贡献和意义。

据黄曾阳先生介绍,上述概念和语句表述模式只是HNC理论宏伟目标的一部分,HNC的宏伟目标是建立以下六个层次上的“自然语言计算机感知模式”:1.自然语言概念体系表述模式;2.自然语言语义块和语句的表述模式;3.句群关联性表述模式;4.篇章要点表述模式;5.短时及长时记忆的生成转换模式;6.知识自学习模式。

综上所述,HNC理论创立了基于语义的自然语言表述和处理的科学模式,开创了语言研究的新局面,开辟了自然语言理解的新途径。传统的语言表示和处理模式以语法为基础。语法有狭义与广义之分,狭义语法是指以形态变化和虚词搭配为依托的语言法则,这些法则里本来包含语义信息,但语法学从自身研究的便利出发曾长期有意脱离语义而自成体系。这个状况直到乔姆斯基的转换生成语法和菲尔墨的格语法出现以后才发生了变化,随后的功能语法继承了乔姆斯基和菲尔墨的传统,这些语法应称为广义语法,它包含了语义甚至语用。但是,广义语法学虽然融入了语义知识,并未对语义表述给出完善的理论框架。HNC理论从根本上改变了这一状况,“根本”的具体表现就是建立了表述自然语言概念和语句的两套数学表示式。

在应用上,HNC理论把以句类格式为基点的语句分析叫做句类分析。句类分析是对大脑语言感知过程的初步模拟,在模糊消解方面,理论上,句类分析应能接近甚至超过常人的水准,这一点已在汉语无声调拼音——文字转换方面得到了验证。这使计算机向真正的理解迈出了坚实的第一步。在这第一步的基础上,HNC理论设计了自然语言处理系统的基本框架,这个框架由9个模块组成:1.单音词感知模块;2.语义块感知模块;3.句类分析模块;4.合理性分析模块;5.短时记忆知识模块;6.语境生成模块;7.隐藏知识揭示模块;8.要点主题分析模块;9.短时记忆向长时记忆扩展的模块。目前,部分模块已在计算机上得到实现。

2  HNC理论开辟了汉语研究的新路子,解决了汉语理解所面临的诸多难题

自1898年《马氏文通》问世后的整整一百年来,汉语语法学的研究确实取得了不少成绩,但问题也越来越突出。越来越多的人认识到,问题的根本原因在于,一百年来的汉语研究基本上都是在套用印欧的语法学,而汉语同印欧有巨大差异,语法学不适用于汉语研究。“语法”这个词汉语原来是没有的,是从西方引进的,但这不等于说汉语传统语言学没有语法的概念,只不过表明语法对汉语传统语言学所面临的问题不十分重要罢了。前文提到,语法中本来是包含语义信息的,但语法学从自身研究的便利出发长期脱离语义而自成体系,正是基于这一点,我国著名的音韵训诂学家黄侃先生曾将《马氏文通》戏称为“狗屁不通”,绝不只是戏言。汉语语法学一开始就遇到的问题,诸如词的兼类问题、主宾语问题等,至今没有解决。把不符合汉语特点的语法研究的思路和成果应用于汉语理解,自然遇到了一系列难以解决的问题,使汉语理解难以前进。这些问题主要有:(1)汉语“词无定类”,兼类十分普遍,词类与句法成分之间没有明确的对应关系,难以凭借词类进行有效的句法分析;(2)汉语是无形态的语言,句法分析没有可利用的词形变化,确定句子的中心动词成为一大难题;(3)汉语的句法结构相当灵活,难以把握;(4)汉语语法上的主语、宾语等句法成分与语义上的施事、受事等论旨角色的关系十分复杂,难以根据句法分析的结果进行语义理解。

百年来的汉语研究证明,汉语是“意合型”的语言,不能套用印欧语法学来研究,应该建立基于汉语特点的语言研究理论。二十年来的汉语理解实践表明,从分词开始的每一步都无法彻底实现,根本问题在于每一步都离不开理解,应该开创不依赖形式分析的新路子;更为重要的是,汉语理解需要宏观的理论指导。

汉语研究和汉语理解的困境在呼唤符合汉语特点的新理论、新技术,HNC理论成功地响应了这一呼唤。解决汉语研究和汉语理解的难题,是HNC理论创立之初的首要目标,现在,这个目标已经实现,目标的实现是以前文所述的自然语言表述和处理模式为基础的。HNC理论建立的语言模型直接从深层语义出发,不再停留于表层形式,摆脱了传统语法学的束缚,尤其适用于汉语研究,它将开创汉语研究的新局面。HNC理论设计了汉语理解的宏观理论框架,不再走分词、词性标注、句法分析的老路,而是从语义块感知和句类分析入手,直接迈上语义理解的台阶,使老路上的难题或者不复存在,或者得到了解决。

下面仅以HNC理论对词性(词类)问题的创见为例来“管窥”它所开辟的汉语研究新思路。

建立在印欧语言形态变化基础上的词性无法落实于汉语。汉语本来是没有“词性”一说的,《马氏文通》以来,语法学界对汉语的词性讨论来讨论去,总难免有“词无定类”的感慨,有“依句辨品,离句无品”的结论。问题主要在于汉语词的兼类太严重,难以处理,《现代汉语词典》中一直没有标词性,自有其苦衷。但是,这不能说明汉语的词没有词性。那么,词性问题的根本在哪里,该怎样解决呢?HNC理论的五元组从语言深层阐释并解决了词性问题。五元组是前述概念表述体系的组成部分。

任何一个概念都需要从不同侧面予以表达,这种现象叫做概念的多元性表现。具体概念的多元性表现十分复杂,难以给出规范化的表达,抽象概念则有所不同,它的多元性表现在自然语言中有明显的迹象,这就是词性现象。印欧语言的词根或具有词根特色的词,可以加上不同的后缀分别构成动词、名词、形容词和副词,这种词性的转换就是抽象概念多元性的生动表现,也就是说,词根相同词性不同的词是对同一概念不同侧面的表达。汉语对抽象概念的多元性表现则没有相应的形式标示,而往往是同一个词兼有名词、动词、形容词、副词中的几个属性。汉语的词性模糊现象和西语以词缀变化表现不同词性的现象都是抽象概念多元性的生动表现,词缀变化的有无只是一种形式,本质在于抽象概念本身具有这种多元性表现的固有特征。

那么,抽象概念多元性表现的“多”是一个模糊的“多”,还是一个确定的“多”?或者说,能否给以规范化的表达?或者再换一个说法,这个多元性表现的“多”是否存在某些基元(primitive)呢?HNC的答案是肯定的。抽象概念需要从动态、静态、属性、值和效应五个侧面加以表达,这就是抽象概念的五元组特性,简记为:{v,g,u,z,r}特性,它们是抽象概念多元性表现的基元。任何概念都具有五元组特征,即都需要从五个侧面加以表达,不过,对某个抽象概念各个侧面的表达,自然语言中未必有相应的词语,而且不同语种间存在着差别。反过来,自然语言中的一个表达抽象概念的词语必定是从五元组中的某个或某几个侧面来表达某个抽象概念。例如,“思考、思维、想法”就是分别从五元组的vg,g,r侧面对同一概念内涵的表达。五元组是词性的本质内容,是词性的基元。所以,不必为汉语词的大量兼类现象感到困惑。

应该指出,HNC理论开创的基于深层语义的语言理论,不仅适用于汉语研究,也适用于包括印欧语在内的其他语言的研究;它开拓的不以句法分析为依托的新路子,不仅适用于汉语理解,也适用于世界整个自然语言理解。

3  结束语

我们认为,HNC理论是相当成熟的全新的理论,它是中国人创立的、基于汉语特点的自然语言理解理论。它的创立为我国开创自己的语言信息产业创造了契机。有人说,中国的信息产业当前面临八国联军入侵的局势,有关外国大公司早已看到中文信息处理的巨大市场,他们在向中国进军,凭着雄厚的经济实力,大力“收买”中国的人才、技术和成果,如此长久下去,中国人还哪有自己的信息产业。不久前,IBM公司推出了汉语语音输入系统,他们有一个不错的语音模型,但是,他们还没有一个好的语言模型。HNC建立的语言表述和处理模型目前在国内外都是无人可比的,它应该成为中国人的财富,我国应该以它为基础来开创有中国特色的信息产业。我们期待着HNC理论大展鸿图。

主要参考文献
[1]黄曾阳.HNC理论概要.中文信息学报,1997,(4)
[2]黄曾阳.HNC理解处理论文选录.中国科学院声学研究所声场声信息国家重点实验室自然语言理解课题组,1996.3
[3]黄曾阳.<理解问答>、<关于HNC词知识库的建设>.内部资料
[4]张全.基于HNC理论的语义块感知处理.中国科学院声学所博士学位论文
[5]林杏光.正确引导汉语理解与汉语研究——事关人工智能开发的一个重要前提.科技导报,1997,(4)
[6]张普.论语义场.中文信息处理应用平台工程.北京:电子工业出版社,1995
[7]陈群秀,张普.信息处理应用现代汉语语义分类体系:属性分类.同上
[8]陈小荷.汉语语义自动分析的任务与策略.同上
[9]鲁川.现代汉语的语义网络.同上
[10]苗传江.自然语言理解的新进展——简评黄曾阳先生创立的HNC理论.科技导报,1998(3)
[11]姚天顺等.自然语言理解——一种让机器懂得人类语言的研究.北京:清华大学出版社,1995.12

 


* 本文已投《中文信息学报》,待发表。