本章是对HNC理论和她所建立的语句表述模式的概述,重点介绍语义块、句类和句类表示式的概念,这是本文研究句类知识的理论背景。
HNC
是英文Hierarchical Network of Concepts(概念层次网络)的缩写,HNC理论即概念层次网络理论,是一个关于自然语言理解处理的理论体系。下面介绍该理论的目标和进展,作为对该理论的概述。HNC
理论的目标是,以概念联想脉络为主线,建立一种模拟大脑语言感知过程的自然语言表述模式和计算机理解处理模式,使计算机获得消解模糊的能力。 消解模糊是HNC对自然语言理解处理当前阶段的定位。作为传递信息的符号系统,自然语言的一个最大特点是模糊性,即不确定性。自然语言的模糊存在于各个层面和环节,可以概括为五重:发音模糊、音词转换模糊、词的多义模糊、语义块构成的分合模糊、指代冗缺模糊(书面语只有后三重模糊),(pp3)*对这些模糊的消解是大脑感知和理解语言的首要任务,人在理解语言的过程中,大脑里最基本、最频繁的操作就是进行模糊消解处理。(pp57)如果这些模糊不能消解,就难以有更深入的理解。要想让计算机对自然语言进行理解处理,也必须首先让它具有消解模糊的能力,消解模糊理应是自然语言理解处理的第一目标。另一方面,从语言信息产业的角度来看,突破模糊消解的难关是当务之急。自然语言理解的各个应用领域,如语音识别、文字识别、全文检索、机器翻译、文字校对等,都已有应用软件投放市场,但都不能令人满意,那么这些软件的共同弱点何在?就是在模糊消解方面无能为力,而用户对此又十分敏感,因此提高语言信息产品的市场信誉,从而提高市场占有率的根本出路在于提高消解模糊的能力。(pp101) 人类大脑在感知和理解自然语言的过程中表现出强大的模糊消解能力,对庞杂的语言模糊可以说是应付裕如,要使计算机获得消解模糊的能力,就必须探索大脑的语言感知过程。大脑语言感知的本质是概念联想脉络激活、扩展、浓缩、转换与存储的全过程运作,它所依靠的是大脑中客观存在的概念联想脉络,而不是孤立的句法知识,或者统计数据,也不是逻辑推演。概念联想脉络的运作就是大脑语言感知的机制,语言习得的过程实质上就是建立概念联想脉络的过程。对概念联想脉络存在的客观性及其表现形式和具体结构的揭示与验证,是认知科学的任务,而认知科学的发展目前还处于初级阶段,自然语言理解的迫切需要不能坐等认知科学的进展,因此,HNC从假设出发,实现对概念联想脉络的表述,以建立一种模拟大脑语言感知过程的自然语言表述模式和计算机理解处理模式。对假设和模拟的检验就看能否使计算机获得消解语言模糊的能力,当然,如果有认知科学的结合,那就更好了,这也是HNC的愿望和目标。 建立自然语言表述和处理的适当模式是自然语言处理发展的关键。近半个世纪以来,自然语言处理所用模式的根本弱点在于,它们不是描述语言感知过程的适当模式,这是自然语言处理近20年来缺乏长足进展的根本原因。(pp3)HNC要建立新的语言模式,就是要紧扣建立概念联想脉络、模拟大脑语言感知过程这条主线,这也是其特色和要点所在。 围绕上述主线,HNC预定建立自然语言的五个理论模式:(1)自然语言概念体系的理论模式;(2)自然语言语义块和语句的理论模式;(3)句群、段落和篇章要点的表述模式;(4)短期记忆和长期记忆的形成及其相互转换模式;(5)基于文字文本的计算机自学习模式。这五个模式是大脑语言感知过程中概念联想脉络激活、扩展、浓缩、转换与存储运作的要点,(1)和(2)是语句理解的模式,是激活运作的要点,(3)是段落和篇章理解的模式,是扩展与浓缩运作的要点,(4)和(5)是记忆与学习的模式,是转换与存储的要点。前两个模式是后三个的基础。这些符号串中蕴涵着概念联想的简明而丰富的知识,计算机通过解释这些符号就可以把握概念之间的关联性,如“增加”与“减少”的反义关联、“召开”与“会议”的动宾关联、“教师”与“讲课”的主谓关联、“年月日”的包含关联、“情感”与“高兴”的上下位关联等等,从而能够进行上下文理解处理。
作为符号体系,自然语言有一个严重缺陷,就是意义上密切相关的内容,表达符号上却往往毫不相关(从上面的例子中可以清楚地看到这一点),对人脑来说这不是问题,因为人脑有概念联想能力,而对计算机来说,这是个致命的障碍,因为它从语音或文字符号上无法获取意义上的关联,也就无法进行理解处理。HNC的符号表达弥补了自然语言的缺陷,为计算机克服了障碍,提供了处理手段。而且,HNC表达关联性的方式不是在概念或词义之间划上各种弧来连接,而是精心设计符号体系,把关联性浓缩到符号串中,显然这种方式更科学、更高效、更便于计算机处理,事实上也只有这种方式才能适应计算机的需要,才能真正实现概念的激活和联想操作。 (3)建立了自然语言语句的表述模式,穷尽地发现了自然语言的基本句类(即语句表示式),下一节中将对此进行详细的介绍。 (4)形成了提纲挈领式的知识表示体系,及知识库建设的原则和规范,并建立了相当规模的概念知识库和汉语知识库。HNC知识库以表达概念联想脉络为主线,对语义、语法、语用和常识知识进行综合抽象与提炼,为自然语言理解处理提供了关键知识。这些知识是语料统计所无法得到的。而且,其知识表达是数字化的,不是用自然语言来描述自然语言。 (5)形成了称为句类分析的自然语言理解处理模式。句类分析与传统的句法语义分析模式有根本的不同,它以概念联想知识为依托,具有上下文预期能力,是对大脑语言感知过程的初步模拟,在消解模糊方面理论上能接近甚至超过常人的水准。句类分析技术已经在计算机上初步实现,解决了汉语述语动词辨识等难题,它是智能检索、文本分类、信息抽取、机器翻译等各种应用系统的核心技术。 以上五个方面的进展也就是HNC理论的基本内容,它们的关系如下图所示。语义网络是整个理论体系的根基,自然语言概念和语句的表述模式是在这个基础上建立起来的,这也是该理论以概念层次网络(HNC)命名的原因。知识库是在表述模式的指导下对自然语言的描述,是对概念联想脉络的具体表达,计算机利用这些知识就可以获得预期能力,从而能够实现对自然语言的理解处理。句类分析是在表述模式指导下对自然语言进行的分析处理,它以知识库为支撑。语义网络和表述模式是体,知识库和分析系统是用。 概念和语句表述模式就是上述五个理论模式中的前两个,它们的建立和工程实现为后面三个模式的建立创造了必要条件。
HNC
建立了自然语言概念体系和语句的理论模式,其理论意义和应用价值在于: (1)揭示出自然语言总体上是well-defined的,而并非如乔姆斯基所说是ill-defined的。 (2)提供了观察自然语言的望远镜和显微镜,形成了语言研究的新的理论和方法,使语言研究和自然语言处理能够紧密配合。 (3)使计算机可以实现对大脑语言感知过程的初步模拟,获得相当强的消解模糊能力,从而迈上自然语言理解的第一个台阶。 (4)为中文信息处理摆脱在字处理阶段徘徊的现状(许嘉璐2000),走上语句理解处理的新阶段开辟了道路,为我国竞争语言信息产业的国际领先地位创造了契机。HNC
建立语句表述模式就是要写出句子的语义结构表示式。为此提出了句类和语义块的概念。作用句和效应句的符号分别取
X和Y,并非因为没有相应的英文,而是为了强调这两个句类的特殊重要性:作用和效应是作用效应链的两极,七大句类可以二分为广义作用句和广义效应句。关于广义作用句和广义效应句之分,详见2.3节。 各句类都有子类,子类的表示符号是在句类符号后加阿拉伯数字,如作用句的子类有X1、X2、X3、X4等,判断句的子类之一基本判断句用jD表示,是个例外。 划分出句类以后,要进一步写出各个句类的表示式,这就需要语义块的概念。主语义块和辅语义块的符号
K和fK取自汉语拼音。 主语义块又称主要素,或简称主块。辅语义块又称辅要素,或简称辅块。A、B、C三种主块统称广义对象语义块,用JK表示。 此外还有介于主辅之间的语义块,称为两可语义块,是在句子中可能充当主块,也可能充当辅块的语义块。两可块有两种,一是因果(RtB或RtC),二是参照(ReB或ReC)。 语义块的主辅之分依据它对句子基本语义信息的重要性而定,主语义块是必要成分,辅语义块是可选成分,构成句类表示式的是主语义块。因此,下面只重点介绍主语义块。对辅语义块和两可语义块,将在1.2.5节给出示例性说明。 形成ECBA四种主语义块概念的理论依据有四点:两类对象,两类表现,表现与对象的融合性,果表现的语句扩展性。(pp53) 一个句子所描述的内容无非是两个方面,一是对象,二是对象的表现,前者是“什么”,后者是“怎么样”。ECBA中,B和A是对象,E和C是表现。两类对象中,B是一般对象,A是特殊对象,是对其他对象产生作用的对象。两类表现中,E是一般表现,C是特殊表现。对B和E冠以一般,而对A和C冠以特殊的原因在于:在出现两个对象时,可以两个都是B,或一A一B,但绝不可能两个都是A,同样,在出现两个表现时,可以两个都是E,或一E一C,但绝不可能两个都是C。C
语义块的提出还有两个来源。一是果表现的语句扩展性。一个句子里的表现如果不只一个,那么表现之间的关系显然有两类(不计简单的并合关系),一类是一般的顺序关系,另一类是因果关系,后者是一种特殊的顺序关系,HNC把因定义为一般表现E,把果定义为特殊表现C。果表现就是“新的效应又会引发新的作用”这一基本观念的具体体现,就是作用效应链的再循环,而再循环的表达当然可以是一个句子,所以C语义块可以扩展为另一语句,这就是C语义块的语句扩展性,具有这一特性的语义块称为块扩,将在2.1.2节中详细阐述。另一个来源是对象与表现的融合性。一个语义块可以只有对象或表现,也可以是表现与对象的融合,应该把具有这种融合性的表现和不具有这种融合性的表现区别开来,HNC把前者定义为内容C,把后者定义为特征表现E。内容C和对象的可融合性意味着ABC实质上是广义对象语义块的构成基元。 上面只是对ECBA的一般定义,它们的确切内涵必须根据句类来确定,这就是HNC关于句类和语义块的基本论点:语义块是句类的函数。(pp53)句子的基本语义信息就蕴涵在特征语义块中,因此E的内涵与句类相对应,换言之,E语义块决定句类,这也是称之为“特征”块的原因。广义对象语义块的内涵随句类的不同而不同,例如,A在基本作用句中是产生作用者,在转移句中是转移的发出者,而过程句、效应句和状态句中则没有A;B在作用句和效应句中是受作用者,在转移句中是转移的接收者,在过程句、关系句和状态句中分别是过程、关系和状态的体现者,而关系的体现者显然至少有两个,即关系的双方。辅语义块与句类之间的函数关系比较弱,这也是辅语义块不进入句类表示式的原因。 句类与语义块的函数关系可以用下表表示:
主 块 |
E |
X P T Y R S D Xmn Pmn …(句类) |
A B C |
||
辅 块 |
Ms In Wy Re Cn Rr Rt |
|
两可块 |
RtB RtC ReB ReC |
TJ=TA+T+TB+TC
(张先生+送给+李小姐+一束鲜花。)再比如,反应句(作用句的子类)的子类一般反应句有三个语义块:反应者
X2B、反应X2和反应引发者及其表现XBC(这是一个融合了对象和内容的语义块),其表示式就写为:X20J=X2B+X2+XBC
(张先生+很喜欢+李小姐的个性。)HNC
发现自然语言句类的表示式是有限的,是可以穷尽的,一共有57个。这57个表示式包含了七大句类及其子类的表示式,称为基本句类。根据特征语义块的符号对句类表示式加以编码,称为句类代码,在上面例举的表示式中,等号左边的部分(不含“J”)就是句类代码。57个基本句类的表示式及其代码在附录一中给出。 句类表示式中的广义对象语义块(JK),可以依次用JK1、JK2、JK3来指称。 基本句类是自然语言语句语义结构的基元类型,它们可以两两组合成混合句类。混合句类是表达了两个基本句类信息,且只有一个特征语义块的句类。理论上混合句类有57*56=3192个,常用的大概有300多个。有两个特征语义块的组合句类称为复合句类,理论上有(3192+57)的平方个(约1千万)。 混合句类的句类代码约定为:E1E2*kmn
E1
和E2是基本句类代码,kmn是数字。混合句类的特征语义块就用E1E2表示,广义对象语义块从E1或E2的表示式中选取。k表示混合句类的JK总数,也就是表示需要从E1和E2的表示式中总共选取几个JK。m表示从E1中选取的JK数,从JK1开始依次选取。n表示从E2中选取JK的起始号,也是依次选取。kmn三个数字就表示了混合句类之JK的选取方法,即总共需要取k个,其中m个从E1的JK1开始依次选取,其余的(k-m)个从E2的JKn开始依次选取。很显然,若m=0,则表明不从E1中选取;若m=k,则表明不从E2中选取。约定若n=m+1或m=k,则省略n。 根据这样的代码就可以生成混合句类的表示式,下面是一些示例:(前面先给出了示例中用到的基本句类的表示式,每个示例后给出了一个例句。)X20J=X2B+X20+XBC SJ=SB+S
P21J=PBC1+P21+PBC2 YJ=YB+Y
T3J=TA+T3+TB+T3C XJ=A+X+B
R010J=RB1+R010+RB2 T49J=T4B+T49+T4C
P01J=PBC+P01 Y0J=YB+Y0+YC
Y301J=YBC+Y301 XYJ=A+X+B+YC
X20S*10J =SB+X20S
小姑娘十分伤心。YP21*20J =PBC1+YP21+PBC2
中国的稳定有利于亚洲的和平与发展。T3X*21J=TA+T3X+B
亚洲各国强烈抨击了日本右翼势力的言行。R010Y*22J =RB1+R010Y+RB2
战士们依依不舍地告别了山里的父老乡亲。XP01*211J =A+XP01+PBC
对方一再拖延谈判日期。T49Y0*21J =T4B+T49Y0+YC
中美双方签订双边贸易协定。X20T3*31J =X2B+X20T3+TB+T3C
他答应我不告诉别人这个秘密。T3XY*32J =TA+T3XY+TB+YC
我恳请他尽快处理好这个问题。T3Y301*322J =TA+T3Y301+TB+YBC
他向对方明确地阐明了我们的观点。 需要强调指出,混合句类的JK表示式虽然取自E1或E2,但其涵义跟原先是不同的,因为语义块是句类的函数,现在的句类是E1和E2的混合,而不是单纯的E1或E2,其JK自然也就不同了。混合句中的JK一般兼有分别来自E1和E2的两个JK的涵义,例如,上面所举的T3XYJ中的TA,它既是信息转移的发出者,同时也是XY的作用者A,T3Y301J中的YBC,它既是效应的对象和内容,同时也是T3的转移内容T3C。所以,混合句类的JK表示式从E1或E2中选取,这是一种简化表示,完整的表示是给出混合句类的代码,如上面的TA和YBC应该是T3XYA和T3Y301BC。 混合句类表示式中的JK用E1或E2中的哪个JK表示式来简化表示,这取决于确切表达句类知识的需要,第十章中将对此进行详细的阐述。 混合句类代码中E1和E2的前后顺序不是任意的,而是具有前因后果关系,例如X20T3表示X20(一般反应)在先,是因,T3(信息转移)在后,是果,而T3X20则表示T3是前因,X20是后果。E1
和E2的先后顺序不能随意调换,那么如果需要先从E2中选取JK的话怎么办呢?用反结构来表示,就是在混合句类代码的kmn前加反结构符号“^”,表示先从E2中选取m个JK,其余(k-m)个从E1中选取。例如,X20J=X2B+X20+XBC YJ=YB+Y
X21J=X2A+X21+XBC T3J=TA+T3+TB+T3C
X20Y*^21J =YB+X2Y+XBC
我们没有忘记先生的教导。X21T3*^21J =TA+X21T3+XBC
老师批评了那些闹事的学生。“忘记”是记忆之后的效应,反应在先,效应在后,所以应该是
X20Y,混合后的JK1应该取效应对象YB,JK2应该取反应对象及其引发者XBC,这就需要用反结构符号来表示了。同样地,“批评”是X21T3,反应在先,信息转移在后,混合后的JK1和JK2应该分别取TA和XBC,要用反结构来表示。 复合句类的句类代码约定为:(J1+J2)*kmn
其中,
J1和J2是基本或混合句类代码。复合句类有两个特征语义块,实际上是J1和J2两个句子接合在一起,而且有共用或重叠的JK,我们假定前一个句子的JK都是自备的,共用的JK是后一个句子借用了前一个的,那么只要明确J2的哪个JK借用了J1的哪个JK,复合句类的表示式就可以确定了。代码中的kmn就分别指示J2的JK1、JK2和JK3借用J1的哪个JK,取0表示不借用。约定kmn尾部的0可以省略。示例, (1)张先生去上海参加会议了。 (T2b+Y0)*1J (2)大家听到这个消息都很高兴。 (T1+X20S*10)*1J (3)江主席将去美国访问。 (T2b+R011T2b*21)*12J (4)我们将把这份文件提交大会讨论。 (T0+T49)*23J (5)我杀只鸡你吃。 (X+T21)*02J例(
1)是“张先生去上海”和“张先生参加会议”两个句子的复合,前者是自身转移句T2bJ=TA+T2b+TB,后者是一般效应句Y0J=YB+Y0+YC,它的JK1(YB)借用了T2b的JK1(TA)。例(4)是“我们将把这份文件提交大会”和“大会讨论这份文件”的复合,前者是一般转移句T0J=TA+T0+TB+TC,后者是交换句T49J=T4B+T49+T4C,它的JK1(T4B)借用了T0的JK2(TB,即接收者“大会”),它的JK2(T4C)借用了T0的JK3(TC,即转移内容“这份文件”)。 如果需要表达J1借用了J2的JK,就用反结构^kmn表示,即kmn分别指示J1的JK1、JK2和JK3借用J2的哪个JK,例如, (6)我们将提交大会讨论这份文件。 (T0+T49)*^012代码中的
^012标明,J1的JK1(TA,“我们”)是自备的,JK2借用了J2的JK1(T4B,“大会”),JK3借用了J2的JK2(T4C,“这份文件”)。本节讨论关于语义块和句类的几个理论问题。
ECBA
四类语义块形式上似乎与语法学的主谓宾补语相对应,事实上二者之间不存在实质性的对应关系,它们之间的区别在于:ECBA是语言深层的语义描述量,是句类的函数,但与语句格式(即语义块的排列顺序)无关,而主谓宾补恰恰相反,它们是语言表层的语法描述量,与句类无关,但与语句格式息息相关。例如,“主席团坐在台上”、“台上坐着主席团”、“主席团在台上坐着”,不管句子的格式如何变化,“主席团”和“台上”的语义块都是不变的,前者是状态对象SB,后者是状态内容SC。质言之,ECBA是语义层面的概念,主谓宾补是语法层面的概念,两者是从不同层面或角度对句子的结构提出分析的模式,不能相互代替。(pp54)HNC
建立了自然语言语句的表示模式,发现了自然语言的57个基本表示式,57这个具体的数字并不重要,重要的是,它表明,自然语言无限的句子可以用有限而确定的表示式来描述,运用这些表示式可以描述任何句子的语义结构,因此我们认为句类表示式就是自然语言语句的深层结构。Chomsky早期提出深层结构的概念,后来又一度放弃,原因在于他没能确定深层结构如何存在和如何表达,HNC的句类具体地揭示出了自然语言语句的深层结构。 作为语句的深层结构,句类表示式为自然语言语句的理解处理提供了全局性的框架知识,各个句类所具备的框架知识就是句类知识的主体内容,是本文的研究重点。下一章就系统阐述句类知识的主体框架和基本内容。
本节只给出辅语义块和两可语义块的示例,并不加以定义和说明。
方式 Ms
香港人在历史上第一次以明确的身份主宰自己的命运。
苏联人设法通过垄断媒体对舆论进行微观控制。
文章以嘲弄的口吻反驳周扬。 士兵不能靠吃数据来维生。
工具 In
美国人通过卫星获取战术情报。
香港同胞一定会以自己的勤劳和智慧,为保持香港长期繁荣稳定做出积极的贡献。
我们坐船到橄榄坝去。
途径 Wy
我们通过水光山色来观察那随时变化的景色。
比照 Re
美国不可能永远像现在这样几乎垄断着第二次浪潮中的强有力的大众传媒。
汉城今年对重要科研项目的投资将比去年增加17%。
条件 Cn
中英两国政府香港政权交接仪式于6月30日午夜举行。
在仪仗队行举枪礼以后,查尔斯王子讲话。
全国宣传部长会议在京召开。
周扬在延安《解放日报》上发表了《文学与生活漫谈》一文。
邓小平先生“一国两制”伟大构想在解决香港问题上获得了成功。
因 Pr
第三次浪潮经济因开放的观念和开放的信息系统而繁荣。
果 Rt
因果 RtB或RtC
科学技术的发展将为人类打开进入未来的大门。
中国最近为加强基础科学而宣布了一项新的“五年计划”。
参照 ReB或ReC
各种各样的附生植物从树顶一直垂挂到江边。
根据中英关于香港问题的联合声明,两国政府如期举行了香港交接仪式。
正如工业革命使战争工业化,大规模的生产也带来了大规模的毁灭。