第一章 HNC和句类

本章是对HNC理论和她所建立的语句表述模式的概述,重点介绍语义块、句类和句类表示式的概念,这是本文研究句类知识的理论背景。

1.1 HNC概述

      HNC是英文Hierarchical Network of Concepts(概念层次网络)的缩写,HNC理论即概念层次网络理论,是一个关于自然语言理解处理的理论体系。下面介绍该理论的目标和进展,作为对该理论的概述。

1.1.1 HNC的目标

        HNC理论的目标是,以概念联想脉络为主线,建立一种模拟大脑语言感知过程的自然语言表述模式和计算机理解处理模式,使计算机获得消解模糊的能力。

        消解模糊是HNC对自然语言理解处理当前阶段的定位。作为传递信息的符号系统,自然语言的一个最大特点是模糊性,即不确定性。自然语言的模糊存在于各个层面和环节,可以概括为五重:发音模糊、音词转换模糊、词的多义模糊、语义块构成的分合模糊、指代冗缺模糊(书面语只有后三重模糊),(pp3*对这些模糊的消解是大脑感知和理解语言的首要任务,人在理解语言的过程中,大脑里最基本、最频繁的操作就是进行模糊消解处理。(pp57)如果这些模糊不能消解,就难以有更深入的理解。要想让计算机对自然语言进行理解处理,也必须首先让它具有消解模糊的能力,消解模糊理应是自然语言理解处理的第一目标。另一方面,从语言信息产业的角度来看,突破模糊消解的难关是当务之急。自然语言理解的各个应用领域,如语音识别、文字识别、全文检索、机器翻译、文字校对等,都已有应用软件投放市场,但都不能令人满意,那么这些软件的共同弱点何在?就是在模糊消解方面无能为力,而用户对此又十分敏感,因此提高语言信息产品的市场信誉,从而提高市场占有率的根本出路在于提高消解模糊的能力。(pp101

        人类大脑在感知和理解自然语言的过程中表现出强大的模糊消解能力,对庞杂的语言模糊可以说是应付裕如,要使计算机获得消解模糊的能力,就必须探索大脑的语言感知过程。大脑语言感知的本质是概念联想脉络激活、扩展、浓缩、转换与存储的全过程运作,它所依靠的是大脑中客观存在的概念联想脉络,而不是孤立的句法知识,或者统计数据,也不是逻辑推演。概念联想脉络的运作就是大脑语言感知的机制,语言习得的过程实质上就是建立概念联想脉络的过程。对概念联想脉络存在的客观性及其表现形式和具体结构的揭示与验证,是认知科学的任务,而认知科学的发展目前还处于初级阶段,自然语言理解的迫切需要不能坐等认知科学的进展,因此,HNC从假设出发,实现对概念联想脉络的表述,以建立一种模拟大脑语言感知过程的自然语言表述模式和计算机理解处理模式。对假设和模拟的检验就看能否使计算机获得消解语言模糊的能力,当然,如果有认知科学的结合,那就更好了,这也是HNC的愿望和目标。

        建立自然语言表述和处理的适当模式是自然语言处理发展的关键。近半个世纪以来,自然语言处理所用模式的根本弱点在于,它们不是描述语言感知过程的适当模式,这是自然语言处理近20年来缺乏长足进展的根本原因。(pp3HNC要建立新的语言模式,就是要紧扣建立概念联想脉络、模拟大脑语言感知过程这条主线,这也是其特色和要点所在。

        围绕上述主线,HNC预定建立自然语言的五个理论模式:(1)自然语言概念体系的理论模式;(2)自然语言语义块和语句的理论模式;(3)句群、段落和篇章要点的表述模式;(4)短期记忆和长期记忆的形成及其相互转换模式;(5)基于文字文本的计算机自学习模式。这五个模式是大脑语言感知过程中概念联想脉络激活、扩展、浓缩、转换与存储运作的要点,(1)和(2)是语句理解的模式,是激活运作的要点,(3)是段落和篇章理解的模式,是扩展与浓缩运作的要点,(4)和(5)是记忆与学习的模式,是转换与存储的要点。前两个模式是后三个的基础。

1.1.2 HNC的进展和基本内容

      目前,HNC已经建立了五个理论模式中的前两个,并在工程项目中得到了实践和检验,实现了技术化,其进展具体体现为以下五个方面:

      1)设计了体现概念联想脉络的语义网络。语义网络是对自然语言概念体系的总体表述,具有概念化、基元化、层次化、网络化的特点,不是对词义的分类。语义网络中的任何节点都是一个概念,而不是某个特定的词义,同时它们又都是概念的基元,可以通过组合形成无数的复合概念,这就是概念化和基元化。语义网络具有可扩展的分层结构,体现了概念体系的层次性特征,而且各个节点之间存在着不同类型的关联,这就是层次化和网络化。

      2)建立了网络式概念基元符号体系,即自然语言概念的表示式。这个符号体系具有语义完备性,能够与自然语言的任何词语建立起语义映射关系,而且,它是高度数字化的,每一个符号基元都具有确定的意义,可以充当概念联想的激活因子。这个体系可以把概念和词义之间的联想关系形式化地表达出来。例如,

      u00c21 j02c21 gv321 增加 v341

      u00c22 j02c22 gv322 减少 v342

      wj10- wj10-0 wj10-00

      召开 vc39e219 教师 pa71 战争 gva42 报废 v382

      会议 gc39e219 讲课 va71 武器 pwa42 垃圾 pw382

      感觉 vr710 情感 g713 高兴 vu7131

      裁军 vc342&pea41 报告 v9232;vc239ea2

      达成 vc249a$(v3008|(jlv001/v810)) 协议 rc249a

      控告 ((va52;va5a),vc239#(v3319|(gva59;grd03c33))) 法院 pea56

      这些符号串中蕴涵着概念联想的简明而丰富的知识,计算机通过解释这些符号就可以把握概念之间的关联性,如“增加”与“减少”的反义关联、“召开”与“会议”的动宾关联、“教师”与“讲课”的主谓关联、“年月日”的包含关联、“情感”与“高兴”的上下位关联等等,从而能够进行上下文理解处理。

      作为符号体系,自然语言有一个严重缺陷,就是意义上密切相关的内容,表达符号上却往往毫不相关(从上面的例子中可以清楚地看到这一点),对人脑来说这不是问题,因为人脑有概念联想能力,而对计算机来说,这是个致命的障碍,因为它从语音或文字符号上无法获取意义上的关联,也就无法进行理解处理。HNC的符号表达弥补了自然语言的缺陷,为计算机克服了障碍,提供了处理手段。而且,HNC表达关联性的方式不是在概念或词义之间划上各种弧来连接,而是精心设计符号体系,把关联性浓缩到符号串中,显然这种方式更科学、更高效、更便于计算机处理,事实上也只有这种方式才能适应计算机的需要,才能真正实现概念的激活和联想操作。

      3)建立了自然语言语句的表述模式,穷尽地发现了自然语言的基本句类(即语句表示式),下一节中将对此进行详细的介绍。

      4)形成了提纲挈领式的知识表示体系,及知识库建设的原则和规范,并建立了相当规模的概念知识库和汉语知识库。HNC知识库以表达概念联想脉络为主线,对语义、语法、语用和常识知识进行综合抽象与提炼,为自然语言理解处理提供了关键知识。这些知识是语料统计所无法得到的。而且,其知识表达是数字化的,不是用自然语言来描述自然语言。

      5)形成了称为句类分析的自然语言理解处理模式。句类分析与传统的句法语义分析模式有根本的不同,它以概念联想知识为依托,具有上下文预期能力,是对大脑语言感知过程的初步模拟,在消解模糊方面理论上能接近甚至超过常人的水准。句类分析技术已经在计算机上初步实现,解决了汉语述语动词辨识等难题,它是智能检索、文本分类、信息抽取、机器翻译等各种应用系统的核心技术。

      以上五个方面的进展也就是HNC理论的基本内容,它们的关系如下图所示。

       

      语义网络是整个理论体系的根基,自然语言概念和语句的表述模式是在这个基础上建立起来的,这也是该理论以概念层次网络(HNC)命名的原因。知识库是在表述模式的指导下对自然语言的描述,是对概念联想脉络的具体表达,计算机利用这些知识就可以获得预期能力,从而能够实现对自然语言的理解处理。句类分析是在表述模式指导下对自然语言进行的分析处理,它以知识库为支撑。语义网络和表述模式是体,知识库和分析系统是用。

      概念和语句表述模式就是上述五个理论模式中的前两个,它们的建立和工程实现为后面三个模式的建立创造了必要条件。

      HNC建立了自然语言概念体系和语句的理论模式,其理论意义和应用价值在于:

      1)揭示出自然语言总体上是well-defined的,而并非如乔姆斯基所说是ill-defined的。

      2)提供了观察自然语言的望远镜和显微镜,形成了语言研究的新的理论和方法,使语言研究和自然语言处理能够紧密配合。

      3)使计算机可以实现对大脑语言感知过程的初步模拟,获得相当强的消解模糊能力,从而迈上自然语言理解的第一个台阶。

      4)为中文信息处理摆脱在字处理阶段徘徊的现状(许嘉璐2000),走上语句理解处理的新阶段开辟了道路,为我国竞争语言信息产业的国际领先地位创造了契机。

1.2 HNC语句表述模式

      HNC建立语句表述模式就是要写出句子的语义结构表示式。为此提出了句类和语义块的概念。

1.2.1 句类

        句类是句子的语义类型。这与语言学中的句类同名而异实,后者是指陈述句、疑问句、祈使句和感叹句。HNC划分句类的标准是“作用效应链+判断”。什么是作用效应链?“作用效应链反映一切事物的最大共性,作用存在于一切事物的内部和相互之间,作用必然产生某种效应,在达到最终效应之前,必然伴随着某种过程或转移,在达到最终效应之后,必然出现新的关系或状态。过程、转移、关系和状态也是效应的一种表现形式。新的效应又会诱发新的作用,如此循环往复,以至无穷,这就是宇宙间一切事物存在和发展的基本法则,也是语言表达和概念推理的基本法则。”(pp29)作用效应链的六个环节(作用、过程、转移、效应、关系、状态)是表述事物的基本侧面,自然语言的一个句子总是对作用效应链的某个或某些环节进行表达,这就是句子的基本语义信息,因此,作用效应链就是对句子进行语义分类的标准。此外,语言表达还有一类基本内容,就是判断。判断是表达主观思维的,而作用效应链是描述客观事物的。作用效应链加判断就形成了七大句类,分别用大写的英文字母表示:

        句类命名 句类符号 英文

        作用句 X

        过程句 P Process

        转移句 T Transfer

        效应句 Y

        关系句 R Relation

        状态句 S State

        判断句 D Determine

        作用句和效应句的符号分别取XY,并非因为没有相应的英文,而是为了强调这两个句类的特殊重要性:作用和效应是作用效应链的两极,七大句类可以二分为广义作用句和广义效应句。关于广义作用句和广义效应句之分,详见2.3节。

        各句类都有子类,子类的表示符号是在句类符号后加阿拉伯数字,如作用句的子类有X1X2X3X4等,判断句的子类之一基本判断句用jD表示,是个例外。

        划分出句类以后,要进一步写出各个句类的表示式,这就需要语义块的概念。

1.2.2 语义块

        语义块是句子的语义构成单位。一个语义块通常包含说明部分和核心部分,核心部分也称为语句要素,语义块以其要素命名。(关于语义块的说明部分,将在2.3节中具体说明)语义块分为主语义块和辅语义块两大类。主语义块有4种,分别是特征语义块内容语义块、对象语义块和作用者语义块。辅语义块有7种,分别是手段、工具、途径、比照、条件、因、果。也分别用英文字母表示:

        语义块命名 符号 英文

        主语义块 K

        对象 B oBject

        作用者 A Agent

        特征 E Eigen

        内容 C Content

        辅语义块 fK

        方式 Ms Means

        工具 In Instrument

        途径 Wy Ways

        比照 Re Refer

        条件 Cn Condition

        Pr Premise

        Rt Result

        主语义块和辅语义块的符号KfK取自汉语拼音。

        主语义块又称主要素,或简称主块。辅语义块又称辅要素,或简称辅块ABC三种主块统称广义对象语义块,用JK表示。

        此外还有介于主辅之间的语义块,称为两可语义块,是在句子中可能充当主块,也可能充当辅块的语义块。两可块有两种,一是因果(RtBRtC),二是参照(ReBReC)。

        语义块的主辅之分依据它对句子基本语义信息的重要性而定,主语义块是必要成分,辅语义块是可选成分,构成句类表示式的是主语义块。因此,下面只重点介绍主语义块。对辅语义块和两可语义块,将在1.2.5节给出示例性说明。

        形成ECBA四种主语义块概念的理论依据有四点:两类对象,两类表现,表现与对象的融合性,果表现的语句扩展性。(pp53

        一个句子所描述的内容无非是两个方面,一是对象,二是对象的表现,前者是“什么”,后者是“怎么样”。ECBA中,BA是对象,EC是表现。两类对象中,B是一般对象,A是特殊对象,是对其他对象产生作用的对象。两类表现中,E是一般表现,C是特殊表现。对BE冠以一般,而对AC冠以特殊的原因在于:在出现两个对象时,可以两个都是B,或一AB,但绝不可能两个都是A,同样,在出现两个表现时,可以两个都是E,或一EC,但绝不可能两个都是C

        C语义块的提出还有两个来源。一是果表现的语句扩展性。一个句子里的表现如果不只一个,那么表现之间的关系显然有两类(不计简单的并合关系),一类是一般的顺序关系,另一类是因果关系,后者是一种特殊的顺序关系,HNC把因定义为一般表现E,把果定义为特殊表现C。果表现就是“新的效应又会引发新的作用”这一基本观念的具体体现,就是作用效应链的再循环,而再循环的表达当然可以是一个句子,所以C语义块可以扩展为另一语句,这就是C语义块的语句扩展性,具有这一特性的语义块称为块扩,将在2.1.2节中详细阐述。另一个来源是对象与表现的融合性。一个语义块可以只有对象或表现,也可以是表现与对象的融合,应该把具有这种融合性的表现和不具有这种融合性的表现区别开来,HNC把前者定义为内容C,把后者定义为特征表现E。内容C和对象的可融合性意味着ABC实质上是广义对象语义块的构成基元

        上面只是对ECBA的一般定义,它们的确切内涵必须根据句类来确定,这就是HNC关于句类和语义块的基本论点:语义块是句类的函数。(pp53)句子的基本语义信息就蕴涵在特征语义块中,因此E的内涵与句类相对应,换言之,E语义块决定句类,这也是称之为“特征”块的原因。广义对象语义块的内涵随句类的不同而不同,例如,A在基本作用句中是产生作用者,在转移句中是转移的发出者,而过程句、效应句和状态句中则没有AB在作用句和效应句中是受作用者,在转移句中是转移的接收者,在过程句、关系句和状态句中分别是过程、关系和状态的体现者,而关系的体现者显然至少有两个,即关系的双方。辅语义块与句类之间的函数关系比较弱,这也是辅语义块不进入句类表示式的原因。

        句类与语义块的函数关系可以用下表表示:

         

         

        E

        X P T Y R S D Xmn Pmn …(句类)

        A

        B

        C

         

        Ms

        In

        Wy

        Re

        Cn

        Rr

        Rt

        两可块

        RtB

        RtC

        ReB

        ReC

        发现了语义块的构成基元和语义块与句类之间的函数关系,就可以构造出语义块的表示式了:特征语义块的表示式与句类的表示符号相同,广义对象语义块的表示式是在基元符号ABC前加上句类符号,当同类对象不只一个时,在后面加数字区别。例如,过程句、转移句、效应句、状态句的对象分别表示为PBTBYBSB,关系句里的两个对象表示为RB1RB2。辅语义块的表示式不加句类符号,因为它是句类的泛函数。

1.2.3 句类表示式和句类代码

        句子是由语义块构成的,构造出语义块的表示式以后,句类的表示式也就构造出来了。语义块的表示式加在一起就构成句类表示式。例如,转移句有四个语义块:转移发出者TA、转移T、转移接收者TB和转移内容TC,其表示式就写为:(“J”表示句子)

        TJ=TA+T+TB+TC (张先生+送给+李小姐+一束鲜花。)

        再比如,反应句(作用句的子类)的子类一般反应句有三个语义块:反应者X2B、反应X2和反应引发者及其表现XBC(这是一个融合了对象和内容的语义块),其表示式就写为:

        X20J=X2B+X2+XBC (张先生+很喜欢+李小姐的个性。)

        HNC发现自然语言句类的表示式是有限的,是可以穷尽的,一共有57个。这57个表示式包含了七大句类及其子类的表示式,称为基本句类。根据特征语义块的符号对句类表示式加以编码,称为句类代码,在上面例举的表示式中,等号左边的部分(不含“J”)就是句类代码。57个基本句类的表示式及其代码在附录一中给出。

        句类表示式中的广义对象语义块(JK),可以依次用JK1JK2JK3来指称。

        基本句类是自然语言语句语义结构的基元类型,它们可以两两组合成混合句类。混合句类是表达了两个基本句类信息,且只有一个特征语义块的句类。理论上混合句类有57*56=3192个,常用的大概有300多个。有两个特征语义块的组合句类称为复合句类,理论上有(3192+57)的平方个(约1千万)。

        混合句类的句类代码约定为:

        E1E2*kmn

        E1E2是基本句类代码,kmn是数字。混合句类的特征语义块就用E1E2表示,广义对象语义块从E1E2的表示式中选取。k表示混合句类的JK总数,也就是表示需要从E1E2的表示式中总共选取几个JKm表示从E1中选取的JK数,从JK1开始依次选取。n表示从E2中选取JK的起始号,也是依次选取。kmn三个数字就表示了混合句类之JK的选取方法,即总共需要取k个,其中m个从E1JK1开始依次选取,其余的(k-m)个从E2JKn开始依次选取。很显然,若m=0,则表明不从E1中选取;若m=k,则表明不从E2中选取。约定若n=m+1m=k,则省略n

        根据这样的代码就可以生成混合句类的表示式,下面是一些示例:(前面先给出了示例中用到的基本句类的表示式,每个示例后给出了一个例句。)

        X20J=X2B+X20+XBC SJ=SB+S

        P21J=PBC1+P21+PBC2 YJ=YB+Y

        T3J=TA+T3+TB+T3C XJ=A+X+B

        R010J=RB1+R010+RB2 T49J=T4B+T49+T4C

        P01J=PBC+P01 Y0J=YB+Y0+YC

        Y301J=YBC+Y301 XYJ=A+X+B+YC

        X20S*10J =SB+X20S 小姑娘十分伤心。

        YP21*20J =PBC1+YP21+PBC2 中国的稳定有利于亚洲的和平与发展。

        T3X*21J=TA+T3X+B 亚洲各国强烈抨击了日本右翼势力的言行。

        R010Y*22J =RB1+R010Y+RB2 战士们依依不舍地告别了山里的父老乡亲。

        XP01*211J =A+XP01+PBC 对方一再拖延谈判日期。

        T49Y0*21J =T4B+T49Y0+YC 中美双方签订双边贸易协定。

        X20T3*31J =X2B+X20T3+TB+T3C 他答应我不告诉别人这个秘密。

        T3XY*32J =TA+T3XY+TB+YC 我恳请他尽快处理好这个问题。

        T3Y301*322J =TA+T3Y301+TB+YBC 他向对方明确地阐明了我们的观点。

        需要强调指出,混合句类的JK表示式虽然取自E1E2,但其涵义跟原先是不同的,因为语义块是句类的函数,现在的句类是E1E2的混合,而不是单纯的E1E2,其JK自然也就不同了。混合句中的JK一般兼有分别来自E1E2的两个JK的涵义,例如,上面所举的T3XYJ中的TA,它既是信息转移的发出者,同时也是XY的作用者AT3Y301J中的YBC,它既是效应的对象和内容,同时也是T3的转移内容T3C。所以,混合句类的JK表示式从E1E2中选取,这是一种简化表示,完整的表示是给出混合句类的代码,如上面的TAYBC应该是T3XYAT3Y301BC

        混合句类表示式中的JKE1E2中的哪个JK表示式来简化表示,这取决于确切表达句类知识的需要,第十章中将对此进行详细的阐述。

        混合句类代码中E1E2的前后顺序不是任意的,而是具有前因后果关系,例如X20T3表示X20(一般反应)在先,是因,T3(信息转移)在后,是果,而T3X20则表示T3是前因,X20是后果。

        E1E2的先后顺序不能随意调换,那么如果需要先从E2中选取JK的话怎么办呢?用反结构来表示,就是在混合句类代码的kmn前加反结构符号“^”,表示先从E2中选取mJK,其余(k-m)个从E1中选取。例如,

        X20J=X2B+X20+XBC YJ=YB+Y

        X21J=X2A+X21+XBC T3J=TA+T3+TB+T3C

        X20Y*^21J =YB+X2Y+XBC 我们没有忘记先生的教导。

        X21T3*^21J =TA+X21T3+XBC 老师批评了那些闹事的学生。

        “忘记”是记忆之后的效应,反应在先,效应在后,所以应该是X20Y,混合后的JK1应该取效应对象YBJK2应该取反应对象及其引发者XBC,这就需要用反结构符号来表示了。同样地,“批评”是X21T3,反应在先,信息转移在后,混合后的JK1JK2应该分别取TAXBC,要用反结构来表示。

        复合句类的句类代码约定为:

        (J1+J2)*kmn

        其中,J1J2是基本或混合句类代码。复合句类有两个特征语义块,实际上是J1J2两个句子接合在一起,而且有共用或重叠的JK,我们假定前一个句子的JK都是自备的,共用的JK是后一个句子借用了前一个的,那么只要明确J2的哪个JK借用了J1的哪个JK,复合句类的表示式就可以确定了。代码中的kmn就分别指示J2JK1JK2JK3借用J1的哪个JK,取0表示不借用。约定kmn尾部的0可以省略。示例,

        1)张先生去上海参加会议了。 (T2b+Y0)*1J

        2)大家听到这个消息都很高兴。 (T1+X20S*10)*1J

        3)江主席将去美国访问。 (T2b+R011T2b*21)*12J

        4)我们将把这份文件提交大会讨论。 (T0+T49)*23J

        5)我杀只鸡你吃。 (X+T21)*02J

        例(1)是“张先生去上海”和“张先生参加会议”两个句子的复合,前者是自身转移句T2bJ=TA+T2b+TB,后者是一般效应句Y0J=YB+Y0+YC,它的JK1YB)借用了T2bJK1TA)。例(4)是“我们将把这份文件提交大会”和“大会讨论这份文件”的复合,前者是一般转移句T0J=TA+T0+TB+TC,后者是交换句T49J=T4B+T49+T4C,它的JK1T4B)借用了T0JK2TB,即接收者“大会”),它的JK2T4C)借用了T0JK3TC,即转移内容“这份文件”)。

        如果需要表达J1借用了J2JK,就用反结构^kmn表示,即kmn分别指示J1JK1JK2JK3借用J2的哪个JK,例如,

        6)我们将提交大会讨论这份文件。 (T0+T49)*^012

        代码中的^012标明,J1JK1TA,“我们”)是自备的,JK2借用了J2JK1T4B,“大会”),JK3借用了J2JK2T4C,“这份文件”)。

1.2.4 再谈语义块和句类

        本节讨论关于语义块和句类的几个理论问题。

1.2.4.1 语义块概念提出的必要性

          语义块是短语和词所无法代替的概念。第一,用短语或词的概念都不可能写出句子的表示式,因为无法确定一个句子应该由几个短语或词构成,有了语义块的概念就可以对句子的构成给出明确的回答,因为语义块与句类之间存在着函数关系,事实上也只有用语义块的概念才能够与句类之间建立起函数关系。第二,从构成上来说,语义块可以是一个词或一个短语,也可以包含另一个句子,或由另一个句子蜕化而来。第三,一个语义块可以分离成不相邻的两部分,这时候它们仍然是一个语义块,形式上变成了两个短语,这也是构成句子的短语数量无法确定的一个原因。例如,“李四的腿被张三打断了”和“李四被张三打断了腿”,“李四的腿”是一个语义块,在后一个句子中分离到了两个地方。关于语义块的分离,在2.1.2节中有详细的阐述。

1.2.4.2 语义块与句子成分

          ECBA四类语义块形式上似乎与语法学的主谓宾补语相对应,事实上二者之间不存在实质性的对应关系,它们之间的区别在于:ECBA是语言深层的语义描述量,是句类的函数,但与语句格式(即语义块的排列顺序)无关,而主谓宾补恰恰相反,它们是语言表层的语法描述量,与句类无关,但与语句格式息息相关。例如,“主席团坐在台上”、“台上坐着主席团”、“主席团在台上坐着”,不管句子的格式如何变化,“主席团”和“台上”的语义块都是不变的,前者是状态对象SB,后者是状态内容SC。质言之,ECBA是语义层面的概念,主谓宾补是语法层面的概念,两者是从不同层面或角度对句子的结构提出分析的模式,不能相互代替。(pp54

1.2.4.3 语义块与格

          语义块借鉴了菲尔墨(Fillmore)格语法的思想(pp54),但语义块跟格是完全不同的概念,其重要区别有以下几点:第一,目的不同。HNC是要写出句类的表示式,而格语法只是描述句子中体词性成分的语义角色类型。(pp188)第二,格语法没有解决语义角色的完备性疑难,而语义块有句类函数为支撑,而基本句类是穷尽的,从而使完备性问题得到了彻底解决。第三,格是不可分解的,而语义块具有可描述的复合结构,有构成基元。第四,格仅涉及体词性短语,而语义块包含了对谓词性成分的描述,而且提出了内容C的概念,表述了对象与表现的融合性,以及语义块的语句扩展性,这是描述语义块复合构成的关键。

          语义块与格的上述区别也就决定了句类表示式与格框架具有本质的不同。笔者曾做过汉语格框架的研究,学习了HNC之后,深切体会到,句类表示式的系统性、层次性和完备性是格框架所不具备的。此外还有两点区别应该指出:第一是研究方法的不同,句类表示式的建立是先在概念层面寻找句类的基元类型和语义块的构成基元,然后用语言材料加以检验和补充,而格框架是先描写句子成分或动词配价成分的格类型,然后归纳出格框架。第二,句类表示式具有系统而明确的句类知识,而格框架的框架则知识不够系统和明确。

1.2.4.4 句类是语句的深层结构

        HNC建立了自然语言语句的表示模式,发现了自然语言的57个基本表示式,57这个具体的数字并不重要,重要的是,它表明,自然语言无限的句子可以用有限而确定的表示式来描述,运用这些表示式可以描述任何句子的语义结构,因此我们认为句类表示式就是自然语言语句的深层结构。Chomsky早期提出深层结构的概念,后来又一度放弃,原因在于他没能确定深层结构如何存在和如何表达,HNC的句类具体地揭示出了自然语言语句的深层结构。

        作为语句的深层结构,句类表示式为自然语言语句的理解处理提供了全局性的框架知识,各个句类所具备的框架知识就是句类知识的主体内容,是本文的研究重点。下一章就系统阐述句类知识的主体框架和基本内容。

1.2.5 辅语义块和两可语义块

 

本节只给出辅语义块和两可语义块的示例,并不加以定义和说明。

方式 Ms

香港人在历史上第一次以明确的身份主宰自己的命运。

苏联人设法通过垄断媒体对舆论进行微观控制。

文章以嘲弄的口吻反驳周扬。 士兵不能靠吃数据来维生。

工具 In

美国人通过卫星获取战术情报。

香港同胞一定会以自己的勤劳和智慧,为保持香港长期繁荣稳定做出积极的贡献。

我们坐船到橄榄坝去。

途径 Wy

我们通过水光山色来观察那随时变化的景色。

比照 Re

美国不可能永远像现在这样几乎垄断着第二次浪潮中的强有力的大众传媒。

汉城今年对重要科研项目的投资将比去年增加17%

条件 Cn

中英两国政府香港政权交接仪式630日午夜举行。

在仪仗队行举枪礼以后,查尔斯王子讲话。

全国宣传部长会议在京召开。

周扬在延安《解放日报》上发表了《文学与生活漫谈》一文。

邓小平先生“一国两制”伟大构想在解决香港问题上获得了成功。

Pr

第三次浪潮经济因开放的观念和开放的信息系统而繁荣。

Rt

因果 RtBRtC

科学技术的发展将为人类打开进入未来的大门。

中国最近为加强基础科学而宣布了一项新的“五年计划”。

参照 ReBReC

各种各样的附生植物从树顶一直垂挂到江边。

根据中英关于香港问题的联合声明,两国政府如期举行了香港交接仪式。

正如工业革命使战争工业化,大规模的生产也带来了大规模的毁灭。