第十一章 句类知识的应用

HNC的语言理解处理策略和核心技术称为句类分析,句类分析所依靠的关键知识是句类知识,句类分析系统的实现(晋耀红1998)就证明了句类知识的重要应用价值。

句类分析的中心目标是消解自然语言的模糊,而消解模糊是当前自然语言理解处理各个应用领域的基础和突破点(pp100),所以句类知识能够在各领域的许多方面得到广泛的应用。本章将通过实例具体阐述句类知识在两个方面的应用,一是多动词处理,二是专名识别。

11.1 句类知识在多动词处理中的应用

      众所周知,多动词问题是自然语言理解处理中的重大难点,汉语词性兼类严重,加上缺乏形态变化标志,使得这一难点更为突出。HNC理论和技术也要努力解决好这个难点,对此,黄曾阳先生(1999)和晋耀红博士(2001)已分别从理论和技术上作了深入全面的阐述,这里要说明的是句类知识在解决这一难点中的应用。

      多动词处理包含三方面的内容:一是动词身份的确认,即v!v(动词与非动词)的确认,这是由词性兼类造成的,一个兼有动词和非动词词性的词语(如“领导”)在具体的句子中到底是不是动词,这需要确认。二是动词之间关系的确定,一个句子中出现的多个动词一般不属于同一层次,需要确定它们各属于什么层次,相互之间是什么关系。三是动词意义的确认,一个词语作为动词的意义可能不只一个,在具体的句子中就需要做多选一的处理。动词的多义在HNC中表现为多句类,如“带来”有两个意义,一是“我给你带来一本书”的“带来”,是转移句,二是“改革开放带来经济繁荣”的“带来”,是因果句。可见,我们所说的多动词的“多”是以义项为单位的,一个句子中即使只有一个动词,也可能存在多动词处理问题。

      这里需对第二方面的内容作进一步说明。可以把多动词之间的关系简化为两动词之间的关系,因为前者可由后者递推。从句类分析的角度来看,句子中两个动词的关系有以下几种:

      1)一个是全局的特征语义块Eg,另一个是句蜕中的特征语义块ElEgEl的定义见2.1.2.3节),如下面例句中的“羡慕”和“感动”是Eg,“取得”和“关心”是El

      李小姐很羡慕张先生取得的成绩。

      张先生对李小姐的关心感动了她。

      2)一个是块扩句类的全局特征语义块Ep,另一个是块扩中的特征语义块ErEpEr的定义见2.1.2.4节),如下面例句中的“邀请”和“带领”是Ep,“出席”和“参加”是Er

      张先生邀请李小姐出席开幕式。

      张先生带领李小姐参加国际会议。

      3)分别是复合句类(见1.2.3节)的两个特征语义块E1E2,如下面例句中的“前往”和“参加”、“送”和“看”。

      张先生前往巴黎参加国际会议。

      张先生送书给李小姐看。

      4)共同构成复合特征语义块(见2.1.2.1.2节),如下面例句中的“表示”和“怀疑”、“关心”和“暗恋”。

      张先生对李小姐的话表示怀疑。

      张先生一直关心和暗恋李小姐。

      多动词问题也是自然语言模糊性的表现,对多动词的处理也就是运用句类知识消解模糊的过程。句类分析在语义块感知阶段找出各个可能是v的词语,并运用排除和排队准则(pp172)进行句类假设,然后进行句类检验,确定句子的句类,最后再分析各个语义块的内部构成。句类分析成功了,多动词的真伪、关系和意义问题也就解决了。在这个过程中,句类知识的运用是关键。下面就通过实例说明句类知识在多动词处理中的应用。

      (一)Ep-Er确认

      1)穆巴拉克总统同时邀请乔石委员长在方便的时候访问埃及。

      21903年美国政府强迫巴拿马签订了不平等的《美巴条约》。

      3)密特朗总统希望法中关系进一步改善和发展

      4)北大计算机研究所所长王选教授带领埃及贵宾参观了公司的彩色制板中心。

      5)北厨集团与台商合资生产系列厨具。

      6)我认为在这个方面也存在比较大的片面性。

      7)当时谁也没告诉她残疾人不能参加奥运会。

      句中第一个动词的句类分别是:邀请-信息转移作用效应句T3XYJ;强迫-作用效应句XYJ;希望-v7121形成的一般反应句X20J;带领-扩展单向关系句R4110J;合资-扩展双向关系句R30J;认为-块扩判断句DJ;告诉-信息转移句T3J

      这些句类都属于块扩句类,块扩句类的特征是E块后的JK扩展为语句,根据这一知识就可以对句中两个动词的关系作出判断,第一个动词是属于全局的Ep,是中心动词,而后面的第二个动词则一定是属于局部的Er。这一判断是简明而可靠的,它完全得益于句类知识中的块扩知识,这也就说明了提出块扩概念的意义和价值。

      顺便说明,(1)中的“方便”和(2)中的“关系”也有动词义项,但通过局部信息就可予以排除,如“方便”是处于辅块标志“在…的时候”之中,据此可以确定它肯定不是Er,这里就不一一说明了。

      (二)Eg-El确认

      1)不规范的产权交易造成国有资产大量流失

      2)有些国有企业的内部管理滑坡导致经济效益下降

      3)她对拉合尔的艺术教育状况很不满意

      4)中国感谢葡萄牙对恢复中国关贸总协定缔约国地位的支持

      5)美国公布大选结果的时间推迟了。

      6)这些新政策受到中国最大多数人民的拥护

      7)美国消费者的利益将受到严重损害

      1)有三个动词,(2)有四个动词,其中的“造成”和“导致”是因果句P21J=PBC1 +P21+PBC2,其句类知识表明E块两边的两个JK都应该是句蜕,句蜕中出现动词是预期之中的事,这两个句子的“造成”和“导致”前后就都有动词,据此可以判定它们是全局的Eg,其他的动词分别是PBC1PBC2中的El

      3)有两个动词,其中“满意”是一般反应句X20J=X2B+X20+XBC,它位于句尾,前面有语义块标志符“对”,“对”与“满意”之间有另外一个动词。一般反应句的句类知识显示,它可以采用规范格式!11X20J=X2B+^XBC+X20,而且XBC前的标志符可以是“对”,XBC优先句蜕,上述现场信息与这些句类知识都吻合,而且“她”是pp类概念,也符合X2B的概念优先性,这样就可以判断出“满意”是Eg,而“教育”是XBC中的El

      对(4)的处理同样是利用一般反应句的句类知识,但比(3)复杂得多。“感谢”是一般反应句,“支持”是关系反应混合句,二者之间出现了语义块标志符“对”和动词“恢复”,由于“恢复”前有语义块标志符“对”,“支持”前有“的”,应优先假设“感谢”是Eg,检验结果表明其前后两个语义块都符合一般反应句X2BXBC的句类知识,X2B(“中国”)是pp类概念,XBC是句蜕,其中嵌套了由“支持”形成的关系反应句的要素句蜕。结果是,“感谢”是Eg,“支持”是El,“恢复”是El中的El

      5)有两个动词,“公布”是信息转移跟效应的混合句类T31Y30*21J=TA+T3Y30+YC,其句类知识要求YC的核心要素是抽象概念或gw;“推迟”是基本过程句P01J=PBC+P,其PBCBC复合构成的语义块,优先句蜕。如果以“公布”为Eg,那么其YC的要素位置就是“推迟”,它是个纯v,不符合概念优先知识。如果以“推迟”为Eg,其PBC的要素位置是“时间”,符合概念优先知识,PBC中有动词“公布”,这也正符合优先句蜕的预期知识。由此可以判定“推迟”是Eg,“公布”是El

      6)和(7)都有两个动词,其中一个是“受到”,是一般承受句X10J=X1B+X10+XBC,其XBC优先句蜕,而且一般承受句常作为反应句和基本作用句等句类的转换句类,在转换句类中,XBC的尾部一定是动词。“拥护”是关系反应句,“损害”是作用句。总之,这两个句子的“受到”作为Eg能通过句类知识的检验,“拥护”和“损害”就是El了。

      (三)E1-E2确认

      1)俄驻华大使罗高寿和夫人前往机场送行

      2)一些欧洲选手北京参加比赛

      1)和(2)的第一个动词都是自身转移句T2bJ=TA+T2b+TB2,自身转移句的一项句类知识是它常充当复合句类的前一个子句。在这两个句子中,“前往”和“来”的前面是人,符合TA的优先知识,后面是地点,也符合TB2的优先知识,这样,后面的动词自然就应该是复合句类的后一子句了。这样也就判断出,“前往”和“送行”、“来”和“参加”是复合句类的E1-E2。“参加”是效应句Y90J=YB+Y+YC,“比赛”是动名兼类的词,这里作名词,是“参加”的YC

      (四)E块复合构成的确认

      1)我们对两国关系顺利发展感到满意

      2)越南人民对中国在过去15年里取得的成就感到高兴

      3)我们对羽田孜先生在今天下午的众参两院国会上当选为新一届政府首相表示衷心祝贺

      句(1)有三个动词连续出现,前面有语义块标志符“对”,因此优先假设这是个!11格式的句子,句尾的“满意”是Eg,它是一般反应句X20J=X2B+X20+XBC,该句类的知识有:可采用!11格式,且XBC的标志符之一就是“对”;!11格式下特征语义块有高低搭配的复合构成;XBC常出现句蜕。用这些知识进行匹配检验,就可以确定,“感到”是高层概念v71,可与“满意”构成高低搭配的X20,而“发展”就是XBC句蜕中的E。所以,三个动词是“1+2”结构,“2”是高低搭配的Eg,“1”是El

      对(2)和(3)的处理,同样是利用一般反应句的特征语义块在!11格式下有高低搭配复合构成这一句类知识,确定“感到”和“高兴”、“表示”和“祝贺”是高低搭配的特征语义块。

      (五)v!v确认

      1)各级领导要深刻领会这段话的重要意义。

      2)她们没有及时向报社领导汇报情况。

      3)中国共产党领导全中国人民推翻了帝国主义、封建主义和官僚资本主义三座大山。

      “领导”作为动词形成扩展单向关系句R4110J=RB1+R+RB2+RC,或者是不扩展的关系句R411J=RB1+R+RB2,前者的RC先验块扩。在(1)中,如果假设“领导”是v,是全局E,那么它与“领会”之间应该是RB2,“要深刻”不符合RB2的要求,因此该假设失败。若以“领会”为Eg,它是一般判断句D01J=DA+D+DBC,其DA优先pp类概念,所以“领导”应该是名词,“领会”后面的部分也符合DBC的要求,因此该假设成立,确认“领导”是!v。应该说明,在句类分析过程中,根据v排队准则(pp174),应该先假设“领会”是Eg,因为它带有上装“要深刻”。此外,靠“各级”的局部信息也能判断“领导”不是v,但这不如依靠句类知识,因为后者更系统、更直接,更容易获取。

      2)中的“汇报”是信息转移效应句T3Y30J=TA+T3Y+TB+YC,该句类优先规范格式!113,句中的“向”就是TB语义块的标志符,因此“领导”应该是TB,是人,不是动词,“她们”和“情况”也都分别符合TAYC的预期,从而可以肯定“汇报”是Eg。若以“领导”为Eg,则不能通过检验,理由同(1)。

      3)有两个动词,“领导”是块扩句类,所以优先假设它为Eg,那么“中国共产党”是RB1,“全中国人民”是RB2,“推翻……”是块扩的RC,这完全符合R4110J的句类知识,据此可以确认“领导”是Ep,是v

      (六)动词多义选一

      1)卡里莫夫总统在机场举行了隆重的欢迎仪式。

      2)下届世界体操锦标赛明年将在日本举行

      3)自动声讯的发展带来了信息服务规模和效益的飞跃。

      4)许多干部战士还从家乡带来树种和树苗。

      5)商业和银行系统的效益好不正说明人们的生活水平已经提高了吗?

      6)公安部部长陶驷驹向委员们说明了草案的基本内容。

      “举行”有两个义项,一是过程句PJ=PB+P,二是作用过程混合句XP*211J=A+XP+PB,前者是两主块句,后者是三主块句,据此就可以判断(1)是XPJ,(2)是PJ

      “带来”的两个义项是:因果句P21J=PBC1+P21+PBC2,一般转移句T01J=TA+T+TC,因果句要求前后都是句蜕,(3)符合这一预期知识,(4)不符合,“干部战士”、“树种和树苗”分别符合TATC的优先概念。根据这些句类知识就可以确定(3)的“带来”是P21J,(4)的“带来”是T01J

      “说明”的两个义项是:效应句Y30J=YB+Y+YC;信息转移效应混合句T3Y30*322J= TA+T3Y+TB+YC,前者是三主块句,其YBYC都优先句蜕,后者是四主块句,常用规范格式!113,其TATB优先pp类概念。(5)的“说明”后有动词“提高”,前面的成分不符合TA的优先概念,因此应该是Y30J。(6)的“说明”前有TB的标志符“向”,要素位置的概念也都符合预期,因此应该是T3Y30J

      下面举几个综合性的例子:

      1)李瑞环首先代表全国政协对阿霍总理来访表示热烈欢迎

      2)他表示要为国家的经济建设和香港的稳定繁荣继续作出努力

      3)阿卡耶夫总统对李鹏总理提出建设新的“丝绸之路”的设想表示赞同

      4)集团领导果断地将侣海岩调到上海新锦江总经理。

      1)中的“代表”,义项之一是扩展基本替代句T4a10J=T4B1+T4a+T4B2+T4C,其T4C块扩。“代表”后面有三个动词,它们之前有语义块标志符“对”,而“表示”和“欢迎”复合构成关系反应句(R011X20*21J=RB1+RX20+XBC)的特征语义块,“来访”做XBC中的El,这些判断都可以根据句类知识得出。

      2)的“表示”有多个义项,一是效应句Y30J,其YB应该是抽象概念,YC块扩;二是信息转移句,其TA优先ppT3C块扩,三是形成高低搭配的反应句,优先!11格式。句中的“表示”前只有一个“他”,符合TA的要求,后面有多个动词,符合T3C块扩的预期。其中有语义块标志符“为”,所以优先把句尾的“努力”作为块扩中的E,它是基本作用句。“继续”是vv类概念(见2.1.2.1.2.3节),“作出”是高层概念,它们可以与“努力”复合构成E。“建设”和“稳定繁荣”则都是B语义块句蜕中的El了。

      3)的句尾“表示赞同”是反应句,前面有“对”,因此优先假设它们是全局E,“提出”是XBC中的El,它是一般判断句D01J=DA+D+DBC,其DBC又是包装句蜕,“设想”是包装部分,是DBC的核心要素。

      对(4)的处理,首先根据“领导”后面是u概念“果断地”和逻辑概念“将”而判定它不是v,“调到”和“任”是复合句类的E1E2,这一判断则要依靠词语层面提供的关于复合句类的知识了。

      最后举两个例子说明,有的多动词处理问题,只靠句类知识是不能解决的。

      1)中央领导同志到圆明园遗址公园植树。

      2)一月二十九日,胡锦涛、陈希同、钱其琛、陈慕华、彭云等领导同志再次听取了中国组委会的工作汇报。

      根据句类知识,这两个句子中的“领导”都可以作为全局E而通过句类检验,因为它是扩展单向关系句,其后的“同志”符合RB2的要求,后面的部分也符合RC块扩的预期要求。不过,(2)的“听取”前有上装“再次”,后有下装“了”,根据排队准则,它优先作为全局E而获得假设并通过检验,因此实际上不会把“领导”作为Eg。对句(1)的处理就必须依靠局部的语法知识了。

11.2 句类知识在专名识别中的应用

 

专名是新词(或称未登录词)中的重要一类,关于专名的自动识别,已有不少文章发表,一般是作为自动分词中的问题来讨论的,所用的方法主要是统计和局部规则,本文讨论运用句类知识进行专名识别,是在句类分析的全局框架指导下,也就是在语句理解的基础上来识别专名。

最常见的专名有两类,一是pp类概念,包括个人姓名和组织机构及团体名称等,二是地名,包括国家、城市和自然地理名称(如山河湖海的名称)等。至于什么是专名、专名包括哪些类,这些关于专名界定的问题,这里不予讨论。

对专名进行识别,一是要确定其存在,包括前后边界的确定,二是要确定其语义类。汉语的“专名+通名”结构为专名识别提供了很丰富的信息,当不存在通名的时候,就必须依靠对句子的整体理解来确定,这时候句类知识的应用是关键性的。应用于专名识别的句类知识主要是语义块之间的概念关联知识,以及语义块的构成知识。但是,对专名的识别要以对整个句子的分析理解为框架和基础,所以事实上所有的句类知识都对专名识别产生作用。

下面就通过实例来说明句类知识在专名识别中的应用。

1)昨天[中青队]进行了抵达[门多萨]后的首次训练。

2)俄空难遇难者亲属纷纷乘机赶赴[伊尔库茨克]

3)自[汕头]开往[武昌]1018次列车经此路段时,机车车头和空调发电机车衔接处发生脱轨,幸未造成人员伤亡。

这三个句子都是靠自身转移句的句类知识来识别地名。自身转移句T2bJ=TA+T2b+TB2,其TB2一定是具体空间。(1)的“抵达”和(2)的“赶赴”是T2b,其后应该是TB2,所以“门多萨”和“伊尔库茨克”应该是地名。(3)的“开往”是T2b,其后的“武昌”应该是地名,由此可以推断前面的“自”之后应该是转移的起点,“汕头”也应该是地名。如果没有T2b的句类知识的指导,是难以判断“汕头”的语义类的,因为“自”作为介词,其后可以是时间也可以是空间。

4[奚美娟]的表演非常成功。

5[金喜善]再演清纯美少女。

4)的全局E是“成功”,是效应句Y01J=YBC+Y,其YBC中包含由“表演”充当El的要素句蜕,是缺省了YC的效应句Y30J=YB+Y+YC,“表演”的词语层面句类知识显示其YB优先人,据此可以判断“奚美娟”是人名。(5)中只有一个动词“演”,其句类与“表演”相同,它的YB必须是人,因此“金喜善”应该是人名。

6[金学洙]在致开幕词时说,本次论坛选择“亚洲经济的未来”为主题,不仅体现了亚太各国为寻求繁荣和稳定而开拓经济发展新道路的决心,而且也表明了本地区经济发展正面临新的机遇。

7[张循海]说,中国未来加入WTO对中国和海外投资者都是巨大的机会。

8[塔吉克斯坦]总统[拉赫莫诺夫]说,“上海五国”机制在维护地区和平与稳定、加强军事领域的相互信任方面具有重大意义。

9[弗多温]强调,[俄罗斯]决心加强同[中东和平进程]有关各方的协调。

这四个句子中的“说”和“强调”是信息转移句T31J=TA+T3+T3C,它的句类知识表明,TA优先是人,据此可以推断处于TA核心要素位置的“金学洙”、“张循海”、“拉赫莫诺夫”和“弗多温”都是人名。

10)该市移动用户普及率在四川仅次于[成都]

句类分析确定这个句子的全局E是“仅次于”,是个相互比较判断句jD00J=DB1+jD0 +DB2,其句类知识表明两个比较对象DB1DB2之间具有良好的对仗性,句中的DB1是“该市”,是城市,那么与它对仗的DB2“成都”也应该是城市。

11[克鲁伊夫]日前对这个问题作出回应。

12[巴沙尔]祝贺伊朗总统[哈塔米]在最近的总统选举中获胜,并请[哈比比]

达他对[哈塔米]的良好祝愿。

11)的“作出回应”是主动反应句,(12)的“祝贺”是单向关系句与主动反应句的混合句类,“克鲁伊夫”和“巴沙尔”都处于主动反应者的位置,主动反应者就一定是pp类概念,要进一步确定它们是人名还是组织结构名,则要靠上下文的信息了。(12)的第二句,“请”是全局E,是信息转移与作用效应句的混合句类T3XY*31J=TA+T3XY+B+YC,其B一定是pp类概念,句中的“哈比比”是B语义块,它一定是ppT3XYJYC!31格式的块扩,块扩的JK1也就是B语义块,这里的块扩是由“转达”形成的信息转移句,“哈比比”也就是它的TA,而“转达”的句类知识表明其TA一定是人,这样就可以断定“哈比比”一定是人名了。

13[拉齐奥]是欧洲最佳球队?

14)新娘是36岁的[凯里·史密斯]

这两句都是是否判断句jDJ=DB+jD+DC,它的一项句类知识是,当DBDC都简单构成时,DBDC多属于同类概念。(13)的DC是“球队”,DB“拉齐奥”也应该是球队,(14)的DB是“新娘”,是人,那么DC“凯里·史密斯”也就应该是人名了。

15)记者于上周日上午采访了[劳德伦德]

“采访”是针对性接收句T19J=TA+T19+TBC,词语层面的句类知识显示,其TBC只含对象B,且优先是人,所以句中的“劳德伦德”应该是人名。

16)布什盼望同[贝卢斯科尼]合作。

在这句话中,我们假定“布什”是已登录词。“盼望”是XBC块扩的一般反应句,它的一项句类知识是,如果块扩的XBC缺省JK1,那么缺省的JK1就是反应者X2B。句中的XBC是由“合作”形成的双向关系句R3J=RB+R,其RB的“同”前缺少了关系方RB1,根据反应句的上述句类知识,RB1就是X2B“布什”,而根据关系句的句类知识,RB1RB2是对仗的,因此RB2“贝卢斯科尼”同“布什”应该是同一类概念,也就是人名。

17[李纪恒]接替[李克]任中共南宁市委书记。

句类分析确定这个句子是由“接替”形成的扩展基本替代句T4a10J=T4B1+T4a +T4B2+T4C,“任中共南宁市委书记”是块扩的T4C,是缺省了JK1的一般承受句X10J =X1B+X10+XBC,根据T4a10J的句类知识,T4CJK1T4B1,所以“李纪恒”就是X1B。“任”的句类知识表明,其X1B一定是人,替代句的另一项句类知识表明,替代双方T4B1T4B2之间具有对仗性,由此就可以推断“李克”和“李纪恒”一样,都是人名。

 

上面的实例说明,句类知识作为语句的全局性知识,能对专名的识别起到重要作用,应用句类知识进行的专名识别是在语句理解的基础上进行的。

最后需要说明,对专名的识别,既需要局部知识,也需要语句的全局知识,还需要上下文知识和语境(领域)知识,专名的最终确认则必须依靠理解处理。