一、句类分析难点2

1.2 El干扰难点(2号难点,标记:v*)

El干扰就是非述语动词对述语动词的干扰,用HNC的语言来说,是局部特征语义块El对全局特征语义块Eg的干扰,即El对Eg的干扰,简称El干扰。这种干扰是汉字文本频繁出现的语言现象,曾被一些中文信息处理界同仁视为难以逾越的障碍。对句类分析来说,多数情况这是一场不算太难的前哨战,因为它干扰全句句类假设的情况很少出现,而当这一干扰出现时,它实际上就转换成1号难点了。下面先看一下El干扰的例句。

5.5 R011J*5+f414

这些无形资产||包括*@||软件的功能,

RB1 R011 RB21

\出其不意地|对对手信息技术|进行 攻击*|的能力/,

Eu l0 B=XB+YC RXQ RX

RB22=((!3111XJ))

\采集*和传播*|信息|上*的能力/,

T19 T01 TC

RB23=((!31T19T01*21J))

\信息处理*工具的兼容性/以及许许多多其他因素。

RB24=((!3121XJ)) RB25=f12

这是一个以句蜕难点(标记:J*5)为主的句子,但包含了所谓语义块构成问题的全部典型难点,非同寻常,下文将进行详尽分析。联合攻关组的成员必须自觉地培养这样一种科研素质,就是碰到一个具有挑战性的典型难点,就会激发起一种跃跃欲试的探索冲动和“不达目的决不罢休”的韧劲。没有这种科研素质就不会有科研的创造性成就。我希望本组成员抱着这种心情阅读下面的论述。

对于这一非同寻常的句子,将采取不同寻常的方式加以阐述。首先作一个表层说明:这是一个由4个语串构成的句子。语串是一个新术语,类似于音串(参看《专著》p166)。读者应该体会,HNC使用了很多新术语实在是无可奈何,就这里的情况来说,原有的句子、短语、词组等术语和HNC的语义块或FK,用在这里显然都不合适,只得启用一个新术语了。第一语串是句子的主体,后面的3个语串是对“软件的功能”(实质是“功能强大的软件”-这属于深层隐知识揭示)这一短语或词组的列举说明,最后的句号表示列举结束,与句号相配合的“以及许许多多其他因素”是表示列举结束的典型短语。

接着作一点深层说明。

第一,第一语段的E块无上下装(标记:@)而且“包括”另有义项lv40,因此,仅就这一语段本身并不能认定它就是一个R011J句类,而只能取这一优先句类假设。

第二,在这一句类假设下就产生了列举的需要,因为E块“包括”具有这一激活信息。这一信息来于“包括”的HNC符号jv40-+fv414。“包括”的句类代码是主从关系句,一般的主从关系句没有列举特征,但是,由概念jv40-构成的主从关系句却具有这一特征。这就是HNC特别强调的基本句类知识,这一知识应在主从关系句和双对象效应句的基本句类知识中予以明确表达,没有这一表达就是知识表示的严重失误。显然,这一类极为重要的知识只能依托基本句类由人直接教给计算机,语料库的统计或学习是无能为力的。这里还应该指出,这类知识是所谓世界知识的精华,是让计算机理解自然语言的关键,先抓住这些精华,才能在自然语言理解处理方面迈出坚实的第一步。不能抓住这一要害,你将陷入世界知识的汪洋大海,重蹈后文将介绍的美国CYC工程的覆辙。

第三,从上面的说明可知,句类代码提供语句的总体宏观信息,微观的具体信息还需要HNC符号的补充,两者结合起来,才能产生具体的丰富联想。就这个例句来说,句类代码并没有告诉你RB2需要一个系列RB2j,更没有说明需要什么类型的系列,这两项信息分别蕴涵在E块“包括”的HNC符号jv40-+fv414和RB2核心要素“功能”的HNC符号r00里。因此,后面相继两个语串都以概念rz00的反映射词语“能力”作为相应句蜕块的包装词语,就是理所当然的预期了。故《专著》有云(p157,p4):

句类代码是句类辨识和句类分析的基础,因而是最重要的知识项,是HNC知识表示的纲、统帅和灵魂。

这个(指HNC)符号体系必须是高度数字化的,每一个符号基元都具有确定的意义,可充当概念联想的激活因子。

显然,句类代码与关键词语HNC符号的关系是纲与目的关系,句类代码是纲,HNC符号是目。从某种意义上可以说,句类分析的灵魂就是实现这一纲举目张的具体操作。

第四,第二语段有动词团块“进行攻击”,但紧跟的“的”字取消了它的Eg资格(“的”排除准则),由此推知它只能是、也必须是一个句蜕块,从l0激活信息“对”可以认定这是一个关系作用句的包装句蜕块((!3111RXJ))。

第五,第三语段有动词团块“采集和传播”,但它没有第二语段的简明现场判断信息,而遇到了汉语普遍存在的一种歧义结构。本文将把这个结构命名为[Structure1],其一般表示式为:

[Structure1]=v+FKQ+[的]+FKH

这个结构的标志是动词和FKQ、FKH之间的“的”字,FKQ、FKH本身除了“的”字的紧邻可以是动词外,其他都是体词。这个结构的重要性可以用这样两句话来表达:解决得好功德无量,解决不好后患无穷。是一个有一定挑战性的问题,对语音文本,适当放弃这个阵地是允许的,但对文字文本,则必须攻占。因此,本文将提前(应该在第二章)对此详加说明。

按照传统语言学的术语来说,这一结构的歧义是偏正顺序的两种可能:一是动词与FKQ先形成动宾结构,然后与FKH形成偏正结构,二是FKQ与FKH先形成偏正结构,然后动词与这一偏正结构形成动宾结构。用符号来表示就是:

[Structure1]=[Structure1-1]=[v+FKQ]+<的>+FKH

[Structure1]=[Structure1-2]=v+[FKQ+<的>+FKH]

针对这一组合结构模糊(即HNC定义语义块构成模糊),假定动词所对应的语句为3主块句,则可形成下面的4种推论:

推论1-1如果FKQ满足v的E~JK2预期要求,而FKH不满足

则 [Structure1]=[Structure1-1]=[v+FKQ]+<的>+FKH

推论1-2如果FKH满足v的E~JK2预期要求,而FKQ不满足

则 [Structure1]=[Structure1-2]=v+[FKQ+<的>+FKH]

推论1-3如果FKQ和FKH都满足E~JK2预期要求

则 [Structure1] =[Structure1-3]

=[Structure1-1] OR

=[Structure1-2]

推论1-4如果FKQ和FKH都不满足E~JK2预期要求

则 [Structure1]不成立,应另作形势判断

[Structure1-1]代表包装句蜕,[Structure1-2]代表句子或原型句蜕。推论1-1是确定性判断,推论1-2是具有两种可能性的模糊判断,推论1-3是具有三种可能性的模糊判断,推论1-4要求作形势判断。

进行这一推理的必要条件是FKQ和FKH必须存在,而关键性准备操作是把[Structure1]与其上下文分隔开来,<Structure1>的4个单元依次是:动词v(包括v连见团块),块素FKQ,汉字“的”,块素FKH。块素FKQ很容易范定,是动词与“的”的中间部分。块素FKH的上界是“的”,下界是另一语义块的起始标志或标点符号,起始标志包括l0(l2)、l1(l3)、QE或动词。

上述推理本身只是HNC语义块构成理论和句类表示式理论的运用,用通俗易懂的语言写出这个推理过程非我所长,在讲课的时候弥补吧。

仅利用[Structure1]内部的信息只可能作出上述的推论,也就是说,仅能在特定条件下才能彻底消除[Structure1]的歧义模糊,推论1具体表述了这一特定条件。但应该指出,模糊性判断同样是巨大的进展,它们为进一步利用上下文信息、把模糊判断转化为确定性判断奠定了基础。

下面来说明如何利用上下文信息实现模糊判断的确定性转化。

推论1-2-1如果无上下文

则 [Structure1-2]为句子

推论1-2-2如果上下文E块具有全局性特征但不要求块扩(对上文)

则 [Structure1-2]为原型句蜕

推论1-2-3如果上文E块具有先验块扩特征(几个特定句类)

则 [Structure1-2]为块扩

推论1-2-4如果上下文E块不具有全局性特征

则 [Structure1-2]优先子句

推论1-2-4仍然是模糊推论。进一步的推理规则如下:

推论1-2-4-1

如果E块一侧的上(下)文缺少一个JK,而另一侧下(上)文或FKH满足所缺JK的预期要求

则 [Structure1-2]为复合句类的子句或其主体部分

推论1-2-4-2

如果E块一侧上(下)文缺少一个JK,而另一侧下(上)文及FKH都不满足所缺JK的预期要求

则 [Structure1-2]为句蜕或其主体部分

到此为止,模糊判断“推论2”经过两步利用上下文信息的推断已转换成确定性判断。对模糊判断“推论3”可以如法炮制。

这里上下文信息利用的第一步雷同于句类分析三步曲之第一步的句类假设,关键信息是表现全局特征的上下装。上下文信息利用的第二步雷同于句类分析三步曲之第二步的句类检验,关键是预期要求的深度:概念类别-高层-中层-底层,其中的每一层又有不同的深度。预期深度越深,检验的可靠性越高。

回到引发这一大段论述的语段--\采集*和传播*|信息|上的能力/,它属于推论1,此语段是包装句蜕。似乎非常简单,但实际上埋伏着一个重大的“危机”,这就是单字词基本概念“上”的处理,它属于局部性难点的第一号。

[Structure1]是2号难点的表现形式之一。上面说到,解决这一难点将功德无量,而上面的分析表明,HNC句类分析是有办法对付这一难点的。但是,词性标注的方法,各种统计模型的语料库方法,各种经典的和现代的句法语义分析方法,能解决这类难点么?这是本文的每一位读者,包括那些不熟悉HNC理论的读者,都应该认真思考的。

第六,第四语段有动词“处理”,段尾以句号结束。到此为止,我们已经分析了3个语段,第一语段优先句子,第二和第三语段已肯定是包装句蜕块,而且符合第一语段的列举要求,这些语段信息表明第四语段如果存在动词,它优先句蜕块,这是现场信息产生的预期知识。即使如此,软件还是需要对这一语段进行例行分析。

在具体分析这最后一个语段之前,应该再次指出抓两头策略的重要性。这也是上文提到的毛泽东谋略的重要内容之一。在《专著》的文献索引中,特别引用了毛泽东的《中国革命战争的战略问题》。在毛泽东的长篇著作中,该文是谋略思想讲得最好、而马克思主义中应该扬弃的教条成分含量最少的一篇,是值得自然语言理解处理工作者、特别是HNC理论开拓者和软件设计者精读的著作。对复杂语言现象的分析和处理,抓两头的策略特别重要并有效,从HNC映射符号、句类代码、句类格式、概念类别等知识表示,到语义块、句子或句群分析的两可疑难,从各种全局难点到各种局部难点的处理策略设计,都要善于抓两头。抓住了两头,疑难就会消退,不会抓两头,疑难就要膨胀。句间关系的两头是:外在的句间标志和内在的作用效应链典型运作。前者主要是lb类概念和f类概念的运用,后者将在“忆思录3-m-0”中阐述。

第四语段以“以及许许多多其他因素”结束,这是什么?是HNC定义的句尾语f12。靠什么去辨认它?过去是回避的,而现在需要面对。

句尾语前面的部分“\信息处理*工具的兼容性/”是2号难点的第二种表现形式,命名为[Structure2],其一般表示式为:

[Structure2]=K+v+FK

[Structure2]远比[Structure1]复杂:第一,[Structure1]只有一个下边界需要认定,而[Structure2]的上下边界都需要认定;第二,汉语E块的下装一般比较简单,而上装比较复杂,因此,[Structure2]的K很容易与上装相混淆;第三,[Structure2]的组合歧义多于[Structure1],这将在下面用传统语言学的术语来说明。

[Structure2]的第一种组合方式是主-谓-宾结构,是一个句子或子句,这里的子句即HNC的原型句蜕块;第二种组合方式是K+v形成主谓结构,然后与FK形成偏正结构;第三种是K+v形成反动宾结构,然后与FK形成偏正结构。后两种组合结构即HNC的包装句蜕块。“\信息处理*工具的兼容性/”属于第三种组合结构。

句蜕块的内部构成可以用HNC的句类格式给以确切的描述,读者可以从语料段corc4-3得到印证。这一点很重要,应该在“说明”里加以解释,可是我没有交代。这是一个缩影,反映了我性格上不拘小节的严重弱点,对HNC事业的发展产生了严重不利影响,林杏光教授经常提醒我注意,但江山易改,本性难移。就“句类格式”这个提法来说,就非常不妥,改成语句格式比较恰当,因为各种格式是按照语句的通用(数学)表示式、而不是句类(物理)表示式来表达的。严谨的学者都非常注意把好命名关,然而我却经常“不拘小节”,张普教授曾对标准与规范格式的命名提出批评是有道理的,它像句类格式命名一样经不起字面推敲。在写本文时,我力求改正,但积习难改,请本组成员帮助,过去我多次发出这一呼吁,未得到响应,现在情况不同了,HNC开始走向社会,一定要肃清“不拘小节”造成的危害。

句类格式有两种基本类型,即规范格式(包括直接与句类表示式对应的标准格式)和违例格式,句蜕块同样有这两种基本类型。特别值得指出的是,违例格式在正常的语句中较少使用,有些格式根本不使用,而在句蜕块中却经常采用,例如3主块的JK1+JK2+E违例格式,即!21格式。实际使用时往往采用!3121格式,也就是上面说的反动宾结构。两类句蜕块的包装形式有所不同,即单层包装和双层包装的差异,违例格式经常采用双层包装,而规范格式却很少采用。所谓单层包装是指对句蜕部分只作一级说明,两者以偏正结构组合,双层包装是指对句蜕部分作两级说明,因而形成两级偏正。“\信息处理*工具的兼容性/”就是双层包装,句蜕块“信息处理”先修饰“工具”,一级偏正,而后“信息处理工具”又修饰“兼容性”,二级偏正。

“信息处理工具”这6个字的词组很有点代表性,上面给出了HNC的分析方式。笔者欢迎熟悉经典句法分析或现代句法语义分析的读者就此进行比较研究。HNC分析方式的要害在于把这里的“处理”统一先当做动词来处理,即进行局部句类分析,而不管它的兼词性表现(“处理”与前面的“信息”组合似乎是名词,与后面的“工具”组合又似乎是形容词)。统一先当做动词处理的根据何在?《专著》p182说:

……如“进行产业结构调整”“开展政治体制改革的研究”。传统句法分析要追究这里的“调整、改革、研究”是动词还是名词,HNC的回答是:这种追究只徒具形式,没有本质意义。理解的本质在于不论是“政治体制改革”还是“改革政治体制”的词序,“政治体制”充当“改革”的对象这一概念关联性的本质不变(更准确地说,“政治体制”是“改革”这一作用型概念的效应对象YB)。同样,"产业结构调整"和"调整产业结构"的词序也不影响"调整"与"产业结构"的关系本质。当"政治体制"与"改革"、"产业结构"与"调整"相结合时,前者的YB角色和后者的X角色不应该由于两者出现顺序的不同而变化。大脑的感知就是对概念之间这一相互关联性的把握。在这一概念联想激活过程中,词性的作用显然是一个疑点,也许以西语为母语的人会对词性有所依赖,但以汉语为母语的中国人显然不应该依赖于词性。

下面将基本仿照[Structure1]的方式,对[Structure2]的模糊推断作相应说明。如上所述,[Structure2]可能出现两种组合方式:

[Structure2]=[Structure2-1]=[K+v]/FK

[Structure2]=[Structure2-2]=K+v+K2

在第二个表示式里,角色不明的词组FK变成了语义块K2,下标2是为了与前面的语义块K相区别,没有任何其他含义。[Structure2-1]代表包装句蜕,[Structure2-2]代表句子或原型句蜕。在形式上,[Structure2]的结构歧义与[Structure1]完全相同,但内在意义有重大区别。[Structure2-1]的[K+v]通常是反动宾结构,但也可能是主谓结构,所以,[Structure2]的两种组合方式都是模糊判断。

针对这两种组合模糊,可形成下列判断:

推论2-1-1

如果K满足v的E~JK2预期要求

而FK不满足任何预期要求

则 [Structure2]=[Structure2-1-1]=((!3121EJ))

推论2-1-2

如果K满足v的E~JK1预期要求

而FK不满足任何预期要求

则 [Structure2]=[Structure2-1-2]=((JK+E))

推论2-2-1

如果K和FK分别满足v的E~JK1和E~JK2预期要求

则 [Structure2]=[Structure2-2-1] =EJ OR

=(EJ)

推论2-2-2

如果FK满足v的E~JK2预期要求

而K不满足任何预期要求

则 [Structure2] =[Structure2-2-2] =K+!31EJ OR

=K+(!31EJ)

推论2-3

如果K和FK都不满足v的任何预期要求

则 [Structure2]不成立,应另作形势判断

推论2-1是确定判断,推论2-2和推论2-3是模糊判断,后者的模糊消除需要利用上下文信息,与[Structure1]的情况完全一样,这里不再重复。

[Structure1]和[Structure2]概括了2号难点的全部情况,两结构的简化情况值得作特殊研究,本文不来讨论,这也许又是“不拘小节”的表现,所以需要大家帮助嘛。

在键击了上文的最后一个句号以后,我闭上眼睛沉思了半小时以上。汉语特有的2号难点,即所谓主谓、动宾、偏正之歧义就这样基本消失或攻克了么?模糊判断中的“另作形势判断”里是否隐藏着什么重大危机?预期满足度的当前极性(是否)量化方式必将带来的两可疑难影响如何?包装词组容易辨认么?f1和f2类词组的干扰容易排除么?我遨游了一圈,感到十分放心。更重要的是,上面的分析能引发我的学生们跃跃欲试的探索冲动、并诱发他们的才华迸发么?我满怀信心地睁开眼睛,并对自己说,这一节可以这样不小结而结束了。