一、句类分析难点4

1.4 深层隐知识揭示难点(4号难点,标记:m.n**)

与浅层隐知识不同,深层隐知识的内涵不是可以从它的定义而顾名思义的,因此本节将首先介绍深层隐知识的具体范畴,然后说明深层隐知识的信息激活因子,最后概述深层隐知识的表示(即揭示)。这些问题超出了语句处理的范围,在《专著》的Paper6中有所阐述,本节将基于面临句间处理的新形势,作必要的发挥。

深层隐知识都属于远程上下文联想,《专著》p57说:

多义(包括歧义)选一处理的一般原则是众所周知的,就是依靠上下文的联想。但是,如何进行上下文联想的处理?概念层次网络理论的答案是:上下文联想处理有近程、中程和远程之分。近程联想是指语义块内部的联想,中程联想是指语义块之间的联想,即句子内部的联想,远程联想是指句子之间的联想,包括基于要点主题分析的篇章级联想。

目前取得重大进展的理解处理核心软件,即句类分析软件,已能相当出色地完成近程和中程(特别是中程)的上下文联想处理,但完全不具备远程上下文联想处理的能力,这是针对语音文本特意安排的一项有所不为,现在则需要赶紧选定突破口,有所作为了。

按Paper6的思路,深层隐知识大体可区分3个范畴,一是基本语境知识;二是由基本概念、综合概念与l1类概念共同构成的综合知识,将简称背景知识;三是由基元概念53、基本概念的属性子类j7与j8以及la、lb、jl1类概念共同构成的综合知识,将简称情态(势态)知识。从揭示的难度来说,三者依次递增,但从解模糊的效果来说,则是依次递减。因此,按照抓两头的策略,深层隐知识揭示处理应以前两个范畴、特别是第一范畴为突破口。

基本语境知识,也称句群概念联想脉络,当然是一个非常复杂的问题,什么是基本语境?这需要定义。考虑到自然语言主要是对人类活动的表述,HNC把基本语境定义为8种类型的人类活动,它们相应于扩展基元概念的不同一级概念节点,分别命名为1号到8号语境,详细说明见Paper6(《专著》p87~94),每号基本语境可以按照相应一级概念节点的子节点继续划分二级和三级子语境。

基本语境知识的激活因子就是语义块核心或要素的层次网络符号,通过相应层次符号的统计,就能确定相应句段的基本语境类型,即取得基本语境知识。这个统计过程有自明度的高低之分,自明度这个术语是最近在“HNC理论与自然语言语句的理解”一文(今后该文将简称Paper31,而本文将简称Paper32)中提出来的,将代替Paper3建议的玄度概念。自明度的高低之分主要决定于下列4项处理:关于概念节点交式关联性的处理;关于基本语境知识与句类泛函关系的处理;关于各类主块的贡献加权因子的处理;关于各类辅块的贡献加权因子的处理。对于这4项处理的探索是陈磊的硕士论文的规定内容之一。

与缺省和指代问题类似,背景知识也有大量的先行研究,应注意吸收已有的成果。本文所定义的背景知识要比通常的背景窄,HNC将背景知识与辅语义块、基本概念、综合概念联系起来,因而它与英语的W说或汉语的“何”说有所不同,例如“何”说里的“何人、何事”与W说里的Who What就不属于本文定义背景知识,而属于基本语境知识的范畴,但“何”说的“何时、何地、何物、何量”等则属于背景知识。本文的背景知识定义方式一方面有利于该知识的提取,像上面的基本语境知识一样,可通过相应层次符号的统计而获得所需知识。另一方面也有利于背景知识的多层次细化。

HNC理论定义了7种辅块和4种两可语义块,7种辅块的纯净性是随着编号的增大而减小的,我们约定,6号和7号辅块以及两可块的内容将分别纳入情态(势态)知识和基本语境知识,直接提供背景知识的只是1号到5号辅块的内容。如果也按“何”说的方式来命名,就可以给出“何方式、何途径、何工具、何参照、何条件”等5类背景知识,“方式、途径、参照”这3项背景知识,W说或“何”说都重视不够,然而是与“条件、工具”同样重要的。

背景知识的途径、方式、工具和条件分别是综合类概念的4个一级节点,这4类背景可以按照相应概念的二级节点划分子类,“何”说的“何时、何地”属于条件背景的子类--时间条件和空间条件,“何物”则通常应纳入工具背景。在5类背景知识中,参照是最基本也最难以把握的,背景知识揭示的难点实际上就在这里。任何一级的语言表述,从词语到句子,从句子到篇章,都存在参照点问题,仓颉码发明人朱邦复先生对此有比较深刻的认识,在他的篇章理解框架里引入了“立场”的概念,这是与众不同的,而朱先生的“立场”就是HNC的篇章参照点。

参照是唯一没有在综合类语义网络中设置相应一级节点的背景,为什么?因为自然语言里不存在表述不同层次参照的词语,用语言逻辑概念节点l14与概念jgwa30c6n“挂靠”的方式来进行表述就足够了。例如“来说”,其HNC映射符号为l14+jgwa30c64+hPh,“就事论事”里的“就”为l14+jgwa30c63,它是“就”字的特殊义项,其常用两义项为l0320、luua0122,前者也可以更精细地映射为l0323+g249a。

有的读者会惊呼,HNC映射符号如此复杂,计算机当前不可能代替人工填写,HNC词语知识库将是一个永远完善不了的浩大知识工程。这一惊呼是有道理的,是一个值得深思的重大问题,特别是在语料库的统计和学习浪潮方兴未艾的现在。词语知识库确实是一个永远完善不了的浩大知识工程,因为新词和词的新义在不断涌现,但是,同时也应该看到,未臻完善与使用的有效性是两个概念,未臻完善的东西可以具有很高的使用价值,二次大战时期赫赫有名的“空中霸王”与现代的隐形轰炸机B2相比,太不完善了,然而在当年却发挥了巨大作用。一个人不能因为知识永无止境而拒绝学习知识,相反应该采取“活到老、学到老”的积极态度,词语知识库的建设更应该如此。HNC词语知识库是完成词语空间与概念联想脉络空间相互映射的桥梁,是当前此类桥梁中功能最完备、潜力最强大的桥梁,其他一切桥梁难以与它相提并论。其根本优势在于知识库效用的增强与知识的增长成正比,不存在知识冲突的潜在危险,其知识结构既具有“残而不废”的独特优点,又具有“一劳永逸”的保险功能。这些高级知识的获得不是当前计算机的统计和学习所能胜任的,其初期骨架只能依靠人工填写,因为它是一项创造性劳动。忽视知识库建设中的创造性因素,一味依赖计算机的思路是有片面性的,人们对此应保持清醒的头脑。因此,我们在惊呼的同时,还应该感到庆幸,否则就不是全面的认识。当然,HNC词语知识库目前也面临着两项紧迫的严峻挑战,一是人为造成的错误知识表示的发现与改正,二是词语预期知识的机助学习与更新。

上面两段似乎偏离了本节主题的论述,希望能够深入浅出(但本文的“浅”是专业意义下的浅,对于不了解HNC符号的读者仍然是很深的,这我就无可奈何了)地表明,包括难以把握的参照知识在内的5项背景知识,在词语层面都提供了足够的信息,这些信息是用HNC符号表示的,要把这些信息变成现场知识,就需要对相应词语的HNC符号进行语义解释。在HNC理解处理模式中,知识的揭示归根结底都是对HNC符号的解释问题,但这个问题对背景知识、特别是其中的参照知识的揭示更为突出。这项解释工作要比语义距离计算复杂得多,是语音文本时期软件回避的课题,而现在不能回避了。

背景知识揭示的难点在于相应HNC符号的解释这一说法,不能理解为这一难点的解决主要或全部是软件的责任。如Paper31附录英汉双语料段的最后一句话:

在她丈夫看来*,她的这个缺点||很难原谅

Re XBC X20

其中的“看来”是加了难点标记“*”的,这不是一个普通的单项难点,而是现在以“J*”表示的综合难点,这里《现汉》不收录的关键双字词“看来”是一个语用功能比较特殊的语言符号,它起着块扩判断句格式转换的作用,把该基本句类的DA变换成一个参照辅块。但它目前的HNC映射符号l14+jgwa30c64+hfK并没有给出这一信息,这是必须加以补充的。换句话说,目前的语言逻辑和“语法”概念基元(l、f语义网络)对语串之间信息传递方式的表述还需要加强,一些备用的变量节点,如l6y、l7y、l8y、lay以及更多的可扩充节点,如f41u的u≥6情况。基于语串之间和不同语种之间信息传递的表达需要,现在可以而且必须对这两类概念进行又一轮综合设计了。显然,这不是一项寻常的探索,是有相当难度的。

情态(势态)知识的揭示首先应区分小情态与大情态两子类,小情态是指带有la、lb类信息的情态,大情态是指不带有这一信息的情态。如例句

3.3** jD0J*7

而且速度||更快,

jDBC jDC

3.4** !31S0J*7

也更具**||全球性。

QE S0 SC

代表具有小情态信息的情况。而例句

7.3** Y30J*5

\把第三次**浪潮中的工具|…应用于**…|第二次**浪潮中的机构/

l0 TC RT0 TB

YB=(!31114R511T0*31J)

只能 发挥*||一小*部分潜力。

QE Y30 YC

9.2** !31R011J*5

包括\从*\通过*卫星|获取|的战术…情报/到…

R011 l5q l1 (Ya0) (YC) l5h

RB2Q=<!31Ya0J>

\地缘$政治层次上的战略观点|的运用//*等/。

(RB2) R511

RB2H=<!3121R511J>

代表具有大情态信息的情况。

这里的情态大小之说仅涉及形式而不涉及内容,情态内容包括事物属性的现实存在和潜在(的)存在。大小情态都可以包含这两种存在。揭示现实的存在比较容易,但揭示潜在的存在比较困难,近期可列入有所不为。例句3.3和3.4代表第三次浪潮的现实存在,这只要恢复省略成分就可以得到,属于显式现实存在。但例句7.3的现实存在则是隐含的,形式上它没有省略,实际上它是“多数企业”的一种现实存在,即这些企业还没有认识到该句所陈述的效应。这一隐知识需要揭示,激活信息是明确的分号“;”,因此是可以做到的。例句9.2表面上存在明显的省略,似乎只是一个语义块省略问题。但这个省略十分复杂,表现在两个方面,首先,不能简单地把被省略的语义块理解为前一句里的“新的资产”,还应该包括军方对它的利用这一层含义,这就属于潜在性存在的揭示。其次,这里的“从....到”搭配所对应的内容在形式上不对仗。这很可能是译者的问题,因为,这种不对仗不符合汉语的“规范”。从文字表达来说,也许把“获取的战术情报”改成“进行战术情报的获取”更好一些。但是,这一改动并不能改变被省略的RB1本身的复杂性,因为,它本来就包含“新的资产”和军方对它的利用这两层含义。这一潜在性存在的揭示,我认为在近期应列入有所不为。