2.2

关于自然语言理解处理谋略的方法论


●●谋略要点之一
●问题:自然语言理解需要广泛的知识,
但是这一知识的“物质”基础是什么?
※是语素、词汇、词组或短语结构?是动名形副介连叹?是主谓宾定状补?
※是成分结构与功能结构?是论元、格或配价?是中心语及其次范畴?…
※是形形色色的逻辑语法?
※是大规模真实语料及其统计结果?

这里列举了4类答案,然而是有疑问的答案,所以都使用了问号。
第一类是传统语法学的答案,第二和第三类是现代语法学的答案,第四类是所谓经验主义者或语料库语言学的答案。值得指出的是,现代语法学和经验主义者虽然引进了语义、逻辑和统计的新血液,但传统语法学的如来佛地位从未动摇过,现代齐天大圣们并未跨出如来佛的手掌心,也就是第一答案中的三个侧面。
如来佛手掌心的提法当然会引起异议,难道说论旨和论旨角色的概念没有突破语法框架而升华到概念空间么?难道说范畴和内涵逻辑不是深层的语义表述么?这样的问题可以列出一个很长的清单,不可能在这里一一作答。
问题的要害在于,自然语言理解首先需要构建一个概念联想脉络空间。应该假定这个概念空间存在若干基本构架,并应该进一步假定,儿童的语言习得过程和与之同步的思维能力的演进过程,就伴随着这些基本构架的形成。这些基本构架在大脑皮层中的具体物质形式目前所知甚少,但科学探索不能等待,我们可以按照康德先生定义的理性法官(参看《专著》p193所引用的康德名言)的方式前进,先对概念联想脉络空间的基本构架进行假设。当然,为了适应电脑的物理特征,这个基本构架的表示形式必须是数字式的,而不宜采用任何一种形式的自然语言符号。这就是HNC概念基元符号体系和HNC句类符号体系的思路,是我在《专著》的Paper1和Paper2里着重阐述的思路。这两个符号体系就是关于概念联想脉络空间基本构架的假定。传统语法学当然没有这样的思路,在那个时代不存在这种需要,现代语法和语料库语言学面临着这种需要,但始终在传统语言学的狭隘空间里盘旋。诚然,论元、配价、范畴等等确实给语言成分增添了语义或逻辑解释,是一个巨大的进步,但这些解释终究只是对传统语言学三侧面的重新包装或改头换面,缺乏总体思路,既不能形成概念联想脉络的基本构架,也不能作为这一构架的理论基础。
●结论:自然语言理解首先需要构建一个概念联想脉络空间。必须假定:这个概念空间存在若干基本构架,儿童的语言习得过程和与之同步的思维能力的演进过程,就伴随着这些基本构架的形成。在认知科学尚未充分揭示概念联想脉络在大脑皮层(神经网络)中的物质基础或机制这一重大科学奥秘之前,我们只能也必须采取理性法官的方式进行探索,否则,就不可能在模拟大脑语言感知这条唯一正确的探索道路上迈出关键性的第一步,就将陷入“茫茫语海,欲渡无舟”的困境。
HNC具体假定:概念联想脉络的物质基础,即自然语言理解处理的物质基础是概念基元符号体系和句类知识体系。
因此,HNC句类分析的三部曲和两支撑软件要大力加强对HNC概念基元符号体系的解释能力,而不能停留在语义距离计算的水平上;要大力加强对基本句类知识宏观特性(谋略之二中详述)的把握和运用,不能停留在单个知识项运用的水平上。
因此,全力推进《HNC概念符号体系手册》和《HNC句类知识手册》的研究和编写计划是HNC理论组的重中之重。
因此,全力推进汉语和英语的HNC语词知识库和汉语音节知识库的分期建设,全力推进三种类型的汉英双语HNC语料库的分期建设,是HNC理论组的急中之急。

●●谋略要点之二
●问题:一个没有的任何常识的人是不可能进行语言交流的,常识对于自然语言理解的作用不言而喻,很难设想没有相应规模的常识知识库,计算机能够达到语句的初步理解;也很难设想一个没有常识的概念基元符号体系和句类知识体系能够为理解处理提供足够的知识。

这两个“很难设想”是两个典型的佯谬。《专著》p100有云:
NLP的基础是语言知识,在语言知识里既包含与语言形式无关的概念知识,又包含与语言形式有关的纯语言知识。在概念知识里,又有高层共性知识与低层个性知识之分,我们把前者简称为概念知识,把后者简称为常识性知识。
将知识划分为概念知识、(纯)语言知识、常识性知识,并分别建库,这应该是知识库建设的第一条根本原则,CYC及迄今为止的所有知识库都没有遵循这一原则。
这段论述清楚表明,HNC理论并没有以两个“很难设想”为前提,概念基元符号体系和句类知识体系并不是没有常识的知识体系,而是抽取了“常识”的高层共性知识或精华。
当然,两个佯谬的产生,决不是读者的责任,而是《专著》的误导,也说明了编写两部《手册》的迫切性。过去,我们只强调了概念基元符号体系的同行性和把它用于语义块要素预期表达的有效性,强调了基本句类及其知识的预期性,而没有强调它们同时也是常识精华的特征。我最近写的Paper31试图弥补这一疏忽,那里,在说明一般反应句、信息转移句和单向关系扩展句的基本句类知识以后指出:
这些基本句类知识是极为丰富又极为宝贵的,是世界知识的共性表现(当然不能包括全部世界知识)。然而,只有在句类的约束下,才能把它们凸现出来,并给出形式化的表达。
随后,给出了一般反应句基本句类知识的示例,其预期知识中就有典型的常识,如:
            X2B:p;pe;pj01;jw62.
            {X20:v71yym∧(m=1,5)→XBCC:j861}
            {X20:v71yym∧(m=2,6)→XBCC:j862}
第一项预期知识表示,一般反应句的反应者必须是人、社会或动物。后两项预期知识表示,哪些类型的心理反应必然来于积极或消极的引发因素。
本文1.4节阐述的基本语境知识、背景知识和情态(势态)知识实际上就是常识的精华,前两项知识对于自然语言初级理解的效用尤为巨大,这些知识的获得和运用已经提上了日程,它在句类分析的框架里是可以而且不难解决的。
从谋略的角度来看,常识既是自然语言理解的基础之一,又是理解处理研究的陷阱,你(计算机)必须保持有所为和有所不为的清醒头脑,不要像Lenat先生那样,一头扎进常识的海洋。要围绕着五重或三重模糊消解(即20项难点)这个中心,去发现和抽取常识的精华并加以运用。这些常识的精华不能仅仅依靠一阶谓词逻辑来表示,要融合到基本句类知识中,融合到语词HNC知识库的@S和@K栏目里,同时还隐含在语词的HNC映射符号里。
一些读者仍然会感到疑虑,HNC采取这样的处理策略就不能回答Lenat先生提出的那些有趣的问题了:
Does Freda live on the sun?                     Freda生活在太阳上吗?
Is Freda a person?                             Freda是一个人吗?
Is Freda larger or smaller than a bacterium?
                                                Freda比细菌大还是小?
Is Freda larger or smaller than the Pacific Ocean?
                                                Freda比太平洋大还是小?
不能回答这样简单的问题怎能说达到了对语句的理解呢?
问题在于这类问题不是回答不了,但目前不急于回答。饭要一口一口地吃,有比这些重要得多的一系列问题急待处理,把它们推后一点是明智的。
●结论:对常识问题一定要采取有所为和有所不为的谋略,逐步推进。
首先,要集中精力发现和抽取常识的精华,并用HNC符号体系把它们在基本句类知识库中,在语词HNC知识库的@S和@K栏目中,在基本语境知识、背景知识和情景知识的相应知识库中给出显式表达。
其次,根据各项难点处理的需要在小专家知识库中装建语言专业知识,重点装建高层概念语词和词组的语用知识。
第三,根据不同领域处理的需要,装建各种专业性知识。
最后,考虑一般性常识。它又分三条途径,一是各语义网络的概念基元节点之间各种类型的关联性表示;二是各类各级层次符号的常识内涵表示(大体相当于程序语言的编译);三是各种具体概念的个性常识。

●●谋略要点之三
●问题:黄先生在Paper31中提出自然语言理解处理要具有自知之明的智能,这个问题确实十分重要,但该文并未给出此项智能的明确定义和标准,这是否有点天方夜谭?人都难得有自知之明,何况机器?黄先生历来强调当务之急,提倡有所为和有所不为的谋略,现在就突出自知之明,是否违反了这些原则?
Paper31受到字数4千的限制,许多问题未能充分展开讨论。但是,自明度的定义是明确给出了的,那就是“无疑点分析结果的正确率”。这个定义是有其独特考虑的,第一,它强调分析过程的质量评估,而不是只看各种模糊或难点的最终消解效果,它是另一智能评估指标--难点消除率绝对必要的补充,两者缺一不可。其作用类似于信号检测系统性能评估的检测概率和虚警概率,难点消除率大体相应于检测概率,无疑点分析结果正确率大体相应于虚警概率。第二,模糊或难点在分析过程中表现为疑点,疑点可以在分析的过渡阶段暂时保留,但分析结果必须是无疑点的,定义强调了这一要求。(这个定义在字面上有歧义之嫌,我很担心又发生不拘小节的失误,不知经过上面的解释以后,能得到读者的理解否?)
为什么要提出自明度的标准?为了突出自然语言理解处理的本质,为了改变理解处理长期热衷于花架子而忽视基本功的不良倾向,为了句类分析走上更健康的成长之路,避免片面追求模糊消解率或难点消除率的失误,最后,也为了克服理解处理软件“蛮干”的积弊。
传统自然语言理解处理软件“蛮干”的典型表现有:盲目追求简明高效的算法,而不深入考察算法的知性基础;热衷于硬性规则和确定性判断,忽视了软性规则和模糊性判断,因而很少从事这方面的技艺研究;只注意软件设计的一般原则,忽视了理解处理软件必须遵循的特殊原则,特别是见机行事的原则。我希望句类分析软件的设计要吸取这一历史教训,牢记前文引用的毛泽东先生那段名言里的思想光芒,想一想“软件-自然语言理解处理软件-汉语理解处理软件”与“战争-革命战争-中国革命战争”具有何等相似的辩证法。

自明度的具体内容按照句类分析的三部曲、两支撑的总体构架。分为下列5个方面:
    ※语义块感知与句类假设自明度
    ※句类检验自明度
    ※语义块构成处理自明度
    ※K调度自明度
    ※特殊词或特殊词组处理自明度
前三个方面对于任何语言大同小异,后两个方面对不同语种差异较大。例如汉语的K调度包括无特征语义块句类的处理,而西语不存在这样的句类,因而K调度里就没有此项内容,但其他各项内容是一样的。第五方面对于汉语主要是单字段或单音段的处理,西语基本不存在这一语言现象,主要是特殊词组的处理。
所谓谋略策划,无非是三件事,第一是确定战略目标,第二是认清实现这一目标的急所(即当务之急,借用“急所”围棋术语更为传神),第三是精心设计处理急所的步骤和方案(即有所为和有所不为)。急所是动态的,无见机行事之能,不可能处理好急所。但更重要的是,如果没有明确的战略目标,见可为就上,见不可为就退,那就是无策略思想的盲动。传统自然语言理解处理是不是存在这种盲动失误?值得反思,而不要像某些现实权威那样采取讳疾忌医的态度。
就语串处理来说,如果把战略目标定位于理解它的意义,那就叫做不得要领,因为这是自然语言理解处理的总体战略目标,语串处理当然也不例外。但语串处理还应该有它自身的特定战略目标,这个特定目标应该是搞清楚当前的语串是一个完整的句子?是句子主体的一部分?是一个句子的附属部分?然而,这个目标不可能一蹴而就,你得精心设计处理步骤。考虑到句子或句子主体一部分的根本特征是:通常有两个以上的主语义块,而句子的附属部分通常只有一个语义块甚至只是一个短语或词。因此,你应该从语义块个数的判断入手,确定该语串是单个语义块还是有多个语义块,这样,语义块感知自然就成了语串处理的急所,这是一个重要的谋略思想。在 1.1节中我谈到,特征语义块应采用复合构成表示式的顿悟是一个关键性的顿悟,这里我应该说,这一谋略思想的产生也是HNC理论发展过程中关键性的顿悟之一。
大家知道,句法树分析以S=NP+VP为出发点,这个出发点就潜伏着谋略失误,你怎能预先假定面对的语串一定是句子呢?但这一失误不难在工程上加以弥补。更严重的谋略失误在于以短语为分析单元,为什么?因为一个高明的谋略家必然要问:一个自足的句子应该有多少短语?一棵句法树应该有多少节枝杈就满足自足性要求?自然界的树不具有枝杈的数量特性,自然语言的句法树也不具有短语的数量特性,这是一个无解的问题。那么,以短语为分析单元岂非作茧自缚?格语法、配价语法以及形形色色的逻辑语法曾试图解决这个无解的问题,虽然在短语的语义类型方面取得不少重要进展,但终究在数量和类型两方面都没有走到尽头,这并不奇怪,因为这条路本来就没有尽头。
然而,以语义块为处理单元就完全是另外一番景象,一个句子具有简明的语义块数量和类型特性,这当然是一项喜人的发现,但这一发现是建立在另一重大发现的基础之上的,那就是基本句类的发现。然而,这些发现都是在上述第一项谋略思想的引导下产生的。
应该指出,语义块感知的顿悟只是确定了急所的方位,但急所的具体处理还大有文章,这与围棋抢占急所时,投子的位置和顺序大有学问是同一道理。急所虽然看准了,但如果处理失当,仍然会遭到失败。语义块感知和与之同步的句类假设以及紧随其后的句类检验是这一急所处理的两大步骤,大方向虽然明确了,但如果相关知识不够充分或运用不当,仍然存在失败的危险。
怎样消除这一危险?关键是抛弃对确定性判断和硬性规则的迷恋,加强模糊判断和软性规则的技艺水平。这一策略思想的具体落实,就需要对句类和语义块的宏观特性有深刻认识,并善于运用与此有关的知识,这包括下列要点:
※1句类有基本句类、混合句类和复合句类的宏观区别,每一种句类具有确定的句类表示式。混合句类继承基本句类的宏观特性,复合句类继承基本句类和混合句类的宏观特性。所谓基本句类的宏观特性指句类表示式的格式特性和语义块构成特性两方面。基本句类是有限的,由此可以推知混合句类和复合句类虽然数量很大,仍然是有限的。HNC理论已给出了全部基本句类表示式的清单。
※2语义块有特征语义块、广义对象语义块、辅语义块和两可语义块的宏观区别。对特征语义块,要特殊关注高层动词与低层动词的复合(高低复合),动词与名词的复合(动静复合);对广义对象语义块,要特殊关注对象与内容的复合。对辅语义块,要特殊关注它的位置特征,而这一特征与具体语种有关;对两可语义块,要特殊关注它的语义块标志,以及这一标志的语种个性;最后,要特别注意在语义块构成的理论陈述里不包括核心或要素的属性修饰成分。
※3基本句类有广义作用句和广义效应句的宏观区别,前者具有格式的丰富变化,而后者具有稳定的格式。这一点,是句类格式知识的精华。汉语具有最丰富的格式变化,但主要采用特征语义块后移的规范格式和!31形式的省略格式,这是汉语句类格式知识的精华,在运用 lv 准则时一定要充分利用这一知识。
※4广义对象语义块的复合构成有良性与非良性之分。良性复合构成的各要素之间具有确定的顺序,非良性复合构成的各要素之间不具有确定的顺序。特定句类的特定广义对象语义块具有良性构成,这一点,是广义对象语义块构成知识的精华。
※5特征语义块的复合构成具有天然的良性特征,高低复合或动静复合的具体知识在语词HNC知识库的@K栏目给出(此知识项与HNC符号、句类代码、概念类别是知识库建设的重中之重),这些,是特征语义块构成知识的精华。
※6抓住先验块扩这个基本句类中最耀眼的亮点。
※7对显含内容的广义对象语义块,以常备不懈的姿态准备进行句蜕处理。
※8严格遵循句类假设检验的三项基本原则:句类假设严而不漏,检验准备见机行事,检验执行要害分明。
※9具体执行三项基本原则的依据除了本语串提供的现场信息之外,还有更基本的语境信息,而首要的语境信息是1.4节中所说的由语境生成模块提供的基本语境知识。
●结论:“中间切入,先上后下”的轻灵步调,“语义块感知和句类假设-句类检验-语义块构成分析”的三步曲,“K调度、特殊词或特殊词组处理”的两支撑,是HNC理论提出的自然语言理解处理的总策略,这一策略本身是前述两项基本谋略思想的必然产物。
这一总策略的可行性已经得到晋耀红主持设计的句类分析三步曲软件和张全、杜燕玲主持设计的两支撑软件的证实,当务之急或当务之要是加强该软件的自明度,具体落实措施应包括下列4个方面:
※把前述17项知识和上述9点知识运用要点所体现谋略思想因地制宜地贯彻落实到理解处理软件的各个环节。
※加快基本语境生成模块和短时记忆模块的研究开发进度,并及早集成到理解处理系统中。
※推进基本句类知识库和汉英两语种的语词HNC知识库的配套建设,加快汉字HNC知识库的建设,并在质量保证方面开始有所作为。
※推进三种类型的汉英双语HNC语料库的建设。

●●谋略要点之四
●问题:上述三项谋略要点对自然语言理解与知识基础的关系,对语言无限性的困扰,确实提出了独到的见解和清晰的应对策略。但是,这些策略还不足以对付语言的不确定性困扰。本世纪最有才华的哲学家维特根斯坦说过:一个词的内涵就是它的使用。语义研究者类似的名言很多,Lenat先生也曾写下A word is a world的体会和叹息,在机器翻译界,90年代以来更流传着许多惊人的统计结果,如有人声称,基于英日双语语料的词汇对齐处理结果发现,仅有24%的对齐与英日权威词典对应(统计者为日人Kitamura & Matsumoto,但引用者未给出来源)。这类统计的可靠性虽然有待核查,但语言表达方式和语词意义的不断变化是一个不争的事实。理性主义的自然语言理解处理策略很难适应自然语言的这一动态特征,而经验主义的语料库语言学却具备这一适应本能,难道对经验主义的这一明显不过的优势还应该加以怀疑么?
语言的不确定性会渗透到本文列举的所有难点中,只要出现了这种渗透,相应的难点处理就会宣告失败。在汉语里,动词按照知识库中未登录的概念类别使用,或出现新的句类代码,或体词按动词使用,是司空见惯的现象。当待处理的语句遇到这些情况时,句类分析肯定也无能为力,HNC对此有何妙策?
对于自然语言的不确定性和动态性要有一个清醒的认识,社会的物质基础和上层建筑在不断发展变化,语言也随之不断发展变化,这是不争的事实。但是,稳定性终究是语言的主导方面,书面语的稳定性更佳,这也是不争的事实。自然语言理解处理和语词知识库的建设要以这两个不争的事实为基础,并以语言的稳定性为基本依托,而不能以语言的非稳定性为基本依托。任何过程都有其平稳和非平稳的两个侧面,对随机过程的信号处理总是力求以平稳或局部平稳为基本依托,只有在万不得已时才在局部平稳的基础上考虑非平稳性的影响。对于过程的线性和非线性两侧面通常也采取类似的对策。我认为,这一谋略思想同样适用于自然语言理解处理。语言的平稳性是其主导方面,如果对此置之不理,而过分夸大它的不稳定侧面,那是哗众取宠的妄诞。当然,如果对语言的不稳定侧面视而不见,那就是农业时代流行的崇拜万古不变的愚昧。
上面谈到的汉语司空见惯现象确实需要认真对待,在这方面当然绝不能掉以轻心。HNC已采取的对策有以下7个方面:
※1语词知识库概念类别栏目的内容大大超过词性标注的范围,以加强对语词的多语用表现的适应能力。1998年春末,曾推行过所谓加强两头的举措,两头之一就是加强概念类别栏目的建设。
※2对于具有多句类代码特性的动词,代码填写时需要通过大规模真实语料库的验证,以保证“句类假设的严而不漏”。实践表明,对于语感水平较高的填写者,验证往往是多余的,是否验证可由填写者自行判断。
当然,目前的实践只是汉语,而且只是书面语,口语的情况要复杂得多。英语(西语类似)书面语构成特征语义块的词组往往并不是形式上的中心动词,如果该词组是一个高层概念,例如 3.1节提到的go to see,虽然可以纳入多句类代码难点来进行理解处理,但实际处理过程往往非常困难,需要下面所说的远程联想的引导。
※3引进了E块激活信息的概念(即上装、上衣和下装、下衣的概念),设计了相应的符号表示,对未登录动词的发现提供了一定的保障。
※4引进了活跃语素及其前后组合特性的概念,给出了相应的优先组合方式,为新词的辨认提供了一定的保障。
※5提出了不允许孤魂存在的最高词组构成准则,制定了孤魂处理的初步方案,为语义块内部组合歧义的消除提供了根本保障。
※6引进了词性变换的概念,设计了相应的符号表示,为动词变体词或体词变动词的辨认提供了一定的保障。
※7制定了中程联想引导近程联想、远程联想引导中程和近程联想的具体实施策略(关于近程、中程、远程联想的概念,请参看 1.4节对《专著》p57的引文),前者已经基本实现,后者正在组织第一阶段的实施方案。语言不确定性困扰的最终解决要依靠远程联想的引导。

●结论:
稳定性是语言的主导方面,语言的理解处理和语词HNC知识库的建设要以语言的稳定性为基本依托。动态性和不确定的干扰是严重的,但已有一系列有效的对策,计划投入的生力军还有孤魂处理和远程联想的引导处理(后者更是亟待投入)。因此,一旦出现不确定性的渗透干扰,相应的难点处理就会宣告失败的说法是错误的。对于语言的不确定性,HNC理解可以大有作为。当然,要达到常人的水平,则比稳定条件下的模糊消解或难点处理艰难得多了。

●小结
以上关于自然语言理解处理方法论的论述,参考了90年代国外计算语言学界的主要策略观点,文中指出了这些观点知性水平的不足。这里的分析和结论主要是《专著》有关论述的的综合,新意不多。拟定腹稿时,曾打算避免使用HNC术语色彩太浓的尖刀式话语,但键写(这是一个采用反语言逻辑组合结构的新词,我们应该争取在三年以后,把这一类新词辨认提上工作日程)过程中按捺不住,个别地方违反了初衷。在通俗化方面,自觉略有进步,但更大的长进恐怕是不可能了。我历来厌恶八股式的小结,觉得那是轻视读者的官老爷表现,但本节例外。至于本段开头提到的语料库语言学具备适应语言不确定性优势的论点将在第三章作为专题来讨论。
八股式的小结如下:
※基本问题1:自然语言理解与知识。
要精心思考什么知识是开启自然语言理解宫殿大门的钥匙。
※基本问题2:自然语言理解与常识。
要精心辨认哪些常识势在必用,而哪些常识可以暂时置之不顾。
※基本问题3:理解处理软件与人工智能的知性水平。
不能仅满足于难点消除的表面效果,还要深入考察难点消除过程的策略、步骤和知识运用的知性水平。
※基本问题4:自然语言不确定性与确定性。
要以自然语言的确定侧面为基本依托,善于抓住不确定性中的可确定侧面,精心寻求机遇并设计契机,不要只是津津乐道不确定性的奇异个性侧面。