2.3

关于自然语言理解处理谋略的本体论


本文引言中指出:难点处理需要一个综合治理方案,在综合治理方案的统帅下,对 20 项难点分别采取各个击破的处理策略。这20项难点的处理是相互依赖和相互制约的,不存在完全独立的20项解决方案。但是,各项难点又必须独立拥有适应自身特点的独特处理策略或招数。这两点,实际上就是自然语言理解处理谋略本体论的基本内涵。
所以,本节分两大段,第一段讨论难点处理的综合治理方案,第二段讨论为适应各项难点自身特点而必须采取的独特处理(对症下药)。

2.3.1 难点处理的综合治理方案

在本章开头特意说明,本文只讨论谋略而不涉及具体方案,因此,需要把本文引言中所用的“方案”一词改成谋略。但这里的“综合治理方案”就不再改动了,因为它主要涉及谋略,甚至可以说就是谋略。
下面先概略陈述制定综合治理方案的一般过程,然后结合一些示例作具体说明。
●●制定综合治理方案的一般过程
※制定综合治理方案过程的第一步是:力求对所探索的对象洞知其所以然,而绝不能满足于粗知其然。关于这一点,毛泽东先生有一句名言:“没有调查研究,就没有发言权”。通过调查粗知其然,进而研究而洞知其所以然。没有这一知性水平的思考,而只是基于一般教条或对教条的一知半解而制定综合治理方案,是没有不栽跟斗的。知其所以然才能找到治本之道,才能制定出科学的综合治理措施和步调。仅粗知其然,必将导致盲动或蛮干的失误。
下面将以汉语分词“瓶颈”说为例说明这一原则。
※制定综合治理方案的第二步是:确立战略目标,并以此为依据,制定总体方案和实施方案,这是总的指导原则。其次,在实施方案里必须包括适应各种难点特性的处理步骤。没有任何难点具有古典“原子”特征,它总有各个环节和侧面,对不同环节和侧面的处理步调常常是关键性的。同样一个处理措施系列,但不同的步调可能产生成功与失败的相反结果。《三国演义》是一部关于谋略的巨著,里面的众多锦囊妙计,都把应对措施的步调作为妙计的灵魂,那可不是武侠小说的畅想,而是高明谋略思想的体现。
下面将以机器翻译为例说明这一指导原则。
※制定综合治理方案的第三步是:对总体方案和实施方案分别进行共性与个性、核心与外围的划分。这一划分似乎是一个简单常识,人人都明白,实际上都在这方面大犯错误。常人如此,专家也不例外。软件设计和知识库建设要特殊关注这一划分,特别是最大共性的抽取和利用。例如:广义作用句具有格式变化而广义效应句不具有格式变化的知识;特征语义块在首意味着!31省略格式广义作用句的知识;特征语义块在尾又没有语义块指示标志l0的情况意味着!22违例格式3主块广义作用句的知识;特征语义块居中又没有语义块指示标志l0的两可疑难(标准格式或违例格式)意味着必有一个广义对象语义块容易辨认的知识等,都需要进一步提炼以形成软性规则,供句类检验使用。这一类共性知识的运用可能对1号难点消解处理或句类检验产生立竿见影的效果。
※制定综合治理方案的第四步是:确定每一处理步骤所需要的关键性特定知识。这里还要明确两点,第一,不存在包医百病的灵丹妙药,即使是灵丹妙药,也绝不会是武侠小说里所描写的珍珠般颗粒,而是许多知识项的综合运用。第二,知识的综合运用可能遇到冲突,因此,要制定冲突处理准则。这就是所谓见机行事,是理解处理软件设计中需要呕心沥血的灵魂部分。
具体说明在2.3.2。

●●综合治理方案的举例说明
※关于分词“瓶颈”说
分词“瓶颈”说在中文信息处理学界被认为是理所当然的定论。
晋耀红曾在一篇论文里(晋耀红1998)对此定论进行过中肯批评,可是一位读过这篇论文的中文信息处理专家依然表示无法理解,对此我深感悲哀而丝毫不以为怪。
为什么?因为,第一,汉字是Chinese character,而不是Chinese word的误识根深蒂固;第二,句子分析必须从句法分析入手的误识根深蒂固。
为什么汉字只是character,而不是word?大体有三条理由。第一,如果汉字是词,那么语素何在?第二,如果汉字是词,那现代汉语大量的双字词算什么?第三,如果汉字是词,那么“琵、琶、囫、囵”等字如何解释?
词与语素有比较严格的区分是西语的特性,汉语不加以严格区分,这是不同语言的不同风格,为什么要强求一致,削足适履?现代汉语的大量双字词可以当做词组来对待,这正是汉语词组的特殊风格。这两点,在“论题21”里(未入《专著》)有详细论述。
从汉字起源来说,字就是词,甲骨文的字都是词,许慎《说文解字》的9千多个字都是词,不要因为少数非土生土长双字词的存在而数典忘祖,模糊了对于“汉字就是词、汉语是单音节语言”这一汉语本质的认识。粒粒橙是饮料,你总不能因为粒粒橙里有非液态的“粒粒”而不把它叫做饮料,另取一个什么液固混合料之类的怪名字吧。这似乎是说笑话,但在我看来,力图在词与汉字之间划上一道明确界线的人们就是在闹这样的笑话,把汉字降格翻译成Chinese charac-ter,不仅极不科学,而且有辱民族文化尊严,是废除汉字的荒谬主张流毒尚存的表现。
上述两项误识就是由于对汉语和汉字仅知其然,而不知其所以然造成的。
如果汉字就是词,你还分什么词?还搞什么分词标准?这当然是过于朴素的发问,会引得语言学家特别是新老结构主义者(我国语言学界留过学的前辈大师都是老结构主义学派的学生)拍案而起。但是且慢!分词既不是你想象的那么简单,更不是你想象的那么意义重大,非先行不可。“留学”是词吧,那么,“留过学”?“留过三年学”?分词标准在这里有什么意义?西语分好了词,理解处理的优势何在?拿前面两次提到的go to see来说,词倒是都分好了,可是,go to see a doctor/ go to see a lawyer/ go to see a film 各句里的go to see,其意义是大不相同的,关键和难点在于对go to see这一词组的语义处理,更准确地说,是对其概念联想脉络的激活与扩展处理。把go to see分别标注成一个词和一个词组,或是整体标注成一个词组,纯粹只有形式上的意义,对最终理解并没有实质性帮助。
下面,让我们对文字文本的预处理过程稍为深入地具体设想一下,就可以看出分词究竟是不是“瓶颈”。
第一步,计算机要划分出每一个基本信息单元,这不仅是文字本身,还有不同文本格式专用的各种特殊符号,各种文字文本都要采取这一共同步骤。汉字和西语的word都是语言信息的基本单元,word之间需要空白间隔符,因为word所占用的内存空间(长度)是不规范的。但字的内存空间是规范的,因此字本身就是基本信息单元的分隔符。这是汉语的优点,不是缺点。
第二步,把相邻的语言基本信息单元组合起来,形成更大的语言信息单元,这也是各种文字都要采取的共同步骤,没有任何语种可以免除这一步骤,不过汉语稍微特殊一点。这一步需要利用一个特殊工具,叫做词库,它不是词典的简单电子翻版,再权威的词典也不符合词库的要求,因为词典是为人服务,而这里说的词库是为计算机服务。不同服务对象需要不同的服务内容。词条收录标准的不同是两者的基本差异之一。
第三步,提取后续处理的急需信息。这一步与后续处理的具体方案密切相关。如果采取句法分析先行的策略,短语分析首当其冲,各语言基本信息单元如何组合自然是急需信息,分词“瓶颈”说勉强说得过去。但是,如果采取句类分析策略,当务之急并不是各语言基本信息单元如何组合,而是语义块感知激活信息的提取,当然它与分词有一定关系,但绝大部分所谓分词问题与此无关,因此,可以暂时置之不理,而推迟到情况更加明朗的句类检验或语义块构成分析阶段来处理,这是处理谋略的重大进步。所以,HNC认为分词不是“瓶颈”而是“瓶底”,如此一清如水的道理,专家竟然也感到费解,这是对汉语和自然语言理解不知其所以然的典型表现,所以我感到悲哀。句子理解处理过程的本质是概念联想脉络的激活与扩展,激活过程就是句类假设,扩展过程有两种基本形式,一是要素(局部)检验,二是全局检验或各语义块的构成分析。第二种形式就是把语义块内的各个单元按照语义块构成的预期要求组合起来;如果是块扩或句蜕,就在一个局部范围内进行另一轮概念联想脉络的激活和扩展。概念联想脉络扩展过程的主要运作是“合”而不是“分”,这是关键所在,所以我从来不用分词这个术语。从心情来说,我觉得,老祖宗给我们留下了这么美妙的汉字,每一个语义单元占用同样大小的内存空间,真是举世无双。把各个语义单元组合起来,才是自然语言理解处理过程共同的本质操作。有人不明此理,置综合治理于不顾,连“其然”都不知,闹出一个分词“瓶颈”说,并大事炒作,浪费了大量经费和人力。说到底,这是汉语传统文化没落的缩影。
上面我们说,即使对于句法分析,分词“瓶颈”说也只是勉强说得过去。为什么?因为,汉语文字文本的分词歧义现象实际上是比较少见的,只有那些并不在科研第一线工作并亲自分析语料而又喜爱侈谈大规模真实语料如何重要的文献综合者才会把分词想象成“瓶颈”。在自然语言理解处理的众多难点中,分词绝对排不上“瓶颈”的显要地位,退一步说,即使把词都按照分词标准预先人工分好了,面对自然语言理解面临的基本应用问题,你还是照样无所作为嘛!

※关于机器翻译的战略目标
时隔20年的两次机器翻译高潮与低落都同样经历着满怀期望与深感失望的巨大落差。为什么?根本原因是战略目标与实施方案存在重大的谋略失误。机助翻译思想的提出是对翻译目标的修正,前述EBMT、SBMT、KBMT等方案的提出是对翻译谋略的修正。然而,这两种修正依然缺乏正确的战略思想和谋略思想。
孔子曰:知之为知之,不知为不知,是知也。机器翻译首先应该遵循这一原则。通俗地说,就是能翻译就翻,不能翻译就不翻,请求专家帮助,并通过专家的译文进行学习,逐步提高自身的翻译水平。这里有两个关键环节,一是翻译系统要具有自知之明,二是翻译系统要具有学习能力。如果机器翻译在这个战略目标指导下开展研究,就会少走弯路,也不会急病乱投医了。
任何人工智能系统都应该把自知之明的研究放在第一位,自知之明的智能并不难实现,关键是要确立这一战略目标。句法分析、句法语义分析乃至分词“瓶颈”处理,都能做到自知之明。但根据我的孤陋寡闻,大家都不在这方面下功夫,而是相反,说得文雅一点,就是强不知以为知,说得难听一点,就是蛮干。为什么会出现这种现象?大约是西方文化传统中“老子天下第一”的劣根性在作怪吧,以致扼杀了这一简明策略思想的萌生。
以句类分析为基础的机器翻译系统一定要确立这一战略目标,其具体内容已在上一节的谋略之三里谈过了。
在自学习方面,我们还没有形成成熟的思路,这是李耀勇博士后的研究课题。这里仅指出两个要点:第一,学习的重点以本文阐述的20项难点处理、17项知识和Paper31中阐述的两转换、两变换和两调序为中心。围绕这些具体问题以Ⅱ型语料为“课本”进行学习,并设计灵巧的人工辅导界面。要对所谓“大规模真实语料统计”的诱人提法保持清醒的认识,区分依靠与统计两种方式,直接与理解处理有关的知识的获得基本上只能采用依靠方式,而不能采用统计方式。第二,学习到的知识要纳入HNC的知识表示体系,并分别进入一般语词的HNC知识库和特殊语词的小专家知识库。
机器翻译的另一重大失误是对翻译过程本身缺乏清醒的认识,忽视了翻译过程的简化“分析+生成”公式中隐含的一项重要过渡,那就是分析的延伸或生成的预备,属于典型的步调失误。近年的翻译系统才开始对此有所认识,但由于传统句法语义分析方式的约束尚未得要领。这个过渡就是Paper31中所概括的两转换、两变换、两调整,这一过渡处理并不只是翻译的需要,而是语言生成的关键步骤。语言声学的语音合成或文语转换研究目前就缺乏这一关键性的谋略认识。近年来流行的所谓韵律研究就存在这一根本缺陷,韵律的音高、音长、音强变化,既与陈述、疑问、祈使、感叹有关,也与两转换、两变换、两调整有关,前者是言语表达的形式需要,后者是言语表达的内涵需要。这两种需要是韵律知识的基本依托。不了解这一要点,仅从语音的表观现象去寻求韵律知识,将如同离开句类表示式去研究句型一样,必将陷入“舍本逐末,不得要领”的困境。

2.3.2 难点处理的对症下药

    本节该不该由我来写,以什么方式来写,反复思考,未得要领。要是按照家族浪漫的老习惯,我就丢下不管了。但写本文之初,作过改变老习惯的承诺,只好硬着头皮写一些。
    晋耀红是本节的最佳执笔人选,我可以委托他来执笔。但目前导师与学生之间的流行论文合作方式常使我有汗颜之感。所以,决定打消委托之念,先来开一个头。
    任何难点处理,都需要对症下药,这是简单常识,也是句类分析3年来实践过程的生动写照。
    就自然语言处理来说,“对症下药”4个字里的“症”就是本文所概括的关于理解处理的20项难点,Paper31所概括的关于生成处理的6项过渡。“药”就是本文2.1节所概括的17项知识。“下”就是本文2.2节谋略要点之三里所概括的知识运用9要点和同节谋略要点之四里所概括的见机行事7要点。
    汉语的两个成语“见机行事”和“对症下药”的语用性大不相同,但语义是相近的,本节适合于采用对症下药。
    “症”一般是多项难点的综合表现,所以引言中说:20项难点的处理是相互依赖和相互制约的,不存在完全独立的20项解决方案。本节将从句类分析三部曲和两支撑的角度进行“症状”分析,总结已有的“下药”经验,也提出一些新设想。本文对每一处理环节概括出一种症状,并对每种症状取了一个自觉比较贴切的名字,以便于记忆。
    下面先列举这5种症状,然后依次进行症状及其治理药方说明。
●1语义块感知和句类假设的“风声鹤唳”症状
●2句类检验过程的“头昏眼花”症状
●3语义块构成分析面临的“头重脚轻”症状
●4K调度的“先天不足”症状
●5小专家处理的的“六神无主”症状
    敏感的读者会注意到,在“头重脚轻”症状前面加了修饰语“面临的”,而其他的症状都没有加。这当然是有区别的,未加修饰的症状表示,它既是自然语言固有的症状,也是相应处理软件可能出现的症状。加了修饰的则只是自然语言固有的症状。下面分别加以说明。

※1“风声鹤唳”症状是1号与2号难点的综合症,其具体表现是:
                “动词满天飞”,
                “动词语义的不确定性”。
前者关系到特征语义块位置的确认,后者关系到特征语义块类型(句类表示式)的确认。
    HNC开出的药方是:lv准则+E块复合构成准则+E排除准则
                                    +v团块准则+两v团块归类准则
                                    +多句类代码假设准则
    “风声鹤唳”症状并不是汉语的“地方病”,而是所有语言的“通病”。那么汉语是不是更为严重?我还是那句老话,对句法分析确实如此,但对句类分析则未必。这里不来重复论证这句“老话”,而只指出:关于汉语“风声鹤唳”症状的种种高谈宏论(包括前述“诺贝尔奖”说)乃基于公元前的关于词性与句子成分对应的朴素认识,来于中心动词的西语语法规范对句子理解的误导,来于短语结构语法对句子成分认识和句子理解的继续误导。是站在语言理解之外迷茫于语言形式现象的结果,与“不识庐山真面目,只缘身在此山中”有“殊途同归”之趣,与“月是大西圆”(注:这句诗是我对“外国的月亮比中国的圆”的古译,是对杜甫名句“月是故乡明”的仿袭)有“同病相怜”之悲。
    当然,不同语种的“风声鹤唳”症状各有特色。“动词满天飞”症状对汉语是一个难点,但并非不治之症,上面药方的临床疗效已经表明了这一点。同时应该指出,“动词语义的不确定性”症状,西语远比汉语严重,HNC现有药方的疗效如何还有待验证。

◇lv准则+E块复合构成准则+E排除准则
    这三位一体的准则序列是上列17项知识的1~5项知识的规则化表示,是HNC精心设计的语言逻辑语义网络和基本逻辑语义网络蕴涵知识的具体运用。其中的lv准则基于汉语的特点特别考虑了语句规范格式知识的具体运用,具体规则有6条(见‘论题1-1’)。有些只适用于汉语,需要考虑西语的情况作相应调整。西语的规范格式十分单一,只有主动被动之分,主语义块的排序比较简明,但辅语义块的位置则不像现代汉语那样规范。
    E块复合构成准则里的上下装概念也适用于西语,不过上下装的具体内容的定义要作适当变动。这里应该强调的是,由上下装概念引申出来的自激音节概念是一个极为重要的概念,对汉语文字文本,应转变成自激字的概念,以利于汉语新词的发现。
E排除准则见《专著》的“论题2-1”,该文列举了5条排除规则,其中的第四条后来独立出来,形成v团块准则。该准则仅适用于汉语,百分之百的“土产”,“洋”语完全用不上。

◇v团块准则+两v团块归类准则
见《专著》的“论题2-2”。该准则的已有论述因迁就汉语语音文本有所不为的需要作了一些策略性简化。现在,应该根据汉语和西语文字文本的情况作相应改动。

◇多句类代码假设准则
此准则只是一种策略,一方面它是在优先句类假设检验失败以后的第二手准备或应急方案,另一方面它是对“动词语义不确定性”的治本之道。因为,只有把动词语义的不确定性转换成句类代码的确定性序列,才能形成知识运用的最佳语境,即形成有效的预期知识,从而具体施行语义模糊的消解。这属于句类分析的基本常识。但是,我们还需要通过各种方式,从不同角度阐释这一关键性认识。例如,上述转换的可实现性就需要进行令人信服的论证。在这一论证中,要充分揭示知识表示在词汇层面和概念层面的本质区别。如何表述“动词语义的不确定性”性?假设你已经拥有一个足够规模的语料库,从而能够“穷举”该动词的搭配,并且进一步实现了将词语搭配向语义原语的转换加工,即使如此,你能保证新的语料都能纳入你的“穷举”么?大概不能吧!
HNC不在词汇语义层面寻求词语搭配的“穷举”,而是在概念层面先寻求句类代码的“穷举”,然后在句类代码的引导或约束下,补充语义块要素之间(包括Ek~JKm与JKm~JKn之间)的概念关联性,即词语在概念层面预期知识。这是两种截然不同的知识获取方式,其本质区别在于是否实现了从语言空间到概念空间的升华。我希望理论组就这个题目专门写一篇或一组论文。论文不但要以汉语为例,更要以英语为例。因为英语的"动词语义不确定性"远甚于汉语,这样,论文将更有说服力,产生更广泛的影响(包括国际影响)。


※2句类检验过程的“头昏眼花”症状是4~12难点的综合症。
句类检验本身的准则十分简明,就是利用基本句类知识和词语HNC知识提供的预期信息进行所谓“合则留,不合则去”的预期处理,不存在“头混眼花”的可能性。问题出在句类检验下列5个环节的头尾两难:
            句类检验的准备操作(由句类知识和现场信息共同决定)
            检验步调的确定(由句类知识给出)
            检验类型的确定(由语义块表示式和基本句类知识共同决定)
            检验级别的确定(由现场信息决定)
            全局性检验的实施步骤(由现场信息决定)
这5个环节的头尾两难都可能出现令人"眼花缭乱"的复杂情况,因而引发"头昏眼花"症状。
HNC针对检验准备操作难开出的药方是:(见《专著》‘论题26’)
                假设类型处理+句类格式处理
                    +句类转换处理+块扩或句蜕处理+语义块分离处理
                    +E块构成的精确定位处理+辅块精确定位处理
这个药方的治理效果如何?还需要作什么改进?晋耀红比我更心中有数。这里仅提一个建议,作一点说明。
一个建议是:恢复测试小组,负责测试目标、计划与方案的制定,测试语料的研究与精选,测试结果的综合分析,测试报告的编写。测试小组由三个组各推出一名成员联合组成,组长由执行组长兼任。
一点说明是:药方中的两头,即“假设类型处理”和“辅块精确定位处理”对语音文本十分复杂,在所必为和有所不为的界限很不容易划定,实际上也未曾明确划定过。当前的软件的性能离“九五攻关”和“十五重中之重”任务的要求可能还存在较大差距。测试小组的第一项任务就是对这项性能差距进行测试方案的研究,写出研究报告,并通过具体测试写出评估报告,为这两项处理尽快制定明确的目标,从而为软件的改进提供依据。
应该说明,这里的一个建议和一点说明之间存在着紧密的联系,这种联系并不是巧合,而是任何创新研究必须狠抓的一个重要环节。过去我对这一环节抓而不紧,方式上也比较粗暴和原始,今后要逐步纳入正规化的轨道。还应该说明的是,对“头昏眼花”症状我们实际上只找到了部分症状的有效治理药方,还需要继续深入研究,上述建议是推进这项研究的重要一步。
上列药方动用了17项知识里的哪些知识?作为思考题留给读者思考。

※3语义块构成分析面临的“头重脚轻”症状是7号与2号难点的综合症。
语义块构成分析历来专指广义对象语义块,不包括特征语义块。后者的构成分析属于句类检验准备操作的一部分。
“头重脚轻”症状这一比喻说法里的“头”和“脚”分别指广义对象语义块复合构成里的内容基元C和对象基元B,“头重”就是指内容基元C也需要用动词来表达,具体表现就是复杂的句蜕,就是7-m号难点(m≥4),就是HNCⅢ型语料所规定的第16类句子。1.7节中详细分析过的那段语料的第一个例句就存在典型的“头重脚轻”症状。刚刚写下的这个存在判断句的DB,是一个典型的要素句蜕块,即“1.7节中详细分析过的那段语料的第一个例句”。那么,它算不算“头重脚轻”?不算!因为这个常规句蜕块并不复杂。
    一般来说,不显含内容基元C的广义对象语义块,或良性构成的语义块,不存在“头重脚轻”症状;而显含内容基元C的广义对象语义块,或非良性构成的语义块,很可能存在“头重脚轻”症状。基本句类知识之一就是标明该句类的某JK为非良性构成,从而给出可能出现“头重脚轻”症状的预期信息。
所谓句类检验前的形势判断就是判断是否出现了“头重脚轻”症状。
应该强调的是:“头重脚轻”症状固然可怕,但“头重脚轻”症状的转移同样可怕,也许更为可怕,这正是古汉语的理解难点之一。
古汉语的语义块构成没有或很少有“头重脚轻”现象,这一现象是现代汉语与西语交融以后所产生的现代病症。因此,这一病症在从西文翻译过来的文字文本中就表现得更为严重。
一个显而易见的问题是:“头重脚轻”现象来于句蜕,难道古汉语不使用句蜕块么?这岂非与基本句类知识相矛盾?古汉语如何表达含复杂内容基元C的语义块?即先验句蜕块?
问得好,这是理解古汉语的关键之一。古汉语通常的做法是,把复合构成的句蜕块或其一部分离出去变成句蜕语串。这样,就把语义块构成分析的困难转嫁给K调度了。这里引一段《史记》,表明古汉语的这一特色。这段语料非常通俗易懂,然而气势磅礴,雄文风采跃然纸上。背诵这样的古文片段,是一种精神沐浴的艺术享受,可怜现代中国人已经与这一享受无缘了。
夫运筹帷幄之中,决胜千里之外,吾不如子房。镇国家,抚百姓,给馈饷,不绝粮道,吾不如萧何。将百万之军,战必胜,攻必取,吾不如韩信。此三者,皆人杰也,吾能用之,此吾所以取天下也。项羽有一范增而不能用,此其所以为我擒也。
司马迁:《史记》‘高祖本纪’
引文前面的三个“吾不如”,是三个相互比较判断句(编号49),其共同特点是把DBCmCΛm=(1;2)分离出去,变成句蜕语串。后面的两个"此....所以....也"是古汉语常用的因果句形式,"此"代表PBC1,其具体表达也分离出去,变成句蜕语串。非常有趣又非常可怕的是,这些分离出去的句蜕语串还可以再次发生分离,形成第二级句蜕语串,即1.7节所说的句蜕嵌套。例如,第一个"吾不如"前面的两个语串代表原型句蜕块(!31D01J),而这个原型句蜕块又再次发生分离,其中的局部特征语义块D01"运筹"与Cn"帷幄之中"一起构成语串"运筹帷幄之中",广义对象语义块DBC"决胜"与Cn"千里之外"一起,构成语串"决胜千里之外"。我曾多次在指出现代汉语的辅语义块一定在特征语义块之前(这是lv准则的6条规则之一)的同时,说过并写过古汉语不遵守这一规则,这里我们两次看到了这样的例句。引文对两个因果句分离出去的句蜕块PBC1采取了同样的处理方式。例如第一个"此....所以....也"前面的原型句蜕块(R511J)-"吾能用之",又一次分离出原型句蜕块(jD0J)-"此三者,皆人杰也",它是第一级句蜕块中RB2的句蜕。两级分离句蜕分别通过语言逻辑概念lg914005和lhg914004的反映射词"此"与"之"加以标记(认真的读者不能放过对这两个语言逻辑概念的深入理解)。第二个"此....所以....也"前面的"项羽有一范增而不能用"是(R611J+R511J)形式的原型句蜕块,这是一个由两个主从关系句构成的复合句,两者共享RB1和RB2。
从上面的分析过程可以看到,古汉语“头重脚轻”症状的转移虽然是一种语言艺术的享受,然而是要付出代价的,这就是要加强语串间概念联想脉络的激活处理。那么,这一激活信息从哪里来?从句类表示式和基本句类知识。“吾不如△△”中的△△如果只有简单的对象,句子固然简明,但公然省略的隐知识是必须揭示的,因为该句类表示式要求显含的比较内容DBmCΛm=(1;2)。根据这一基本句类知识,比较内容的省略就是激活因子,因为它必须在书面语的上下文里出现,否则就是作者的疏忽。
下面以上面的语料诠释为依据作两点发挥:
第一,上述诠释是以句类表示式为依托的。没有这一语句联想脉络提供的预期知识,即基本句类知识,语串之间的关系就难以阐明,通俗的说,就是缺了一根“弦”,一根激活联想脉络的“弦”。有了这“弦”,则出现了“柳暗花明又一村”的转折,产生一种如同顺流而下的通畅。这就是所谓句类表示式及其基本句类知识的灵魂及统帅作用。能够把根“弦”变成软件么?,我认为,已经迈出了坚实的第一步,语串内部句蜕现象的成功处理就是证据之一。所以,我把这些证据称作句类分析的第一个里程碑。而下一个里程碑的基本标志,就是把句蜕语串与句子主体连接起来,把语义块省略语串与句群主体连接起来,完成这两项连接是扩展句类分析的急所。为了促进这一进程,这里一反历来的写作风格,写了上面的语料诠释。不过,在我过去标注的语料中,这样的诠释并不少见,可惜未引起联合攻关组内有关成员应有的注意和反应。这里呼吁HNC联合攻关组的所有成员,都应该在标注HNCⅠ型的语料的同时,练习写一些这样的诠释。我愿意再次提醒我的战友和学生们,要切实掌握句类和句类表示式的概念,要锤炼从语言空间向概念空间升华的思考习惯和水平,除此之外,别无捷径。请原谅我不客气地说,没有这一锤炼过程,你不可能精通HNC的精髓,你只能是HNC的朋友,而不是冲锋陷阵的探索尖兵。
第二,古汉语不仅拥有比现代汉语更丰富的语义块前标记符,还拥有现代汉语已不使用的语义块后标记符,如“之、者、也、兮”等。这些标记符蕴涵着古汉语的韵律之美,它们在现代汉语中已经消亡。这一消亡现象就如同欧洲近代音乐大师的艺术化境在现代音乐中走向消亡一样,是大众化过程的自然蜕化现象。让现代和后世的中国人了解中国语言文化曾经拥有过登峰造极的艺术成就是有意义的。对它的消亡听其自然就是了,没有必要通过孔乙己的小说形象,把古典风格打成“臭狗屎”而后快,像“无产阶级文化大革命”期间的革命小将那样,动不动就要怒视着满眼的阶级敌人,高喊“痛打落水狗”的口号,并付诸“打倒在地,再踏上一只脚”的革命行动。
诠释中,复合句类的标记仍然沿用了符号“+”。这个符号可以另行设计,但借用组合结构符号“$”似乎不妥,因为该符号有严格定义,而符号“+”的定义是比较宽松的。
HNC为现代汉语“头重脚轻”症状开出的药方是:
                    全局性句类检验+4类常规句蜕处理+变形句蜕处理
对4类常规句蜕的全面辨认和处理,对变形句蜕的辨认和处理,也都属于扩展句类分析的范畴。但前者是急所,而后者不是。在语音文本的鏖战时期,句类分析技术曾将一些常规句蜕纳入有所不为的范畴,例如[structure1-1]所包含的要素句蜕。现在针对文字文本应赶紧补上这一环节。1.2节对[structure1]的讨论曾留下一个尾巴,这里补上。对[structure1-1]需要进行后续处理,即检验该结构的FK2是否满足E~JK1的预期。如果满足,就表明它是<!24EJ>要素句蜕,否则就是((!31EJ))包装句蜕。
对文字文本,把上面的药方变成软件,是扩展句类分析的重中之重。而要实现这一目标,语串之间的关联性处理是不可或缺的环节,这就与第四症状密切相关了。

※4K调度的“先天不足”症状
“先天不足”症状的语言学来源是逗号模糊、省略与指代现象,软件表现则是不考虑语串之间的关联性。后者是前几年心理“恶狼”紧逼之下的无可奈何,不属于有所不为的策略安排。
现在摆脱了心理“恶狼”的紧逼,应该重新审时度势了。
K调度的本质使命是对语言的省略和指代现象进行恢复省略和确定指代的相应处理。这包括特征语义块、广义对象语义块和辅语义块的省略,包括各种类型与级别的“指”与“代”。
什么是“指”与“代”的各种类型与级别?就是1.6节中所概括的“主、辅、句、块”。
“指”处理的要点是判定:指主还是指辅?指句还是指块或块的一部分?
“代”处理的要点是判定:代主还是代辅?代句还是代块或块的一部分?
省略与指代处理的难点都在于:被省、被指或被代之块变成了原型句蜕,或变成了句蜕序列(群)。原型句蜕的出现,与复句相混淆。句蜕系列的出现,实质上涉及到复句集成与还原的复杂过程,见1.7节的说明。
由此可见,指代与省略处理面临着同样的问题,软件设计应充分利用这一共性,采用共同的基本处理模块。
JK和fK以独立语串的形式出现,实质上都是省略或指代现象的表现。无特征语义块语句的出现是E块省略的表现,基本句类中的4.5个无E块句类是E块的省略,已如前述。按照苗传江的建议,这些句类的编号将集中到53~57,即将现在的51号参照比较判断句改成54号,原52~54号句类的编号减1。
“无可奈何”时期的做法是:对分离出来以语串形式出现的广义对象语义块或辅语义块,辨认出来就完事了,不与对应的句子主体挂钩;对语义块省略的句子,辨认出省略类型就完事了,不与句群主体挂钩;不考虑句蜕块或省略语句的序列现象;对省略特征语义块的句类,只考虑57号的简明状态句。
扩展句类分析的前期中心任务是,改变“无可奈何”时期关于省略指代处理的原始方式。对一切以语串形式出现的广义对象语义块、两可语义块和辅语义块或其序列,对语义块省略的句子或其序列,都要求找到对应的句子主体或句群主体。按照省略或指代的预期要求,把句子主体与其分离的语串联系起来,形成句类表示式所要求完整联想脉络;把句群主体与其伴随的序列联系起来,形成背景知识或它所要求的框架要素,并在必要时形成基本语境知识或它所要求的框架要素;对4种常规句蜕块,不仅要确定类型,还要确定句蜕块的句蜕表示式(即句蜕块的格式表示);对不属于有所不为的变形句蜕块,要求进行反转换或反变换处理;对省略特征语义块的句类,要求作出具体类型的判断,而不能统一简化成简明状态句。
上面列举的清单就是扩展句类分析第一阶段的基本内容。这里,三部曲与扩展K调度的配合几乎达到了融为一体的境界,因此两位组长也要有融为一体的协同境界。
应该指出,广义对象语义块的省略有真假之分,真省略要依靠远程语境才能予以恢复,属于深层隐知识揭示。假省略则是逗号模糊造成的假象,这又要区分两种情况,一是语句间的语义块继承,它类似于复合句类的广义对象语义块共用。二是广义对象或其一部分从语句主体分离出去,以独立语串的形式出现。这两种情况有时并不是截然可分的,见1.7节的讨论。假省略仍然是中程语境(即一个句子形成的内部语境)的运用。因此,对假省略的处理实质上不属于扩展句类分析范畴,而是现有句类分析软件的“补课”任务。
扩展K调度(包括“补课”)的激活信息从何而来?从现场情况是否符合句类表示式和基本句类知识的预期,如此而已。就省略处理来说,两相邻语串,一个是广义对象语义块,另一个又缺少了广义对象语义块,发现了这个漏洞,把漏洞堵上就是了。也就是把两者合起来,作出“有省略之形,无省略之实”的判断就是了,似乎可以说,“万事俱备,只欠一判”!
事情就这么简单明了么?当然不是。可能出现下列复杂情况。为叙述简明,将采用HNC符号表达语义块和有省略的语句。
            ◇1在JK语串与!3mEJ之间可能插入fK或fFK
            ◇2出现两可块或其序列
            ◇3出现JK语串序列
            ◇4出现原型句蜕块与其他类型句蜕块构成的混合序列
            ◇5出现原型句蜕块或其序列
            ◇6出现JK构成局部(要素或块素)的分离语串JKp
显然,原型句蜕和JKp是扩展K调度处理的两项难点,但后者不是急所。在上列6种情况中,请注意4、5的排序方式,它意味着混合序列比纯原型句蜕序列容易处理,因为混合本身提供了原型句蜕的宝贵激活信息。
    急所是上面列举的各项序列处理与第一项的插入处理。
    句蜕块序列并不难处理,逗号终究还是提供了一定的激活信息。但是,一旦出现纯原型句蜕序列,复杂性就发生了质变。究竟是原型句蜕还是复句的子句?需要验证。而这一验证又往往要求远程语境提供相应的启发知识。
    块扩处理也面临着同样的序列问题,因为块扩部分也经常变成序列。
本节的基本目的是说明扩展K调度的目标,同时也概括了扩展句类分析的基本内容。实际上也给出了治理“先天不足”症状的药方,不过由于写作功力有限,布局不当,无意中陷入了暗写的泥潭。累了,让我放松一下吧,变暗为明的处理,就留给读者了。

※5小专家处理的“六神无主”症状
“六神无主”症状的语言根源是词语音义两极相互映射的违例模糊,是自然语言原始性痼疾的后遗症,任何语种都不例外。就语言的这一“健康”标准来说,汉语也许是最健康的语言,这个问题的理论方面已经论述多次了。但多数读者肯定对此说不以为然,所以,这里引一段《专著》的论述。
语言文字作为一个整体,都具有音、形、义三极,不过“形”这一极在西语里居于从属地位,所以传统语法理论只提音、义两极。但汉语是典型的三极语言。两极意味着对义的表达只有音一种手段,这种语言基本不依赖于文字而独立发展。三极则意味着对义的表达有音形两种手段,文字与语言同步发展并对后者产生重大影响。对音的运用属于人类的本能,对形的运用则涉及更高级的智能,因此,汉语对音形两极的运用必然体现更多的智能性,这是它的长处。但同时又限制了它对语音本能的充分运用,这又是它的弱点。汉语的这种双重性在词汇构成方面表现得最为明显。语言的发展从词汇起步,词汇的基本功能是命名,在命名方式上,汉语与西语的巨大差异不仅是饶有趣味且极富启发性。古汉语基本命名以单音节为限,几乎不越雷池一步,显得非常原始和笨拙。西语对一个命名的音节数量则不加限制,显得十分灵活和洒脱。但是,命名的需要随着社会的发展而层出不穷,当新的需要出现时,汉语采取以原有单音节汉字重新组合的方式予以表达,充分显示出其灵活和洒脱。西语则恰恰相反,原有词的音节数量一般已不适于再行组合,不得不采取另造新词的原始方式,从而显示出其灵活中的死板和洒脱中的笨拙。
《专著》p25
这一段话是对汉语“字义基元化,词义组合化”这一论点的诠释,这个论点和引文的论述不仅表述了中西语言的根本差异,同时也说明了所谓语言原始性痼疾及其后遗症的含义。中国的许多语言文字工作和研究,由于对这两个要点理解不够或盲而不见,走了很多弯路。分词规范是最近的例子。
对汉语来说,原始性痼疾后遗症的主要表现是:现代汉语仍然保留了大量的单字(音)词,多数常用单字词(语素)具有非常灵活的组词功能,这使得所谓分词规范根本不可能实现。
对西语来说,原始性痼疾后遗症的主要表现是:词或词组的语义在不断扩展过程中形成的违例模糊日益增多,导致某些词或词组的语义不确定性恶性膨胀。
汉语的字义和双字词词义当然也有在不断扩展过程中形成违例模糊的情况,但导致语义不确定性恶性膨胀的情况远比西语少见。
针对这些语言原始性痼疾并发症,HNC提出了小专家处理策略。
如果用军事术语来说,小专家是配合主力部队执行特殊任务的特种部队。小专家的“小”,是精干和机动的意思,是自然语言理解处理见机行事谋略的具体形式之一。
例如,对汉语语音文本,单音词处理是一般性难点。但汉语音节处理小专家并不包揽汉语的全部音节,只负责其中对句类分析三部曲和K调度具有关键性影响且义类较多的部分音节,这是该小专家见机行事的第一项手筋(围棋术语,意思是紧急情况下化险为夷的妙招)。更重要的是第二项手筋,它又有两个要点:一是该小专家并不考察入选音节的全部义类(最多8类),只考察其中上述关键影响的部分义类;二是处理步调与内容与句类分析三部曲密切配合,严格依据处理进程的紧急需要从事有限目标的特定处理,绝不盲动。第三项手筋是严格控制入选音节的搜查范围,这就是所谓置偶音段于不顾、奇音段只考察奇位置的风险策略。
上述三项手筋只是汉语音节小专家的总体方案(谋略)的要点。具体方案还要区分:为语义块感知提供激活信息的小专家,包括无条件自激音小专家和音节远搭配(搭配一头或两头为单音词的远搭配)小专家;服务于语义块边界认定的段接、层选处理小专家,也称重点音小专家,即服务于句类检验准备操作的小专家;服务于语义块构成分析的段接、层选处理小专家,也称次重点音小专家;服务于K调度预备操作的偶段伪词发现小专家,也称条件自激音小专家。
本节※2里说过,句类检验的复杂准备操作是造成句类检验“头昏眼花”症状的两项导因之一。而这一复杂导因中最复杂的因素是“E块构成精确定位处理+辅块精确定位处理”(见※2的药方),而对这一最复杂因素的处理就需要上列第二类小专家的帮助。
上列自激音、重点音、次重点音的划分是基于句类分析三部曲处理进程的关键需要。显然,音节本身不会那么老实,“自”中有“重”与“次”、“重”中有“自”与“次”、“次”中有“重”与“自”的情况都可能发生。如果这么一全面考虑就陷入束手无策的困境,那你就太“傻”了。抓要害嘛!抓有所为和有所不为嘛!抓局部机动调整嘛!与此同时,切不要从束手待毙的一个极端走向盲动或蛮干的另一极端,千万不能强不知以为知,把“不知”送到交互界面请求帮助嘛!在自知之明方面狠下功夫嘛!
这就是谋略,这就是小专家设计思想的灵魂,也是理解处理软件设计思想的灵魂。当然,这一设计思想的实现需要一定的基础,甚至需要比较坚实的基础。这个基础已经存在,就是HNC理论前两个理论模式的创立,就是句类分析的第一个里程碑的诞生,后者包括软件和知识库。HNC联合攻关组的每一个成员都不应该在这一点上出现妄自菲薄的失误,当然更不应该出现妄自尊大的轻浮。
从某种意义上可以说,化险为夷是小专家的天职,而手筋是小专家的生命。没有险,用不着小专家,没有手筋,就做不到化险为夷。
手筋的要点是看准要害、抓住契机、有所牺牲(围棋术语叫弃子)的12字诀。汉语音节小专家处理的第二和第三手筋就充分体现了这一要点的运用。要害者,句类分析进程中的紧急需求也,契机者,有限明确目标的特定处理也,牺牲(弃子)者,即“有所不为,才能有所为”之哲理也。
上面的论述,都是多次所说所写的重复。这里老调重弹,是因为小专家处理“六神无主”症状的治理与这些老调有关,换句话说,学习并善于运用手筋,就是治理“六神无主”症状的药方。
三部曲、两支撑的提法是对句类分析谋略思想的概括,这一谋略思想的形成过程也经历过“六神无主”的风雨,曾备尝“看准、抓住、牺牲”之艰辛,而且是“为伊消得人憔悴”的艰辛。我在‘难点标注说明’中写道:
我常常听到两种呼吁,一是“赶紧定下来”,二是“定下了就不要改”,这是不成熟的表现,创新工作必需适应在变中求不变的“日日新”势态。
这一段话既是上述艰辛的体验,也是对变与不变辩证法的说明。人们太习惯于常规工作流程、特别是常规开发工作里的所谓规章了,对规章的迷信将导致混淆总体与细节、急所与大场(围棋术语,意思是战略要地)、必为与不为、终极目标与当务之急、探索研究与一般研究的严重失误。必须清醒地认识到:艰辛的探索与创新是永远没有现成规章的,否则就不是艰辛的探索与创新。我的信条是:与其在脑子里长期盘算规章而不行动,不如在“行成于思”(唐代大文豪兼思想家韩愈的名言)的实践中促进规章的诞生和完善。
在为语委项目确定三部曲、两支撑总体思路(方案的预备形态)的1996年春,不存在任何规章,甚至这一总体思路各环节的命名都未必符合语言规范。大醇中之小疵,比比皆是。如果在那个时候,不分轻重缓急,忙于小疵的清理,迷惑于自然语言的“羽毛”在狂风中飞舞的复杂运动,HNC将走向何方?
见微知著,从特殊洞察一般,并不是高不可攀的思维。关键就在“勤思”二字。韩愈先生说得好:
                业精于勤,荒于嬉。
                行成于思,毁于随。
(附说:这是4个省略特征语义块P22的果因句,"于"字在句中的作用很特别,其映射符号为lv02121,其中的v不可缺少。古汉语中这一类的的果因句很多,其韵律之美达到了上乘境界,读之终生难忘。因果句也多有类似情况,产生寓教育与艺术于一体的无与伦比的独特效果。读者若从韩愈先生的这14字名言,能对此略有感受,则笔者极感欣慰。)
应该强调指出的是:小专家处理已经出现了很有代表性的样板,就是自激音小专家,虽然它还有许多小疵。这个小专家设计中所体现的谋略思想是普遍适用的。它的成功,是一笔宝贵的谋略财富。在本文对5项症状思考现有药方的过程中,小专家处理的“六神无主”症状耗费了最长的时间,因为,其现有药方的主体是谋略,而不仅是通常意义下的知识。对2.1节所概括的17项知识,对2.2节所概括的知识运用9要点和见机行事7要点,小专家处理需要更高水平的取舍与综合。因此,它的治理药方很有点与众不同,如下:
小专家处理的“六神无主”症状治理药方:
        依据句类分析三部曲、K调度的进程确定有限目标的特定处理
            +建立开放而又能自给自足的小专家知识库
            +建立按进程封闭的推理规则库
            +形成并输出不带条件说明的单一推理结果
                +形成并输出带条件说明的单一推理结果
                +形成并输出不带条件说明的多种推理结果
                +形成并输出带条件说明的多种推理结果
                +形成并输出混合型推理结果
    药方中“开放”的含义是借用基本句类知识库和词语HNC知识库里的知识,“自给自足”的含义是根据小专家处理的自身需要补充必要的语用知识。“按进程封闭”的含义是推理规则只考虑进程提供的语境(条件)和要求,不考虑这一范围之外的情况。“条件说明”的含义是标明推理结果不适用的常见(不是全部)例外情况。这里不结合例句加以说明了,留给部分读者作为习题吧。
小专家处理作为句类分析两支撑之一的思想是针对汉语语音文本提出来的,但是,这一处理环节对于文字文本也是需要的。因为,后者同样存在“语义不确定性的恶性膨胀”。这一支撑的命名多次变动,至今尚未定夺,也许叫做“语义不确定性处理”最确切吧。

本文引言中说:自然语言理解处理“要全力追求统一的处理模式,同时又要采取“分化瓦解区别对待”的灵活策略。本文将力求运用这一谋略思想来剖析20项难点并提出解决这些难点的具体方案。”本节采取“症状”与“药方”的阐述方式,比前面的论述方式更多地体现了引言提出的设想。效果如何,听候读者的回音。这些话,是本章、本节最恰当的结束语。还需要写一段八股式小结么?多余的感觉此刻极为强烈,免了。