一、句类分析难点15

1.15 两可双字词或多字词难点(15号难点,标记:w**)

本难点实际上是所谓汉语分词难点的理论方面,而最后的20号难点是分词难点的实际方面。

关于分词问题,请参看未列入《专著》的‘论题21:二论中西语言的基本差异’。分词这个术语不太妥当,更不要说分词“瓶颈”说了。但该术语已赢得社会认同,只能入乡随俗。但必须认识到,这一术语里“分”的本质是“合”。黄侃说:“积字成句,一字之义果明,则数字之义亦必无不明”[hk]。当然,季刚先生的“积字成句”一语在字面上不够精密,因为在字与句之间存在一个不可缺少的层次-语义块。用HNC的术语来说,应该是“积字成块,积块成句”。但“积字成句”这4个字是一个高度概括的引导语,这段话的要点在后面的“一字之义果明,则数字之义亦必无不明”这一重要论断。把一字之义的“果明”,与数字之义的“必明”联系起来,是非常杰出的语义组合化思想,是针对汉语的语义组合化乃基于字义组合化这一基本语言现象而提出来的。季刚先生这一论断的要害在于那个“果”字。“果”者,上下文联想处理之结果也,意味着“而不可断取单词”[hz]也。

季刚先生所倡导的这一字义组合化思想,是汉语语言文字学研究的优秀传统之一,汉语文字文本处理应该继承这一传统。具体来说,在分词难点的理论方面,关键不在于制定分词标准,而在于如何通过“一字之义”之“果明”,以求得“数字之义”之“必明”。在分词难点的实际方面,更应如此处理。不在这个基础上进行扎实研究,并有所突破,而仅仅在算法上(包括统计算法)下功夫,即使能取得一些工程上的明显效果,对理解处理的深远探索目标终究不会产生实际的裨益。我多次说过,某些计算语言学家对语料库语言学重要性的过分宣传,将对理解探索形成一种误导,就是这个意思。

当然,走“果明”到“必明”之路是一个巨大的挑战。西方的一些语言学流派,特别是后乔姆斯基的结构主义流派,对此既有许多精辟的理论阐述,又有许多独到的实际研究成果[lx]。但他们都未能产生句类思想的顿悟,因而都未能形成明确而具体的从“果明”到“必明”的完整理论体系和技术实施谋略。现在,由于句类分析技术的诞生,这条路出现了“柳暗花明”的转折。

从“一字之义”之“果明”到“数字之义”之“必明”,不仅是对广义对象语义块构成分析过程所有局部性难点的高度概括,也是对语义块感知过程特征语义块构成分析的高度概括。也就是说,这条原则关系到句类分析三部曲之第三部和第一部。本节和1.18到1.20节所论,属于广义对象语义块,第17节所论,属于特征语义块。上一节与下一节所论,则涉及两者。

局部处理首先要搞清楚一个基本前提,就是它是否依赖于全局处理结果的引导。当然,这个基本前提存在两可疑难,但不能因此而放弃对这一基本前提的先验规定。HNC的先验规定是:基本概念短语的局部处理不依赖于句子的全局处理结果。研究15号难点,首先要利用这一先验规定。

基本概念短语具有8种类型,独立(基本)类型5种,从属(说明性、补足性)类型3种。5种独立类型是:序次短语、时间短语、空间短语、数量短语和质类短语;3种从属类型是:程度短语、普遍属性短语和伦理属性短语。构成这8类短语的核心概念分别属于基本概念语义网络的8个一级节点。

对5种独立类型基本概念短语的成功分析与生成可以看成是进入自然语言处理圣地的门票,4年前当我们开始想到展示HNC的效用时,曾试图从取得这张门票入手。刘志文先生和张全博士曾为此作出过重大努力,为配合这一努力,我专门写了一组小文(见《专著》‘论题11’的附录)。今天参加“中文之星”公司音字转换技术的鉴定,在十分感奋的同时,也有一些吃惊,例如,经过25亿汉字超大规模语料库的统计学习,却竟然未能取得这张门票。这不能不说是一个“一叶知秋”式的启示。那么,HNC处理方式能否更上一层楼、甚至攀上顶层?

在我写那些小文的时候,对这一点可以说是深信不疑。今天,HNC虽然已进入自然语言处理的“中堂”,但似乎是利用特殊身份进入的,并没有交验那张门票,为什么?因为并没有进行相应的检验。如果总结这里的经验教训的话,我觉得主要问题既不在理论方面,也不在技术方面,而在于组织管理方面。所以,最近制定的课题管理条例对于HNC事业的发展是关键性的,虽然它还很不完善。没有这一条例的有效贯彻实施,这十万字的专文将只是一堆废话。

我写下上面的话,是因为我担心HNC技术的发展有可能出现这样的不协调状态:全局性难点处理表现优异,但局部性难点处理表现一般甚至低下。局部性难点处理需要细致的、技巧高明的、精益求精的长期朴实积累,需要对繁杂语言现象与重复性脑力劳动具有坚韧的耐心。局部性难点处理同样可以出很有价值的论文,但论文不等于技术完善,而这一完善化是以上述朴实与坚韧精神为必要条件的。当前的科研大环境非常不利于这种精神的培育与发扬,HNC联合攻关组也难以有所作为。

15号难点具有典型的繁杂性,读者从上述的一组小文就可以充分感受到这一点。然而,这组小文所论述的5种独立类型的基本概念短语,只是繁杂性适中的局部性难点。

按繁杂性标准,15号难点处理可依次给出下列清单:

※01包含性概念局部组合处理

※02特指与泛指的局部组合处理

※03对比性概念局部组合处理(如“老中青”“难易”“喜怒”“有无”)

※04对偶、对仗性概念局部组合处理,包括以“、”号标志的对仗性组合。

※05 5类基本概念短语的局部组合处理

※06同位语局部组合处理(包括以“-”号标志的同位语)

※07 uv类概念组合处理

※08 uu类概念组合处理

※09 u类概念局部组合处理

※10 vv类概念组合处理

※11 vB类概念局部组合处理(如“扫黄打假”,“杀人放火”)

注:后者是vB-vC组合

※12 vC类概念局部组合处理(如“得好卖乖”,德育与智育)

注:德育,即道德教育,形式上是偏正结构,实质上是vC反结构。

※13 Bv类概念局部组合处理(如“人去楼空”,“山高水长”)

※14 Cv类概念局部组合处理(如“德高望重”,“心广体胖”)

注:后者是Cv-Bv组合

※15 vu类概念组合处理

(如“健全体制”、“体制健全”、“公司的体制还不够健全”)

注1:前者是vC结构,后两者实质上都是Cv结构,但vu类概念的Cv结构可扩展为S04 句类。

注2:HNC所定义的各种组合结构也拟另写专文详述。欠债甚多,非虚言也。

※16问话处理

※17否定性陈述局部处理

※18正反性陈述局部处理

※19名词性活跃语素组合处理

※20列举局部处理,包括列举省略处理

※21逻辑组合类概念的联想处理

这个清单大体上是15号难点的大全。大部分单项使用了“局部处理”,表示只考虑局部性组合处理,并不表示它不出现(当然罕见)分离的特殊情况。不带“局部”修饰词的处理表示需要考虑远距离搭配的情况,如英语的“问话处理”,其“?”与相应语词的配合总是远距离的。

单项1到4是最基本的局部组合处理。甚至在语音文本的鏖战时期,都试图在这一局部战线有所突破,读者从《专著》的‘论题23’可以看到这一明显意图。

下面对这个清单的前五项作详细说明,即采用《北京青年报》的写作方式,虽然我曾把这种写作方式贬为“懒婆娘的裹脚布”。但我做不到言简意赅式的通俗,只好依靠“裹脚布”了。清单其余部分的论述将放到本文之外。

※15.1 包含性概念

包含性概念是传统语义学中上位与下位概念的一个特别重要的子集。HNC层次网络的设计本来就具体体现了概念的上下位关系,为什么还要另行设计一类特殊的包含性概念?因为一般高层(上位)概念对低层(下位)概念的“包含”不具有可数、分离而且不交叉的可分性。而这一特性非常宝贵,是常识精华的典型范例之一,所以专门为它另行设计一个表示符号“-”,这个符号应视为一个局部处理的激活因子。

包含性概念和特指包含性概念的一般表示式分别为:

yy- yy-0 yy-0- yy-00 yy-00- ....

fyy-mn fyy-mn-mn ....

表示中的变量yy包括字母与数字,字母与数字的长度不定。变量mn仅包括数字,长度约定为16进制两位。

如果读者想获得包含性概念的感性认识,请参看《专著》‘论题11-2’。这里补充说明三点:第一,数字0的两旁都带符号“-”的概念属于不定性或临时性的包含层次,如行政区域划分里的“专区”,时间划分里的“旬”,战争时期划分的战区,经济建设中划分的各种区域等。第二,包含性概念多数具有一定的总层次,这一点与对比性概念类似,但对总层次未加说明。为什么?因为多数包含性概念总层次的历时性较强而共时性较弱,因此,把这一知识放在相应概念的常识库里比较适当。第三,可数性是包含性的必要条件,而“体面线点”并不符合这一条件,为什么也纳入了包含性概念?HNC符号所定义的“体面线点”是实际(物理)的而不是抽象(数学)的体、面、线、点。面是体的表面,线是表面的相交线,点是相交线的交叉点或有限线段的端点。这样,任何体的面线点就都是可数的了。视觉实际上就是依据这一定义下的“面线点”加上色彩去感知静态物体的。

特指包含性概念一般具有偏正结构,如辽宁、吉林和鞍山的HNC映射符号分别是

辽宁 fpj2*01/fpj2-6

吉林 fpj2*01/fpj2-7

鞍山 fpj2*01/fpj2-6-mn+pwj2*m

符号fpj2*mn代表具体的国家。约定mn按16进制取数,其中fpj2*00打算用来标记联合国,主要国家的表示式如下:

中国 fpj2*01+fwj2*4-1

美国 fpj2*02+fwj2*4-3

俄国 fpj2*03+(fwj2*4-2,fwj2*4-1)

日本 fpj2*04+fwj2*4-2+wj2*8

德国 fpj2*05+fwj2*4-2

英国 fpj2*07+fwj2*4-2+wj2*8

法国 fpj2*08+fwj2*4-2

意大利 fpj2*09+fwj2*4-2

加拿大 fpj2*0a+fwj2*4-3

※15.1.0 包含性概念组合规则

规则1 串行(高低)组合规则

高层+低层(汉语)

低层+高层(西语)

包含性概念的串行(高低)组合,是用高层说明低层,高层是低层的修饰。具体组合方式与语种有关,但每一语种都是有规律的。就汉语来说,包含性概念的高低组合时一定是高层在前,低层在后。西语反之。

对于特指高低层概念,串行组合时其变量yy必须严格相同,否则就是错误的组合。李应潭教授曾提出过“辽宁鞍山”与“辽宁吉林”的难点(指:前者是一个地方,而后者是两个地方的判断),我告诉他,这个难点对于句类分析已不复存在。理由很简单,就是由于引入了包含性概念及其相应表示方式。

规则2 并行组合规则

两包含性概念组合必须具有一定程度的对仗性

两特指包含性概念直接组合必须严格对仗

包含性概念并行组合是对事物的列举,因此,没有一定程度的对仗性是不合逻辑的。“辽宁吉林”属于特指包含性概念的并行组合,在不加组合符号l43的情况下,两者必须严格对仗。所谓严格对仗,指不仅yy相同,而且包含性层次也相同。对相邻两包含性概念是串行还是并行组合的判断,就是依靠对其类别符号和层次符号进行解释。这里的解释是什么意思?主要是对HNC定义的挂靠型概念作整体处理,例如,将pj2理解为国家,将pwj2理解为城市,将wj2*m分别理解为水域(m=0~3)、陆地(m=4~7)、岛屿或半岛(m=8,9)。其次是对符号“-”、“*”及其随后的数字独立处理。

※15.2 特指与泛指概念

特指与泛指是命名(指称)的两方面需要,特指用于命名的个性表达,泛指用于命名的共性表达。命名的复合构成常采用特指与泛指相互组合的方式。特指与泛指这两类概念,不是上下位关系,而是个性与共性的关系。特指本身又分两种表达方式:具体型与指代型,HNC分别用fy和l91m来表示。变量y可取HNC所定义的除l,jl之外的全部基本概念类别符号,常用的有:

fpj2* 特指的国家、省、县。

fpwj2* 特指的城市

fwj2- 特指的地区、地点。

fwj2*k 特指的洲、洋、海、山、河、湖、岛、沙漠、平原等。

fpemn*k 特指的政党、公司、组织、团体、家族

fpmn*k 特指的名人

fpwmn*k 特指的品牌

表示式中的mn取相应基元概念的层次符号,以表示具体的内容。“*”表示挂靠结束,后面的数字“k”(可以多位)表示约定的说明。

西语对上列特指概念一律采用首字母大写的表示方式,一望而知为特指概念,但并不能由此知道特指的内容,因为它往往把内容省略了。汉语则一般采用

特指+泛指

的复合(组合)表示方式,虽然不具有“一望而知”为特指的优点,但实际上不仅指明了特指,还指明了具体内容。应该说中西两种方式各有千秋吧。HNC对特指概念的表示方式吸收了中西两者的优点。

在设计特指概念过程中,曾遇到两个困扰。一是特指的人名,二是特指的事件名称。人名的表示本身就具有复合特征,汉族最为简单,有些民族十分复杂。因此,人名采用f30*m的特殊形式来表示。概念节点表的细心读者可能注意到,对f30*m中m的具体设计,后面特意留下了待定符号“....”,那是为人名表示比较复杂的民族预备的。至于西方人喜爱的宠物专名,HNC的表示比较简单,直接采用fjw62*方式就是了。

特指事件表示的困扰是由于基元概念类别符号的约定省略而引起的。曾经使用过的替换方式是f*vmn,与上列特指概念一样,mn也取相应基元概念的层次符号。这一表示方式是否形成标准?如果没有回应,我就认为大家认可。

特指与泛指概念还有绝对性与相对性之分,西方语言学对此有十分深入的研究,这里不来介绍,因为与当前的理解处理关系不大。但需要指出两点,第一,西语以大写字母开头的特指概念并非都具有绝对性,例如星期一到星期日、一月到十二月的表示。HNC对这些相对性特指概念并不转换成相应的fpj1类特指概念,而转换成一般的对比性概念。第二,HNC对特指概念的表达以激活联想脉络为第一宗旨,因此其HNC符号经常采用以“+”号表示的展开形式。这种形式对于各专业领域的特指概念表达尤为适用。

※15.2.0 特指泛指概念组合规则

规则1 对人的称呼或陈述

特指+泛指(汉语)

泛指+特指(西语)

特指+泛指+特指,如:中华人民共和国主席江泽民

规则2 对物的称呼或陈述

特指+泛指(汉语铁定,英语趋于确定)

规则3 人的特泛指称呼或陈述

特指+泛指(汉语),如:中国人,上海帮,湖北佬..

特指+后缀(西语)

规则4 物的特泛指称呼或陈述

特指+泛指(汉语铁定,英语趋于确定)

规则5 对事件的称呼或陈述

特指+“泛指”(汉语铁定,西语偶用),如:南昌起义

“泛指”+介词+特指(西语)

※15.3 对偶、对比、对仗概念

HNC概念符号体系对上述3类概念给予了特殊关注。在《专著》的第一篇论文(Paper1)中,首先对这3类概念作了充分的阐述。传统语义学提出过同义、反义、近义词的术语。反义基本相当于对偶,近义大体相当于HNC交式关联概念的两种符号表示:HNC映射符号的高层与第一中层的数字序列相同;展开表示式的主项或前几项相同。

换句话说,对偶性概念是对反义概念的扩展,交式关联概念是对近义概念的扩展和形式化(可计算)。

反义只考虑了事物及其特性的正反两方面,而实际上具有正反特性的事物及其特性还具有对立统一方面,不过,自然语言对于这一方面往往没有给出相应的语词,但在概念层面它是客观存在的,这一点在哲学上早已有明确的认识,语义学似乎有点疏忽了。另外,正反及其对立统一只是对偶性的二重表现形式,对偶性还有三重表现形式,例如过程概念节点12kΛ (k=4-7)的“源汇流奇”就具有三重对偶性,“源”与“汇”呈现出正反性对偶,但源汇之间必有“流”的存在,“源”与“汇”的对立统一为“奇”,表现为物理上的“奇异点”。一根磁棒的磁场就具有这一明显特征。关系概念节点43kΛ (k=1-3)的“支持、反对、中立”,43kΛ (k=5-7)的“合作、对抗、妥协”都具有三重对偶特征。通常所说的两面派行为是这些关系概念节点的对立统一表现。

传统语义学中“近义”的概念是比较模糊的,近到何种程度才算近义?没有明确的标准。HNC符号表示在“近”的标准化或量化方面前进了一步。但应该指出:“近”有动态与静态之分、语义与语用之分。HNC符号仅反映了“近”的静态与语义方面,还没有反映“近”的动态与语用方面。因此,还需要进行进一步的探索。动态性涉及基本语境知识、背景知识和情态知识的获得与运用,语用性涉及语言生成,目前设想放在反映射库里给出某种表达。

“近”的静态与语义表达方面也还有待完善,这主要是指HNC语义表示式的展开方式。目前展开符号只采用“+”号一种形式,似乎不够。展开式各表示项的表达方式,也有待作出更简明的约定,特别是对u类概念。

从上面的说明可知,对“近义”的理解不能仅限于语义,所以HNC很少使用这个术语,而采用交式关联这个术语。

HNC对于对偶性和对比性概念约定的符号表示分别是:

对偶性概念 emk

对比性概念 cnk dnk

表示式中的c,d,e是16进制的数字12,13,14,不是字母。变量m预定用于表示对偶性的类型或编号,实际上尚未具体设计,目前虚用变量em或使用省略em的简化形式。对偶性概念k的取值约定为两组:k=0~3;k=4~7。由于各语义网络高层表示的数字串个数都有明确约定,底层表示的数字串又约定仅取16进制数字8-b,所以对属于中层表示的对偶性概念采用简化数字符号不会引起任何混淆。

对偶性概念一般具有正反两方面的意义,HNC约定:

k=1,5表示正面意义

k=2,6表示反面意义

但应该指出,这一约定对于过程、转移、大部分基本概念(除了j8、j51)并不适用。例如“东西,南北,左右”等空间概念(语词),在一般情况下并无正面或反面的意义。但是,在某些特定语境下,“东西,左右”却具有非常强烈的积极与消极意义,HNC预定对诸如此类的对偶性概念的特殊表现通过emk或附加j86k的表示方式给出确定的提示信息。不过,迄今尚未实行。

对比性概念的数字标记c与d表示该概念序列取值(以数字序列k表示)的方式:是从小到大,还是从大到小?

c表示取值从小到大

d表示取值从大到小

例如,行政干部、教授、工程师、中小学教师的级别都是一级最高,似乎古今中外不约而同。而技术工人的级别却是一级最低,八级最高。为表示这一区别,两者的HNC映射符号分别在中层用cnk和dnk表示,n=0表示总级数不定。这样,国家行政干部和一般行政干部的映射符号分别是

pa11d0k,pa01d0k

明清时代的国家官员分七品,每一品又有正从(音zong4)之分,这些官员的映射符号为

(pa11d7kd2k,l15,fpj2*01/(pj01*0-,ga102,pj10d52))+...

表示式采用了语言逻辑组合结构,其中的逻辑连接符l15过去一直简化为l5,可以沿用。第一项表示式中的d2k表示官品的“正从”。

k=1表示正品

k=2表示从品

具体的官名可用展开项表示。上面的表示式不能简化成只取组合结构的第一项,那样背景信息就丧失了。

简化表示约定只用于当代的官员表示,例如总统、皇帝、国王、总理、首相等,分别表示为

pj2/pa10d01 总统制国家的总统

pj2/pa10d01+j742 内阁制国家的总统

pj2/pa11d01 总统制下的总理

pj2/pa11d01+j741 内阁制下的总理

pj2/pa10d01+j742+ub2 君主立宪国家国王

pj2/pa11d01+j741+ub2 君主立宪国家首相

pj2/pa11d01+ub2 非君主立宪国家首相

(pj2,ga102)/pa10d01 国王(当代的)

(pa10d01,l15,ga102/pj2) 国王(历史的)

(pj2-0/pa10d01,l15,ga102/pj2) 帝国下的王国国王(历史的)

各种人物的HNC映射符号都可照此办理,例如封建社会的爵位,可表示成

(pc56d5k,l15,ga002/pj01*1)

这个表示式给出了背景信息。对当代的爵位则采用下面的两种简化表示式

pc56d5k+ub2 pc56d2k+ub2

后者适用于当代常用的“勋爵”一词。

HNC符号体系设计的全局性准则在《专著》里有简明阐述,但局部性准则基本未予说明。上面的示例算是初步的弥补,试图说明关于组合结构的4条局部性准则:

语言逻辑组合结构的后项提供背景信息;

展开式的第一项表示共性,后续的展开项表示个性;

包含性概念可延拓表示式的前者表示共性,后者表示个性;

连接的对偶或对比表示式的前者表示共性,后者表示个性。

下面给出第四条准则的示例。

大学教师的级别一般分为4级:助教-讲师-副教授-教授。但又有助理教授、特级教授、终身教授、博导等等名目。HNC的相应映射符号如下:

pea74c33/pa71c44 教授

pea74c33/pa71c43 副教授

pea74c33/pa71c42 讲师

pea74c33/pa71c41 助教

pea74c33/pa71c43c21 助理教授

pea74c33/pa71c44d40,l15,fpj2*01) 特级教授

pea74c33/pa71c44d20+jz12d01 终身教授

(pea74c33/pa71c44d21,l15,fpj2*01) 博导

读者注意:对比性概念cnk中k的取值约定为1~n,但dnk中k的取值可以是0~n。这里有什么奥妙?另外,cn、dn都可取n=0,这又有什么奥妙?大家思考。下面说明对仗性概念。

如果读者熟悉中国楹联、律诗、骈文的基本规则的话,那就不必对对仗性作什么说明了。但现代中国读者很不熟悉这些中国传统文化的这些基本常识,而我经常把这一基本国情忘记了。

对仗性的基本要求按传统语言术语来说是词性相同,用HNC术语来说,是广义概念类别相同。详细地说,就是要求基本概念、基元概念、语言逻辑概念、基本语言逻辑概念、综合类概念、“语法”概念、基本物概念、挂靠类具体概念各自按子类集团形成对应表述,对抽象概念还要加上五元组相同的要求。这就是对仗性的具体定义。

所谓“子类集团”,在《专著》里都有简要说明,当然集团之间有一定的模糊性,不过那些楹联和古诗高手对“子类集团”概念的清晰度可以说是无懈可击的。我一直强烈呼吁HNC概念节点表要按集团标准排版,因为在我的心目中,集团特性是极为重要的。但节点表一直沿用不管集团特性的“一杆子插到底”排班方式,据说是因为大家习惯并喜爱这种方式,这我就难以理解了。

以上所说,是对仗性的内容要求。汉语的奇妙在于内容与形式的高度统一,这是汉字的奇妙表现之一。形式对仗性是指对仗性表述的字数严格相同。当然,现代汉语已经不那么严格了,但基本上还是遵守的。例如,总不能在满足内容对仗性要求的前提下,在形式上不管单字词、双字词、三四字词的差异而强行对仗,你得设法做到“单、双、三、四”的相应对称。

汉语对仗性表述内容与形式的高度统一是汉语信息处理的一笔宝贵财富。为利用这笔财富,在基本概念中特意设置了节点j714,以便在语词(主要是带有q h搭配标记的语词和l4 l5类语词)的映射符号中,给出对仗性要求-形式上对称的激活信息。

我忍受着极大的“痛苦”写下了上面的大段文字。目的无非是为了对上述的两句话进行诠释,以便读者获得清晰的感受或认识。这两句话是:

对偶性概念是对反义概念的扩展

交式关联概念是对近义概念的扩展和形式化(可计算)

这样类型的话在《专著》里太多了,我不可能对每一这类阐述给出如此详尽的说明。例如,HNC把理解定位于“概念联想脉络的激活、扩展、浓缩、转换与存储”,这一句话的详尽阐述需要写多部著作。但是,联想脉络激活的近程、中程、远程之分已经有足够条件作充分阐述,特别是近程和中程联想脉络的激活,所有局部性难点的阐释都是对近程联想脉络激活的具体说明,大部分全局性难点的阐释,是对中程联想脉络激活的具体说明。我之所写,只是一些要点或其中的一个方面。此类问题的论文式阐述是每一位HNC探索者都可以胜任的,我寄厚望于来者。应该说,我非常幸运的是:

前幸见古人,后欣逢来者,

念高峰之可攀,独傲然而耘作。

这22字小诗,是一种人生追求,也是一种精神境界。作为HNC事业的开拓者,都应该有这种追求和境界。诗中之独,乃独立、独当一面之独,非孤独之独也;傲然之傲,乃坚强执著之傲,非骄傲之傲也。小诗是对唐诗开创者之一陈子昂先生的名篇-‘登幽州台歌’贻笑大方的模仿。陈先生慷慨千古的原作顺录如下

前不见古人,后不见来者,

念天地之悠悠,独怆然而泪下。

本分节可以结束了。最后顺便说明两点。

第一分节所阐述的包含性概念也属于交式关联范畴,也是对近义概念的一种扩展和形式化。读者到此应该明白,为什么HNC很少使用传统语义学中的“近义、反义、上位、下位、语义场”等等术语的原因了。推而广之,在句类表示式的引导下,HNC自然也就很少使用诸如“主谓宾、格、配价、组合关系、聚合关系”之类的术语了。

语义学也有相关词的概念。问题在于概念联想脉络必须严格区分交式、链式、同行三类关联性,相关词这个概念没有注意到这一点。所以前面只提到反义和近义。链式关联是指语义块之间或内部的要素之间的关联性,同行是指抽象概念的五元组关联性或具体概念的x w之间的关联性,在《专著》里都有详细解释,这里就不多说了。

※15.3.0 对偶、对比、对仗概念组合规则

定义 对偶、对比性概念局部组合统称对仗组合

对仗组合首先是指内容对仗

对仗组合在形式上有对称与不对称之分

内容对仗性的要求有高低之分

高对仗性要求对仗组合两侧语词的高层甚至中层的层次符号一致

低对仗性仅要求类别符号一致

总规则 形式对称的对仗组合

其两侧的核心内容和修饰部分都必须满足对仗性要求

形式不对称的对仗组合

一侧的核心内容可能与另一侧的修饰成分对仗

附则 形式不对称的对仗组合可能形成组合歧义

该歧义的消除要依靠远程语境

规则1 汉语对仗性概念单字词可直接组合

组合后的语词默认按体词处理

若有例外,应在字知识库中说明(这是工程艰巨性的典型示例)

规则2 顿号“、”是对仗性组合标记之一

规则3 (lq5 lh5) 搭配概念的反映射语词是对仗性组合标记之二

规则4 语言逻辑概念l43的反映射语词是对仗性组合标记之三

规则5 语言逻辑概念l44的反映射语词多数情况也形成对仗性组合

规则6 两对仗性概念可形成修饰组合

规则1是发现汉语新词的有力武器之一。规则2与规则3具有绝对性,但规则4具有相对性,标记两侧多数情况出现对仗,是否对仗应作现场判断。规则6的使用通常是哲理性论述,如“必然的偶然”。汉语与西语的具体构成方式存在重大差异,需要制定相应的细则。

附则的例子如:“张先生和李小姐的丈夫”不产生歧义,但“张先生和李小姐的朋友”则会产生歧义。

规则1的例子如:俯仰、起止、生死、进退、买卖、显隐、增减、破立、开关、好恶、得失、爱憎、攻防、出入…这些单字动词直接对仗组合后形成名词。其中的“出入”属于半例外,它有两个义项:

体词 jlr002

动词 (v64221,v64222)。

注意:后者的映射符号已将字面意义颠倒过来,与完全例外的“进出”一致,以符合概念层面表示的内在要求。

※15.4 关于5类基本概念短语的补充说明

本小节将采取异乎寻常的写法,先说两大段题外话。第一段话畅谈短语与语义块,第二段话全面回顾HNC思路的形成过程,最后才作补充说明。

●第一段题外话:关于短语与语义块

在词与句子之间到底存在什么中间层次?传统语言学有短语说和词组说,但HNC都未采用,而另行定义了语义块。这个术语是基于构建句类表示式的需要而提出来的,同时也是对语句和句类作整体思考之后的一项结论。一个句子需要多少个短语或词组?用这两个传统术语是无法回答的。后来的“格”与“链”、“配价”与“范畴”等概念前进了一步,但仍然没有深入到句类表示式这个要害,没有完成这个必不可少的从语言空间到概念空间的飞跃。句类表示式需要一些基本表示项,这些表示项需要一个命名,为此而引入一个新术语是很自然的,这个新术语就是语义块,对应的英语是semantic chunk,语义块的大写字母符号K即来于chunk的最后一个字母。从语义块这个新术语,派生出主块、辅块、两可块、块扩、句蜕块、块序、块分离等术语都比较自然,皆简明达意。对这些派生术语,如果把块换成短语,对前面的五个术语还勉强可用,但短语的原来含义已面目全非,需要重新定义了。至于后面两个术语,特别是“块分离”这个术语,是断乎不能用短语来替换的。

由57个基本句类的句类表示式可知,广义对象语义块多数情况为复合构成。HNC对复合语义块构成提出良性与非良性的区分,前者意味着块内各要素有固定排序,后者意味着块内各要素无固定排序。这里应强调说明三点:

第一,这个排序与语种有关,翻译过渡处理6难点之一的语义块构成变换,就是指良性构成语义块排序的调整。

第二,“意味着”一词表示一般如此,但不具有绝对性,语言总存在“调皮现象”。关键在于“一般如此”是概念层面的知识,可以在基本句类知识中加以表达,“调皮现象”是语词层面的个性知识,可以在语词的HNC知识库中加以表达。没有这两个层面的知识表示分工,就不可能走上以知识为基础的自然语言理解处理的康庄大道。没有明确划分语言空间与概念空间的顿悟,没有领会到知识表示的概念层面、语言层面、常识及专业层面三者的分工合作是知识表示最关键的一步,就容易陷入“不见庐山真面目,只缘身在此山中”的困境。《专著》的Paper7曾对此有所阐述,但可能由于种种原因,了解这一要点的读者似乎不多,所以在这里重复一遍。这是一个重要的思路,反过来说就是:如果没有句类表示式和正在探索的远程语境表示框架的宏观引导(两者是HNC五项理论模式的核心),单纯在语言空间从事语言法则或规则的研究,其活动范围是非常有限的,很难摆脱“坐井观天”的狭隘和局限性。

第三,所谓语义块各要素的排序主要是指对象与内容的排序,也叫做对象内容分解。对象以具体概念为主体,内容以抽象概念为主体。内容里可以出现El,这时绝大部分句类出现句蜕块,某些特定句类出现块扩。不仅如此,对象里还可以包含内容,内容里也可以包含对象,关于语言的这一常规现象,在《专著》Paper2中的阐述也许过于抽象化,但要点是清晰的。

由于语义块通常是复合构成,那么,在词与语义块之间就需要引入一个中间层次的表达术语。这个中间层次曾命名为块素,这个术语如果仅仅是语义块要素的简称当然无可非议的。问题出在试图用“块素”这个术语表示“要素及其修饰成分”,这就很不合适了。因为语义块是句类的函数,语义块中的各要素,特别是广义作用句的核心要素(简称核心)密切依赖于句类。但是,各要素的修饰成分一般与句类无关。这样,块素的概念就把与句类有关和无关的东西混杂在一起了。在实际使用过程中还出现过混乱,第四种常规句蜕-块素句蜕的命名就是一例,这里的“块素”专指修饰成分,与块素的本来定义是不一致的。

那么,对词与语义块的中间层次如何表达?建议只保留要素和核心这两个术语,取消块素这个术语,同时引入块饰(语义块要素修饰成分的缩称)的术语。这样,第四种常规句蜕应改名为块饰句蜕。在符号上以小写字母u附加在要素符号(约定为大写字母)之后来表示。其实在语料标注中已经这么做了,如:

QEu Equ Eu EHu

推而广之,就有

XBu YBu YCu XBCBu X2Bu…

总之,一切语义块要素都可以带修饰成分,这是基本语言常识。要素需要一个通用符号,将用最后一个希腊大写字母Ω来表示,这样,要素的修饰成分就可以用Ω u来表示。过去只有一般语义块的通用符号K,广义对象语义块的通用符号JK,特征语义块的通用符号EK,现在加上一个语义块要素通用符号Ω,才算是齐全了。

有人会问:块饰不就是定语吗?有什么必要另搞一个这么别扭的术语呢?问得好。我的回答是:传统语法学有一套自身的理论体系,主谓宾定状补是这一理论体系基本构架的基本构件。这个基本构架及其基本构件是纯形式的。这个纯字是关键,不纯就会带来许多矛盾,这不仅是理论的预期,也是实践的启示。形而上学就需要彻底地形而上化,数学的线与面就是彻底的形而上,不能与物理的或实际的线与面相混同。传统语法学是语言的初等数学,乔姆斯基及其后的现代语法学大体相当于语言的高等数学,HNC是语言的物理学。数学有变量的一阶微商和二阶微商的术语,物理学有速度和加速度的术语,后者分别是是位移变量的一阶和二阶微商。如果一位数学家问一位物理学家:你们为什么要另行引入速度和加速度的物理学术语,而不采用我们的数学术语-微商呢?你认为那位物理学家有必要回答么!这样一对比,是否皆大欢喜?希望如此。其实,这里重要的不是术语本身,而是术语内涵的具体表示式,上列Ω u的各种具体表示式才是实质性的前进。

那么,对Ω u+Ω的整体是否需要一个命名呢?肯定需要,而短语这个术语是合适的。《专著》的‘论题11’实际上表达了这一意向。这样,HNC的短语与传统的短语就有所不同,不同在哪里?留作习题吧。

Ω u本身的构成又有简单与复杂之分。最简单的Ω u是u类概念的单个语词,这时不存在构成问题,西语在这一点上确实远比汉语规范。由多个而且概念类别不同的语词组成的Ω u就出现构成问题了。Ω u的复杂构成可能成为语义块复杂构成中最复杂的一个环节,那就是1.7节所阐述的7-5、7-6、7-7号难点。由此,可以自然转向第二段题外话了。

●第二段题外话:对HNC思路形成过程的回顾

这个回顾将从句蜕和块扩谈起。

在1.9节中曾经指出:句蜕和块扩是HNC理论体系思考的切入点,不过当时叫做内容基元的扩展性与融合性而已。

在北京图书馆苦读一年(1989)之后的那段日子里,我对西方语言学和现代汉语语法学的总体思路满腹怀疑,语言研究怎能不扣住语言理解这根主线呢?而中国的传统语言学是始终扣住这根主线的。于是,一股“逆流”心态(这是我的性格本征,如果我早生50年,肯定是辛亥革命中的激进派,然后又变成中国传统文化的坚定维护派,像我的祖辈一样)高度膨胀,其代表性标志是:对“狗屁不通”的谑称(这是先叔祖父对某语法名著的谑称,幼时先父叫我到另一书房取该名著时,必使用这一谑称)从幼时的不满转变成觉得“谑之深刻”。

于是,“音义两极”说,“八大词类、六种句子成分”说,“双宾语”说,“中心动词”说,“六种组合结构”说,“汉语属于SVO语言”说,“字本位、词本位、词组本位、句本位”等说,都成了疑问。

于是,“汉语处理的难度远大于西语”“…动词满天飞的可怕景象…”“宾语复杂到了可以单独成句的程度,这种句法分析,从逻辑和实用的角度检验,都会碰到困难…”之类的表述,都觉得不是严肃的科学论述。

对上述各“说”的“逆流”心态反应是:汉语不是拼音语言,怎么还照搬音义两极的概念?将词类与句子成分挂接,是句子常理分析(且不谈理解,但也不限于句法分析)的要点或本质么?既有双宾语,为什么不能有双主语、双谓语呢?双宾语的本质又是什么?一个“双”字,一个简单的直接、间接之分,岂不是明摆着地回避问题的实质么?稍微懂得一点英语的人都明白,英语那个形式上的中心动词常常不是动词的真正中心,干吗那么羡慕人家有个形式上的中心动词呢?汉语字到词的组合,词与词的组合本质上是语义的组合或语用的需要,不探究这一组合的本质,仅满足于形式上的结构说明、特别是像“后补”那样的说明,其探索的勇气和深度岂不是连“金木水火土”的朴素物质论都不如么?汉语S、V、O之可灵活排序,明如白纸黑字,为什么还要照搬西方语言学的标准,向那个印欧语系SVO标准凑近乎呢?本位之论,你了解起源么?你可知道,所有自然科学领域都无本位之说,而哲学之外的人文科学领域也基本不使用这一概念么?你可曾想过,语言之本是语言空间之外必有一个共同的概念联想脉络空间么?这才是“本”,没有这个共同基础,世界上5千多种语言空间怎能相互交际呢?

“宾语复杂到了可以单独成句的程度”是极为正常并常见的语言现象,岂只宾语,主语定语状语同样都可以“复杂到了可以单独成句的程度”。这些正常而常见的语言现象在某些语法学家看来反而是不正常的,还谈什么“逻辑和实用的角度检验”,真不明白逻辑何所据、实用何所依?你对“常见”视而不见,实用从何谈起?这些语法学家往往热衷于“比喻的和夸张的,乡土的和诗歌的,儿童的和怪诞的例句”(《专著》p193),其实目的不在探索语言法则,而在于发表论文而已。

上面说到,主语宾语定语状语都可以“复杂到可以单独成句的程度”,并指出这是极为正常并常见的语言现象。说它常见,是一个简单的统计问题,也用不着大规模真实语料,就现代汉语书面语的宾语来说,在50%左右吧。说它正常,则是非常一个严肃的论题。当然,这里的“正常”说,确实是以它“常见”性为开端。黑格尔先生说过[hg1]:

因为如果以一个当前直接的东西作为开端,就是提出一个假定,或者毋宁说,哲学的开端就是一个假定。

正如黑格尔先生所说,HNC探索的开端就是一个假定。不过,具体的假定是三个,我在第一届HNC发展战略研讨会第一次会议上的发言,谈到这三个具体假定。后来在许嘉璐先生视察我所时的汇报发言中改为三个公理,现引述如下:

※公理1 存在众多的自然语言空间和唯一的概念联想脉络空间

存在两类空间的多种相互映射形式

※公理2 自然语言处理=建立这两类空间相互映射的“算法”

自然语言理解=从语言空间向概念联想脉络空间的映射

=概念联想脉络的激活、扩展、浓缩、转换与存储

语句理解=确定该语句的句类表示式(句类表示式对号入座)

=句类分析

※公理3 语句理解知识=句类知识+HNC符号知识

+语义块之间的预期知识

+语义块构成知识

+远程语境知识

为了对比,我概括了传统理解观的要点(上述公理是HNC的理解观)

※1 语言理解的必要充分知识=语法知识+语义知识+语用知识

+大规模真实语料的统计及范例知识

+情景知识

+海量常识

+专业性知识

※2 语句理解处理=句法分析+语义分析+逻辑分析

并指出:传统理解观的根本弱点在于:缺乏知识集成的总体思路;缺乏划分语言空间和概念联想脉络空间的明确认识;缺乏理解处理的阶段论和对理解本身的本质思考。

上面引述的话,本来不应该由我自己来陈述的,它属于真正读懂了《专著》的评述者特有的“专利”。但形势使然,乃不得已而为之。

无庸讳言,《专著》本身有严重的不足。它是一本文集,而且除首篇外,都是HNC探索过程中内部使用的文献,在写作的时候根本没有考虑一般读者难以适应的一面。在《专著》出版时,曾打算写一篇由浅入深的、系统的引导性说明,然而由于时间紧迫而我又时在病中,不得已而告缺。许多极为重要的概念和论点,满足于阐述的精练,过于强调“不愤不启,不悱不发”的学习方式[lx],没有辅以读者易于明白的语言,举例太少;对于数以百计新引进的术语和约定符号,说明的通俗性不够,有些甚至没有给出明确的定义;对于HNC探索前期和后期的不同表达或定义方式出于一种特殊考虑未作统一调整或说明。这些缺陷的综合,不仅要求读者“惯于作抽象的思维,善于抓住纯粹的思想,轻灵运动于纯粹思想之中”,而且要求读者具有极大的耐心。

黑格尔先生曾针对哲学的难懂[hg2],说过这样的话:

他们的困难,一部分由于他们不能够,实即不惯于作抽象的思维,亦即不能够或不惯于紧抓住纯粹的思想,并运动于纯粹思想之中。

上一段论述中引号中的话即来于黑格尔先生的这一高见。《专著》着重于对各种语言空间所映射的共同概念空间及其特性的阐述,希望引导读者放松一点仅在语言空间思考语言现象的传统习惯,建立一些从概念空间俯视语言空间的视野。如果事与愿违,那只能寄望于来者的弥补了。

自然语言空间所映射的共同语言概念空间只是整个概念空间的一部分,它远不能包括现代科学所大大扩展的并将继续扩展的全方位概念空间。HNC对于这个语言概念空间的阐述,是以作用效应链和它派生出来的主体基元概念及其相应的句类表示式为基础的。建立这个基础之上的“上层建筑”十分庞大,包括下列几个方面:

◎1关于概念基元体系的表达,需要思考以下的问题:

概念基元有限么?肯定,有限的汉字是最有力的证明。

能否借用语义原语的概念?不能。

能否直接叫做概念联想脉络基元?不能。

词类概念的参考价值如何?微。

是否需要运用本体论和方法论的哲学概念?需要。

基于上述前三点思考,HNC采用了“概念基元”的术语,但概念基元体系的表达仍借用“语义网络”的术语;基于第四点思考,HNC引入了五元组的概念;基于第五点思考,HNC将语义网络分成“本体”型和“方法”型两大类。这里只叙述问题和结论,不作解释,以下类此。

本体型:基元概念(含主体基元概念和扩展基元概念)

-服务于基本句类体系的设计

基本概念 -服务于状态的表达

-服务于语义块内部构成的Ω或Ωu+Ω分析

语言逻辑概念 -服务于语义块的整体辨识

-服务于语义块内部构成的分析

-服务于句间信息的提示和表达

方法型:基本逻辑概念 -服务于基本判断句的辨认

-服务于特征语义块的情态(势态)辨认

综合概念 -服务于辅块的辨认

-服务于汉语句蜕块包装部分的辨认

-服务于汉语逻辑组合结构语词的辨认

“语法”概念 -服务于语言表达方式的辨认(包括修辞)

-服务于特指语词的辨认

-服务于语言习惯搭配的辨认

基本物 -服务于宇宙空间的描述

-服务于生命生存条件的描述

-服务于生命系统及其基本结构的描述

专用挂靠概念 -服务于人类生存空间(地球与社会)基本状况的描述

◎2关于概念组合结构的表达,需要思考以下的问题:

概念基元相互组合的方式可以照搬传统语法学的有关术语么?不能。

概念基元的相互组合等同于语词之间的语义组合么?不等同。

HNC论定:需要引入作用型、效应型、语言逻辑型三种新的组合结构;需要将原来的动宾结构区分为vB vC两种结构;需要将原来主谓结构区分为Bv Cv两种结构;这两类区分也统称对象内容分解。

在汉语“积字成句”的过程中,上列7种组合结构,特别是前5种结构起着特殊的作用,所谓汉语的“意合”,奥妙即在于此。

◎3关于词与句子之间存在一个什么中间层次的思考

HNC论定:需要引入一个新概念来表述这一中间层次,语义块这个术语比较合适(参阅前文)。对此,学界的八旗子弟们有许多议论,让他们继续混淆视听吧,这无损于HNC的前进。

HNC捅破的窗户纸是:用语义块构造句类表示式。

这确实只是一层窗户纸,这层窗户纸的具体名称叫句类表示式。于是八旗子弟们很不甘心,可惜八旗的祖辈王爷们就是差了这么一点火候。

◎4关于语句句类表示式的思考

无限和不确定的自然语言的语句竟然存在有限的基本句类表示式,这太不可思议了。然而这毕竟是语言的客观存在。

也许第一个真实看清这一客观存在的《专著》读者是已故的萧友芙教授,因为她按照HNC句类表示式的基本思路主动标注了各种类型的现代汉语语料,不曾发现一个例外。所以她才对HNC理论那么信任和专注,从而迸发出“朝研颠谜,暮究颠谜”(见我对萧老师的挽联)的激情。

句类表示式的物理基础是基本句类知识的客观存在。句类知识的一部分,传统语言学也曾有所阐述,然而始终处于“只见树木、不见森林”的零碎状态,没有形成系统。。有识之士也曾不断发出过要进行系统化努力的呼吁,指导性的建议很多。但自然语言理解处理当前迫切需要的,是行动的巨人,而不仅是言语的巨人。

句类表示式的探索是这一系统化努力的一部分,其基本目标之一在于提供一个从概念空间俯瞰语言空间的视野。

在这个视野里,主语义块、辅语义块与两可语义块的分野十分清晰。

八旗子弟讥曰,这不就是必选格与可选格的偷梁换柱么?

在这个视野里,主语义块中特征语义块与广义对象语义块的分野十分清晰。

八旗子弟讥曰,这不就是谓语与主宾语的翻版么?

在这个视野里,广义作用句与广义效应句的画面像山区与平原之别。

有人说,这是玩弄辞藻。

在这个视野里,先验块扩和先验句蜕的语言现象如同盛开的鲜花。

有人说,荒唐!什么先验!这是唯心论的破铜烂铁嘛。

在这个视野里,广义对象语义块的良性与非良性构成之分像清纯秀丽的少年与老谋深算的政客。

有人说,这是不懂语言学的门外汉胡思乱想的典型。

在这个视野里,广义对象语义块存在三种基元,其中C基元的特殊二重性蕴涵着最宝贵的激活信息。

有人说,这是耸人听闻的夸大其词。

在这个视野里,以语义块感知和句类假设为切入点实行句类分析三部曲的操作,乃语句理解处理的天经地义。

有人说,拿出真东西来大家见识见识。

在这个视野里,句类转换、主辅语义块变换、语义块分离三大语言现象才从后台走到了前台,既生动活泼,又具有简明的形式化表达方式。

在这个视野里,语句格式丰富多彩的表现一览无遗。

在这个视野里,混合句类和复合句类精确数量的计算(前者理论值为3192,后者略多于1千万)易如反掌。

……

于是,讥者默然。

但讥者是否默然只是小事一桩,重要的是:HNC必须从理论和工程两方面无懈可击地进一步证明上述俯瞰景象的客观存在!

但要记住:这样的证明,永远是血与汗的结晶与光芒!但仅仅是血与汗并不能保证放射出光芒,它还需要把勇士的浪漫与智者的深邃结合起来,因此,满脑子祖宗业绩的八旗子弟们是与此无缘的。

还应该指出:上述种种俯瞰景象并非一下子就呈现在探索者的眼前,需要探索者善于使用HNC所提供的语言“望远镜”与“显微镜”,并训练目力。春秋时著名射手养由基的百步穿杨神功,据说得力于他对目力的特殊训练方式:对着一小片树叶,由近而远静心注视,直至百步之外,仍能像近距离那样,看清那片小树叶。标注HNCⅠ型语料,就是HNC探索者所必需的养由基式目力训练。没有人可以例外,包括我自己。

当然,目力训练只是做学问基本功之一,更重要的是实践康德先生所提倡的理性法官式的思考。这种思考方式的关键在于不满足于知其然,更要追求洞知其所以然,也就是理论思考的透彻性。汉语的“把”字句,有多少语法学者曾经为探知“其然”而辛勤耕耘,写了那么多论文,成绩斐然。但正如陆俭明先生所指出的,这项局部性研究还没有走到尽头[lj],为什么?在我看来,其主观原因就是没有在探求“所以然”方面进行必要的努力,而客观原因是由于没有句类表示式的指导。

但是,还应该强调指出,理性法官式的思考不仅需要理论上的透彻性,也需要工程上的规定性。两者巧妙结合的水平,是考核一位“理性法官”是否高明的唯一标准。

HNC的探索历程充满了这一考核过程的宝贵记录,既有成功,也有失败。从启示的价值来看,失败的记录往往更为宝贵,所以《专著》特意予以保留。其中最有代表性的失败记录有:

对综合类概念的反复设置失当

对语义结构方程的过度依赖

关于对偶性概念默认特征阐释的片面性

关于对比性概念默认值佯谬处置的“不拘小节”失误

关于块扩与句蜕相互转换的错误阐述

上列失败记录的前4项将在第四章说明,这里只说明第五项。

句蜕和块扩是最常见的复杂语言现象,尤其是句蜕。如果一个自然语言处理系统不能处理这两种语言现象,那就免谈“智能”二字,这当然只是我个人的看法。

对于块扩和句蜕的讨论,安排在‘论题’系列中的两篇:

‘论题27:论块扩处理’

‘论题28:论句蜕处理’

两文皆未入《专著》,但都在因特网上公布了。在‘论题27’里提出:

块扩本质上属于句类知识,…这就是说,某些句类的JK2或JK3具有潜在的甚至是必然的块扩特征,这些句类又往往与特定的概念节点相联系。这些概念层面的知识,是最宝贵的知识,也是计算机不难掌握的知识。如果对具有块扩现象的语句能够按照块扩的要求进行相应的处理,那就是说,对这一语言现象,计算机实现了对大脑语言感知过程的模拟。HNC就是这样把语言感知的模拟分解为一系列的计算机操作过程。块扩是这样,句蜕、句类转换、语义块感知、句类假设检验、单音词感知等等都是如此。

在‘论题28’里提出:

如果说块扩基本上是语义块物理表示式的显式特征,那么,可以说句蜕基本上是语义块表示式的隐式特征。对块扩,可以从概念层面和词汇层面获得足够的信息,但句蜕不能。因此,句蜕处理似乎要比块扩处理困难得多。然而,这只是一个假象,实际情况并非如此,…

块扩、句蜕和复合句类都面临着一个共同的问题,就是在一个音串内出现了两个E团块,…这里首先应该回答的一个基本问题是,软件如何在这三者之间进行选择?…

上述“三选一”的突破口在哪里?在块扩,因为块扩具有最完备的信息。…

在块扩现象不难先行确定的前提下,上述“三选一”就简化成了“二选一”问题,即句蜕与复合的辨认。句蜕有两种基本形式,一是句蜕块表现为一个完整的句子,这种句蜕形式在西语用关系代词加以标志,比较容易辨认;二是取一个句子的某一块素或某一说明项作为句蜕块的中心,句子的其他部分变成句蜕块的说明成分,两者之间加“的”字予以标志。这种句蜕块汉语比西语容易辨认,…

汉语对第一类句蜕经常加以包装,这就同西语的方式很接近了。

略有麻烦的是无包装的汉语句蜕块。

两文的根本的缺陷何在?在于理论透彻性与工程规定性的结合不够明朗,好象一位不高明的理性法官在犹疑不决。“块扩本质上属于句类知识”,“块扩具有最完备的信息”,“块扩现象不难先行确定”,对这些重要的论点都没有给出具体的工程规定,但显然包含着可以给出这一规定的明确暗示。读者有权利发问,作者到底是已经心中有数,还是心中仍有疑虑?答案是两者兼有,一方面对先验块扩句类已经内定了一个清单,但基于“不愤不启,不悱不发”的信念而未明写,另一方面对于第一类句蜕存有两可(句蜕与块扩两可)的疑虑。对于这一类疑虑,我历来的做法是:继续思考,以待顿悟。在这一等待过程中,我犯了一个不小的错误,就是提出了块扩与句蜕可以相互转换的论点,这个论点有害无益,这里正式宣告撤销。

那么,这一等待中的顿悟是在什么情况出现的呢?说起来很有趣,是一只松鼠诱发的。那只可爱的松鼠是我在香山遇到的(那是1998年冬天,我病后身体最虚弱的日子,徐老师陪同我去香山休养),它长时间静静地观察着静默中的我和我的手杖,这简直不可思议,天性好动的松鼠竟然也有沉静的表现。我从这一不可思议中突然想到:一些过于谨慎又不善于把握全局的人,看到松鼠的这一偶然行为,就不敢作出松鼠天性好动的结论了。真是一念之差,就进不到大彻大悟的境界了。

赋予某些句类以天然(先验)块扩的特性是早已定下的命题,这个命题就如同“松鼠好动,肥猪贪睡”之类的常识性命题一样无懈可击。松鼠的偶然静伏,肥猪的偶然狂奔,丝毫不影响该常识命题的正确性。同理,怎能让词汇层面的例外干扰句类层面的固有特征呢?对词汇层面的例外在语词知识表示中加以注明就是了。这个思路早已形成,但不够透彻和坚定,是那只可爱的松鼠把这一思路推进到透彻化和坚定化的境界了。

少数句类具有天然块扩特性,多数句类具有天然句蜕特性,这是基本句类知识中最耀眼的亮点,不要再发生“一叶蔽目”的失误了,谢谢你,松鼠。HNC第一阶段理论探索的最后一次顿悟,就是这样在冬日的斜照下,在那个静悄悄的香山草地上萌生的。

上面说到了引文的根本缺陷,现在顺便说一下引文中的用语失误或失当,这包括:“两个E团块”中的“两”;“某一块素或某一说明项”中的“块素”与“说明项”。《专著》中“两”多数情况是“两个及两个以上”的省略,对这一约定性省略曾在Paper2中给出说明,这里的“两”属于省略,但实际使用时也包括非省略情况。这里的“块素”实际上是要素,属于术语的滥用。至于“说明项”,就是现在定义的块饰Ω u了。

这一大段题外话,可以结束了,其中的有些话本来我是打算到80岁以后才写的,但近来背部不断出现的冰凉感使我改变了原定的想法。

最后补充一点,HNC提出了数以百计的专用术语,其中的一些术语需要正名。但正名之事非同小可,彻底清理要花费不少时间,近期确实忙不过来,只能打一些“遭遇战”。上面说到了废除术语“块素”,增设术语“块饰”。这里顺便宣告另一对“废增”,废除1.7节引入的术语“变形句蜕”,代之以术语“非常规句蜕”。

下面回到本小节的主题:基本概念短语的补充说明。

前文提到,HNC引入基本概念的根本目标之一是“服务于语义块内部构成的Ω或Ω u+Ω分析”,基本概念短语的提出,是实现这一根本目标的具体措施之一。所谓Ω u+Ω分析,属于狭义的语义块构成分析,即不出现句蜕或块扩情况的语义块构成分析。不言而喻,广义语义块构成分析是指遇到句蜕或块扩的情况,以前也叫做全局性句类检验,这时,句类检验与语义块构成分析合而为一,需要句类分析三部曲的局部重复,句类分析演奏的成功与否首先决定于乐队指挥的水平。但是,在Ω u +Ω分析情况,句类分析三部曲第三部演奏的成功与否,主要决定于演员的功力,指挥的作用是第二位的。

以句类知识与要素预期知识为基本依托的句类分析主体软件模块起着乐队指挥的作用,但不能替代演员的功力,这是显而易见的道理。所谓演员的功力指的是以体词知识为基本依托的局部处理软件模块,本节前面列举的15号难点清单(共21项)只是这些局部处理模块的一部分。由此可见,狭义语义块构成分析,即Ω u +Ω分析,是一项具有相当规模的工程。所以,对句类分析三部曲,我们从来没有抱着一举完善的期望,因为它首先受到Ω u +Ω分析规模的制约。

但规模本身并不可怕,可怕的是对规模的总体和细节实则昏昏而又自以为昭昭,八旗子弟们就属于这种情况。但在句类分析的框架里,Ω u +Ω分析的总体和细节都是已然昭昭或者不难予以昭昭的。

基本概念短语基本属于已然昭昭的类型,为什么要加“基本”二字呢?因为已然昭昭的标准是像15.1.-15.3.小节那样给出具体的规则。而‘论题11’(见《专著》)的论述离这一要求还略差一步,但这一步是不应该由我这位老人来承担的。该论述写于三年前,某些HNC符号的约定后来有所变动,这属于前面提到的正名工作,将在另文里加以说明。

……