一、句类分析难点18

1.18 双字新词难点(18号难点,标记:$ $)

从本节开始讨论的3种难点是不是汉语特有的难点呢?这个看来容易回答问题实际上并不容易回答。

对于汉语的两个连用汉字,如果你这样提出问题:这两个汉字是构成一个复合词?还两个单字词的复合?语言学家认为提出这样的问题是理所当然的。但是,对于英语的两个连用words,语言学家并不提出类似的问题。为什么?表面理由是汉语的字不一定是词,而英语的word一定是词。然而,如果你认真思考,会发现这个这个表面理由并不令人信服。

从语言层面看,两个汉字连用和两个words连用是有区别的。但从概念层面看,汉字连用与word连用是没有区别的。汉语的“第十二天”和英语的twelfth day的形式结构差别很大,但映射到概念空间都是jz00c0c/wj10-00,这一映射所体现的理解操作过程只关注连接单元的先后顺序以及连接后的概念(一般是复合概念)是什么,而并不关心连接后的东西是不是一个符合语言学定义的词或词组。这就是说,语言层面关心的是连用的形式效应,而概念层面关心的是连用的内容效应,形式效应会有所不同,而内容效应是一致的。进一步说,“第十二”是3个词,还是1个词,语言学认为应给出明确回答,并制订相应的分词规范,但从概念层面看,3与1之分是多此一举。再进一步说,分词规范的观点只是现代汉语语法学的观点,上述黄侃命题是不支持这一观点,而支持概念层面观点的。

英语中大量存在的“系表”、“系表+介词”、“不及物动词+介词”的组合结构,是可以整体看作词或复合词的,这些结构里的“系”与“介”实际上起着语素的作用。如果对这类结构另外给出一种标记符号,将大大有利于自然语言处理和不同语种之间的交流。为什么人家从来不动这个脑子,而我们却要大动干戈,热衷于什么分词规范呢?语素说起源于西方,但从“系、表、介”概念的延续使用来看,人家对语素、词与词组的划分是采取务实态度的,实际上并不严格区分morpheme和word。从概念层面看,这个区分是一个容易“惹是生非”的多余环节。因为,“意义单位”“独立运用”“最小”这3个概念在概念层面是没有多少价值的。概念层面需要的核心概念是概念基元和复合概念基元的区分,是概念基元的层次性、网络性与五元组特性,是概念的组合结构。概念层面无所谓语素与词的区分,也无所谓约定俗成。“老师”们在这一点上倒是有点与黄侃先生“心有灵犀一点通”的感觉,而有些“学生”却不明白这个道理,对语素与词的界限太执着了,以至于不敢承认汉字就是词。

当然,在语言层面,语素和词的概念不能说毫无意义,但从概念层面俯瞰这两个概念,其价值远比不上从现代人体解剖学看中医的五脏六腑说。五脏六腑之说是有意义的,现代的顶尖中医专家对它的理解也许远远比不上老一辈的中医专家,但该学说并不能成为医学科学体系的基础,它究竟属于朴素科学阶段的探索成果。语素和词之说也是如此,也带有朴素科学的特征,也不能作为构造语言科学体系的基础。不同语言的语素选定标准有很大差异,任何自然语言都没有完备的语素表示体系,也不可能有这样的体系,词和词组的选定有很大的约定俗成性。此语种的语素可以是另一语种的词,此语种的词可以是另一语种的词组,但这种差异映射到概念层面就自然消失了。不同语言所映射的概念具有必然的对应性与同一性,但语素、词与词组却不具有这种必然性。HNC理论为什么要“另起炉灶”,以语言空间与概念空间的相互映射为自然语言处理的基础,彻底抛弃从句法分析起步,重新设计句类分析之路呢?奥妙就在这里。

上面几段话属于HNC的老生常谈,但在讨论所谓双字新词难点之前,有必要作这一番回顾,因为,这里所说的词,与传统定义有很大区别。

本节所说的难点,指那些未在词库中登录、其优先组合存在辨认困难的相邻两字,简单地说是双字新词的辨认难点。这个简称是一个打马虎眼的折中,因为汉语的词与词组不可能有严格的界限。本来叫做“双字组”是合适的,按照黄侃先生的思路,叫做“双字积”更科学。当然本文绝不正式作此建议,而服从约定俗成原则,把它叫做双字词。但心里应该明白,本文所说的“词”实质上是汉字优先组合的意思,是“积”的意思,是概念空间的基本语义单位。从最后的意义来说,可以认为它与语法学定义的词毫不相干,因为它不需要与语素的概念相比较而存在。

现代汉语主要运用双字词,一个合适的、有别于《现汉》收词标准的双字词库是快速有效辨认双字词的重要基础,但仅仅依靠这个基础是不够的,软件还必须具有自行辨认双字新词的处理能力,下面的小段语料可以突出表明这一需要。语料标注除了沿用已引入的语义块标记、各类句蜕、分词模糊

|| ( ) (( )) < > << >> / … …

语义块 原型 包装 要素 块饰 句蜕或块扩 分词

的符号之外,还定义了下列符号:

空格 无其他标记时的语义单位(词)标记

[ ] 《现汉》不收录词

{ } Ek新词,不区分Eg和El

$ $ 非Ek新词,不区分双字词和多字词

对每一语句,标出段落-句群-句子编号,这里把句号“。”定义为句群符号,句子编号有两组数字,分别表示句群内编号和句子总数。随后给出该句的句类代码,并依次标出语义单位(词)总数、单字词数、“双”字词数、多字词数,数字之间用- 号隔开,| 号后,依次给出"双"字新词、多字新词、《现汉》不收录词的数量,中间也用- 号隔开。语料摘自冯牧先生的散文"沿着澜沧江的激流--西双版纳的漫记之一--"。

我们||决定$坐船$到$橄榄坝$去/。

(1.1.1-01)DJ 06-2-3-1|1-1-0

从$允景洪$到$橄榄坝$||虽然 并不 远,

(1.2.1-02) S041J 07-3-2-2|0-2-0

水路 旱路||都 只有||$八九十里$路,

(1.2.2-03) S0J 06-2-3-1|0-1-0

但 我们||却 [毫不]犹豫地 选择了\u20174从 水路 走/。

(1.2.3-04)DJ 09-4-5-0|0-0-1

这||$不仅仅${是因为}||($顺流而下$||可以{到得}||$更快些$),

(1.3.1-05) P22J 07-1-2-4|1-4-0

而且,我||觉得,

(1.3.2-06)!32DJ 03-1-2-0

能够||$沿着$澜沧江 的 激流 和(([两岸]$奇峰$$连云$、绿荫$映波$)

的 热带 景色),做[一次]赏心悦目 的 航行,

(06)!32DJ+fK 17-4-12-1|4-0-1

(1.3.3-07)!3111T2b3J 19-5-12-2|4-0-2

这 本身||对 人||{便是}||[一个]$最大$的$魅惑$。

(1.3.4-08) jDJ 09-4-5-0|3-0-0

我||曾经{有过}||(($许多次$在[江河]上 旅行 的 经历))。

(2.1.1-09) S0J 10-4-5-1|1-1-1

我||$私下里$[得出]了||[一个]也许 是 有些 [偏颇]的 结论/:

(2.2.1-10) Y10J 10-3-6-1|1-1-1

只有((当 你||在[江河]上||航行,通过$水光$$山色$||{来观察}||

那 随时 变化 的 景色||)的 时候),

(2.2.2-11) (!11T2b3J+!31T1J)*1 18-7-11-0|3-0-1

…才能够…真正{领略得到}||我们 祖国 锦绣河山 的 全部 的

丰饶 和 美丽。

(2.2.3-12) !31D01J 13-4-8-1|1-0-0

我||曾经 ||在 气象万千 的 长江 上||航行过,

(2.3.1-13) !11T2b3J 08-4-3-1

为 那$烟波$浩瀚、壮丽 森严 的$奇景$||而 流连 咏叹,

(2.3.2-14) !3111X20J 11-4-7-0|2-0-0

$胸中$||充满了||壮阔 和 自豪 的 情感。

(2.3.3-15) S0J 07-2-5-0

我||曾经||在 珠江 上||航行过,

(2.4.1-16) !11T2b3J 06-3-3-0

$沿着$$峰连$$壁立$的[两岸]||{溯流而上},

(2.4.2-17)!3111T2b3J 06-1-4-1|3-1-1

{饱尝过}<那 充满 热带 情调 的$浓丽$强烈 的 南国 风光>。

(2.4.3-18) YS0*21J 11-3-8-0|2-0-0

我||也 曾||在 祖国 边疆 的 许多$不知名$的$小河$中||航行过,

(2.5.1-19) !11T2b3J 13-7-5-1|1-1-0

{坐在}||精巧 轻盈 的$独木舟$中,

(2.5.2-20) !31S0J 06-2-3-1|1-1

在 茂密 的$花丛$和$藤蔓$间||{逐波而行},

(2.5.3-21)!3111T2b3J 08-4-3-1|2-1-0

$林碧$$峰青$,

(2.5.4-22) S041J+S041J 02-0-2-0

触目||{成趣},

(2.5.5-23) !30P21J 02-0-2-0|1-0-0

极目$所至$,都是||[一片]蓬勃 的 生气,

(2.5.6-24) jDj 07-1-6-0|1-0-1

$胸中$||不禁 激荡着||((对于 祖国 边疆 的 无限$挚爱$)$之情$)。

(2.5.7-25) S03J 10-1-9-0|3-0-0

但是,我||还 没有 探访过||我们 祖国$最伟大$的 河流[之一]

--澜沧江。

(3.1.1-26) T19J 12-3-7-2|0-1-1

我||曾经$许多次地$横渡过||澜沧江。

(4.1.1-27) T2b3J 05-1-2-2|0-1-0

((当<{载着}汽车 的 渡船>||在[钢缆]牵引 下||

$缓缓${横过}$江心$)时),

(4.2.1-28) ((T2b3J)) 13-5-8-0|5-0-1

巨大 的 船只||在 激流 冲击 下||不停地 颤抖着,

(4.2.2-29) SJ 09-3-5-1

使||人||立时{感受到了}||澜沧江 的$不可抗拒$的 庞大 的 威力。

(4.2.3-30) !31XYJ 11-5-4-2|1-1-0

{远眺}||$江面$,

(4.3.1-31) !31T1J 02-0-2-0

似乎 是||$波平浪静$的,

(4.3.2-32) !31jDJ 04-2-1-1|0-1-0

但 平静 的$水面下$||却 隐藏着||胸怀 叵测 的 激流。

(4.3.3-33) Y30S02*20J 11-5-4-1|0-1-0

在 夕阳 的 照射 下,$江心$||{泛发}着||$钢蓝色$的 光亮,

(4.4.1-34) Y30J 10-4-5-1|2-1-0

间或 从$水底$||{涌出}||$一两个${急旋}着的 涡流;

(4.4.2-35) S02J 08-2-5-1|2-1-0

<{浮在}$江上$的$朽树$$断枝$>,象 箭$似地$||被{冲到}||远方 去。

(4.4.3-36) !31123XT2b*322J 12-5-7-0|6-0-0

这[一片]雄伟 景象||使||人||不禁 感到:

(4.5.1-37) !33XYJ 08-3-5-0|0-0-1

$澜沧江呵,你 真是$一条$矫健 剽悍、深邃[莫测]的$巨龙$。

(4.5.2-38) jDJ 10-2-7-1|2-0-1

如上文所说,语料中标注的词不同于西方语言传统意义下的词,不仅如此,双字词的“双”也不同于常规意义,所以加了引号。这里“双”字词的字数可以等于3或4,如

犹豫地、选择了(04)、得出了(10)、来观察(11)、领略得到(12)、

航行过(13,16,19)、不停地、颤抖着(29)、感受到了(30)、泛发着(34)

等词。这些词中的“了、过、着、地、得到、到了、来”是HNC定义的hv、qv和h$uu,它们只改变词的形式(外延)意义,并不改变词的内容(内涵)意义。所谓形式意义指"了、过、着"的时态意义,"地"的词性标志意义等;所谓内容意义,指词的核心字所范定的意义。作为hv的"得到、到了"也只有时态意义,但它们本身又是动词,属于hvv概念类别,所以对"领略得到、感受到了"都作为新"双"字词加以辨认,与"犹豫地、选择了、航行过、颤抖着"等不言而喻的"双"字词区别对待。采用hv、hvv这样的知识表示方式有利于这一区别对待的实现,即有利于相应Ek的句类代码和HNC符号的自动认定,从而有利于软件设计。

应该说明,当单字动词与hv构成双字动词时,则一律纳入双字词,如

有过(09)、得出(10)、坐在(20)、载着(28)、涌出(35)

等词。汉语单字词的意义范围一般十分宽泛,因而后缀具有缩小意义范围和增加形式意义的双重作用,这与双字词的后缀通常只具有形式意义的情况有所不同,所以语料标注采取了不同的方式。单字动词跟hv而形成的双字动词一律纳入新词,以符号 {} 加以标记,双字动词跟hv而形成的多字动词则不加任何标记。因为前者可能变成17号难点,而后者一般不会变成难点。

(现在是千禧龙年初一清晨的8点23分,我很高兴还能继续保持清晨工作的习惯,因为清晨与深夜是深思熟虑的大好时光,可惜深夜工作的习惯已不能再坚持了。家人同现代常规过年的人们一样,还沉浸在梦乡。远处传来的零星爆竹声唤起了一种遥远的亲切回忆,同时也激起了一种沉重的惶恐不安。一年又过去了,而“出关”4年来,在创新方面几乎无所作为。在酝酿本节文字的腹稿时,我非常痛苦地感受到,建立句间知识表示体系的呼唤,已经是这样急切和响亮,但老弱之躯,不能不遵守一天仅工作6小时的规定,而今天已用去预定时间的一半以上。年青的探索者与开拓者们,是你们接过接力棒的时候了。)

对语料标注的词进行简单统计,可得到下面的结果:

词总数 345 100

单字词 116 33.6%

“双”字词 198 57.4%

多字词 31 9.0%

“双字”新词 53 26.8% 15.4%

多字新词 22 71.0% 6.4%

这个结果显示了一个也许过去未受到应有重视的现象,就是汉语双字词约有四分之一的新词,而多字词的新词竟高达四分之三。当然,这个数字与文体密切有关,一般的论述文和叙述文没有这么高的比例,严肃的“官文”会更少一些,但这不影响汉语文字文本处理的第一道难关是新词辨认这一基本事实或判断,具体数字的精确性并不重要,四分之一和十分之一无本质区别。重要的是要抓住新词辨认这个牛鼻子,对汉语语音文本还要新词和伪词辨认一起抓。

新词辨认与分词的提法有本质的不同。这里所说的新词,按分词标准绝大多数分成两个或多个单字词就万事大吉了,但实际上大吉不了,分了以后,你还得把它们合起来,先分而后合,岂非多此一举?至于所谓分词难点,在上面的语料中仅出现了一次,由此可见,分词“瓶颈”说的坚持者大约没有实际考察过新词、伪词和分词模糊(歧义)的相对比例,如果对这个基本数据毫无了解,而侈谈“瓶颈”,那是缺乏科学态度的表现。

下面对上面的语料的前8句依次进行具体分析,然后进行综合讨论。

●第一句:块扩判断句。本句存在1号难点,而且比较难以消解,因为Ek的反映射词"决定"具有多个句类代码。这里撇开这个问题不谈,从块扩判断句出发进行讨论。

块扩判断句DJΛD:v842的基本句类知识是,其JK2=DBC语义块必须扩展为一个反映人类活动的句子,这里是自身转移句!31T2bJ,符合这一要求。自身转移句的信息由远搭配“到…去”唯一确定,这一句类知识是确定句中两个待定孤魂-“坐船”和“橄榄坝”-的基本依据。“坐”的字知识库会提供下面的预期知识:

如果 它后面跟交通工具pw22b

则 两者的组合词优先自身转移句的工具辅块In

也可能在会话语句中形成E-C并合结构。

新词“坐船”符合工具辅块的预期。至于“橄榄坝”,它必须是一个“地点”,这是自身转移句所提供的亮点预期知识之一。当然,这个“地点”是广义的,包括fwj2-或fpe。但"坝"的字知识库可以提供"橄榄坝"优先于fwj2-00的预期知识。这样,关于新词"坐船"和"橄榄坝"的基本知识就可以自动形成。这两项新词知识肯定需要进入短时记忆,至于它们是否应该和以什么方式转入长时记忆,则属于李耀勇博士后的探索方向了。实际上,像"坐船、坐◇船、坐车、坐◇车、坐飞机、坐滑竿..."之类不符合登录条件的词,可进入"坐"字的@S知识项,形成一种类型的长时记忆。

按规定,新词“坐船”和“橄榄坝”的标注方式应该是

$坐 船$ $橄榄 坝$

这才反映真实情况。为了简明,新词中应有的空格都省掉了,《专著》中强调的段接处理包括这一类的新词处理。

●第二句:简明状态句。这一判断本身和该句类两语义块的分界都不存在任何疑点。“虽然”和“并不”两词的HNC映射符号所提供的语义知识已足以判定SC的上界,短时记忆中"橄榄坝"所提供的知识只起配合作用。

此句的扩展句类分析涉及两项隐知识的揭示。一是关于“允景洪”优先于特定地点的判定,二是关于SB语义块省略了“的距离”的判定。第一项判定基于远搭配“从…到…”所要求的对仗性知识,由于短时记忆中的新词“橄榄坝”优先于fwj2-00,这个判定就是理所当然的了。这里顺便说两点题外话,第一点,这个例子表明,短时记忆不能考虑以句号截断的方案,它必须是跨句群的。第二点,如果系统的长时记忆里具有地理知识库的话,则“允景洪”是已知的不登录词语,而由“允景洪”可以推知“橄榄坝”也是中国云南省的一个特定地点了。问题在于这一长时记忆如何激活,不能设想用“允景洪”三个字去直接激活,而应该采取某种间接激活方式。这里短时记忆中的“橄榄坝”通过远搭配“从…到…”就形成了一个间接激活信息。这一间接激活过程的软件实现也许有一定难度,但问题是这是必由之路。

“的距离”省略的判定属于深层隐知识揭示,这里的激活信息仍然应该从基本句类知识去寻找线索。简明判断句有一条句类知识,就是当SC的要素属于u类概念时,SB或SBC与SC之间具有要素的同行优先性。本例句的“远”可以提供比较明确的同行优先知识(这属于HNC知识库@SR知识项预定提供的知识),但仅仅依靠这项知识是不够的,并不能完成本例句的隐知识揭示,因为还需要利用“从…到…”短语的语义块构成知识。这个短语一般充当语义块的KQ,但也可独立充当语义块,或充当Ω u。这不仅与短语中“…”的内容有关,也与该短语在语义块中的位置有关,这些知识属于“从…到…”小专家的研究范围。就本例句来说,在形式上该短语独立充当语义块SB,实际上是SBB,省略了SBC。SBC的预期内容是广义距离j02--如“距离、路程、间隔、范围等,与“远”同行。但这里可以从广义距离收缩成狭义距离,因为SB是两个特定的地点。这样一个特例却给出了处理广义距离问题的一般思路:从SB和SC抽取现场信息,激活概念联想脉络的预期路径,这里就是从广义距离走向狭义距离。道路似乎是畅通的,但软件实现依然比较复杂,属于深层隐知识揭示的范畴。

●第三句,一般状态句。此句的“只有”是一个多义词,两义项的映射符号如下:

(1) lsb335 (2) v50+((jlv115;v461),(jz41c21;jz52c21))

《现汉》只收录第一义项,大约是因为第二义项不符合它的收录标准。但此处的多义选一模糊不难消解,因为“只有”之后没有另外的动词,因而它本身不可能充当QE-2。这里,采用了苗传江博士建议的序列表示方式"-n",QE-2表示QE序列的第二项,第一项是"都"。于是,把这个语串优先假设为一般状态句S0J是唯一的选择。该句类应有的3个语义块界限分明,由"水路 旱路"构成SB,由"$八九十里$路"构成SC。本句的SC是一个数量短语,SB与SC之间的现场信息相互支持与上一句恰好相反。上一句是SB支持SC,这一句则是SC支持SB,这里的SB同上一句一样,也省略了SBC。这个省略是容易恢复的,因为S0JΛ SC:K(j22)可提供SBC的明确预期知识。

本句多字新词“八九十里”和数量短语“八九十里路”的认定属于1.15节所列清单的第五项,是语义块构成处理的基本项目之一,是自然语言理解处理的“入场券”之一,这里就不必多说了。

●第四句,块扩判断句DJ。这是本段落第二句群的最后一句,这个句群的三个句子都有上装,“特征”语义块的辨认都毫无困难(这里对特征加了引号,因为第一句省略了特征语义块,但其SC前面仍然可以拥有上装,已如前述)。本句还另有下衣"了",第一特征语义块的认定属于铁定情况,不是优先。但是,本句也同第一句一样,存在1号难点,因为其第一特征语义块"选择了"有两个句类代码:DJ和D01J。这个两选一的判定取决于BC是否块扩。对于

DJΛD:(v840,v380)

的情况来说,可以采用“块扩语句必须另有第二个特征语义块(动词)”的简单判断准则(一般情况该准则并不保险,因为块扩语句可以是E块省略句类)。本句第一特征语义块之后的“从 水路 走"3语段中含有动词"走",因而作出DJ的选择是顺理成章的事。

但是,这个3语段很特殊,看下面的表示式:

“从 水路 走”=“走 水路”→“水路”

其中的等式表明了T2b3句类(这里取!31省略格式)的两种等效格式,这一格式变化属于该句类的基本句类知识之一。建议读者从这个例子深入思考一下语言逻辑概念l19、l18和两可语义块概念的特殊重要意义。

表示式的简化形式“走 水路”→“水路”当然只适用于本句的特定情况,但它表明本例句的1号难点实际上是一种两可表现。

本句遇到第一个《现汉》不收录词“毫不”,其HNC映射符号是

毫不 jluu112c33

意思是最大限度的否定,这样的复合词或词组在概念层面只是一个概念基元,应予收录。如果满足于分成两个单字词,从理解处理全过程来看,是缺乏总体思路甚至可以说是鼠目寸光的表现。

●第五句,果因句。本句是第三句群的第一句,全句7个词中,新词竟然占了5个。写到这里,我感到很别扭,真想用“字积”这个术语代替外来术语“词”。这里不能不再次提醒读者注意,本文用“词”代替“字积”,实属无可奈何。你读此文时,必须抛开“词”的传统意义,否则也会觉得别扭。

“是因为”是本句的特征语义块,标注为新词,但也可以考虑在词库中直接收录。如果作为新词,则必须在“是”小专家中给出相应的知识,不能仅依靠现场操作。“是因为”是果因句的无模糊指示,故本句无1号难点,但存在3号和9号难点。前者指“这”的范定,后者指对于原型句蜕块

PBC1=(Y01jD2*21J)=($顺流而下$||可以{到得}||$更快些$)

的局部句类分析。

指代信息的揭示,首先应该区分(HNC所定义的)具体指代和抽象指代两类不同性质的指代,前者采用以p w为本体层的挂靠表示方式,后者采用l9y表示方式(也可以用它为本体层进行挂靠)。具体指代的汉语反映射词有“我你他她”及其多数,其映射符号是p400-。自然语言中没有确定的词专用于具体物的指代,英语的it过于宽泛,既可用于具体物的指代,又可用于抽象概念的指代。现代汉语本来可以避免这一“宽泛”,但从西语照搬过来的新字“它”却继承了这一遗传缺陷,令人遗憾。具体指代的揭示可简化为“对号入座”问题,但抽象指代不能。因此,尽管两者面临着共同的问题--对所指代的对象或内容进行范定,但处理策略有本质区别。所谓局部焦点跟踪 (Local Focus Tracking) 处理 [Suri],对抽象指代常常是关键性的,而对具体指代则并非如此。

局部焦点就是局部主题,本句抽象指代“这”的范定就涉及上一句群主题的辨认,那就是“作出从水路走的选择”,它构成了本句的PBC2。

果因句的PBC1和PBC2都可以句蜕,这是该句类的亮点句类知识。但此句的PBC1句蜕很不寻常,其局部特征语义块-新词“到得”-的辨认比较复杂,这里幸有上装“可以”的帮助,子句(原型句蜕)中3个语义块的界限似乎不难辨认。但是,它属于什么句类?要让计算机自动作出所示混合句类(基本效应句与简明势态句混合句类)的判断,恐怕不是近期能够实现的。捷径只能在“得”字小专家方面下功夫,我希望这一建议能引起足够的重视与反响。

这里,同上一句一样,也应该考虑PBC1句蜕块的其他等效表达方式,如

“顺流而下可以到得更快些”=“顺流而下可以更快到达目的地”

→“顺流而下可以更快些”

后两者显然分别是自身转移句和简明势态句,这个现象能否引起HNC探索者应有的兴趣?希望如此。

●第六句,!32DJ。此句有两个语串(两个逗号),而且“觉得”一词有多个句类代码,其中之一为DJ。但基于第二个逗号应立即作出!32DJ的判断,因为对(汉语的)逗号可给出下述规则:

如果 逗号前面为Eg,该语串缺少JK2或JK3,

则 该语串为!32或!33格式,缺省的语义块以块扩或原型句蜕的形式在 逗号后出现。如果该句类Eg为多句类代码而其中之一为先验块扩 句类,则选定先验块扩,否则选定原型句蜕。

这条规则乃从基本句类知识演绎而来,请读者协助验证。

本句的第一语串“而且”乃fFK,属于K调度的处理项目,它与前一句群最后一句中(本句的前句)的“不仅仅”遥相呼应,表明本句群的局部主题也属于前句的JK1。

●第七句,!3111T2b3J。也是由两个语串构成。应用T2b3句类的基本句类知识,在K调度的配合下,这由两个语串构成的T2b3语句的句类分析本来是应该轻而易举的,第一语串是由语言逻辑概念"沿着"(l13) 引导的、Ωu 内容丰富的TB3,第二语串是采用EQ+E结构并一定带有Eu的T2b3。但由于作者的别出心裁,把一个包装句蜕

(([两岸]$奇峰$$连云$、绿荫$映波$)的 热带 景色)

嫁接成“沿着”的两并列内容之一,可能使得K调度对第一语串的处理变得十分困难:对“沿着”与“景色”的匹配以及“激流”与“景色”的对仗性提出质疑(后者由“和”小专家给出)。从语言的科学性来说,把

FKQ=[两岸]$奇峰$$连云$、绿荫$映波$

搬到“沿着”与“澜沧江”之间是比较恰当的;从语言的艺术性来说,把整个包装句蜕放到“激流”之后,加上“观赏那”三字以形成第二语串,是比较恰当的。作者现在的安排似乎在科学性和艺术性两方面都有欠缺,因为上面所说的FKQ不能作为FKH="热带 景色"的天然品质特征,两者直接以"的"字干巴巴地相连结而不加任何语言修饰,会带给读者错误的世界知识。

上述FKQ本身全部由不符合《现汉》收录标准的双字词构成,这是作家们喜爱的文学表现手法,表明汉语单字段的段接处理对文学性文本是一个十分突出的问题,说它比所谓分词“瓶颈”问题重要万倍都不过分。汉字知识库的建设应主要围绕两大目标,一是动词句类代码及其配套@S知识的完整表示,二是体词段接知识的完整表示。汉字HNC知识库建设者要把这两个要点紧记在心。这里的完整与完备是有重大区别的,完整指知识项的配套,例如句类代码、格式与相应语义块要素之间的预期知识。而完备是指知识齐全,首先是义项的齐全。我们要提倡完整第一,而适度放弃完备性,因为在没有强大基本语境知识运用能力的保证下,完备性反而是软件的沉重负担,而完整性永远有助于软件的操作。

“两岸”一词纳入应登录双字词处理,这当然是由于“海峡两岸”这一特定概念的出现。在它后面的4对相连的双字新词具有很好的对仗性,属于15-4号难点,这里就不来进一步说明了。

●第八句,jDJ。本句出现了与第五句类似的指代问题。第五句的“这”是跨句群指代,本句的“这”是句群内指代。但所指的内容都是前面语句的局部主题,这里的局部主题是

“航行澜沧江,观赏沿岸景色。”

这个主题就是本句DB"这"的抽象指代。在本句的DB与jD之间插入了一个形式上十分简明的参照辅块,但应该指出,此辅块的"人",实质上是主块DC的DCB。这一类的主辅转换知识如何纳入基本句类知识的表示体系,是HNC基本句类知识研究必须大力推进的具体内容之一。

本句从“便是”开始,除“的”字外,都是新词或《现汉》的不收录词,上面的“重要万倍”说是否又一次得到验证?

到此为止,一共分析了8个句子,第一句构成一个句段,后面7句构成第二句段。主题是陈述一次旅游前的心理状态,因此,自身转移句和状态句的多次出现是理所当然的,但预期中的反应句却未出现,似乎被相应的判断句代替了。这个提法是否正确,要由未来的句群理论模式来回答,这里只能暂时回避了。

下面对双字新词中的体词进行综合讨论,动词则只给出一个分类表。讨论采取向新词难点(编号15-n)对号入座的方式,这里的15-n就是1.15节给出的局部组合清单。

15-04(对偶、对仗性概念)

魅惑 烟波 水光-山色

15-05(基本概念及其短语)

江面 水面 江上 江心 水底 胸中 一条

15-08(uu类概念)

最大

15-09(u类概念)

小河 巨龙 缓缓 浓丽

15-09+15-04(+对仗性)

朽树-断枝

15-09+15-12(+vC类概念)

奇峰-连云 绿荫-映波

15-11(vB类概念)

坐船

15-13+15-04(Bv类概念+对仗性)

峰连-壁立 林碧-峰青

从上面的表可以看到,虽然语料中的新词只是汉语应有新词种类的冰山一角,但一个数字是有参考价值的。那就是进入清单的新词占新词总数的90.0%,未进入清单的新词仅占10.0%。后者有两小类:

效应并: 花丛 藤蔓

小专家: 之情

这就是说,如果语义块构成处理模块能够对15号难点应付裕如,则汉语新词处理就可以基本达到实用的要求。当然,15号难点的每一项还有子类的之分,各子类的处理难度又有所不同,达到应付裕如是一项规模巨大的语言工程,是自然语言理解处理最繁重的环节。分词"瓶颈"说没有抓住这个要害,这就是我在前面详细介绍黄侃论题的缘故了。上面标注的示范性语料希望向读者表明,依托一个以《现汉》为基础但需要有所扩充的词库,不难实现一个与西语的word相当的汉语文字文本,但这一步只是一个技术性的预处理。真正的理解处理是合不是分,是黄侃先生所说的"积",特别是对那些单-单相连的单字词的"合",或单字词的段接处理,这一处理的绝大部分属于句类分析三部曲的第三部。1.15节对段接处理类型的划分,只是对知识运用方式的一种引导,并没有概括段接处理的全部类型。

有效的段接处理当然要建立在充分运用相应汉字HNC映射符号知识的基础上。各种段接处理的知识运用方式都有所不同,万里长征才刚刚迈步。但是,进入15-n清单的新词处理都不存在不可逾越的障碍。从上面的例子可以看到,除了15-09+15-12类型的新词之外,其他都应该是HNC的囊中物。而清单外的新词“之情”,是“之”字小专家的囊中物。

最后,给出语料中的动词新词:

●01 QE+E 便是

●02 E+hv 有过 横过 冲到 涌出 到得 浮在 坐在 载着 沿着

●03 Eu+E 远眺 急旋 挚爱

●04 EQ+EH 泛发

●05 fv82 成趣 所至

其中的前三类,也应该都是HNC的囊中物,04属于争取类,至于05,应该纳入近期的有所不为。