52个论题之29:论新词辨识

 

29.1 关于新词辨识的总体思路

    本论题讨论的新词不包括那些不能从字义推知词义的新词,如“走穴”“打的”“因特网”之类。对于可以从字义推知词义的新词,要区分文字文本和语音文本,像“下岗”这样的新词,对文字文本可以考虑进行自动辨识,但对于语音文本就相当困难了,也不在本论题的讨论范畴。

    本论题只考虑以下六类新词。一、以常用hv或qv构成的E块,特别是由它们与单音动词构成的E块;二、两个强独立性单音动词构成的E块;三、特指概念与单音词基本命名构成的复合命名;四、基本概念构成的复合词;五、数词与量词构成的复合词;六、规范搭配。

    这六类新词的具体辨认将在附篇中讨论,主篇只讨论原则性问题:新词辨认的总体思路;关于词、语素及中国传统文化,新词辨认所需要的特殊知识表示。

    对于新词辨识,首先要建立辨识策略的总体思路,总体思路是一切知识处理的灵魂。我们要不断加强总体思路的思考训练,善于驾驭全局,熟练掌握必为与不为的辩证统一。

    上述6类新词首先应区分E块新词、对象新词和内容新词三大类。前两类是E块新词;第三类是对象新词;第四和第五类是内容新词;最后一类不定,可属于上面的任何一类。

    E块新词的辨识属于K调度的范畴,对象新词与内容新词的辨识属于语义块构成处理的范畴。但两项处理都需要与小专家配合,配合就需要信息的交互,信息交互就需要通用的协议。在协议的制定与规范化方面,需要群策群力,需要一个融洽的建设性的学术探讨氛围,否则必将一事无成。林先生和雷先生一直在强调这一点,但我们响应不够,张全和软件组对此要高度重视。

    把新词辨识划分出K调度和语义块构成处理两大范畴,就是总体思路的第一要点。这就是说,面对音串中一系列位置确定(单音段)和不确定(奇段)的单音词,你不能采用图论的方式进行处理,这种方式表面上数学严谨并具有一网打尽的优点,但实际上是总体思路糊涂的表现,因为现有图论的连接关系与概念联想脉络的基本特征相去甚远。两大处理范畴的划分实际上就是局部语境的分类,知道进入K调度和语义块构成处理就是对局部语境的运用,就为新词辨识处理提供了最基本的语境条件。在处理时你就不用对8大义类循环搜索一遍,而是有针对性地寻求特定的义类。

    对象新词与内容新词的划分是总体思路的第二要点。你必须充分运用已得到的句类知识(包括语义块构成知识)和已有亮点的语义知识确定待定新词是属于语义块的对象部分还是内容部分。据此采用“对象优先具体概念,内容优先抽象概念”的处理方案,在这个前提下,上述第三和第四两类新词是不难选定的。

    除上述前四类新词外,不区分新词辨识与一般单音词的段接或挂接处理,这是总体思路的第三要点。这个要点非常重要,因为两类处理本来就没有严格的界限,在本质上都属于概念组合的先后顺序问题。这里应该提一下结构主义在30年代倡导的语素与词的分析方法,国内语法界前辈在这方面曾做了大量的工作,提出了一些划分标准和分析方法。例如提问法、剩余法、扩展法、换位法和语体分析法等(胡树鲜:《现代汉语语法理论初探》)。这些方法的目标是分,而新词辨识和单音词的段接或挂接处理的目标是合。这里分合的表层与深层意义都是典型的对立统一,知道怎样分,也就知道怎样合,反之亦然。那么,如何吸收并运用语法学的这些成果呢?我建议邀请访问学者来进行这一类比较研究。但首先应该明确,检验组合后的复合概念是否符合或满足句类知识和语境的要求才是问题的关键,至于这一复合概念的各项构成究竟是语素还是词并不重要。但整个复合概念要不要当做一个新词并纳入长期记忆的词库则是不能回避的问题,并且很难确定。例如,音串中出现了相连的单音词lv ren,从句类知识和语境也许不难确定它们应该构成复合概念p674,反映射汉字是旅人,其常用词语是旅客。只是作家贾平凹偏偏喜爱用这个旅人,但要求计算机作出这样的判断就十分不合情理了,只能请求人机交互。

    上述三个要点特别是第三要点表明,本文所指的新词实际上包括传统语言学的词和短语,不考虑汉语分词规范的要求。〈论题22〉曾指出:“组合化的汉语词语就必然具有不定形的特点,这一特点与人类思维的创造性特征是相适应的,很难也不应该为了计算机处理的需要而加以规范”。汉语的词下与语素界限模糊,上与短语界限模糊。照搬西语语素和词的定义来范定汉语的词,是无视汉语的特点和徒劳的。问题的本质在于,西语词与语素形式上的明确界限对复合概念的表达与理解,是否带来了方便?这是一个值得与汉语进行比较研究的课题。我认为,正是这个明确的界限造成了西语word的多义性远比汉语双字词严重的现象;造成了西语短语结构的烦琐不堪,造成了无“视而可识,察而见意”特征新词的不断增长。而汉语恰恰相反,它正是依靠这个界限模糊免除或基本免除了西语的上列负担。但应该看到,无论是西语的这些负担或汉语的分词困扰,理解处理时所面临的难点在本质上是共同的和一致的,就是如何激活不同层面的概念联想脉络。HNC概念符号体系、句类的数学和物理表示式、语义块构成的数学和物理表示式、HNC知识库的各项知识栏目、用句类分析替代句法分析,都是为这一中心目标服务的。而西方传统语言学研究却偏离或基本偏离了这一目标。只有个别有识之士怀疑过西语的语言研究传统,说过一些精辟的片言只语,如维特根斯坦的名言“一个词的意义在于它的使用”,弗斯的名言“每一个用于新的上下文的词都是新词”,这些名言实际上是对西方语法学研究方向的否定,并隐含着必须建立概念联想脉络的意识,然而只停留在潜意识的水平上。

 

29.2  关于语素、词及中国传统文化

    此节为什么用了这么一个有哗众取宠之嫌的标题?因为,近来身体状况的突然变化使我决定提前写下我对中国语言文化传统和传统文化的基本看法。这当然需要一本专著来阐述,我已不具备这一时间和精力,只好在这一节略及其要。而汉语是否需要语素这个概念是这一话题的极好“引言”。

    语素(morpheme)这个概念是基于西语的形态特征而提出的概念,是本世纪结构主义语言学的得意之作,结构主义在30年代盛及一时,这与当时物理学对物质微观结构的一系列重大发现不无关系。我国现代汉语语法学的前辈们在国外留学时都接受了这一当时主流派的熏陶。但结构主义大师们有意脱离语义研究的失误表明,他们的学术观念是纯西方的,缺乏高瞻远嘱的视野,对语言的语种个性和东西方语言的重大差异所知甚少甚至一无所知,远不及吴宓先生的老师白璧德先生。我国语法学前辈回国后的学术表现与吴宓先生截然不同不能说与这一师承没有关系。当结构主义走向衰落而转换生成语法学及其他语言学派勃然兴起时,先辈们正好受到斯大林的那篇著名语言学论文和以苏联为师口号大环境的约束,都未能跟上国际语言学学术发展的步伐,这是必然的时代悲剧。在他们继续挞伐我国传统语言学家抱残守缺时,不知自己也已掉进了同样的泥潭。

    语素这个概念对西语有它的历史意义,按结构主义的“原教旨”,它是不涉及语义的。但是,也不妨在语义基元(semantic primitive)意义上来借用这个术语。音节知识库8大义类的活跃语素就是这个意义上的借用。但“原教旨”的语素和词的概念实际上对汉语没有多大意义,因为汉语由单音节汉字构成,每个汉字既是语素,又是词,寓语素与词于一体。由字可以灵活地构造双字词和多字词。两千年前形成的汉字已覆盖了自然语言概念体系的表达需要,所以,两千年来汉字有减无增,这一语言现象一清如水,是全球语言文化的一项奇迹。可是现代汉语的专著和课本对此奇迹熟视无睹,盲目套用语素和词的概念,强行对汉语施行语素与词的划分,真是削足适履。他们完全忘记了汉语非单音词的构成根本不是形态的复合,而是语义的复合,因而语言结构主义的“原教旨”对汉语是毫无意义的。汉语根本不必引进语素和词的概念,直接采用语义基元和复合语义基元的概念就足够了,无论在表层和深层汉语就是这样“积字成句”的。新词辨识对汉语来说,绝大多数情况可作为概念的复合问题来处理,与语义块构成处理是没有原则区别的。而西语基本上不具备这一有利条件。

    现代汉语课本对此茫然不知或盲然不见,总要对语素和词的“原教旨”论之甚详,好象不掌握这个基本概念就不能解释现代汉语,这是典型的教条主义。中国革命曾饱受教条主义的危害,当年的教条都是引进的,不是自己的发明。是不曾留学西方的毛泽东先生对此有最深刻的认识,从而创立了毛泽东思想。现代汉语研究者很值得想一想这个历史教训。

    那么,中国原来的语言文化传统有没有应该抛弃的教条呢?有。主要是方法和工具方面的教条,过于崇古的教条。但对语言文字从字的形音义到句子甚至篇章的义理进行综合研究的传统是高于西方的,这就是训诂学或小学的传统。继承这个传统需要“经史子集”的深厚功底。现代汉语研究的开拓者由于这个功底不够加上时代潮流的误导未能走上结合汉语实际和继承汉语研究传统的正确道路,而坚持传统的学者既缺乏创新意识又在不同程度上感染了辜鸿铭式的傲慢与对抗心态,从而造成了中国语言文化的巨大断层。HNC创立之初遭遇的艰辛,也是这一断层的必然反映。

    中国语言文化的断层只是整个中国文化断层的一个侧面。对此,我想借本论题谈一点个人看法。从三个例子说起。

    第一个例子涉及许慎的《说文解字》,这是一部伟大的语言文字巨著,是我国古代文化的骄傲。可是以《现代汉语》为书名的多如牛毛的著作,对这一巨著要么根本不提,要么简单说一两句话,跟着就批判上了,如“从今天的学术水平来看,这种理论(指许慎的六书说)当然有许多不足之处。……比如指事的定义是‘视而可识,察而见意’,……这个定义不是同样可以适用于象形和会意吗?……”。这种往杰出先辈脸上抹黑的文字,我只好用“无知作孽”四个字来形容了。许先辈的象形字是指表达具体概念的字,而指事字指的是一类表达抽象概念的字,至于会意字,其“视而可识,察而见意”(这八个字非同小可,是汉语新词辨识的基本武器)的特征大为减弱,许先辈的六书分类可谓博大精深,今天看来仍是如此。你有什么新发现而加以评头品足呢?在叙述性学术著作中一般只介绍前辈的贡献,世界上没有一个国家有这样的坏风气,以贬低甚至辱骂自己的先辈文化巨人为时尚,这个时尚应该停止了。你从国外引进了语素这么一个概念,而许先辈的著作里没有这个词,于是你就觉得比他高明了。这就是这些作者的可怜又可悲的心态。而我怀疑这些作者根本就没有读过也读不懂许先辈的《说文解字》及其大量后续专著,就跟着时尚妄加评论了。至于某些电影导演热衷于把中国人描写成无悠久文化根基的原始性民族,以满足洋人的好奇心,达到捞取国际性“奖状”的目的,那就更是等而下之了。所以我从来不看这类电影,以免影响身体健康。

    第二例子涉及王力先生关于训诂学的定义。王先生说“若依语言学的眼光看来,语言学也可以分为三个部门,第一是语音之学;第二是语法之学;第三是语义之学。这样,我们所谓语义学(semantics)的范围,大致也和旧说的训诂学相当”(王力:《龙虫并雕斋文集》第一册,221页)。西方的semantics在语言哲学的意义上有一点句义的逻辑探索,但通常是指词义。训诂学主要致力于语句意义乃至篇章意义的诠释,因而它综合运用了词义、语法、修辞、语音直至校勘学的知识。它包括semantics,但绝不是“大致相当”。作为大师级的王先生怎么会给出这样不符合训诂学实际状况的定义?是不是王先生认为我国国学的先辈大师们没有语言学三个部门的眼光呢?真令人百思不得其解。

    第三个例子涉及钱钟书先生的《管锥编》。该书当之无愧是现代国学大师级的巨著。可是仍然免不了上述时尚的痕迹。钱先生对杜预关于《左传》里两句话“不义不昵,厚将崩”注释的批评就是一例。杜注的原文是:“不义于君,不亲于兄,非众所附,虽厚必崩”。钱先生评曰:“解‘不昵’为大叔‘不亲’庄公,非也。‘不昵’谓众不亲附叔段,非谓叔段不亲于兄”。可是,杜注里不是明明有“非众所附”四个大字么!这四个字就是对“不昵”的解释,前两句都用于解释“不义”,因为对君和兄的态度都属于“义”的基本范畴。杜预是晋代杰出的军事家、政治家兼经学家,他长期镇守诸葛亮生活过的襄阳,其文治武功和为人都以诸葛亮为师。身边又有一个很强的参谋班子,《左传》的杜注并不是他一个人的研究成果,是非常权威的,当然不可能没有失误。但上述解释则是完全正确的。钱先生为何对关键性的“非众所附”视而不见?关键在于钱先生与杜预将军对“义”的认识深度和重视程度大不相同。原文的“义”应包括“君臣兄弟”两方面的内容,因为庄公与叔段既是君臣,又是兄弟。故杜注用两句话去说明。钱先生没有注意到这一要点,仅从形式上认定前两句是对不义和不昵的分别说明,而置第三句于不雇,这太草率了,完全忽视了杜将军的精心思考。

    钱先生的这一疏忽同他的著名小说《围城》是有内在联系的。中国社会传统很重视“义”,我的少年生活里对此感受至深。我所熟悉和尊敬的一代前辈的精神境界和为人处世之道,除了最近几年的一些名人传记略有记述外,在“五四”以后的文学作品里,现代读者是看不到一点踪影了。世界上唯一幸存的千年大国的辉煌历史,你从这些作品中得到的的印象只有“封建愚昧”四个字。人类历史的发展过程不是这么简单,这四个字不但不能概括中国的光辉历史,也不能概括任何国家或民族的历史。

    谈到人类历史,首先要区分科学技术在人类历史发展中开始起决定性作用的大转变时期的前与后,这个分野太重要,是观察一切历史现象的决定性因素。我不认为即使是天才的马克思在这个问题上没有出现历史分析上的失误。

    我国在这个大转折时期的落后,是人类社会发展中一个特定历史时期的特殊历史现象。这时各国不平衡状态造成的尖锐冲突和矛盾,对每个国家和民族都提出了争取生存和发展的严峻挑战。但应战之本或救国之道绝不需要以摧毁自己的文化传统为前提,这是缺乏历史知性的幼稚。而当年某些中国文化名人恰恰坚持这条道路,把全部中国古书古藉等同于封建毒素,把中国几千年文化传统概括成“人吃人”三个字,把当时读古书的中国知识分子阶层丑化成“孔已己”的那副德行(有人的这一摧毁性热忱达到令人难以置信的程度,以至于除了批判和摧毁传统的文字之外,在那日本军国主义凶相必露要灭亡我国的危急时刻,倒看不到他写过申讨倭寇的文字)。这种策略从当时推进革命和改革的历史需要来说,确实十分高明和卓有成效。但是这种成效在形式上类似于以破坏自然环境为代价以取得经济的高速发展,在实质上则更为严重。因为被破坏的自然环境还有恢复的可能,而被破坏的优秀文化传统则将陷入灭绝之灾。

    更需要思考的是,这样的惨重代价难道是必须的么?从日本人在面临同样大转折时期的奋斗过程,从犹太人几千年的奋斗历史,从世界各民族的发展历程来看,这个惨重代价是不必要和令人痛心的。回顾世界历史和各民族的历史,恐怕只有中国人在本世纪初叶如此赶尽杀绝地摧毁和背叛自己光辉的文化传统,再也找不到第二个例子了。所以,应该说这里既有伟大贡献和功绩,也有严重错误甚至罪过。不能到今天还只是一味歌颂前者,而对后者丝毫不加反思。当偶尔出现反思的论述时,就动用阶级观点加以八股式的笔诛。

    小说《围城》不过是这一错误大合唱的小角色,由它改编的电视剧我是看了半部就看不下去了。因为电视剧反映的时代使我回想起我熟悉的伯父伯母们(当时对父母的同辈朋友都这样尊称)无数感人情景和崇高形象,而这种情景和形象在现代中国社会已不复存在,因为已经被那几位现代文化巨匠摧毁无遗了。我没有臆造和夸张,那是活生生的现实和事实。读者不妨看一下《陈寅恪的最后20年》,想一想他在应邀担任历史研究所所长时提出的三个条件,而且绝不动摇。在那个马列主义和毛泽东思想如日中天的时代,这样惊世骇俗的表现需要多么无畏的精神和深刻的学识呵!

    在那一代学人中,陈寅恪先生这样的品格是主流。这种品格不是朴素的无私无畏,而是历史知性高度上的无私无畏。用HNC的语言来说,前者属于9行,而后者属于13行,两者具有层次上的本质区别。日本人只有9行精神,缺乏13行的识见,所以它在免于被殖民化的同时,必然走上侵略他人的罪恶之路。因此仅仅弘扬9行精神是不够的。缺乏13行精神的西方文化很能说明这一点。那位亚历山大大帝,即西方的成吉思汗,历来是西方有作为皇帝或国王的榜样。这个传统直到希特勒才算结束了。而中国在董仲舒时代(即汉武帝时代)就基于儒家学说对如何处理民族关系有现代认识了。所以中国历史上最有作为的汉族皇帝(包括有此恶名的汉武帝)并不穷兵黩武,和平共处是两千年来我国外交政策的基调。张骞和班超,王昭君和文成公主就是这一政策的身体力行者或体现者。

    这一传统政策和陈寅恪先生的品格所体现的是一种民族精神,那就是知性高度的无私无畏,就是孔子所概括的仁和义。我作为一个有幸对这一民族精神的亲身感受者,觉得有责任向年轻人写一点中国文化传统的主流。这是本节的主题。

    我之所以想到要创立一种自然语言理解的新理论,只不过由于我不迷信西方文化并看到了西方语言学的根本缺陷。读了罗素的《西方的智慧》以后,对“先秦哲学可以与西方古希腊媲美,宋明哲学的成就超过西方人中世纪的经院哲学”(张岱年:《国学丛书》序。)的论断深感亲切;看了西方的语义学巨著以后,知道他们的高见不过是我幼年时耳濡目染的水平,而由于上述断层之故,却被一些现代汉语语言学家当做崭新的宝贝;读了众多的国人语法学论著以后,为作者们的只知套用西语概念,对汉字汉语之妙茫然不知而深感震惊。所以我大胆一试了。当然,如上所述,我国的国学也有它的弱点,不能像怪杰辜鸿铭先生那样故意护短。各国文化的交流和互相促进是大势所趋,佛学在我国的昌盛就表明中国文化本来就具有交融的内在品质。可是你先把自己糟蹋尽了,拿什么去交流呢!堂而皇之自称要建立崭新的文化,但实际结果是酿成斩根之祸,而空有崭新之名。在这世纪之交,环顾形形色色的腐败和堕落“新潮”,难道斩除民族文化根基的恶果还不明显么!民主革命伟大先驱者之一的章太炎先生在辛亥革命后曾为挽救国学危机奔走呼号,被时人讥为章疯子,但章先生的预言已不幸而言中了。

 

29.3  关于新词辨识的基本准备

    上一节说到,汉语新词辨识的基本武器是‘视而可识,察而见意’,这是就文字文本而言的。对语音文本来说,‘视察’的基本条件已转入隐蔽状态,需要进行变隐为显的转换,新词辨识的基本准备就是指这一转换。

    这一转换立足于两项可能前提的确认,一是K调度,二是语义块构成处理。对K调度,首先是全局述语新词Eg的辨认,其次是上述第三和第四两类新词的辨认;对语义块构成处理,首先是上述第三和第四两类新词的辨认。两种情况都存在局部述语新词El辨认的问题,但除了兼有明确的hv和“的”信息的情况外,其他都暂不考虑,而请求交互。

    确认上述前提就等价于确定了单音词的义类。在〈理解问答3:音节感知要点〉中曾指出:“音节感知……首先是概念类别的辨认,而不是特定概念、更不是特定字的辨认,这个步调很重要”。由此引入了8大义类的概念,并据此建立了汉语音节知识库,这就是新词辨识的第一项基本准备。8大义类具体命名如下:

 

         义类名称                  原符号        新符号

  1主辅语义块指示符和组合标志符            LK(logic chunk)

  2 E块激活因子,即QE三主体内容           LE(logic eigen-chunk)

  3活跃语素                                AM(active morpheme)

  4基本概念                                JG(ji-ben gai-nian)

  5基本命名                                JM(ji-ben ming-ming)

  6数词                                    NW(numeral word)

  7量词                                    CW(classifier word)

  8动词                                    VW(verb word)

 

    为便于记忆,这里将张全原定的单字母表示改成双字母表示。并又一次采用了英汉混合的缩写方式(由于屏面限制,英语说明也采用了汉语式简化)这基于两方面的考虑,一是有些概念的表达汉语比较确切,像“基本,概念”,它们分别是jgu721和r800的精确反映射,比英语的相应词语basic,fundamental,elementary,essential,main;concept,idea,notion的层次性和脉络性模糊要小得多。第二,英语一统天下的势态对多元性文化发展是一个不容忽视的巨大威胁,应该从各个方面对此加以约束,其有效策略之一就是让知识界的美国人理解他们也必须学一点东方语言,特别是汉语。来华的西方旅行者不是很愿意学一些汉语常用词,如“你好”、“再见”之类吗!那么,让他们的文化人知道汉语特有的“基本,概念,势态,文武,仁,义,恕,道”等极为有益的概念并非苛求,是中国语言工作者和文化工作者义不容辞的国际主义义务,是国际文化多元化发展的历史需要。HNC符号表示体系的设计始终坚持这一方向,希望攻关组同仁理解、宣传并实践这一方向。

    新词辨识的第二项基本准备是〈论题23-3〉所确定的100个重点音及其分类。关于这些重点音的内部协调方案将在附篇中阐述。

    在这两项基本准备和确认上述两项前提的基础上,新词辨识已经历了“大事化小,小事化了”的转换,这个“了”,就是基本上变成了特定字的辨认问题。

    在附篇中,将解剖一个麻雀,对这一转换作示例性说明。

 

                                                         黄曾阳

                                                     1998年10月7日