52个论题之21:二论中西语言的基本差异

——关于形态、词性与五元组

 

    在〈论题〉序列中,以“中西语言的基本差异”为题共有三论,按常理,本论题应为〈一论〉,因为中西语言的基本差异就在于形态,这是学界的共识。那么,为什么把它放到〈二论〉?因为,从自然概念体系的三大语义网络来看,基本概念和基元概念对各语种是共同的,这两个语义网络的设计不必考虑语种的差异。但语言逻辑概念不同,它需要考虑不同语种的差异或个性特征。正是基于这一点,l网络的设计方案曾多次调整,并曾长期保留了两个空白节点l5和l7。形态实质上属于语言逻辑概念的范畴,从印欧语系来看,它无所不在,似乎具有至高无上的地位,其实这只是一个假象。母语人口最多的汉语(这个社会现象并非由于汉人特别重视生育或汉民族有辉煌的征服历史,而是由于汉语以其文化优势淘汰了大量其他语言并融合了大量其他民族)就表明了这一点。语言逻辑概念的中心是语义块指示符号,从语言理解必须从语义块感知入手这一点来说,这是天经地义的要点。在〈理解问答28〉曾说过:“原来语言真正需要的内在区分标志只是语义块而不是词或短语。而在这个关键点上,汉语是一点也不含糊的,其标志的精细程度决不亚于任何语言”。有趣的是:在这个关键点上,西语发达的形态反而不那么精细,其语义块构成模糊远比汉语严重。因此,从形态的本质使命来看,似乎可以这么说,西语是发达而重点模糊,汉语是不发达而重点鲜明突出。我认为,这才是中西语言最本质的区别,因此,把它列为〈论题〉系列之首,并加了一个副题:汉语昭昭语义块,西文短语细标明。这里顺便说一句,在上面〈理解问答〉的引文中,“真正”和“只是”之类的用词严格说来是不妥当的,然而它反映了写此组论文时的一种心情,这类文字上的缺陷在此次编入专著时都未加改动。

    所谓语言的形态,简单的说,就是词根加前后缀。形态的作用在于表现语法语义功能,主要有:词性的变换,名词的格数性表示,动词的时态表示。这里应说明三点,第一,动词的人称和数表示纯粹是冗余信息,所以这里未列入形态的语法功能清单,如果西方人今后也像中国人这样认真搞语言文字改革的话,首先应考虑把这个赘瘤全部或部分割掉。第二,西语名词的性仅从语言自身表达的需要来看有点莫名其妙,但从语言的形成历史和社会性来看,肯定大有其“妙”。尽管如此,这里仍把“性数格”的通常顺序改成“格数性”顺序,因为在这三者当中“格”最重要,它实质上起着语义块标志的作用。第三,用形态方式表示动词的时态而又不彻底,显然是极不合理和极不科学的的知识表示方案,所以将它列为三项语法功能之末。但这个语言现象揭示了一个真理,即儿童的语言习得机制是极其强大的。从这个角度,这里顺便说几句令人讨厌的“马后炮”,就是汉字简化方案是否多少有点过头了?是否过于迁就了扫盲的短期需要,而过于忽视了对祖国文化遗产继承造成的灾难性后果?

    从上面的说明可知,形态仅承担了语言逻辑概念的少量任务。语言逻辑概念的使命主要靠虚词来承担。西语的形态曾对19世纪历史比较语言学的巨大成果产生过重大作用。至于它对西方语法学的贡献,我倒是觉得应该多考察它的局限性而不是普适性。这就走到了本论题要讨论的第二点,即词性与五元组。

    形态对词性的表示,如同对动词时态的表示一样是不可能彻底的。因为词性是抽象概念的多元性表现,它本质上是动态而不是静态的,这个问题在Paper1中已有充分阐述。当然,用形态的方式对抽象概念的v,g,u之分、对动词的时态予以简明表达,不失为一种聪明的编码方案。但是汉语采用字根、偏旁和“字义基元化,词义组合化”等方式进行简明表示也是一个聪明的编码方案。在这个问题上,很难说谁优谁劣。我们完全没有必要妄自菲薄,对汉字发出过多的抱怨。

    汉字就是词,不能因为有“葡萄”之类的极少数连绵词的存在加上语素概念的引入就不敢承认汉字是word的本质,而自动降格为character。这个翻译是非常严重的原则性错误,对内表现无知,对外形成误导。国人对这类错误的麻木不仁已经整整一个世纪了。在这个英语一统天下的趋势日益扩大化的网络时代,人们确实应该好好想一想,环境保护主义者那么热心拯救濒危动物和植物,各民族是否应该付出更多的注意力去保护和拯救自己濒危的民族文化特色?文化不同于技术,不能以国际接轨为第一标准,要保持多样化。对于鲁迅先生当年劝年轻人“中国古书一个字都不要读”之类的名言(参见“传统文化如何薪火相传”〈光明日报〉1998.9.15.第四版),到了该作一点反思的时候了。

    分词是“瓶颈”的认识,词汇之间要学西语的样子加上间隔符的主张,思想深处的根子都是视汉字为character,而不是word。汉语词汇无与伦比的规范化现象本来是一种文化奇观,是极为宝贵的财富,被这个character一笔勾销了。此文读者不妨想象一下,如果真的按照这些文字改革先驱者的“先见之明”加上了词汇间隔符,不要说大家写作的时候的额外负担有多么沉重。我想,外国语言专家看着这样的汉语文字文本会发出这样的疑问:你们的一个汉字不就是我们的一个word么?他们的音和形规范得那么奇妙,这是单音节语言的巨大优势呀!你看,你们间隔符之间的汉字绝大多数不是一个,就是两个,How wonderful !干嘛要学我们加间隔符呀!我们是多音节语言,由于词汇音节数不规范才迫不得已而加上间隔符的,我们并没有对众多的固定“词组”另加间隔符不是吗?你们的“词”间隔符大体上相当于我们的“词组”间隔符。为了计算机处理自然语言的方便,我们也曾考虑过另加“词组”间隔符的方案,但这个主意立刻遭到公众的

强烈反对,认为它侵犯了人的思考和写作自由。看来,我们这个所谓自由社会确实也有很多弊病,你们能办到的事我们就很难办到。

    问题的要害在于现有的“分词”处理并不是自然语言理解处理的关键,更不是“瓶颈”。汉语理解处理的切入点在于语义块感知并进行句类分析,在这个阶段绝大部分“分词”是可以置之不理的。在确定句类之后再来进行分词,情况可就大不一样了。这个道理一清如水,你怎么就想不通呢?实在解决不了的,请求人机交互就是了,你先分也同样束手无策不是吗?

    人们很自然地会提出一个疑问:词还没有分出来,怎么能感知出语义块呢?我愿意告诉提问者,请参阅晋耀红和张全的论文(见拙著《HNC(概念层次网络)理论》的附录),或同HNC联合攻关组的任一成员讨论一下,他们都会把这个问题向你解释清楚。这里只想指出一点:西语的词都分好了,可是在自然语言理解处理方面,西语显示出任何实质上的优势了么?用短语构成的句法树并不能解决语言理解所面临的一系列难题,包括西语绝大多数词语的多义模糊。正因为他们对这一系列难题一直束手无策,才乞灵于语料库的统计,这是一条回避理解处理实质的就易避难之路,它能摆脱“茫茫语海,欲渡无舟”的困境吗?肯定不能。但西方人的优点是:学术迷信少,要当心人家突然回头是岸的时候,你又得跟着忙乎一阵子了。

    我第一次听到汉语要加词间隔符主张的时候,不免有“欲哭无泪”之感。汉语依靠“字义基元化,词义组合化”的“天功之妙”,从先秦到现代,走了两千多年,坦坦荡荡,毫无阻碍,怎么会到了我们这一代人就走不下去了呢?计算机的出现,本来为汉语大显身手、大长东方文化雄风提供了一个极为难得的机遇,HNC深刻地揭示了这一机遇,并为把握这一千载难逢的机遇建立了相应的理论模式,设计了具体技术方案。真是“万事具备,只欠东风”(东风者,资金也,人才也)。依然迷信西方语法和西方科技领路的人们对此疑虑重重,甚至以伪科学论之。但是,朋友们,你不妨回想一下你年青时读过的伏契克先生在《绞索套在脖子上的报告》一书最后的那句名言:“人们,我爱你们,你们要警惕呀”。

    对汉语字处理作出过巨大贡献的朋友对上面的评论,对我这位不知当年创业之难而信口雌黄的后来者,可能极感愤慨。但是,请原谅,在学术问题上只能服从真理,别无选择。中文信息处理学术方面应该反思的东西实在太多,不能回避这个现实。除了王选教授的创造性成果并取得国际领先地位之外,其他的工作都是应该有所反思的。下面谈五点看法。

 

  一、关于汉字机内码和词语关联性统计

    汉字的音形信息完全可以用同样的内存空间统一编入机内码(参看上引拙著附录,杜燕玲的论文)。因此,我对于国标码的弃音存形,真是百思不得其解。如果采用杜文所建议的寓音形于一体的机内码方案,汉语的文语转换系统就比西语容易实现多了,可是这一汉语特有的优势,就这样被一个模仿西语的弃音存形机内码方案轻易地断送了。

    杜文建议的机内码叫做音序码,该码由音码和序码两部分构成。音码主要表示汉字的拼音,序码主要表示汉字的形,音调则依据不同情况由两者之一或协同表示。这个编码方案的应用价值不只是上面所说的汉语文语转换,更重要的是,它可以构造一个简明的音码矩阵。通过对这个矩阵某一行作简单扫描,就能得到以某一音节或某一汉字为首的全部词汇。同理,如果对这个矩阵的某一列扫描,就能得到某一音节或某一汉字在第二位置的全部词汇。通过这么一个简单的二维矩阵就能快速地把词库中全部词汇索引无遗。西语能有这样奇迹般的信息结构么?由于现代汉语以双字词为主,这个信息结构对于汉语语音识别的价值就更加突出了。我在〈理解问答6〉中说,“西语需要通过语料库统计出语词的相关性,而汉语的词库就是这一相关性的相当完备的表达”。读者对这一段话肯定感到难以理解,因为我心目中的汉语词库是具有上述便利搜索功能的词库。于是,汉语词语之间关联性通过相应汉字(在〈语义学日记〉中曾把它们叫做连介字)的牵线搭桥,就不难得到一个相当完整的词语关联性概貌了。所以,〈问答〉中那一段话的意思是:西语无词义组合化之利,词语之间的关联性只好通过大规模语料去统计。但是汉语因为有这个便利,这种关联性知识已充分体现在同行或同列的词汇集合之中了,你对此视而不见,花很大的力气去统计一番,能得到多少附加信息呢?

 

  二、关于汉字拼音输入方案

    汉语拼音方案已形成国家标准,是不容再来讨论的,这一点没有任何疑义。但是计算机拼音输入则是另一种性质的问题,应该考虑输入的效率,对拼音方案加以简化。在这个问题上,维护拼音方案的权威性是没有必要的,只是表现了思维方式的落后于时代。简化方式就是双拼方案,它可以大大提高汉字拼音输入的效率,但所有的双拼方案都没有引起权威部门的足够重视和支持,而任其自生自灭。这是否与维护权威的想法有关?

    双拼方案之可行也是一个奇迹,键盘上的26字母恰好可以用来安置汉语的全部声母和韵母。这不是很有点奇迹的味道么?与这一奇迹相对应的是汉语语音流的盖世无双的特征:那就是声母韵母的绝对周期性重复。试问在人类的几千种语言中还有这样规范化的语音流么?当然,上面的说法需要引入零声母的概念,这在语言识别领域已被普遍接受,是可以推而广之的。

    对学术和技术要有不同的思路。在学术上双拼绝不可取,但在技术上则应该说现拼音方案不可取,那个撮口呼的表示符号,有什么必要搞得那么特殊?而双拼是极为合理而适用的。有人担心记忆的负担不是吗?很简单,在键盘上标上规范拼音符号就是了。你不要惊呼这谈何容易,日本人就是这么干的,在键盘的字母键上另标假名符号。既然日本可行,人口为日本十倍的中国怎么就不可行?这种键盘还可以成为一种中国品牌的产品呢!

 

  三、关于汉字的形码

    GB2312-80所精心收集的6763个汉字能满足现代汉语交流的需要。其中常用字和非常用字大体上各占一半。在这一半非常用字中,用义务教育的标准来衡量,大约又有一半属于不认识字。因此全盘拼音输入方案是不可行的,形码的配合乃势在必行。至于国标之外的5万(据四川、湖北词书出版社《汉语大字典》)或10万(据北京大学物理系王竹溪教授编撰的《汉语大字典》)汉字,更是只能采用形码方式了。这个势态是一清如水的。

    把这个势态与推广普通话的需要结合起来,制定一个汉字形码输入指导方案是十分必要也是不难做到的。“千码奔腾”不正常局面的出现,不能责怪那些热心者,而应该归因于缺乏一个指导方案。这个方案的要点是:

    1.“6763”里的约一半常用字不允许使用形码输入。

    2.“6763”的另一半,拼音和形码两可。

    3.“6763”之外的汉字一律用形码。

    这样一指导,“千码奔腾”自然就奔腾不起来了,许多人的才华虚掷就可以避免了,形码与笔顺的冲突也不会出现了,你也不用大费力气为此去搞什么笔顺规范了。

    许多汉语工作者对汉语和汉字的基本特征视而不见。关键而该抓的没有抓,如汉字键盘输入的指导规范,不该抓的(例如担心繁体字复辟之类)倒抓的挺起劲。一些人对两千余年老祖宗的文化遗产所知甚少,甚至一窍不通,却摆出一付比老祖宗高出十头的架子,动不动妄加评说。多年感慨之余,在此一吐为快。

 

  四、再谈汉语语音流的基本特征

    上面我们说到汉语“声母与韵母绝对周期性重复”的盖世无双特征。对语音识别来说,这是一笔宝贵的财富。然而,这笔财富的潜在价值远没有得到利用。

    利用这笔财富的技术基础是:

      1.解决音调的平仄识别并综合到语音识别系统中去

      2.发挥汉语音码矩阵的纵横搜索功能

      3.确定语音识别的声母和韵母稳定模糊区

      4.充分运用语句物理表示式所提供的预期信息

      5.充分利用HNC所范定的语境信息

      6.充分利用HNC汉语反映射库所提供的引导信息

    在上列技术基础上,语音识别系统所企盼的纠错功能是可以实现的。这绝不是盲目乐观,而是指日可待。

    但是,看看那些国家级科研项目申请指南,又不免有灰心丧气之感了。到现在为止,这类指南还是把语言和语音的各个分领域与自然语言理解分开列项。而且以各分领域为纲,自然语言理解放在非重点里。制定这些指南的是院士级专家和他们的学生,在这种大环境下,HNC还需要等待、等待再等待,坚持、坚持再坚持,创造、创造再创造。我在致许先生的信中说,“HNC理论基本框架诞生已经五年之久了,我深知它生不逢时,本来就没有打算在有生之年公布它的结果,更不曾打算付诸实践”。这段话是对这个大环境的的悲痛抗议。由于林先生扭转乾坤的努力,现在的情况有所改变,但虎视眈眈者的破坏力不可低估。HNC联合攻关组还要继续肩负着“先天下之忧而忧”的历史重任。

    在日本人实行第五代计算机计划的时候,美国人颇紧张了一阵。我当时看到过好几篇文章(那个时候,我每星期至少半天在院图书馆,现在是一年难得一次了)谈到一种语言的总音节数对语音识别的影响。文章说,日语只有几百个音节,而英语却多达上万个音节,这对英语非常不利。这个推断是有道理的。但是,应该进一步指出,音节数量少的优势必须与模拟大脑语言感知过程的理解处理结合起来才能发挥作用。日本人没有做到这一点,美国人当年的担心也就烟消云散了。

    汉语的音调有人细分为16,如果这样做,汉语的总音节数将高达半万之多,就无音节数量优势可谈了。我在先写的〈论题22〉中曾指出,汉语的音调可粗作平仄二分,技术上也不难实现。如果这一设想能成为现实,汉语音节数量少的优势就可以有所作为了,汉语语音识别与理解就可以前进一大步了。

 

  五、汉语究竟有没有形态

    morphology(形态)这个词的原意是结构的变化,变化就有动态与静态,即不规则与规则之分,英语动词时态的形态表达就是如此。形态在本质上应该是动态的。形态数学(morphomatics)研究方向的提出(见科学大师佳作系列:《自然之数》)主要是针对自然现象特别是生命现象中的动力学之谜。对语言现象中的形态表现也应该持这样的“动态”观点。所以,不能只把西语的那些规则性变化视为“形态”。汉语的“字义基元化和词义组合化”现象就是形态表现。从这个意义上说,我认为,不能说汉语是无形态语言,相反,我甚至认为,汉语是动态形态特别发达的语言。HNC提出的9种组合结构,即0号到8号结构方程就是对概念组合结构的形态表述。但是,如果仅仅从语法功能的角度去看待形态,那我宁可同意汉语是无形态语言的说法。因为语法学的脱离语义,即脱离概念本质的“原教旨主义”倾向在中国特别根深蒂固,而这正是全盘或过分否定中国传统文化(如上引鲁迅先生的名言)造成的恶果。

    此文暂不上网,打印后除存档外,另呈送林先生审阅。

 

                                                       黄曾阳

                                                         1998年9月17日

论题52之21:二论中西语言的基本差异——关于形态、词序与五元组

 

 

 

 

6