现状和设想

——试论中文信息处理与现代汉语研究

许嘉璐

一 信息处理的必然前景

中文信息处理,就是利用计算机对汉语信息(包括书面的和口头的)进行处理。既然是凭借计算机对信息进行处理,当然应该是自动化的。例如,成篇的文章或整本的书输入计算机,对其中所需要的信息进行统计;自动分类和搜索、过滤、摘要;外文与汉语的对译;字词典自动查询、辅助编辑;自动校对;书面和口语的互相转换;聋哑、盲人用的计算机;等等。至于词典、教科书、多媒体和语文教学等领域从中得益则不言而喻。

中文信息的自动化处理,意义之重大是无须多说的。首先是节省时间。但是这还在其次。更为重要的是,这是人们应付未来信息社会的必需手段。现在在世界范围内,信息最之大是以往任何时候无法比拟的,以至于对任何人来说都好像是一叶扁舟飘荡在无边的大海里,无法比较全面地掌握自己所需要的信息,当然就更淡不到对这些信息按照需要进一步处理。

信息在当代是极其重要的资源,不能充分掌握它、利用它,无论是对个人还是对整个社会,都是巨大的灾难。因此,获取、处理和运用信息的手段至关重要。可以这样说,中文信息自动化处理每提高一步,给我国的科学技术(包括国家的信息化)、文化教育、经济建设、国家安全所带来的效益,将是无法用金钱的数额来计算的。反之,如果我们落后了,不管是落后于国际水平还是落后于现实需要,后果也是严重的。

二  中文信息处理技术发展现状

1.字处理与语言处理

到目前为止,中文信息处理基本上还停留在“字处理”阶段,也就是说计算机对汉语的“认知”是一个字一个字地进行。最明显的标志就是计算机键盘输入是一个字一个字地敲,一个字一个字的显示。即使应用软件准备了“联想”功能,但是其原理仍是把词(多音词)、短语当成“字”来处理的。如果我们说得“宽宏”一些,最多可以说现在是处在“字和词处理之间”阶段。

中文信息处理,只有进入到语言处理阶段,才能真正实现自动化。现在市面上有些信息产品似乎越过了“字词处理”阶段,给人以假象,使人误认为计算机对中文信息的处理已经“自动化”了。例如中文扫描仪,可以成篇地把文件输入到计算机里。其实,扫描仪是把整页纸当成一个图像输进去的;输入后,经过OCR的处理,图像转化了可以用键盘处理的文字文件,这时则仍是“字处理”。再如,现在有些语音输入产品(像IBM语音板),是基于在一定量的语料中对词汇进行统计,依据词出现的概率而研制的。其处理的基本单位也是“字词”。又如多种机器翻译产品,对汉语研究的基本思路和水平与语音输入基本上是一样的。

二十年前,我国计算机专家和汉语汉字专家为能在计算机上显示汉字,曾经付出了极大的心血,完成了历史性的突破。自那以后,中文信息处理技术虽然在有些方面有所进步,但是至今还没有跨上“语言处理”这个台阶。我们在“字处理”阶段停留的时间太久了。

在全世界科学技术高速发展的今天,中文信息处理自动化水平的提高,将决定着信息产业发展的前景,也意味着巨大的经济利益。因此,一些技术和经济发达的国家都投入了大量资金,在其本土或在中国建立研究基地,或以低廉的价格购买中国学者的研究成果,或径直购买其劳力,来进行中文信息处理的研究。中国作为汉语的故乡,能不能成为未来中文信息处理技术的发展的中坚?以汉语为母语的中国学者,能不能掌握中文信息处理的核心技术?这个问题早已尖锐地摆在我们面前。我们必须尽快地给以明确的回答。

由于机器翻译需要有关现代汉语的全部知识,而这些知识一旦为计算机所“习得”,对中文信息的处理就可以达到相当程度的自动化,因此现在无论是国内外中文信息产业还是研究信息处理的专家,都把汉/外机器翻译定为攻克的目标。

三  目前我国中文信息处理技术发展的态势

我国的有关科研单位和专家,从来没有停止过攻克中文信息处理难关的努力,在国家的几个科学攻关计划中都列有信息处理项目。这些项目都是以解决计算机对自然语言进行理解问题,也就是以开发智能型的汉语分析系统为奋斗目标。

当前这类研究基本上都是在语料——主要是词——的统计概率的基础上进行的。许多专家已经感觉到,统计概率的路已经走到尽头,必须另辟蹊径,这“蹊径”就是语义,以词义为基础,与句法规则结合,以句为突破的单位。

朝着这个目标努力,到目前为止,正在进行的众多研究项目,大体可以分为三种风格,或者说是三种思路、三个流派。

第一个流派是以传统计算语言学为基本理论,从词素分析入手,进而研究词-短语(词组)-语段-句子。

概括地说,传统计算语言学的种种理论和方法,都以语料统计为基础。但是,只靠统计概率是不能统摄复杂多变的语言现象的,因此还需要结合语言规则。为此,我国学术界从西方计算语言学的众多理论和方法中吸收了许多营养,例如短语结构语法、扩充转移网络、从属关系语法和配价语法等。①

由许嘉璐主持的国家社会科学“九五”重大项目“信息处理用现代汉语词汇研究”的立项和进展或许可以说是当前这一领域研究最集中突出的例子。

该课题1997年开题,将历时三年。项目共包含着九个子课题:

1.信息处理用现代汉语分词词表
2.歧义切分与部分专有名词识别
3.信息处理用现代汉语词类及标记集规范
4.汉语词类兼类问题
5.现代汉语词的语法属性研究(之一)
6.现代汉语词的语法属性研究(之二)——现代汉语动词电子词典的扩充和名词槽关系
7.现代汉语知识词典的建立和词汇内部语义网络描述
8.现代汉语真实文本短语结构的人工标注
9.现代汉语词的构造研究

这些课题正在按照预定的进度进行,并已经在不同程度上取得了比较理想的成果,②并将于2000年底结题。

这一课题是纯粹的基础性研究,而且应该说,单就词汇领域而言,它也还是不够完整的基础性研究。虽然这九个子课题是中文信息处理技术所需要解决的重要问题,但是要把这些成果集成,形成可供使用的平台,还需要做相当艰苦的努力;而且即使这些成果集成了,也只是为今后的研究奠定一定的基础,因为要让计算机理解汉语的词,还需要解决词的意义如何概括、表达(用计算机可以“读”的符号)等问题。在解决了词的问题之后,才能进入句的领域,而要解开句子的奥秘,除了要弄清楚句子结构规律,关键问题也是语义。到目前为止,包括“信息处理用现代汉语词汇研究”在内的研究还没有正式进入意义领域。而对语义,以统计概率为主要方法,是难有作为的。在已有成果的基础上今后应该走什么路?国内外都还没有找到有十分把握的途径。

第二个流派是HNC理论。

出于对传统研究方法(词→短语→句→句群→篇章)是基于西方语言而建立的,其总体与汉语实际不适应的考虑,黄曾阳先生提出了概念层次网络理论(HNC)。③

HNC理论认为,计算语言学界源于图灵标准而采用的句法分析和句法语义分析所提出的标准各有偏低和偏高的不足,不是描述人的语言感知过程的适当模式,因为“思维的机制绝不是语法或句法,而是概念联想网络的建立、激活、扩展、浓缩与存储”,从而提出计算机对汉语的处理不应该以图灵检验为标准,而应该以对语言模糊的消解能力为第一标准。④

“自然语言的语句呈现出无限和不确定的表现特征,……在其背后是否存在一种有限和确定的语句结构?人们对此进行过多方面和多层次的探索。”传统语言学、乔姆斯基理论、依托于数理逻辑理论的句法语义分析、依托于隐马尔科夫模型等的各种统计处理,各有自己的答案。对自然语言特性的把握必须是微观和宏观并重的,对语句特性的把握更是如此。上述四种答案“与语言微观和宏观特性的联系大体依次呈现出反变和正变的趋向。”HNC的答案是:应该描述语言感知过程,为此,应从语言的深层入手,以语义表达为基础,把自然语言所表述的知识划分为概念、语言和常识三个独立的层面,建立语义完备性的概念表述数学表示式和语句的语义表述模式。人的语言交流过程,就是消解“模糊”的过程。因此,HNC把消解模糊作为自然语言理解初级阶段的标准(就书面而言,有词的多义模糊、语义块构成的分合模糊、指代冗缺模糊),即以消解模糊为攻克的第一步。⑤

HNC认为,汉语以“字义基元化,词义组合化”方式构造新词,因此可以构建概念表述体系,亦即概念层次网络。HNC同时认为自然语言无限的语句可以用有限的句类物理表示式来表达。“语句的宏观特性可以用语句的句类表示式来表达,语句的微观特性可以用语义块的构成表示式来表达。”⑥他们据此设计了局部联想网络解决词汇层面问题,设计了全局联想网络解决句类和语义块问题(句类是语句的语义类型)。据HNC课题组的研究,自然语言共有7个句类:作用、过程、转换、效应、关系、状态和判断。每个句类有自己的句类表示式,基本句类表示式共57个。此外,自然语言还有单个全局特征语义块的混合类和两个或多个全局特征语义块的复合句类。理论上二者应有3192+57×56+57×3192+3192×3192=10377192种。但是常见的混合句类只有理论值的十分之一左右,在计算机上是可以解决的。从理论上说,HNC的句类分析是对大脑语言感知过程的初步模拟,应该接近人的语言过程,但这需要长时间的逐步完善。

现在HNC课题组正按照“语义块感知和句类假设、句类检验、语义块构成分析”三步曲策略努力工作,期望能研究和开发出具有“自知之明”(即能在译文疑点处自动做出标记并给出多种解决方案)的汉/英互译系统。这一策略在规模较小的知识库支持下已经取得可喜结果。而其准确性最终要在更大的知识库支持下,在大规模语料中运行才能得到信度较高的印证。这正是这一课题当前工作的难点所在。

第三个流派是基于内涵模型论的语义分析。

这一流派的理论设计,是陆汝占教授提出的。其出发点是考虑到对中文信息处理的研究单纯走语法的路已经难以有突破性结果,归根结底,要深入到语义层面。朝着意义精细方向考虑,就会产生兼类过多和概括力不够以及歧义、模糊、不确定等困难。换言之,汉语表达式的意义仅指称外延对象,没有涉及内涵性质,因此存在一个语句中的同一词语表达式的多个出现,都指称相同的外延对象。怎么办呢?应该在一个逻辑句义框架下来分析词汇及其分类,只要能明白表达句义,不必过于精细,也就是用逻辑框架来处理词汇理论。基于这一考虑,该课题组将汉语表达式抽象成数学表达式,恰当地表示内涵和外延义,然后把这些语义表示在计算机内进行处理,亦即把汉语表达式与计算机数据结构之间直线联结,改变为汉语表达式-抽象数学表示-数据结构三者的间接联结。课题组称之为基于形式方法——模型论的汉语语义计算理论。

根据这一理论设计,句义分析的流程为:语句→切分→标注→句法分析→句法树→同构的语义树→逻辑公式→模型解释。显然,从“切分”到“句法树”,与受图灵检验启发而进行的研究一致;其特色就在于建立“同构的语义树”,特别是进入“逻辑公式”并作出“模型解释”。陆汝占教授认为,语句要转换成逻辑式,应从汉语语句谓语动词结构着手。因为句法分析是语义分析的前提,句法分析又要靠语义特征。具体设想是:先构造一种句子的逻辑式之间的中介形式“函子”(functor),以表示谓语动词连同支配成分一起构成的语句核心,表现句义的基本要素。函子加上时态、模态算子就可以表示语态,构成句子的基本逻辑含义。对于计算机自动处理中文信息来说,汉语的缺省(省略和隐含)都是难点。因此基于内涵模型论的理论对这一点格外重视,但是至今除了利用上下文语境知识外,也还没有找到很好的解决策略,而语境知识的形式化也是十分复杂的问题。

说从“切分”到“句法树”和现在通常的解决方法一致,只是就总体和顺序而言,实际上基于内涵分析的语义解释理论对于“词”、“句”等有着自己的理解。

以上三个流派都正在进行过程中,进展情况不一。第一个流派,不同单位和个人已经在一些局部取得了较好的成绩,面临着如何集成和如何解决词义、句子问题;第二个流派设想和计划比较庞大,在规模不够大的知识库内,已经得到部分技术实现,面临着继续扩大知识库、进行相当于“中试”或一定规模生产的过程,以便检验和完善其理论和技术设计;第三个流派,理论设计还较粗略,虽然用这一理论已经解决了一些实用问题,但是要证明它可以适用于整个现代汉语,还需要进一步推敲、实验、细化。

值得注意的是,第二、第三种思路都很重视我国传统语言学,特别是训诂学的经验和成果,或从中得到启发,或借用其对词语的训释。这是有道理的。我国的传统语言学,虽然在很长时间里与语文学难以彻底区分,但是古人对语言的体味观察入微,其中包含着一定的哲理和对语言环境的关心,这些往往反而是不“懂”语言的计算机所需要的。

四  现代汉语研究滞后的原因

(一) 现代汉语本身的难度

1.汉语缺乏狭义的形态。西方语言的形态,对于计算机来说就是标记;汉语没有这种标记,就需要人深入把握词的种种规律,把这些规律形式化,其实就是人为地作出标记。因此,汉语的特点一方面使得西方计算语言学一些成果和经验不能完全适用于它,另一方面增加了计算机“分辨”词素、词、词组的难度(在书面语,字和字之间等距离也是造成这一难题的重要原因)。

2.语法灵活。即缺乏狭义的形态,汉语句子中各个成分之间的关系一靠词序,二靠“意合”,三靠虚词。但是,词序虽同可能意义迥异;虚词并非非用不可,特别是在口语里,虚词更少,因此虚词只能是解决词与词、句与句关系问题的辅助手段;意合则更为麻烦,其中包含着许多语言环境、语言背景和语言风格知识以及缺省问题,如何全面把握有关意义的诸项因素,并把它形式化,是最大的难题。

3.语义灵活。从词汇层面说,一词多义、同音词、同义词、近义词已经是很麻烦的事;从句义层面说,情况更为复杂:一方面语法的灵活主要来源于语义的灵活;另一方面同一结构可以表达不同的意思,同一意思可以用不同结构表达。即使我们把词义和句法都分析清楚了,“教给”计算机了,它还是难以“理解”整个的句子。

(二)现代汉语研究的弱点

1.长期以来,我们的研究基本上是为人际交流服务的。人的联想、类推等能力构成了人对语言的特殊感知能力,这极大地补足了研究的空白。要把过去研究的成果完全移植到不会举一反三的计算机上是不行的。必须建立起计算机适用的语言分析体系。换言之,汉语言学家没有为中文信息处理作好语音分析的准备。

2.长期以来,对汉语的研究方法基本上是例举性的,而非穷尽的;材料和对象基本上是书面的,而非口语的。计算机所面对的,是任意性的、不可预期的语言材料,它必须穷尽式地处理这些材料,因此由例举法得到的结论是不适用的。另外,书面语语法比较规范,句式变化较少;反之,口语则因说者的方言影响、文化水平、语言环境等方面的差异而变化灵活。

(三)研究环境的缺乏

(1)研究分散而重复

和其他一些行业一样,中文信息处理界也存在着低层次重复的问题。这不但分散了力量,而且潜伏着缺乏统一规范和标准的危险。例如,语料库、电子词典、词的切分,词类研究等等,许多家搞,而每家所做的规模都不大,即难以适应大规模语料的需要,也难以深入。

(2)投入相当不足

这里据说的投入,主要提指人员所消耗的经费。应该说,近些年我国科学技术人员的待遇已经有了相当大的提高,但是,现在外国大公司大举进军中文信息技术领域,他们凭借着雄厚的财力,以相对于我国国内无法竞争的报酬吸引去大量的年轻的人才。现在坚持在科研第一线的年轻人,都是靠一颗炽热的爱国心在拼搏。对于这些年轻人来说,未来的生计——赡老育小——也是时刻要考虑的问题,因此能否在基础研究的长期奋斗中坚持下去,依然是个疑问。中文信息界深深地感到了威胁。

(3)从总体而言,现代汉语研究领域和计算机领域的隔绝状态并没有出现根本性的改变。这可以说是个致命的弱点。隔绝,使两个领域的英雄们都无用武之地;同时这也极大地阻碍了语言学、计算机学一起向着所需要的一切学科(如心理学、逻辑学、人脑科学等)延伸。

五  消除瓶颈的战略

要消除中文信息处理的瓶颈,首要的关键是要汉语言学界和计算机学界两支队伍紧密地联合起来,开展面向中文信息处理基础研究和应用研究。如前所述,中文信息处理需要的,并不是现在汉语学界已有知识的照搬:有的方面需要根据计算机的“能力”去总结汉语的规律,在一定程度上,还需要研究者抛开传统语言学的固有习惯和方法;有的方面则需要填补上已有知识的不足。为长远计,我们需要大批“两栖学者”,应该加紧这类人才的培养;在目前,则需要两支队伍的密切合作。我们高兴地看到,北京大学、清华大学、上海交大、山西大学、科学院的一些研究所,已经开始了这种结合,而且在实际研究、培养新型人才、探索新的研究路数诸方面都取得了可喜的成绩。汉语言学与计算机结合所带来的,绝不仅仅是中文信息处理的长足进步,汉语研究本身也将获益良多。

其实,仅仅有语言学和计算机科学的结合还是不够的。上文所介绍的三个流派,基本上都是抓住了问题的两端:语言和计算机。从根本上说,要想使计算机像人脑那样工作,就要按照人脑运用语言时的活动机制去“武装”计算机。而至今为止,我国的人脑科学不没有取得可供计算机科学使用的成果,同时,无论是计算机界还是语言学界,对人脑科学的关心也很不够。从当前的实际出发,我们只好还是集中力量在语言学和计算机科学的结合上多下功夫,以期为解决中文信息处理瓶颈问题作出阶段性的成绩。

六  对操作过程中一些问题的思考

1.必须采取集体攻关的办法。语言之复杂,汉语之复杂,就决定了任何研究单位都不可能独自解决中文信息处理的全部问题,必须多个单位紧密合作,集体攻关。我国学术界曾经有过分工合作、集体攻关的传统,近年来在许多地方已经淡漠了,现在学科的发展又提出了这一问题,需要我们打破“新”的风气,重新养成更新的习惯。

2.可以用“百花齐放,百家争鸣”的方针,不拘一格,几种风格齐头并进,即相互竞争,又彼此取长补短。从现在不同流派研究的情况看,可以作出这样的判断:不但任何研究单位不能独立自解决中文信息处理的问题,而且即使是多个单位合作,如果使用单一的方法,也不能达到预期的目的。例如,对词和句进行处理时,就既要充分利用统计概率方法的成果,又要重视运用词汇和句子规则,还要注意语言逻辑学的重要作用。

3.采用科学的管理办法。无论开展这一研究所需要的资金从哪里来,也不管这一研究归属于哪个部门,研究的参与者来自多少单位,对其管理都应该是科学的现代化的。所谓科学的,主要是指要按照科学研究的规律管理。例如实行首席科学家制,人事、经费、责任,都由首席科学家承担;又如,课题的立项,要严格论证,统一评测标准,严格检查,严格验收,采取回避制,排除一切人情、关系的干扰。

4.既要争取国家的支持,又要尽量与企业合作。面向中文信息处理的现代汉语研究,是纯基础性的研究。根据社会主义市场经济的规则,科学研究,包括基础研究的投资主体应该是科技型的企业。但是国家在这中间的作用不可忽视:国家有支持基础研究的责任和义务。特别是在我国,企业和企业家还不成熟,无力也无意识在基础研究方面投入巨额资金,因而国家的责任要比经济发达的国家更为重大。这一两年,在企业界出现了一些新气象,不少企业,特别是包括信息产业在内的高新技术产业,开始向研究开发投入越来越多的资金。我们有理由相信,为了我国中文信息处理事业的发展,国家和企业都会越来越重视支持基础研究,学术界应该及时地同时争取这两个方面的支持。

5.既要出成果又要出人才。

6.中文信息处理事业将是长期的。我们的目标是让计算机越来越接近人脑的机制。要达到这一目标,恐怕需要几代人甚至更多时间的不懈努力。因此,薪火之传至为重要。我们应该采取有力措施,在使中文信息处理技术大踏步前进的同时,这一领域新型人才也大量的不断地涌现。

7.允许失败。科学研究是在不断失败—研究—再失败—再研究的循环往复中前进的。面向信息处理的现代汉语基础研究既是科学研究活动,就要允许失败。不能设想某一种理论和方法从一提出来就一路顺风地直达彼岸。从某种角度讲,失败也是一种成功:其中必有合理的因素;造成失败的原因就是财富,可以成为今后的借鉴。

我在1995年曾经预期:“应用研究的成果所带给社会的,有可能不只是具体的具有应用价值的学术成果,还将有对整个语言文字学价值的生动显示,有对基础研究成果的检验,有下一阶段基础研究的问题的单子和努力的方向,其社会效应则必然是整个语言文字学的研究得到社会的重视,从而得到加强,语言学也将逐渐繁荣,并真正成为先行科学。”时隔五年,我依然抱着同样的热望。特别是在中文信息处理领域,我的信心更足,因为中国知识分子报国的热情和天生的对汉语的语感,是得天独厚的。只要有一定的外力,这一优越条件就可以产生极其巨大的能量,做出惊人的成绩。⑧

附注

①参看冯志伟著《应用语言学综论》,广东教育出版社,1999年,312页。

②《语言文字应用》2000年第1期有专栏《“信息处理用现代汉语词汇研究”课题中期成果汇报》,由各个子课题负责人分别撰文介绍研究进度情况,可以参看。又,“歧义切分与部分专有名词识别”的成果又见于刘开瑛著《中文文本自动分词和标注》,商务印书馆,2000年。

③HNC是英语Hierarchical  Network  of  Concepts 的简称。参看《HNC(概念层次网络)理论》,清华大学出版社,1998年11月。

④见黄曾阳先生给许嘉璐的信,载《HNC(概念层次网络)理论》,411页,清华大学出版社,1998年

⑤《HNC理论与自然语言语句理解》,《中国基础科学》1999年第2—4期合刊。

⑥同上。

⑦关于中文信息处理要面对的现代汉语的特点,有许多学者做过详尽的分析。最近的一篇,也是我认为论述得较好的一篇,是段慧明等人写的《大规模汉语标注语料库的制作与作用》,载《语言文字应用》2000年第2期,可以参看。

⑧许嘉璐著《未成集——论新时期语言文字工作》,201页,语文出版社,2000年。

(许嘉璐       全国人大常委会       100805)

中国语文2000年第6期(总第279期)