三、HNC的CORPUS观


    《专著》p204曾写道:
计算语言学必须把自己的立足点转过来,端正主攻方向。在这一转变中,西方语言学的语法传统是一块绊脚石,而所谓的语料库语言学则是一块误导的路标。对语法和语料库的所能和所不能要有一个清醒的认识。

    类似的论述在《专著》里还有多处,这一段采用了我所喜爱但会引起很多读者不快的尖刀式语言。这里特地加以引录,一方面是因为我深为当前的某些语料库研究(如双语对齐的统计研究)感到悲哀,另一方面是由于这段话有完全否定语料库语言学的语病,容易引起误解,下面将有所解释。
CORPUS本身没有任何神秘,就是语言或语音资料的电子文本。很多学科有理论与实验、理论与工程、理论与应用的划分,从这个意义上说,CORPUS语言学、SBMT的提法也都是无可非议的。但是,没有一个学科曾经有人宣称我这个局部就是老大,可悲的是,中文信息处理学界却有人全力宣传CORPUS是老大的思想,并力图将中文信息处理研究全面纳入以CORPUS为中心的轨道,对偏离这个轨道的研究就斥之为伪科学,并采取格杀勿论的专制行动,这实在太过分了。
让我们从实际和理论两方面对CORPUS语言学作一点分析。

从实际方面来看:
计算机擅长统计,取得与统计有关的语言知识是CORPUS的特长。但是,自然语言处理特别是理解处理所需要的知识,有哪些与统计有关?大脑的语言感知过程利用语言的哪些统计知识呢?甚至可以探问,它利用统计知识么?还应该进一步这样提出问题,语言是随机过程么?如果是,它又是一个什么性质的随机过程呢?
统计有各种各样的方式,如何选定统计方式?如何选定条件概率的条件?如何运用采样原理?如何范定大规模真实语料的“大”?
对第一类问题,有两个流行的答案。一个是语词的共现概率,一个是隐马尔科夫过程。对第二类问题,仅对“大”的规模作过一些探讨。
两个流行答案实际上不是直接针对相应科学问题的研究答案,只是一种现成数学工具的运用。从这个意义上说,CORPUS语言学还没有取得“学”的资格。

从理论方面来看:
CORPUS的意义不在它本身,而在于如何利用,在于明确:能够从CORPUS得到什么知识,不能得到什么知识;能够得到的知识对自然语言理解和生成能起什么作用;什么知识是与CORPUS根本无关的,什么知识的获得是可以甚至是必须得到CORPUS帮助的。在未明确并基本解决这些理论问题之前,以“摸着石头过河”的方式采取大规模行动,是无理论指导下的典型盲动。而盲动的研究工作,严格说来,是没有资格称为“学”的。因此,在我看来,所谓语料库语言学还处于“十月怀胎”期间,它的“呱呱坠地”还有待催生,HNC应该与兄弟分支学科为此发挥它应有的作用。
下面列出与上述问题有关的清单,简称CORPUS期望知识清单。但先说几句与建立正确的CORPUS观有密切关系的常识。
思考有两种基本需要或类型:宏观思考与微观思考;理论思考与工程思考。人文科学专家通常长于宏观思考而不擅于微观,自然科学专家通常长于微观思考而不擅于宏观。在两类专家中又有理论思考与工程思考的擅长差异。在满足情商因素的前提下,两类思考兼通者是帅才,偏通者是将才,但仅满足于宏观和理论思考的人一定是空谈家,绝不可重用。这是尽人皆知的常识。但仅仅知道不等于就会运用,在这一常识的运用方面,诸葛亮就不如刘备,并犯过严重错误。当前的语料库语言学基本上是一批第二线科学家鼓吹出来的,而CORPUS语言学的创立,需要一批第一线帅才科学家的参与,第二线科学家是没有这个能力的。第二线科学家的通病就是容易滑向仅满足于宏观和理论思考的空谈家。科学界的很多悲剧是已滑为空谈家然而又掌握实权或热衷于发挥影响的权威们造成的。

    CORPUS期望(含无期望情况)知识清单

※1与CORPUS无关的概念层面知识
            语义网络的宏观构架
            基本句类表示式和语义块构成表示式
            语句格式知识
            基本句类知识的主体

※2与CORPUS有关的基础知识
            复句与非复句的比例
            这一比例与语种和文体的关系(下同,不列)
            基本句类、混合句类、复合句类的比率
            这一比率与语种和文体的关系(下同,不列)
            无分析难点语句与有分析难点语句的比例
            20项分析难点的各自比率
            无生成难点语句与有生成难点的比例
            6项生成难点的各自比率
            汉语不带上下装的全局特征语义块与带上下装者的比例
            英语有名无实的中心动词与形实相符者的比例

※3与CORPUS有关的策略研究知识
            按难点类型划分,当务之急是分析复杂句蜕块难点
            和生成的语义块构成变换难点

※4倚仗CORPUS的HNC知识库栏目
            词语(主要是动词)句类代码
            特征语义块构成知识
            语义块要素关联性预期知识
            体词的语义块构成知识
            语言逻辑概念反映射词的语用知识
            各类小专家的自给知识库建设
            多句类代码动词或词组的语用知识
            语义网络概念节点之间的交式及链式关联知识
            反映射知识库的建设

※5CORPUS-based研究平台
            基本语境知识框架研究
            背景知识框架研究
            情景与势态知识框架研究
            要点主题分析研究
            各种自然语言处理方案的潜力研究

结束语:关于CORPUS,过去我们说得很多(实际上是我个人),做得很少。这个不正常状况正在改变,林杏光教授甚至要亲临第一线工作。当然,不能让林先生把他的宝贵精力放到这个工作量方面。推进HNC-CORPUS研究最有效而且势在必行的方式是形成“众志成城”的势态,不仅HNC联合攻关组的每一个成员都要投入HNCⅠ型语料库的建设(其意义不仅是量的积累,已如前述),而且还应该敞开大门,为愿意参加这一壮丽研究活动的HNC朋友们提供必要的条
件。
前面提到的那位汉高帝自愧不如的杰出军事家--韩信曾说过“多多益善”。让我借用韩将军的这妙不可言的四字短语,结束本章,同时也暂时结束(行程在即,第一章未写的10项难点说明只得推之来日)这超过十万字的长文吧。

    1999.9.10.