句类分析的20项难点

引言

在林杏光教授的启发下,我将为语料段“corc4-3.”(见本文附录)写一个相当长的说明,题目是:句类分析的20项难点。

句类分析将成为HNC理论的课程之一,这门课程有两条主线,一是各基本句类的句类知识,二是句类分析的难点剖析。前者在“基本句类知识要点”一文中说明,后者在本文说明。两文都将在10万字以上,将来可以与其他小论文合起来编成一本文集,成为《HNC(概念层次网络)理论》和《概念联想脉络理论》两部专著之间的过渡性专著。

所谓句类分析的难点,也就是自然语言理解处理的难点,这些难点并非由于采用了句类分析的方式而存在,而是任何分析方式都要遇到的,不过句类分析将直接面对这些难点,并提出解决的方案。

我在“关于文字文本HNC语料库建设中难点标注的说明”一文(下面将简称“说明”)中列举了文字文本句类分析的20项难点,其中的前13项属于全局性难点,后7项属于局部性难点。13项全局性难点实际上是12项,因为第13号难点“多种复杂情况”是指多种全局性难点同时出现的情况。

20项难点是对文字文本三重模糊造成的各种复杂语言现象的概括和细化。这些难点的处理需要一个综合治理方案,在综合治理方案的统帅下,对20项难点分别采取各个击破的处理策略。这一综合治理方案的纵向发展应能适应语音文本的五重模糊,而横向发展应能适应不同语种的理解处理。不言而喻,20项难点的处理是相互依赖和相互制约的,不存在完全独立的20项解决方案;同时,这20项难点又必须独立拥有适应自身特点的独特处理策略或招数,这应该是综合治理方案的基本思路。毛泽东先生有一句关于解决复杂问题的名言,那就是:战略上要藐视困难,战术上要重视困难,这两句简明的话确实体现了十分高明的谋略思想。对于复杂的语言现象,如何实施这一谋略?我的体会是:一方面要全力追求统一的处理模式,同时又要采取“分化瓦解区别对待”的灵活策略。本文将力求运用这一谋略思想来剖析20项难点并提出解决这些难点的策略思想。

20项难点当然不能概括自然语言理解的全部问题,但它概括了按句类分析标准规定的理解标准所面临的全部重大问题,解决了这些难点,就表明计算机基本具备读懂一般叙述文和论述文(两者将合称广义应用文)的能力,基本具备我们所追求的“自知之明”能力。因此,我认为直接面对这些难点是当务之急。这20项难点的突破就意味着机器翻译和自动文摘的实质性突破。

HNC联合攻关组在语音文本战线鏖战了太长的时间,我一直为此事深感不安。因为,针对语音文本必须回避(即有所不为)的一些难点对于文字文本是不能回避的,而句类分析有希望予以解决,从而打开自然语言理解处理的新局面,首先是机器翻译和自动文摘的新局面。

当然,文字文本也有自己应该回避的难点,这主要涉及文学语言美的欣赏问题,包括风俗习惯和文化素养差异造成的特殊语言表达和有关人类心理活动的一些特殊表达。语言学家和人工智能专家喜爱津津乐道一些语言之美和一些特殊表达,阐述其中的理解奥妙,并按照图灵标准要求机器加以理解,我是不赞同的。我认为那些在广义应用文中究竟比较少见的语言现象应该暂时置之不理,而集中精力先去解决那些具有普遍意义的难点,也就是本文列举的20项难点。

对于当前应该回避的难点,有不少文章进行过讨论。本文将采取《HNC(概念层次网络)理论》同样的方式,不引用这类文献。虽然这些论文或专著不乏很有深度很有启发的见解,但总的说来,类似于晋代玄学家们的高谈阔论。如果说当年玄学家们无补于东晋的复国大业,那么,也可以说图灵式的语言奥妙分析也无补于自然语言理解的大业。

与晋代玄学风格相反的是所谓经验主义学者,这些学者往往看到一两个难点就赶紧行动起来,写文章,出成果,缺乏总体思路,满足于随波逐流。这种科研方式在自然科学领域大体可行,有时甚至是势在必行,但自然语言理解、特别是汉语理解处理则切忌这种短视的做法,为什么?因为西方不可能为汉语的理解处理开拓一条阳关道,实际上你无流可逐。

经验主义者也明白这一点,于是急忙寻求捷径,他们看到了汉语与西语有两项明显的表观差异:第一,汉语没有词间空格,第二,汉语没有中心动词标记。好了,从分词这个难点发动进攻,声称这是汉语信息处理的当然“瓶颈”。至于第二个难点,由于没有什么简易办法,就暂时按兵不动,先请汉语语法学家搞出一套适合汉语特点的词性标注方案再说。

将近20年过去了,“瓶颈”之战的效果如何?适合汉语特点的汉语词性标注研究又如何?可以用这样两句话来概括:“瓶颈”依然,词性无望。苗传江写了一篇介绍HNC的文章,对两个“如何”稍稍做了一点反思,立即遭到一位语料库专家的强力镇压。这在学术史上是一种屡见不鲜的社会现象,学界的现实权威往往不是学术的历史性权威,历史性权威往往要遭到现实权威的排斥和打击,因为现实权威最容易感受到历史性权威挑战的威胁。

林杏光教授多次提起过这位语料库专家的一种说法--如果谁解决了汉语述语动词辨认的困难,就可以获得诺贝尔奖。我们不了解这位专家说这句话的真实动机,不能由此作出他不了解诺贝尔奖专业规定的结论,但由此推定这位专家不了解汉语述语辨认困难的科学问题所在应该说是相当可靠的,甚至由此进一步推断他对自然语言处理这一边缘性学科领域只具有文献情报综合者的学术水平也是比较可靠的。因为,下面将会看到,这一所谓可获得诺贝尔奖的难题只是20项难点之一,而且是比较容易解决的难点。

本文共4章:第一章阐述全局性和局部性两类难点的含义,第二章阐述处理这些难点的策略思想,第三章简要说明HNC的统计观或corpus观,句类分析所急需的基本统计数据以及如何快速有效地取得这些数据。第四章将以杂谈的方式说明前三章里遗留的一些问题。

文中引用的例句主要取自“corc4-3.”,这时仅给出标号m.n,不另加说明。本文还要经常引用《HNC(概念层次网络)理论》一书的原话,为简便起见,对该书将简称为《专著》。