在反思中前进,在碰撞中成长

黄曾阳

(中科院声学所 北京 100080 hy@mail.ioa.ac.cn)

 

摘要:本文是《HNC(概念层次网络)理论》续篇,概述了HNC理论探索近5年的基本成果,对HNC的某些传统论述进行了反思与改正,同时给出了HNC未来15年探索的素描。本文正式将HNC的探索目标定位于交互引擎的研发,将语言概念空间描述的原5模式说改为概念基元空间、句类空间、语境单元空间和语境空间的4模式说,给出了这4个模式的数学表示式;将交互引擎的基本模块凝练成句类分析、语境单元萃取和语境生成的3部曲或3个基本环节。为达到交互引擎的彼岸,本文阐释了这一科学征途的3项理论工程、4项技术工程和HNC研发平台的概貌。为说明这一彼岸的理论可行性,本文诠释了HNC的两个基本假设和“概念无限而概念基元有限、语句无限而句类有限、语境无限而语境单元有限”的基本论点。

 

1引言

HNC理论基本构架的形成已经整整十年了。

HNC10年的历程是一个幸运的历程。

小托尔斯泰有一部不朽名著叫《苦难的历程》,该名著三部曲的名称是《两姐妹》、《一九一八年》和《阴暗的早晨》。HNC的幸运历程也有一个三部曲,可类比定名为《两仙翁》(按:指语法与逻辑或语言学与哲学)、《一九九七年》和《明媚的晨曦》。

小托尔斯泰完成那“苦难历程”的写作时间是在小说描述事件的20年之后,如果以这个时间为参照 那么HNC幸运历程的描述放到2023年以后比较适当,是今天座中年轻才俊进入“知天命”或“从心所欲”的时候,你们到那个时候看着办吧。

但是 我今天还是要说一点,HNC幸运历程的最大幸运是什么?那就是遇到了众多的伯乐。由于近年我成了一个经常阅读圣经的无神论者 所以 他们成了我心中的科学而非神学的弥赛亚。现在 让我们以热烈的掌声向这些科学弥赛亚表示我们的无限敬意与感谢。有两位科学弥赛亚——陈力为院士和林杏光教授已经离开我们了,让我们以肃穆的沉思表示我们永恒的缅怀。

中国历史最辉煌的年代是唐朝,唐朝最伟大的文豪兼哲人是韩退之(愈)先生,退之先生最富于哲理的名篇之一是“进学解”,“进学解”里最著名的警句之一是:业精于勤,荒于嬉;行成于思,毁于随。从某种意义上说 本文是学习“进学解”的一点体会。

我的体会之一是 退之先生说的“思”就是哲学意义的反思,“随”就是现代意义的拒绝创新与改革。“随”的对偶概念是“撞”,无“思”无“撞”就不能前进与成长。所以 本文定名为“在反思中前进,在碰撞中成长”。

世俗意义下的反思仅对内而不对外,碰撞仅对外而不对内。本文的反思和碰撞则兼对内外,且都以对内为主。

不过 本文并不直接以反思与碰撞为中心展开论述,而是把两者融合到关于自然语言之电脑理解的以下三个基本问题的阐释里。这三个基本问题是:

(1) 为什么已经具有许多奇妙智能的电脑到今天还不能理解自然语言?这里的根本障碍到底是什么?怎样克服这一障碍?

(2) 假定电脑能够理解自然语言,那么 让它成为一个“一目千行,过目不忘”的超级才子(语言超人)存在什么障碍?怎样克服这一障碍?

(3) 假定电脑能够理解自然语言,那必然有一个从低级到高级的成长过程,那么 这一过程主要阶段或基本步调是什么?我们怎样推动这些阶段或步调的实现?

围绕着第一个问题的阐释 本文将着重介绍HNC理论规划中的三项理论工程,简称三部《手册》——《HNC概念基元符号体系手册》、《句类知识手册》和《语境单元知识手册》。

围绕着第二个问题的阐释 本文将简要介绍HNC技术规划中的的三项技术工程——句类分析技术SCA(Sentences Category Analysis)、语境单元萃取技术SGUE(Sentences Group Unit Extraction)和语境生成技术ABS(ABStract),并简述翻译引擎技术预研的要点。

围绕着第三个问题的阐释 本文将简略说明HNC的一项特定计算工程——计算机自然语言理解度的测试与学习平台,这个平台的首要目标是进行电脑理解度的量化与类化研究,将简称HNC研发平台。

如果把这三项阐释所范定的研究目标的实现比作一次重大战役,那么 第一项阐释关系到该战役的战略方针的确定,第二项阐释关系到主战场或主攻方向的选择,第三项阐释关系到关键信息的搜集与分析、先进武器的供应与保证。无庸论证 这三者对于赢得一场战役的胜利具有决定性意义。

HNC通过语言概念空间研究语言现象。语言概念空间是存在于人类大脑之中的一个符号体系,这个符号体系既是人类进行语言思维的载体,又是人类进行语言交际的引擎,这个符号体系将简称交际引擎。计算机要获得理解自然语言的能力就必须也拥有一台在功能上类似的引擎,否则计算机就永远不可能成为名副其实的电脑。这个引擎将叫做交互引擎。交互引擎是交际引擎的仿制,仿制就必然存在简化与不足。交际引擎由千亿数量级的神经元构成,交互引擎将由当前电脑的二进制数字符号构成。HNC的基本定位就是催生交互引擎的问世,这是天方夜谭式的神话么?HNC不持这种悲观态度。HNC已经看到 如果能够实施上述3项理论工程、3项技术工程及其特定计算工程,则完全有可能在15年左右的时间里 使交互引擎在中华大地诞生。

 

2 关于交互引擎的3项理论工程——3部《手册》

本章是本文的重点。将分6节进行论述。2.1节对HNC探索的重要先行者作简要回顾;2.2节介绍HNC理论的基本定位及其两个基本假设;2.3节论述HNC探索预定的3部《手册》不仅是3项理论探索,而且是3项巨大的理论工程;2.4节是本章的第一重点,介绍第一部手册——《HNC概念基元符号体系手册》的要点,重点阐释了HNC概念基元符号体系设计5项基本原则的延伸原则;2.5节介绍第二部手册——《句类知识手册》的要点,对句类概念的HNC传统论述中的失误作了系统的反思;2.6节是本章的第二重点,提出了交际语境和交互语境的概念,阐释了交互引擎研发的基本思路与框架,对HNC理论体系的整体描述进行了反思,将HNC理论体系的原5模式说改成4层级与3提升说,列举了语境单元萃取和语境生成研究的基本课题,概述了HNC理论体系4组表示式——(HNC1)(HNC2)(HNC3) (HNC4)的物理意义。

 

2.1 HNC先驱者的简短回顾——交互引擎的背景说明1

已经具有许多奇妙智能的电脑到今天还不能理解自然语言,为什么?这个问题的答案很复杂,但是又似乎很简单,有一个简单答案是这样的:要理解人类语言就必须拥有世界知识,而世界知识浩瀚无垠,需要软件工程师在语言学家的配合下一点一滴地教给电脑,这个工程太浩大了。面对这一浩瀚无垠的困难,人们思考着并实际采取过许多对策,这些对策可以概括成三种基本类型:最大简化策、愚公移山策和最大似然策。

最大简化策的基本思路是:设定一个受限环境,让这个环境的世界知识十分有限,且语言表达十分规范,此策的代表人物之一是维诺格拉德教授。

愚公移山策的基本思路是:将世界知识划分出一定的类型和层次,用谓词逻辑形式或结构化数据形式写出来交给电脑,前者的代表人物是美国CYC计划的主持者Lenat教授,后者则代表人物众多。

最大似然策当前最走红,领唱者甚多,自称语料库学派。其核心思想是把言语当作一个随机过程,依托大规模真实语料制造一个计算机的进化环境,让计算机在这个环境里以大体类似于宇宙进化的方式自行进化。

前两种对策基本以所谓理性主义为依托,第三种对策基本以所谓经验主义为依托。

三种对策的基本思路朴素而简明,都具有朴素性的固有力量。

但是 对于“已经具有许多奇妙智能的电脑到今天还不能理解自然语言”这样重大的科学问题 仅仅依靠朴素性的固有力量是不够的,需要进行多侧面多层次的反思。我们至少需要反思以下三个基本问题:第一 为什么开始只有极少世界知识的1-5岁正常儿童都是学习自然语言的天才?第二 为什么儿童在完成这一学习的过程中 既不需要学习语法课程,也不需要学习逻辑课程?第三 那高深而且越来越高深的语法学和逻辑学同儿童在潜移默化中获得的基本语法和逻辑知识是否存在某些奇妙的区别?

有两位美国人——乔姆斯基先生和山克先生在HNC之前进行过这一反思,还有一位欧洲人维特根斯坦先生在电脑尚未出现之前就进行过这一反思,并为此写了《哲学研究》这一不朽巨著。

乔姆斯基先生对上列三个基本问题的前一半作过刺猬式反思,山克先生则对三者都进行过狐狸式反思。乔先生的答案是:儿童的语言天赋是由于人类大脑里存在一个经过百万年进化而形成的东西,他把这个东西叫做普适语法(UG)。随后他用毕生精力研究这个东西,在20多年间写下了参考文献中列出的8部专著。山克先生的答案是:语言就是用概念基元写出的脚本,语法不过是一件人为的装饰品。这位先生以典型的狐狸研究风格搞了一种概念基元和若干个小脚本之后就转向其他相关领域了。

上列三位先行者的创新都体现了西方文化的优势特征:熟谙分析与归纳的逻辑。但是理论创新还需要综合与演绎的逻辑,这四位最高理性法官携手合作才能作出重大的创新,近代和现代物理学的重大创新都是四位理性法官携手合作的光辉典范,而我国的两部古老名著——《老子》和《孙子兵法》则是古代的光辉典范。

一个极为常见的认识误区是 这四位最高理性法官需要一位老大。这个老大观念在东方和西方文化里都具有挥之不去的魔性。实际上 这四位最高理性法官需要轮流坐庄,不能由某一位理性法官永远充当老大,就像桥牌游戏的东南西北四家不能由某一家老是坐庄一样。在HNC的形成过程中 演绎起过特殊重要的作用,但绝不是永远的老大,可是 HNC经常流露出演绎老大的意识,这是首先需要反思的。因为 HNC 已经进入不再是演绎坐庄的新时期了,上述7项工程的实施都需要四位最高理性法官的通力合作。

 

2.2 HNC的两个基本假设与电脑未能理解自然语言的症结——交互引擎的背景说明2

自然语言理解是一个从自然语言空间到语言概念空间的映射过程,两个空间各有自己的一套符号体系。语言交际过程、即交际引擎的运作过程实质上是这两种符号体系相互映射的过程。说者//写者将语言概念空间的符号映射成语言空间的符号,这是语言生成过程,听者//读者将语言空间的符号映射成语言概念空间的符号,这是语言理解过程。

语言空间符号体系千差万别,据说 当今世界上还存在6千种之多,但语言概念空间符号体系只有一个,全人类的语言概念空间具有同一性。这是一个假设,是HNC理论的第一假设。这个假设一定会引起质疑,因为不同文化背景和不同民族的语言概念空间必然存在差异。这里的质疑者不了解理论探索的基本特征,那就是必须有所舍弃——舍弃枝节,抓住要害,没有舍弃就不会形成任何理论。这就是黑格尔先生所说“哲学的开端就是一个假设”的真谛。拙著《HNC理论》(以下将记为[H98]pp192-193里写了一段不符合科学论文规矩的话,但由于关系到HNC第一假设是否合理这一根本问题,这里仍然全文引录下来供本文读者思考。

关于这个模型问题,可以说存在两种态度,一是得过且过,在短语结构模型的基础上修修补补,不去触动它的根本缺陷,希求通过受限的约束避开语言的种种不规范现象,也就是避开对语言本质的探索。另一种是乔姆斯基关于自然语言是一个 ill-defined 的东西的说法,脑子里存在大量比喻的和夸张的、乡土的和诗歌的、儿童的和怪诞的例句,并为之困扰而不知自拔,不相信对自然语言的表述可以出现牛顿力学对力学现象或麦克斯韦方程对电磁现象的突破,但是他们不曾想过,如果当年牛顿不是专注于天体的运动,而是专著于羽毛在狂风中的飞舞,麦克斯韦不是专著于电磁场在自由空间中的一般规律,而是专注于方孔的衍射,他们也将一事无成。在建立自然语言模型这一重大探索中,必须紧记有所为和有所不为的辩证法,并深思康德的下列两段名言:

理性必须一手拿着原则,拿着那些唯一能使符合一致的现象成为法则的

原则,另一手拿着自己按照那些原则设计的实验,走向自然,去向自然请教,

但不是以小学生的身份,老师爱讲什么就听什么,而是以法官的身份,强迫

证人回答他所提出的问题。

自然的最高立法必须是在我们心中,即在我们的知性之中,而且我们必

须不是通过经验,在自然里面去寻求自然的普遍法则;而是反过来,根据自

然的普遍合法则性,在存在于我们的感性和知性里面的经验可能性条件中

去寻求自然。

HNC第一假设关系到对语言本体的认识,也关系到对“自然语言理解”的理解。依据这一假设 语言的本体就不是语法,而是语言概念空间。语言概念空间就是拙著《HNC理论》里所说的概念联想脉络或语义网络。乔姆斯先生把他本人精辟阐释的那个人类百万年进化的大脑产物叫做普适语法并不妥当,因为语法这个概念还是停留在语言空间,没有升华到语言概念空间。语言空间和语言概念空间是相互依托但又毕竟具有本质区别的两类空间,语言空间依托于语音和文字而存在,语言概念空间依托于概念联想脉络而存在。语音、文字、概念联想脉络都是符号体系,语音符号体系具有可听性(现代技术还能使之可见、可存贮、可复现),文字符号体系具有可见、可存贮、可复现性,概念联想脉络符号体系既不可听,亦不可见。脑科学研究的现代技术虽然正在朝着使之可观测、可分析的方向努力,但远没有达到像基因复制或蛋白质合成机制研究的技术水平,目前还得主要依靠演绎式探索“鸣锣开道”。

HNC第一假设需要作两点重要补充,两者是对下述两个基本问题的回答。

第一 语言概念空间是概念空间的全部么?回答是:否!语言概念空间只是概念空间的一个子空间。概念空间的其他子空间还有形象概念空间、情感概念空间、艺术概念空间、科学概念空间等。

第二 语言概念空间具有历时性么?回答是:可以忽略!当然 某些概念子空间具有非常鲜明的历时性特征。如科学概念空间在以牛顿和爱因斯坦为标志的先后3个历史时期就具有天壤之别,人类社会物质文明的发展主要依靠这一“天壤之别”的出现。但语言概念空间的主体是稳定的,其历时性远不像语言空间那样突出,仅有某些局部呈现出极为缓慢的历时性。

HNC第一假设的基础上,还需要引入第二假设——关于语言概念空间结构特征的假设。这一结构特征必须假设,因为 如同上面所指出的 脑科学的当前研究水平还不能提供足够的启发性知识。

HNC的第二假设是:语言概念空间是一个4层级——基层、第一介层、第二介层和上层——的结构体。基层对应着语言概念基元符号体系,也称概念基元空间;第一介层对应着句类符号体系,也称句类空间;第二介层对应着语境单元符号体系,也称语境单元空间;上层对应着语境符号体系,也称语境空间。这4层级符号体系及其对应的世界知识将分别简称概念基元世界、句类世界、语境单元世界和语境世界。空间对应着相应科学对象的数学描述,世界对应着相应科学对象的物理描述。这里有一个新术语——语境单元,这里的语境也有它特定的意义,都将在2.6节说明。

这个4层级概念空间和概念世界共同构成语言思维(不是全部思维)的载体,这个语言思维载体的名称就是概念层次网络,简称HNC。为什么使用这么一个人们难以习惯的奇特名称呢?因为语言概念空间的基本特征是它的层次性和网络性。为了便于与传统语言学接轨,我们曾把概念层次网络叫做语义网络;为了便于一般读者的理解,我们也曾把它叫做概念联想脉络。

HNC第二假设隐含着下述三项“无限与有限”的假设,这就是:“语言概念无限而语言概念基元有限,语句无限而语句的概念类型(句类)有限,语境无限而语境单元有限”。

如果在上述两项基本假设的基础上仅探讨概念层次网络的基本理论特征,那就是狐狸式研究,如果锲而不舍地去具体构造出概念层次网络的4层级符号体系,那就是刺猬式研究。显然 概念层次网络的研究需要这两种研究方式的紧密配合,刺猬需要狐狸的智慧,而狐狸需要刺猬的执著。

语言概念空间的上述4层级符号体系一旦构造出来,而且该符号体系能够直接用二进制数字符号加以表示,那么 交际引擎的仿制(即交互引擎的研制)就不再是一个炼金术的幻想,而是一项意义深远的科学工程了。

结论是一清如泉的:仿制交际引擎的关键举措就是首先把体现语言思维载体的上述4层级符号体系装进电脑,并在电脑中形成一个4层级概念世界。这个载体当然有低级、中级与高级之分。人类大脑里存在着该载体的最完善、最高级形态,而现在的电脑连该载体的最简陋雏形都没有,这就是电脑至今不能理解自然语言的症结所在。HNC1998开始试图向电脑装入一个最低级的语言思维载体,2001年基本完成,2002年显示出初步效果,但其喜人之处不在于这些效果本身,而在于他//她所预示的成长潜力。今天晚上 晋耀红博士将向大家展示这一婴儿的憨态,明天晚上 苗传江博士将向大家介绍这一婴儿的知识结构,张全博士则将介绍对该婴儿的托儿所教育设想。

 

2.3 三部《手册》是一项巨大的理论工程,而不只是一个理论体系

为了叙述的方便 下面将把《HNC概念基元符号体系手册》、《句类知识手册》和《语境单元知识手册》分别简称《手册1》、《手册2》和《手册3》。《手册1》将描述概念基元符号体系及其相应的世界知识;《手册2》将描述句类符号体系及其相应的世界知识;《手册3》将描述语境单元符号体系及相应的世界知识。三部《手册》所描述的符号体系及其相应的世界知识相当于概念基元世界、句类世界和语境单元世界的“数字地图”。

概念基元世界大体对应语言空间的词语,句类世界大体对应语言空间的语句,语境单元世界大体对应语言空间的句群。这里的对应不可能是严格的,因为概念基元、句类和语境单元这3个世界所拥有的自身符号体系并非与语言世界的符号体系一一对应,而且对应性的具体表现与具体语言世界(语种)密切相关。“大体对应”是一个极为粗略的描述,确切的描述是三部《手册》的重要内容之一。

我在[H02]中曾用“7-2-1”、“57-3192”和“7-57-7”这三组数字对上述基层与介层概念世界的宏观特性作了一个最高层次的概括。这里首先需要对这三组数字进行反思,本文将把这组数字改成下面的描述“8-2-1”、“2-8-57-3192”和“10-57-7”。下面三节将分别说明对这三组数字变动的反思。

这里需要着重指出的是:三部《手册》不只是对基层与介层概念世界的理论阐释,还要描述对应于概念基元世界的“典型”词语、对应于句类世界的“典型”例句、对应于语境单元世界的“典型”句群;描述捆绑于每一概念符号的世界知识。《手册1》将重点描述捆绑于每一底层概念的世界知识,《手册2》将重点描述捆绑于每一基本句类和常用混合句类的世界知识,《手册3》将重点描述捆绑于每一领域句类的世界知识。

上列“典型”的含义是指典型语种,不只是汉语,还包括其他重要语言,首先是英语。对基层与介层概念世界的世界知识捆绑不能只是自然语言的叙述,还必须使之符号化和结构化,形成相应的数据库和知识库。

由此可见 三部《手册》不是单纯的理论性专著,而是三项巨大的理论工程。

 

2.4 概念基元符号体系手册——《手册1

本节将分三小节进行论述,第一小节论述概念基元世界的基本特性,第二小节论述《手册1》的理论攻关,第三小节论述《手册1》的工程使命。

 

2.4.1 概念基元世界的基本特性

概念基元世界的基本特性可以浓缩成一句话来描述,那就是概念范畴的有限性。HNC把这句话作为一项公理来看待,其整个理论体系就是建立在这一公理的基础上。上述“三无限、三有限”假设实质上是这一公理的推论,其中“概念无限而概念基元有限”的假设更是这一公理的直接推论。

这里的概念基元当然是指语言概念的基元,指概念子空间之一的语言概念空间的全部概念基元,但并不囊括其他概念子空间的概念基元。下文都省略“语言”二字,上文已使用了这一省略。这一申明是必要的,否则容易造成一些毫无意义的误解。

概念范畴的有限性是公理 公理不需要也不能证明。但体现这一公理的概念基元有限性需要通过穷举方式加以描述,这样才能为交互引擎提供一个可操作的基础符号体系。

HNC首先将概念分成3种基本范畴:抽象概念、具体概念和两可概念,后者兼备抽象与具体的双重特性。概念基本范畴的这种划分必然会引起质疑:概念本来就是抽象的,何来抽象与具体之分?质疑者的第一句话没有错,但质疑者的“何来”就有点冒失了。抽象本身具有不同的类型与层次,概念的3种基本范畴正是概念抽象的3种基本类型。所谓具体概念是指对物//人的直接抽象,例如植物和动物是对两类生命体的直接抽象,人是对一种特殊动物的直接抽象,这些概念的外延或所指联系于一定的具体“东西”——物//人。抽象概念不同,它不是对物//人的直接抽象,而是对物//人之表现//特性的抽象。例如作用、过程、转移、效应、关系、状态这6个概念就不直接联系于一定的具体东西——物//人,因为任何东西都具有这6方面的表现,如果要说这些概念的外延或所指的话 那么 可以说它们既无所不延,又无所不指。这类概念就是HNC所定义的抽象概念之一。交际引擎最基本的联想就是把这类抽象概念与上面定义的具体概念区别开来,交互引擎当然也需要这一基本区分。

上面说到的具有“无所不延、无所不指”特性(可简称“两无”特性)的6个概念包含万事万物,是最大的“两无”,它们将构成概念基元符号体系的核心,并命名为主体基元概念。但多数抽象概念并不具有这一最大“两无”特性,而仅具有一定条件(范畴)的“两无”特性,例如描述人与社会共性的概念就属于这一类,人必有情感、思维与理念等,社会必有政治、经济与文化等。这些概念可以与具体东西相联系,但又与那些直接联系于具体东西的具体概念有所不同。HNC把这类概念也纳入抽象概念,并命名为扩展基元概念。

概念基元空间的数字描述“8-2-1”就是指8类抽象概念、2类具体概念和1类两可概念。

8类抽象概念的名称、符号和意义如下表所示:

1:抽象概念基元总表

编号 及名称 映射符号 类型符号 意义
1 主体基元概念 (0-5)y φ 描述万事万物的基本规律(作用效应链)
2 第一类扩展基元概念 (71,72,8,a,b,d)yy ψ//φ 描述历时性较弱的人类活动
3 第二类扩展基元概念 (q6-q8)yy q//φ 描述历时性较强的人类活动
4 基本概念 (j0-j8)y j 描述哲学所关注的基本课题
5 语言逻辑概念 (l0-lb)y l 描述语言生成所必需的逻辑约定
6 语习概念 (f0-fb)y f 描述语言生成所必需的非逻辑约定
7 基本逻辑概念 (jl0-jl1)y jl 描述作为一切判断基本前提的逻辑
8 综合概念 (s1-s4)yy s 描述兼有基元概念、基本概念和逻辑概念综合特征的概念

这一总表体现了下列4项反思:

1.被统称为基元概念的3类概念基元(primitive)仍被统一赋予类型符号φ(φ也可单用于主体基元概念的描述),但第一和第二类扩展基元概念又被另行赋予类型符号ψ和q。约定类型符号φ和ψ都一律不进入映射符号,但q可以进入,也可以被数字符号6//9//c替换。符号q以前曾使用过符号λ和y,这里正式宣告作废。

2.基元概念虽然可以分为主体与扩展两类,但分为3类更恰当,这就是将概念基元世界的总体性数字描述从“7-2-1”改成“8-2-1”的缘故。

3.概念的高层层次数只有23之分。主体基元概念φ、基本概念j、语言逻辑概念l、语习概念f和基本逻辑概念jl的高层层次数都是2,第一类扩展基元概念ψ、第二类扩展基元概念q和综合概念s的高层层次数都是3。以前有关“ψ7特殊、高层为4”的说法是错误的,因为ψ71和ψ72实质上是两个特殊符号,分别表示心理活动和精神状态,不是通常意义下的层次延伸。心理活动与精神状态密不可分,但又具有本质区别。两者必须放在一起,但又不宜设置两者的共性概念节点ψ70。以前用心理活动的复杂性来解释这一符号表示的特殊性,乃思考不够透彻的典型表现。

4.调整了8类概念基元的排列顺序,将语习概念f从第八位调整到第六位,紧随语言逻辑概念l以后,这样综合概念 s就顺理成章地成为殿后者。这一排序更为协调。

2类具体概念的定义是:

1 基本物jw,描述宇宙构成的基本物,并以地球构成的基本物为主,这里的基本物不仅指物质,还包括所有自然之物,并将生命体和人都纳入自然之物。

2 挂靠物w//p,这里符号w表示物,p表示人,统称挂靠物。这两个符号可形成各种组合形式,如pwgwrw等等,p还有p-pepj1*pj2*等特殊符号约定(pee是数字14,不是字母),其意义可参看引文[Miao03]。以前将w//p统称挂靠具体概念,当然无可非议,今后也使用挂靠物统称之。

2类具体概念的基本区别是:基本物具有自身的数字符号体系,而挂靠物不具有,其数字符号体系直接依附于抽象概念,故“挂靠者 依附也”。这里需要再次强调的一点是,挂靠物这一概念的引入有利于具体概念与抽象概念之间相互联想的激活。

两可概念就是物性,以符号x表示。物性x就是物之属性的简称。凡带有w(包括jw)的具体概念符号 如果将w替换成x,那么该符号就变成相应物的物性表示。例如生命体有雌雄之分,其符号是jw6ye2mjw6ye21表示雄性生命体,jw6ye22表示雌性生命体。将上面的符号变成jx6ye2m,它就代表“雄”与“雌”的概念,如果将其中的高层变量符号y用数字3替换,它就代表“男性”和“女性”的概念。物性这一概念本质上都具有两可性,它既具体依附于某一类特定的物,又必然具有游离于该特定物之外的抽象意义,这是所有物性概念的共性。

对概念基元世界的“8-2-1”描述概括了语言概念空间基层的基本特性:抽象概念可穷举为8类;具体概念可穷举为两类——基本物jw和挂靠物w//p;两可概念则仅有物性x这一种类型。《手册1》将通过它的理论和工程描述证实这些论点,下面给出《手册1》各章的篇名,从它可以窥见概念基元世界所面临的基本科学问题。

  1. 主体基元概念
  2. 第一类扩展基元概念
  3. 第二类扩展基元概念
  4. 基本概念
  5. 语言逻辑概念和基本逻辑概念
  6. 语习概念
  7. 综合概念
  8. 具体概念与两可概念
  9. HNC符号体系
  10. 概念关联性表达
  11. 抽象概念的五元组特性和语言的词类
  12. 映射库与反映射库
  13. 概念知识、语言知识与世界知识
  14. 语义块、句类与语境单元

 

2.4.2《手册1》的理论攻坚——实践延伸原则

我在引文[H03]里论述过HNC概念基元符号体系设计的4项基本原则:尔雅原则、语境原则、关联原则和延伸原则。这一论述存在一个不可原谅的疏忽,那就是忘了句类原则。这就是说 HNC概念基元符号体系设计实际上遵循着5项、而不是4项基本原则,那就是:尔雅原则、句类原则、语境原则、关联原则和延伸原则。在[H98]里对这5项基本原则都有所阐释,但分散在不同的处所。因为该书是在特殊情况下出版的一本“散文”集,而不是一部专著,这在该书的“后记”里有明确交代。

引文[H03]还指出:延伸原则是HNC理论的灵魂。因为 概念联想脉络网络两项基本特性(层次性与网络性)的表达难易程度有很大差异,层次性比较简单,网络性极为复杂。后者主要依靠延伸原则来体现,延伸原则的实践就是《手册1》的理论攻坚。

3部《手册》都存在攻坚课题,但《手册1》的攻坚具有奠基意义,因为句类世界的根主要在主体基元概念(作用效应链),句类原则即导源于此;语境世界的根主要在扩展基元概念,语境原则即导源于此。

延伸原则怎样体现概念联想脉络的网络特性?一句话 靠符号的再抽象原则。“符号再抽象原则”是什么意思?那就是用一个数字来表达概念的复杂组合性,引文[H02]曾借用“节日”这个概念演示过符号再抽象原则的具体运用。

为什么符号再抽象原则就能体现概念联想脉络的网络特性?因为所谓网络性主要指概念之间的显式关联性,这种显式关联性总可以通过各项概念之间的逻辑组合加以表达。但这一表示式通常都十分冗长(如“节日”所示),不利于概念关联性的高效计算,而再抽象的简化表示反而有利于这一计算,再抽象的实质是通过隐去某些东西以便更有效地凸现另外一些,这一阐释借鉴了心理学关于“注意”的著名论点——通过“舍掉某些东西以便更有效地处理另外一些[K93]HNC猜想 交际引擎的最大奥秘也许就在于它对符号再抽象原则的充分运用,而不仅是认知心理学所描述的并行运算([L88])。至于交互引擎 它必须也只能主要依靠符号再抽象原则以获得概念联想脉络的快速激活能力。

延伸原则实质上就是符号再抽象原则的并行与交替使用。而延伸原则的可实现性又取决于概念基元的有限性。从这个意义上说 《手册1》的理论攻坚也可以理解为对“概念无限而概念基元有限”这一基本假定的具体求证,下文将把这一求证简称1号求证。

上面的抽象概念基元总表(表1)穷举了抽象概念的有限范畴,1号求证必须从这里起步。换句话说 1就是1号求证过程的基础或第一步,接下来的第二步就是把这些范畴进一步分类,并把基本物也包括进来,从而形成表2所示的概念树总览。

2:概念树总览

概念林名称 概念树符号 概念树类型数
作用效应链 0-5 6
心理活动及精神状态 710-714,720-722 8
思维活动 80-84 5
专业及追求活动 a0-a8,b0-b4 14
理念活动 d0-d2 3
第一类劳动 q60-q64 5
业余活动 q70-q74 5
信仰活动 q80-q85 6
基本概念 j0-j8 9
语言逻辑概念 l0-lb 12
语习概念 f1-fb 11
基本逻辑概念 jl0,jl1 2
综合概念 s1-s4 4//15
基本物 jw0-jw6 7
Σ=97//108

 

如果说数字“8-2-1”是对概念范畴的穷举,表1是对抽象概念范畴的穷举,那么 2就是对概念树的穷举。这里应该指出两点:第一 并不是每一种概念范畴都直接衍生出概念树,挂靠物和两可概念就不具有这一直接衍生性。第二 综合概念s的概念树划分具有两可性,既可以分为4种,也可以分为15种。这两个概念现象是值得深入思考的,但不在这里讨论。

97//108种概念树又具有自身的种属(子类)构成,这些子类被命名为根概念,根概念的总数是xxx。这些根概念的延伸可以覆盖任何概念,这实际上就是“概念无限而概念基元有限”假设的另一种表述方式,这一点将在《手册1》的第九章进行阐释。这里需要强调指出的是:概念树和根概念的数量仅以百计,而每一种语言空间的词语数以万计,这一巨大的数量差异使得概念空间的概念关联性描述远不像语言空间的词语关联性描述那样纷繁,这就为交互引擎的研制奠定了便于实现的符号学基础。

所谓延伸原则的实践就是写出根概念节点的概念延伸结构表示式,对于一个具体的根概念来说 这一表示式可能十分复杂,但问题的关键不仅在于这一复杂性本身,更在于各根概念延伸结构之间的适当平衡。这一平衡性原则的体现或运用正是理论攻坚的要点,其结果将决定概念联想脉络的运转效率。下面通过政治治理与管理(治国)a12这一概念实例对此作简要说明。

政治治理与管理a12的概念延伸结构表示式如下:

a12:(t=a,3,7,\k=2;9t=a,ae2m,3e2m,3eam,7m)

a129 “政治治理”

a129t=a “政治治理的两项永恒课题”

a1299 “开拓性治理”

a129a “整顿性治理”

a12a “政治管理”

a12ae2m “管理的两个基本侧面”

a12ae21 “横向管理”

a129e22 “纵向管理”

a123 “治国面临的基本关系处理”

a123e2m “官民关系”

a123eam “级别关系”

a127 “治国方式的基本操作”

a127m “集中与授予”

a1271 “集中”

a1272 “授予”

a12\k “治国谋略的若干特殊侧面”

a12\1 “政治应变”

a12\2 “政治待遇”

在说明a12的概念延伸结构表示式之前,有必要介绍一下概念延伸结构CESE的一般表示式及有关符号约定。下面给出的表示式经历了10年的反思历程,在[H98]的论文1里给出过相应的文字表述,在[H01]里给出过相应的符号表述,两者反映了这一历程的两个阶段。

CESE::=CP:(ICP1,BCP2;ICP2,BCP2; ) (HNC1)

ICP m//n,ekm//ekn,cmn//dmn,-0|

BCP t=x,\k=x,i=3//7

上列概念延伸结构一般表示式简记成(HNC1),其中各项符号的意义如下:

CP 概念基元(Concept Primitive)符号

ICP, 中层概念基元符号,后缀符号1//2…分别表示一级、二级…的意思

BCP 底层概念基元符号,后缀符号意义同上。

中层和底层概念基元符号都有三种基本类型:3种中层符号分别对应着概念局部联想脉络的对偶性、对比性和包含性(参看[H98]论文11.2节和[Li&CHi04])延伸,3种底层符号分别对应着交织性、并列性和定向性延伸,这3种底层符号也分别简称t表示、\k表示和i表示。它们的数字定义域约定如下:

t表示 9-b8-b

\k表示 1-b

i表示 3//7

在概念延伸结构表示式里省略t表示和 \k表示的起始数字标示,只给出的终止数字。\k表示若自行重复,可省略符号“\”,若转向另两种底层表示,加结束符号“*”。

对政治治理与管理a12这一根概念来说 其一级延伸不存在中层符号,但3种底层符号一应俱全;其二级延伸存在中层符号的非黑氏对偶e2meam和黑氏对偶m,存在底层符号t=a表示。这一延伸结构表示式概括了概念a12的下列基本网络特征。

概念a12的第一项一级延伸a12t=a表达了政治治理a129与政治管理a12a的交织性,前者体现政治治理与管理a12的战略性和机动性侧面,后者则体现a12的战术性和经常性侧面。两者的所指必然超出政治活动a1的范畴,既关涉到专业活动的其他各项领域,又同专业活动基本特性a0的管理a018强交式关联。政治治理a129和政治管理a12a又都有各自的延伸,对应着a12的二级延伸,分别表达政治治理与管理的基本特征。

概念a12的第二项一级延伸a123表达政治治理与管理的关系处理。但是 它只在众多社会关系中选取了两项联想最为紧密的关系——官民关系和级别关系,这里的选择就是上述平衡原则的体现。平衡原则意味着概念a12的某些重要关系处理可放在另外的根节点里,例如国家对经济活动的宏观调控就设置成经济活动a2a24,而一些不重要的关系定向可直接用概念a123与其他概念的复合形式来表达。

概念a12的第三项一级延伸a127表达政治治理与管理的实施方式。但是 它也只在众多的实施方式中选取了两项联想最为紧密的方式——“集中”与“授予”,即权力的合与分或聚与散,这里的选取也是平衡原则的体现。

概念a12二级延伸之一的a12ae2m表达政治管理的横向与纵向结构,而组织结构的这一基本特征在a01里已有设置,为什么又在政治管理a12a里重复设置?因为这一特征在政治管理中表现得最为突出,这是平衡原则的另一种体现。

概念a12的延伸结构表示式就简要介绍上列四点,它们代表政治治理与管理a124项基本内容,这里的“基本内容”就是指概念的网络性,具体说 就是指以根概念a12为源头的主干联想脉络。

说到这里 一个必须提出的基本科学问题是:概念a12的上列延伸结构表示式能够体现其主干联想脉络的完备性么?对这个问题的回答只能是:完备性是一种追求,也是《手册1》理论攻坚的追求,但完备性不能作为交互引擎的必需要求,因为交互引擎只是交际引擎的仿制,应该容许它存在一定程度的不完备性。然而 这只是问题的单纯狐狸式思考,更重要的是问题的狐狸-刺猬式完备思考。如果借用围棋术语大场和急所这两个概念来说 一个根概念延伸结构的大场与急所必须包含在它的延伸结构表示式里,而且该表示式本身应具有开放性或可扩展性,这才是问题的科学答案,表示式 (HNC1) 符合这一要求。

本小节的论述到此似乎可以结束了,因为其主题是延伸原则的实践。但是应该补充说明一点 延伸原则本身具有“承上启下”的内在含义。狭义的延伸只涉及下游,而广义的延伸则还要涉及上游。根概念的上游是概念树、概念林和概念范畴。就概念a12来说 它属于“政治活动”这一概念树a1,该概念树除基干a10(综合概念s之外的任何抽象概念树都有基干,符号统一约定用数字0表示)之外 还有5支主干,a12是其中的第二支。另外4支的名称和符号依次是“政权活动”a11、“政治斗争”a13、“外交活动”a14、“征服与反征服”a15,基干a10的名称则是“制度与政策”,这些内容属于概念a12的一级上游联想。从这里溯流而上,可知政治活动a1这一概念树是“专业活动”a这一概念林的首选,还有以符号a0a2-a8表达的另外8棵概念树。再进一步溯流而上,可知专业活动a这一概念林是第一类扩展基元概念ψ这一概念范畴的内容之一,而全部概念范畴已如上一小节所述。一言以蔽之 所谓延伸原则的实践实质上就是这种上下贯通、左右逢源联想方式的符号表达。

高层概念的最后一级——根概念是后续延伸概念的源头或根,它们是概念树的基干与主干。引言中所说的HNC理论基本构架就是指全部根概念的构架,是在1993年完成的。除极少数备用根节点外 [H98] 对全部根概念都给出了汉语定义。《手册1》将补充英语定义,动用全部备用根概念,并调整部分根概念的定义,这些属于《手册1》的基础性探索,反思与碰撞已经并将继续在这一探索中产生不可替代的特殊作用。

概念范畴-概念林-概念树-根概念也是一个4层级的概念延伸结构,四者共同构成高层概念网络。因此延伸原则实质上有广义与狭义之分,作为HNC符号体系基本设计原则的延伸原则是广义的,而本小节所阐述的延伸原则是狭义的。“延伸概念”或“延伸项”这些术语里的“延伸”应作狭义理解,表示式 (HNC1) 只适用于根概念及其延伸概念的表达。

 

2.4.3 《手册1》的工程使命

2.4.2小节阐释的概念延伸结构表示式 (HNC1) 是《手册1》理论探索的主体。但如上所述 《手册1》不仅是一项理论探索,更是一项工程,它的工程性表现在以下4个方面:一是描述与每一延伸概念对应的基本世界知识;二是描述与每一延伸概念对应的典型词语,三是描述与某些延伸概念对应的句类及其典型例句,四是描述与每一领域概念对应的领域句类及其典型句群。这4项对应描述将分别简称世界知识描述、词语描述、句类描述和领域句类描述。

这里的“领域概念”是指具有领域信息的根概念及其延伸概念,领域句类是指为领域概念配置的特定句类。

《手册1》的世界知识描述将构成《手册2》和《手册3》知识描述的基础。它描述的内容是捆绑于每一概念节点的基本世界知识。这里概念节点不仅指下游的延伸概念,也包括上游的高层概念。

世界知识浩瀚无垠,《手册1》将从一组特殊的视角观察这一知识的海洋,这组特殊视角就是指概念范畴-概念林-概念树-根概念-延伸概念这5个不同层次的视角。

概念范畴的抽象与具体之分、抽象概念的8种类型之分就是概念范畴视角的两项基本世界知识;将心理活动与精神状态、思维活动、专业及追求活动、理念活动纳入第一类扩展基元概念就是概念林视角的一项基本世界知识;[H98]论文1关于作用效应链的一段论述(p29)就是概念树视角的一项基本世界知识;作用必有承受者、而生命承受者对作用必有反应、作用需要分离出免除与约束这两个特殊子类就是根概念视角的一项基本世界知识,政治活动需要划分出制度与政策、政权活动、国家的治理与管理、政治斗争、外交活动、征服与反征服这6个侧面也是根概念视角的一项基本世界知识;概念延伸结构表示式 (HNC1) 是根概念交织视角基本世界知识的总体性描述,上一小节给出了国家治理与管理a12的示例,而政治治理的开拓性与整顿性划分就是根概念交织视角的一项基本世界知识。

从概念空间俯瞰语言空间 世界知识海洋的浩瀚无垠特性就不是那么令人生畏了。因为这些视角的层次特征及其纵横分布特征是清晰而有限的,穷举这些视角的基本世界知识,并形成结构化数据库,能否使得交互引擎具备足够的知识基础?让HNC团队未来15年的探索结果对此作出回答吧。

上面在“世界知识”前面都加了“基本”二字的修饰,这是不能省略的。“基本”意味着有所选择而不包揽一切,那么 其确切含义究竟是什么?请允许我再次借用围棋术语的大场、急所和收关这3个概念来加以说明。这里的

基本=大场+急所

基本世界知识是世界知识的精华,在HNC的论述里经常称作精华知识。这就是说 世界知识的描述一定要分清主次,要吸取Lenat先生的教训[L95],千万不要在探索征途的布局和中盘阶段走出收关的软招,这是不高明围棋棋手的通病。HNC团队在自己探索征途中要尽力避免不高明棋手的失误,并应特别经常提醒自己 不要在前5年的第一阶段里走出收关的软招。虽然那不会像围棋比赛那样导致失败,但肯定是宝贵时间的巨大浪费。

《手册1》的词语描述是4项描述的关键工程,它是句类描述的基础,需要行家的亲力亲为,其工程量最大。这里说的行家,不是指通常意义下的语言学行家,而是指熟悉HNC理论和HNC概念基元符号体系的语言学行家。这里说的词语 不是仅指汉语,还应包括当今世界的至少8种主要语言,英语是当然的首选。

行家的亲力亲为是词语描述的绝对必要条件。语言概念空间与语言空间的相互映射必须以词语为激活因子,别无选择。这里的词语描述是指从概念空间到词语空间的逆映射,概念基元的确定性与词语的不确定性之间的矛盾在逆映射中表现得更为突出。语料库语言学对这一根本矛盾的消解能产生多大作用?我不抱乐观态度,我认为行家的亲力亲为是绝对不可替代的。但这一主张极容易被视为手工作坊式的落后劳作,似乎是万里出差不乘坐飞机而坚持步行的胡思妄想。这里应该感谢HNC团队近6年的实践,特别是苗传江博士的杰出工作。这些实践证明 上述要求的行家是不难培养与造就的,行家亲力亲为的主张是现实可行的。3部《手册》的编撰本身就意味着这一主张即将进入具体的实现阶段,不必浪费时间继续就能否实现问题作无谓的辩论了。

《手册1》的句类描述和领域句类描述主要为后两部《手册》提供理论基础,这里就不来多说,下面两节还会提到。

本节最后概述一下4项描述的方法论要点:

世界知识描述以演绎为主,归纳为辅;

词语描述主要依靠分析;

句类描述需要归纳与综合并重;

而领域句类描述则只能依靠演绎。

我们看到 4位最高理性法官在4项描述的探索中将轮流充当“老大”。

 

2.5 句类知识手册——《手册2

如同2.4节一样,本节将分3小节进行论述,2.5.1小节论述对某些原有句类论述的反思;2.5.2小节论述《手册2》的基本描述原则;2.5.3小节论述《手册2》的工程使命。

 

2.5.1 关于句类已有论述的一些反思

2.3节已经指出 句类空间的宏观特性描述需要从数字串“57-3192”转变到“2-8-57-3192”,本小节将从这一改动的反思说起。

数字串“57-3192”表示57组基本句类和3192组混合句类,数字串“2-8-57-3192”里的后两个数字沿用原来的意义,前两个数字的意义如下面的表3所示:

3:基本句类概念树

2分类型   8分类型 编号
广义作用句  作用0 转移2 关系4 思维活动80-84  1-32
广义效应句  过程1 效应3 状态5 基本逻辑判断jl0-1  39-57

 

3的全称是“基本句类所对应的概念树”,简称“基本句类概念树”。表中所列举的8类概念树决定基本句类的8种基本类型。这8种基本类型又可以区分为广义作用句和广义效应句两大类,每大类各自分为4类。广义作用句的4类是作用句、转移句、关系句和判断句,广义效应句的4类是过程句、效应句、状态句和基本判断句。

基本句类概念树的“2-8”区分说是对HNC传统7分说的反思,7分说的含义是“作用效应链+判断”,简称广义作用效应链。

HNC的传统论述里 7分说本身存在着一项内在矛盾,那就是“7-36”说和“57-3192”说之间的矛盾,前说假定不存在ED类型的混合句类,后说则容许该类型混合句类的存在。对这一矛盾的理论思考不在这里阐释,而只指出7分说不利于下述语言现象的俯瞰。

所谓语言现象的俯瞰是指从语言概念空间俯瞰语言空间所观察到的语言现象。按照“2-8”区分说 句类空间存在着广义作用句和广义效应句两个子空间,这两个句类子空间具有本质不同的句式特征。汉语的广义作用句呈现出丰富多彩的规范格式,著名的“把”字句就是汉语常用的规范格式之一。英语的广义作用句如果以广义对象语义块GBK2充当主语,则必须采用带by的被动式(用格式符号!01表示)。与此相反 汉语的广义效应句不允许采用规范格式,但可以采用违例格式,而英语的广义效应句不能采用带by的被动式,但对某些句类又必须采用不带by的被动式(用格式符号!02表示)。这一句式特征对语句分析无疑具有重要的指导意义。这一句式特征是语言现象呈现在俯瞰视野里的一项规则。

HNC经常说([H99] 俯瞰视野里的规则(也简称俯瞰知识)没有例外,对语言现象使用“规则没有例外”的说法一定会引起争议,也应该和必须争议(碰撞)。“俯瞰视野”的限定性不可能彻底消除这一争议,因为俯瞰不能替代仰观,但“俯瞰胜于仰观”则是不争的事实。俯瞰没有例外不等于俯瞰没有模糊(两可、歧义),表3就表明了这一特性,32组广义作用句和19组广义效应句之间存在着6组编号为33-38的两可句类。但两可不等于例外,“规则必有例外”的说法不符合科学陈述的基本原则,如果能够将例外出现的条件加以澄清,例外不就转变成“例内”了么?所谓研究 本质上就是做这项转换。因此 如果有人说3部《手册》的基本使命就是揭示并阐释俯瞰视野里的知识与规则,那我是深表赞同的。

总之 7分说不区分思维活动8所描述的判断和基本逻辑概念jl所描述的判断是一个原则性错误,表3的“2-8”区分纠正了这一错误。

下面将反思HNC理论传统表述中的一些失误。造成这些失误的背景比较复杂,一些问题的彻底解决也许需要反复碰撞。因此 下面的论述并非都具有一锤定音的强制性。

◇关于“特征语义块EK决定句类”和“EK决定于动词”的表述错误

这两个说法都具有严重错误,但在HNC的论述里却经常见到。句类是语句概念类型的简称,代表或对应一种类型的全局概念联想脉络,特征语义块和广义对象语义块都是句类的函数。是特征语义块决定于句类,而不是特征语义块决定句类。如果特征语义块能够决定句类,那自然语言语句的理解处理早就应该突破了;句类分析三步曲关键性的第二步——句类检验就可以取消了,甚至可以说整个HNC理论都是画蛇添足地多此一举了。

“EK决定于动词”的说法只适用于EK构成的部分情况,而不是全部情况。对于EKk=E+EH这一极为重要的常见情况(汉语和英语皆然) EK决定于名词EH,而不是动词E。因此这一表述的片面性失误对HNC来说是不能容许的。

上述两项错误都可以从[H98]的论述中找到起源,如果说这是“散文”集[H98]匆忙出台的必然后果之一,还不如说它是传统思维惯性的顽强表现。

应该指出 句类和语义块既是概念空间的“天使”,又是语言空间的“凡人”。这一两重性使第一项错误“情有可恕”,但不能减轻第二项错误的不可原谅性。作为“天使” 语义块和句类不具有语种个性,作为“凡人” 他们又都具有语种个性。在分析具体语句的时候 对于带有EK的句类 其句类信息只能首先取自EK,以形成句类假设。但是 由EK形成句类假设和EK决定句类是两个完全不同的概念,“EK决定句类”的说法把这两者混淆了。语言空间的EK通常具有多句类代码,形成[H99]所论述的语句理解处理20项难点中的第一号难点。这一多选一过程是句类检验的重要内容之一,句类检验需要利用EK和所有GBK之间的关联信息,包括GBKm之间的关联信息,无EK句类的判定主要是利用GBK2的信息。

当然 句类由EK唯一确定的情况是存在的,且并不罕见。HNC在论述句类时喜爱引用的反应句就经常出现“EK决定句类”的现象。但是要注意这只是一种现象而非本质,反应句的具体反应(EK的特定内容)是由反应者X2B和反应引发者及其表现XBC所决定的,这才是反应句的真谛。反应句这一句类所描述的概念联想脉络是:特定的反应者将对特定事物产生特定的反应。这三者可以互相衍推,这无须争论。问题在于 不是三者之间谁衍推谁或谁主谁辅,而是三者之间的关系决定于反应句这一特定句类。

◇关于某些基本句类的命名和符号改动

这里只具体讨论两个基本句类,一是基本作用句,二是作用效应句,前者不更名而仅改变符号,但实际上改变了它的物理意义;后者则将两者都作变动,但实际上未改变它的物理意义。基本作用句将改用下面的句类表示式

X0J=X0A+X0+X0B

作用效应句将更名为块扩作用句,其句类表示式改成

X03J=X03A+X03+X03BC

语义块X03BC具有块扩特性。原来的基本作用句表示式仍然保留,但取消“基本”二字,称一般作用句或简称作用句。[H98]中关于语义块B=XB+YB+YC的论述只适用于新定义的语义块X0B,而不适用于一般作用句的语义块B

这里希望向读者传达的基本信息是:HNC需要对句类空间的基本句类再作一番清理,清理的对象是那些本质上属于混合句类的基本句类。因此 这一清理的性质与上述概念基元空间的根概念清理有所不同。具体清理内容是《手册2》的任务,上述改动只是其中的两项。

◇关于句类空间的数学描述

HNC的传统论述出现过对句类空间的多种数学描述,在[H01]里曾试图给出一种最终形式的样板,这里建议改成下面的形式

SC=GBK1+EK+GBKm(m=2-4) (HNC2)

SCR=SC+fKm (HNC2R)

表示式 (HNC2) 是对句类空间的数学描述,而不是对句类世界的物理描述。(HNC2) (HNC1)一样都是对概念联想脉络网络性的描述,但(HNC1)的描述是后台隐性的,而(HNC2)的描述是前台显性的。

 

2.5.2 《手册2》的基本描述原则

如果说上一小节的讨论主要涉及句类空间,那么本小节的讨论将转向句类世界。我们需要为句类世界的描述制定一些基本原则,没有这些原则的指导,对句类世界大场与急所的辨认将失去判据,因而将在纷繁无比的句类世界面前无所适从,4位最高理性法官也将陷入爱莫能助的困境。总之 这些基本原则的作用如同概念基元世界的前述5项原则。

《手册2》的基本描述原则建议如下:

知识对应原则——联系于基本句类与世界知识的必然对应性

知识配置原则——联系于混合句类与世界知识的可选对应性

交际效用原则——联系于句类分析20项难点的综合治理

交互效用原则——联系于实际句类分析系统弱点及错误的综合治理

区别对待原则——联系于句类世界语种个性的表述

5项原则将称为《手册2》的5项基本描述原则,也就是句类世界的5项基本描述原则。每一项原则的要点就是破折号后面的说明。这5项原则也可凝练成3项原则——知识性、

效用性和区别性原则,三者是相互支撑的。

每一基本句类对应着一定的世界知识和语言知识,每一混合句类也对应着一定的世界知识和语言知识,这些知识统称句类知识。但基本句类与其句类知识的对应性同混合句类与其句类知识的对应性有本质区别。 [H01]曾经指出 混合句类“提供了一个设计、赋予、配置句类知识的巨大空间。我们需要更多的博士来研究这个具有重大意义的课题”。这就是说 混合句类的对应知识(可简称混合句类知识)是可以设计、赋予和配置的,即可选择的,而基本句类对应的知识(可简称基本句类知识)并不具有这一特性。

为什么基本句类和混合句类存在这一本质差异?它同这两种句类的定义有什么联系?如何解释基本句类的纯净性与混杂性?混合句类知识的可选择性与前述延伸原则中的平衡原则是否存在某种联系?HNC还没有明确阐释过这一重大理论课题,它属于HNC理论战线的急所之一。这里建议《HNC探索与实践》网络季刊就这类(下面还会谈到另外的一些)急所性理论课题组织专稿并展开讨论。

知识性原则理所当然地是《手册2》的第一描述原则,因为“知识就是力量”。但是 知识本身并不能自动形成语用力量,知识必须在运用中才能形成语用力量。这就是说 知识性原则必须与效用性原则相互配合 才能使知识形成语用力量。那么 效用性原则包含哪些基本内容?HNC对此的传统论述是否充分和适当?上述关于特征语义块与句类关系的错误论述是否与效用性原则存在某种联系?这也是HNC理论战线的急所课题之一。

在上面的“5项原则”中 效用性原则被区分为交际与交互两方面。这两个修饰性词语未必恰当,重要的是破折号后面对两者所陈述的含义。这里的“交际”是指真实语料中所呈现的语言现象,而这里的“交互”是指真实语料在经过特定语言处理系统处理之后所呈现的语言现象。换句话说 前者涉及交际引擎形成的语言现象,后者涉及交互引擎形成的语言现象。这两种语言现象的差异是交互引擎成长过程最重要的学习“教材”。计算语言学界对交际语料给予了足够重视,但尚未认识到交互语料同样重要,至于上述“教材”的“编撰”根本还没有提上日程。虽然出现过一点零星的探索[Song03],但远未形成明确的理论探索思路。HNC团队拥有从事这一探索的极佳条件,可惜始终处于议而未动的状态。

上面说到交际语料的天使与凡人双重性,如果说交际语料里的凡人基本上都是正常的凡人,那么 初期交互语料里的凡人就必然不是这个情况了,会出现相当数量的不正常凡人。辨认这一正常性与不正常性的基本判据是什么呢?语法学研究过许多语法判据,HNC要高度重视并积极吸收语法研究的成果。但HNC认为最基本的判据应植根于句类知识,那些具有天使特性的句类知识尤为重要。HNC在这个基本问题的传统论述中比较重视前3项原则,但出现过忽视句类知识语种个性(即凡人特性)的错误倾向。句类世界第五项描述原则——区别对待原则——可以说主要是为了纠正这一错误倾向而提出的。总之 交互效用原则和区别对待原则还是一片待开垦的处女地。《手册2》的编撰过程要大力加强这片处女地的耕耘。

 

2.5.3《手册2》的工程使命

如果说《手册2》的基本使命就是把句类世界的上述5项描述原则落实到每一组//个基本句类和混合句类。

如果说 在语言概念空间的4层级世界中 句类世界起着承下启上、而不是承上启下的作用(因为句类世界的下方是概念基元世界,上方是语境单元世界);句类世界的解析远比概念基元世界复杂(因为句类世界的维度以千计,而概念基元世界的维度以百计),因而《手册2》是比《手册1》更为浩繁的理论工程。

如果说 没有《手册2》为理论后盾,句类分析的句类检验将始终处于脆弱状态,词语知识库的建设也将始终处于难以辨认大场、急所与收关的低水平状态。

如果说…

这样一些关于《手册2》的HNC传统论述不仅没有错误,而且都十分重要。但是 它们都未能指出《手册2》工程使命的要害。

那么 什么是《手册2》工程使命的要害呢?

两句话。一是给出汉语和英语交际引擎形成的句类分布方图和每一句类的典型例句;二是给出汉语和英语交互引擎实际形成的句类分布偏差分布方图(下文将简称偏差分布方图)和每一句类的典型偏差例句。

为了得到句类分布方图 需要按照HNC的语句标注方案至少标注10万句语料,这是《手册2》理论工程的起码基础。有了这个基础 句类分布和偏差分布方图都不难自动生成。

句类分布方图不仅是检验HNC句类理论的试金石,也是检验概念基元理论的试金石。

交际引擎的实际语句会出现句类世界之外的语句么?汉语和英语的句类世界到底存在哪些重大差异呢?这两个基本问题可以也只能从句类分布方图获得答案。

交互引擎展现的句类世界与交际引擎真实句类世界之间的偏差能降低到可以忽略不记(例如1%以下)的程度么?这个根本问题可以也只能从偏差分布方图的动态进程获得答案。

不言而喻 句类分布方图的主体是静态的,但应同时给出各种尺度的动态分布方图;偏差分布方图的主体是动态的,句类分析技术的生命力将取决于这一动态进程的趋向。

本小节最后 应说明一下所谓典型例句的典型性问题。这里典型的价值不仅取决于所选语料的平衡性,也取决于对特定语句的收集与扩展。所谓特定例句是指下面的一些例句,其中带前标记 * 号的属于扩展例句,而扩展例句可能不成立。

他吃[食堂//*办公室]

他的老师[教得好//当得好]

这本书我看了三天就[腻了//忘了]

他的老伴三年前就死了// 他三年前就死了老伴

布什总统对美军轻取巴格达表示[满意//*失望//*悲愤]

4个例句是语言学界熟知的特定例句,HNC不难从混合句类知识的角度对它们给出交互引擎也能把握的分析与解释。第五个例句是本文杜撰的,HNC交互引擎利用反应句的前述句类知识应不难确定该例句使用“满意”时的必然成立、“失望”时的可能成立和“悲愤”时的不能成立。我希望《HNC探索与实践》多刊载一点进行这类分析的论文。

 

2.6 语境单元知识手册——《手册3

如同前两节一样 本节也将分3小节进行讨论。2.6.1小节论述对HNC理论5模式说的反思;2.6.2小节论述《手册3》的基本描述原则;2.6.3小节论述《手册3》的工程使命。

 

2.6.1 关于HNC理论5模式说的反思

HNC5模式说是:

1. 自然语言概念体系的理论模式

2. 自然语言语义块和语句的理论模式

3. 句群和篇章要点的模式

4. 短期记忆和长期记忆的形成及其相互转换模式

5. 基于文字文本的计算机自学习模式

此说谋划于1990年的HNC探索初期,曾在 [H98]的“弁言”和“论文3”里说到。但作者在1998年后已不再使用5模式说,到2003年正式改成上述4层级说。4层级说也可以叫做4模式说,它保持原来的前两个模式,但分别使用概念基元和句类 [符号体系//空间//世界] 的正式名称,两者分别形成4层级说的基层和第一介层;后3个模式则凝练成语境单元和语境框架这两个模式,使用语境单元和语境框架[符号体系//空间//世界]的正式名称,两者形成4层级说的第二介层和上层。在4层级说里 记忆和自学习的机制已经融合到语境单元及其萃取、语境框架及其生成的处理过程之中了。

HNC5模式说是对语言传统论述里6层次说的反思,反思的切入点有两个。一是6层次的划分里有两处台阶太高;二是6层次说将记忆和学习游离于语言学研究之外,需要把它们融合进来。

第一个切入点的反思结果是:第一 有必要在短语//词组与句子之间加上语义块这一过渡台阶或层次;第二 有必要在句子和段落之间加上句群这一过渡台阶或层次。作者曾戏言“如果不加这两个台阶,连巨人姚明都跨不上去,遑论我辈常人,更别说计算机了”。这里应该告诉读者的是:理论上由于语义块是句类的函数,句类的概念应产生于语义块概念之前,但实际情况恰恰相反,是句类的概念产生于语义块的概念之后。

第二个切入点的反思在1998年之前仅停留在借用已有概念的初级阶段,一直到2000年才将记忆与学习机制融合到语境单元和语境框架的模式里。下面将简要说明这两个理论模式,这里应该首先告诉读者的是:语境单元和语境框架的研究进展仅相当于前两个模式在1992年的水平,距离王国维先生所说的第三境界还有很远的探索历程。

语境单元之于段落、篇章相当于语义块之于语句。没有语义块的概念,我们就不可能给出语句的数学物理表示式;同样 没有语境单元的概念,我们就不可能给出段落、篇章的数学物理表示式。这些表示式试图描述交际引擎的运作原理,然而其首要目标是服务于交互引擎的研制。HNC的理论探索 归根结底就是为了找出描述交互引擎原理的基本数学物理表示式,从这个意义上说 HNC理论也可以叫做语言物理学,但不是语言逻辑学。因为 从表1到表3 我们已经看到 逻辑概念只占HNC概念符号体系的一个较小部分。

前面的 (HNC1) 是语言概念空间基层的数学表示式,(HNC2) 是语言概念空间第一介层的数学表示式,下面将给出语言概念空间第二介层和上层的数学物理表示式。

语言概念空间第二介层的数学物理表示式也叫语境单元表示式,语言概念空间上层的数学物理表示式也叫语境框架表示式。

语境单元表示式的构成如下:

SGUN=(DOMSITBACEBACA) (HNC3-1)

SGUD=(8y:|DOMSITBACEBACA) (HNC3-2)

SIT=SCD(A,B,C) (HNC3a)

DOM——领域

SIT ——情景

BAC——背景

BAC[E//A]——事件//述者背景

SCD——领域句类

语境框架表示式的构成如下:

ABS=(BCN//BCDXYN,XYD,PT,RSBACEmBACAm) (HNC4)

BCN// BCD——对象与内容的叙述//论述

XYN//XYD——作用与效应的叙述//论述

PT——过程与转移的描述

RS——关系与状态的描述

这两个表示式的物理意义将在下一小节作简要说明,这里先要向读者传达的信息是:语境单元表示式SGU[N//D]就是对短时记忆或工作记忆机制的描述,语境框架表示式ABS就是对长时记忆机制的描述。所谓短时记忆与长时记忆的相互转换就是这两个表示式的相互转换,所谓“基于文字文本的计算机自学习”就是计算机在阅读过程中形成语境框架表示式。HNC 假设交际引擎的运作过程也使用这两个表示式。

前述“语境无限而语境单元有限”的假设就是指语境单元表示式的数量有限,而这一有限性是由领域句类SCD的有限性所决定的。

 

2.6.2 《手册3》的基本描述原则

如果说本文2.5 节以前的论述对于比较了解HNC的读者会有似曾相识的感觉,那么对本节的论述就不会再有这种感觉了。因为HNC的语境论述基本处于在HNC团队内部流传的状态,这里的主观原因是作者遵循“宁无导而不误导”的祖训,不遽然发表论文;客观原因是中国尚未形成反思与碰撞的良好学术氛围。本小节是HNC语境说的首次公开“亮相”,将以小论文的形式进行论述,此前仅有几篇论文[Jin03][Wei03]略有涉及。

语境研究具有悠久的历史。公元6世纪初我国的文学理论巨著《文心雕龙》就是语境论述的鸿篇。陈望道先生上世纪30年代在《修辞学发凡》里就提出过语境构成的“6何”说(何故、何事、何人、何地、何时、何如)。在西方 波兰的马林诺维奇、英国的弗斯和韩礼德、美国的费什曼和海姆斯对现代语境学都作过一些基础性的探索。

在语言哲学的语用学转向中 语境研究实质上居于中心地位。语用转向的理论基础是言语行为理论,该理论的要点是言语行为3原则说和语用行为5类型说。

言语行为3原则是:语谓行为 locutionary acts(亦译以言表意)、语用行为 illocutionary acts(亦译以言行事)和语效行为 perlocutionary acts(亦译以言取效)。语用行为5类型说是:判定式 verdictives 、执行式 executives 、承诺式 commissives、表态式 behabitives和阐述式 expositives

语用学转向的最新发展是普遍语用学理论,该理论的要点是:要用理想共同体的概念替换公共领域的概念。理解是交际的本质,交际总是以理解为目标的。澄清理解的意义正是为了成功或有效地交往,澄清不仅是指语义上的解释,而且要对不同层次的理解提出相应的限制条件。理解这个词是含混不清的,最狭窄的意义是表示两个主体以相同的方式来理解一个语言表达;而最宽泛的意义则是表示两主体间存在某种协调。

上述论断对HNC语境说的形成都具有重大启示作用,语境研究的丰富成果见参考文献给出的专著。但是 这些论述毕竟还不是交际语境的全息描述模式,更不是交互语境的可实现描述模式。

语境有广义与狭义之分。广义语境包括两部分:第一是话语自身,简称上下文context;第二是话语形成过程的外部环境,简称语域register。语域就是狭义语境,但语域这个概念没有流行起来,通常就把狭义语境叫做语境。对人类交际者来说 上下文与语言环境的分野是清晰的。上下文里蕴涵着现场语言信息,简称言内信息;语言环境里蕴涵着言语之外的现场信息和大脑中原已存储的相关信息,简称言外信息。言内信息与言外信息相互耦合形成交际语境,在形成交际语境的过程中 交际者得以实现对自然语言的理解。

对当前的计算机来说 言外信息是不存在的,不具备言内信息与言外信息相互耦合的基本条件,因而也就不可能形成交际语境。这就似乎出现了“皮之不存,毛将焉附?”的严峻态势。但是 言内信息与言外信息并不是毛与皮的关系,而是类似于鸡与蛋的关系,是相互依存的关系。

传统语境研究仅面向交际语境,它主要关注鸡生蛋的过程,即语境的运用。而交互语境的研究则应首先关注蛋生鸡的过程,即语境的生成。交际语境里的“鸡”只有人,交互语境里的“鸡”加入了计算机;交际语境里的“蛋”首先是口语,交互语境里的“蛋”则应首先定位于书面语,而且最好是先避开诗歌、童话和特殊运用方式的方言。交互语境是交际语境的简化,是交互引擎简化交际引擎的模拟中最重要的一个环节,主要目的是为了便于实现交互语境的生成。HNC语境说主要是基于这一思考而启动自己的探索。

这里说的简化当然是指抓住要害,抛弃枝节。

但是 什么是交际语境的要害呢?怎样才能抓住这一要害呢?

让我们站在计算机的立场上对语境问题重作一番思考。

如果我们说:听和读在大脑里留下的东西就是语境,语境就是言语的效应。那上述“皮之不存,毛将焉附?”的矛盾就不复存在,而交互语境的生成就有希望了。

如果我们说:语境当然具有个人、民族、地域、专业的特性(个性),就如同言语具有类似个性一样。但是 语境必然和必须具有共同的基本框架特征,承认这一点 我们就有可能着手这一框架的设计了。

如果我们说:任一语言段落//篇章构成的语境大厦都是由有限类型的基本构件组合而成,那语境生成的探索就有了契机。如果将这些基本构件命名为语境单元,那就回到了我们在前面说过的“语境无限而语境单元有限” 这一基本假设。它是HNC“三无限与三有限”的基本假设之一,但是 这一科学探索的必由之路能够转化成必胜之路么?

如果我们说:概念无限而概念基元有限的基本假设由于概念基元数学表示式(HNC1)的发现而获得了印证;语句无限而句类有限由于句类数学表示式(HNC2)57组基本句类物理表示式的发现[Miao02]而获得了印证;语境无限而语境单元有限的基本假设由于语境单元数学物理表示式(HNC3)的发现而获得了印证。那么 是否可以说 上述必由之路向必胜之路的转换障碍已经基本消除了呢?请允许我重复一遍上面的用语:让HNC团队未来15年的探索结果对此做出回答吧。

说到这里 我们已经到达了HNC全部探索的要害所在,那就是为什么语言概念空间的3组表示式——(HNC1)(HNC2) (HNC3)——可以充当HNC关于“三无限与三有限”基本假设的印证。愿意与HNC进行碰撞的学界朋友请从这一关键点上入手,而不要仅停留在怀疑论的水平上。

上文对(HNC1)的印证作用以数字系列“8-2-1”为基础进行了比较详细的说明,这一说明沿着两条主线,一是通过表1和表2对概念范畴、概念林、概念树的穷举揭示了概念基元有限性的理论依据,二是通过根概念延伸原则的阐释具体展示了概念基元有限性的符号表示方案。但是 上文并未对(HNC2)(HNC3)的印证作用给出相应的说明,仅给出了(HNC2)的数字系列“2-8-57-3192”描述结果,并在表3穷举了基本句类所对应的概念树。对(HNC2)(HNC3)印证作用的说明是本小节的基本使命。

在进行这一说明之前 我们需要对(HNC3)的物理意义给出解释。

(HNC3)表明 语境单元是一个三要素的结构体,三要素的名称分别是领域DOM、情景SIT和背景BAC,而背景BAC又区分事件背景BACE和述者背景BACA。领域DOM描述事件的类型,情景SIT描述事件的作用效应链表现,事件背景BACE描述事件发生的主客观条件,述者背景BACA描述叙述者//论述者的特定视野。

(HNC3-1)(HNC3-2)表明 语境单元存在两种基本类型:叙述 narrate型和论述 discuss 型,两种语境单元分别记为SGUNSGUD

(HNC3a)表明 语境单元的情景要素SIT由领域句类SCD描述。领域句类SCD概念的引入是使情景SIT可计算的关键步骤。至于领域DOM和事件背景BACE的可计算性则早已预谋在概念基元符号体系的设计里了。稍后将对这两点作具体说明。

前已指出:按照正常的思维规律 语义块的概念应产生于句类的概念之后;同理 语境单元的概念应产生于语境框架的概念之后,而实际情况都恰恰相反,为什么?这是由于HNC的探索乃是从语言学传统6层次说的反思起步。这一反思导致语义块和句群概念的产生,而从句群到语境单元仅一步之差,这关键性的一步是怎样迈出的呢?

语言学提出过话语的4项基本原则[G75]:真实原则quality(不说假话)、适量原则quantity(不多不少)、扣题原则relevance(不说无关的话)和明晰原则manner(条理清晰)。实际语言并不严格遵守这4项基本原则,但相对说来 对扣题原则的偏离最小。扣题就自然形成句群,句群就是围绕着一个特定概念来展开话语,“题”就是指一个特定的概念。“题”的转移就意味着句群的变动。这个“题”在语言空间并不显现在音和形上,而是隐现在义上。人是通过概念联想脉络抓住这个隐现之“题”的,但计算机就困难了。HNC概念基元符号体系的作用就是把这个语言空间隐现的义转变成语言概念空间显现的义,这样 计算机就有可能抓住这个“题”了。

一个特定概念不等于一个概念节点或基元,因为有些概念是概念基元的复合。但是 无论是概念基元或其复合 其“题”在语言概念空间都是显现的。

让我们承认“题”的显现问题已经解决,但是我们还需要回答两个基本问题,“题”是有限的么?句群与语境单元如何对应呢?

上面已经说到 根概念的数量仅以百计,加上延伸概念,概念节点的总量也不过数以千计,这似乎表明“题”是有限的,然而这一思考是完全错误的。问题在于复合概念(包括动态复合概念)具有无限的特征,而与“题”对应的概念当然要包括复合概念。

这样 “题”之有限性问题似乎走进了死胡同,如何摆脱这一困境呢?

摆脱这一困境的关键在于抽取“题”之要素,HNC语境说将“题”之要素抽象为领域DOM、情景SIT和背景BAC三项。第一要素领域DOM来于言语活动主要面向人类活动的思考;第二要素情景SIT来于万事万物都必须遵循作用效应链规则的思考;第三要素背景BAC来于上述言内信息必须与言外信息相互耦合的思考。我们把这三要素构成的东西命名为语境单元SGU,如 (HNC3) 所示。HNC认为:抓住了这三项要素就等于抓住了语境构件的牛鼻子,其他都是枝节了。

SGU是英语Sentences Group Unit的缩写。这就是说 我们将句群与语境单元SGU对应起来,但两者又有区别。因为实际的句群几乎不可能给出语境单元的完整信息,对照(HNC3)表示式 这是一清如泉的。但是 一个句群总能给出语境单元的关键信息,否则就不符合话语的上述4项基本原则了。句群是语言空间的东西,语境单元SGU是语言概念空间的东西。从语境单元俯瞰句群,上述“题”之无限性困惑已不复存在,因为语境单元三要素的有限性得到了HNC概念基元符号体系和句类符号体系的保证。至于句群的各种个性表现(缺胳膊短腿之类)当然具有无限性,但已经是枝接问题了。

这里还应该指出 语境单元3要素并不构成一个3维度独立且等价的空间,而是一个以领域DOM为主轴的3维空间,其情景SIT和事件背景BACE都是领域的函数。领域DOM这一主轴类似于我们熟悉的实际空间的铅直坐标。

语境单元SGU有限性的本质在于领域DOM类型的有限性、领域句类SCD数量的有限性和事件背景BACE类型的有限性。前述的“预谋”就是指领域和背景类型的有限约定。领域的有限性主要体现在扩展基元概念的设计,前文曾将这一设计原则称为概念基元符号体系的语境原则,具体实施方案就是将表2中的一部分概念林直接与语境领域对应,如下面的表4所示。

4:领域概念总览

类型  符号
1(7) 心理活动及精神状态 71,72
2(8) 人类思维活动 8
3(1) 专业及追求活动(第二类劳动) a,b
4(5) 理念活动 d
5(2) 第一类劳动 q6
6(3) 业余活动 q7
7(4) 信仰活动 q8
8(6) 本能活动 6m(m=0-5)
9 灾祸 3228α(α=8-b)
10 状态 503,50α(α=8-b)

3的前8种领域在[H98]中有详细阐释,括号中的编号是原来按重要性给出的语境代码,现正式宣告作废,因为它不具有实质性意义,而可能增加软件的额外负担。灾祸与底层状态50350α是后来增加的两种特定领域。关于这两个领域增加项的思考不在这里讨论。

领域DOM的符号描述将与表4列举的领域概念同构。

事件背景BACE的符号描述表2里的与辅块概念树l197株概念树之一)同构。

述者背景BACA的符号描述与概念节点50a同构。

情景SIT的符号描述则需要作领域句类转换,这是语境单元萃取最关键的步骤。

这样 语境单元萃取SGU所需要的信息来源就都有了着落,这是否意味着交互引擎从句群萃取语境单元已经万事具备了呢?

当然不能这样说。语境单元的萃取还需要解决一系列重大技术问题,但这些问题的治理首先面临下列理论课题,我们将把这些理论课题称为语境单元萃取SGU的8项基本原则,具体内容如下:

*1语境单元与句群SG的对应原则(RSGU1)

*2 领域DOM认定(分类)原则(RSGU2)

*3领域句类SCD认定(选定)原则(RSGU3)

4 情景SIT框架描述原则(RSGU4)

5事件背景BACE描述(分类与转换)原则(RSGU5)

6 情景SIT与事件背景BACE转换原则(RSGU6)

*7 述者背景BACA的立场判定原则(RSGU7)

8 基本判断句功能原则(RSGU8)

在近4年中 HNC团队开始对上列8项理论课题中的带*号部分进行了初步探索,其他都是待开垦的处女地。

本文到此为止的篇幅已经超出了作者向本书主编的承诺,虽然前面的论述可以作一些压缩,但作者宁愿采取此后从严的做法,这里就不做概述而结束本小节的讨论。

 

2.6.3 《手册3》的工程使命

本小节只给出《手册3》工程使命的清单,不作论述。

1 针对表4所列10种语境树的每一个概念节点,给出领域句类的具体类型,给出捆绑于每一领域句类特定世界知识。领域句类知识是句类知识的更加具体化和专业化,领域句类的特征语义块、广义对象语义块之间具有更加特定的语义约束,其广义对象语义块要素具有更加确定的概念类型约束。

2 对每一领域句类 给出相应句群的典型范例。

3 对每一领域句类 划分事件背景的关键项和可默认项。

4 对某些领域句类 给出述者背景的关键项。

三部《手册》编撰的时间关系应该是:《手册1》至少应先行于《手册2》两年,而《手册2》至少应先行于《手册3》一年。

 

3 关于交互引擎的4项关键技术

本章分两节,3.1节将简要说明交互引擎的技术原理,也称交互引擎的3级提升//三部曲//3个基本环节。按照HNC的预定探索计划 语境生成ABS技术的启动最早是3年以后的事,故表示式 (HNC4) 物理意义的说明也放在这一节里。3.2节将简要说明翻译引擎的技术原理。翻译是交际引擎的一项特殊功能,但对交互引擎来说,不具备翻译功能是荒谬的。机器翻译本来是HNC展示其生命力的最佳场所,可惜机不逢时,这一探索始终未能正式启动。

 

3.1 交互引擎的3个基本环节

本小节并不直接讨论交互引擎的具体实现,而仅简要说明实践交互引擎原理的的3项关键技术:句类分析SCA(Sentence Category Analysis)技术、语境单元萃取SGUE(Sentences Group Unit Extraction)技术和语境生成ABS(ABStract)技术。从语境生成的符号约定可知 语境生成就是摘要,这是HNC的基本观点,与前述“听和读在大脑里留下的东西就是语境,语境就是言语的效应”的观点是一脉相承的。

第二章我们描述了交际引擎的4层级特征,给出了语言概念空间4层级符号体系的数学物理表示式。这里需要进一步指出的是 交际活动的理解全过程就是一个相对于4层级符号体系的3级提升处理过程:第一级提升对应着从概念空间的基层进入第一介层,叫做句类分析SCA;第二级提升对应着从第一介层进入第二介层,叫做语境单元萃取SGUE;第三级提升对应着从第二介层进入概念空间的上层,叫做语境生成ABS。这3级提升处理就交互引擎的3个基本环节。

句类分析SCA的结果将得到句类表示式(HNC2R),对应着单句//复句的分析与理解;语境单元萃取SGUE的结果将得到语境单元表示式(HNC3),对应着句群的分析与理解;语境生成的结果将得到语境框架表示式(HNC4),对应着段落//篇章的分析与理解。

这就是HNC对交际引擎理解过程的描述,也是对交互引擎基本工作原理的描述。

我们把句类分析SCA、语境单元萃取SGUE和语境生成ABS叫做交互引擎研制的3项技术工程,把上述《手册1》、《手册2》和《手册3》叫做交互引擎研制的3项理论工程。为什么在“理论”和“技术”后面还要加上“工程”二字?因为《手册》主要面向理论原理的阐述,而信息技术通常是信息处理软件的代名词,但自然语言理论理解处理的特殊之处就在于必须在理论和技术之间配置强大的知识库和规则库,才能实现两者的连接或磨合。与3部《手册》对应的3种知识库是:词语知识库、句类知识库和语境单元知识库。与3项技术对应的3类规则库是句类分析规则库、语境单元萃取规则库和语境生成规则库,这些规则体现对相关技术实现难点(将在下面说明)的综合治理策略或方案。不言而喻 这些知识库和规则库的建设都是巨大的知识工程。

应该明确 3部《手册》、3项技术、3种知识库和规则库的共同理论基础是语言概念空间的上列4组表示式(HNC1)(HNC2)(HNC3) (HNC4);同时还应该明确《手册》、技术和两库这三者之间的关系。打个比方来说,《手册》是宪法,两库是具体法律,而技术是执法人员(包括律师)。进一步说 甚至可以将知识库比作民法,而将规则库比作刑法。

HNC理论的上述概括//表述是对[H98]中原概括//表述的改进与改正。HNC原来对自然语言理解的表述是“概念联想脉络的激活、扩展、浓缩、转换与存储”。新表述的改进表现在:将“激活与扩展”具体化为句类分析SCA;将“扩展与浓缩”具体化为语境单元萃取SGUE;将“浓缩、转换与存储”具体化为语境生成ABS。新表述的更正表现在:原来认为句群与篇章的理解处理“比语句层面复杂得多,不可能用一组物理表示式来表达”[H98,p2]。近四年的理论探索进展表明:这一论断是错误的,我们已经得到了句群与篇章的理解处理的物理表示式,那就是(HNC3) (HNC4)

HNC理论探索为得到(HNC1)(HNC2)的基本构架跋涉了5(1989-1993)的历程,为得到(HNC3)(HNC4)的基本构架却跋涉了10年(1994-2003)之久。这是很不协调的现象,作者愿意在这里奉献于读者的基本教训是:这里的关键因素是思维惯性之作祟,上述“不可能”的错误判断乃罪魁祸首。

上面已对自然语言理解处理的总体框架作了要点说明,它由3个处理模块——句类分析SCA、语境单元萃取SGUE和语境生成ABS构成。这个新框架将替换[H98, p60]描述的老框架。新框架里的语境单元萃取SGUE和语境生成ABS是对老框架里的“语境生成”“短时记忆处理”“隐知识揭示处理”和“要点主题分析”4个模块的重组,句类分析SCA是对“语义块感知处理”、“初级句类分析”和“语句合理性分析及回溯处理”的概括。

不言而喻 每一处理模块的技术实现都面临着一系列重大难点,句类分析SCA将面临20项重大难点,语境单元萃取SGUE将面临8项重大难点,语境生成ABS将面临6项重大难点。

句类分析的20项难点是:

01 特征语义块EK多句类代码的选定

02 全局语句GS(简记为EgJ)与局部//蜕化语句LS

(简称句蜕,简记为ElJ)的判定

03 LS语句与复句的判定

04 广义对象语义块多元逻辑组合的分析

05 Ek//EK复合构成与分离的分析

06 以指代和句间接应词语为代表的浅层隐知识揭示

07 EK语句的句类辨认

08 广义对象语义块GBK分离现象的分析

09 逗号功能的判定

10语义块主辅变换的分析

11句类转换的分析

12特殊块扩的辨认

13复杂因果句的识别

14体词多义的选定

15 以复杂省略和想象描述为代表的深层隐知识揭示

16 语句违例格式的判定(汉语多见,下同)

17 动词体词化的识别

18 动态组合词的识别与语义认定

19 分词消歧

20 伪词鉴伪(汉语特有)

作者曾在[H99]中对上列20项难点的综合治理进行过初步探讨,该文仅在HNC团队内部流传,作者拟在《HNC探索与实践》网络季刊上发布一个简易版本。这里给出的清单与原版本有所不同,体现了作者近年对原论述的系列反思。

清单的最后5项在中文信息处理中比较突出,可简称中文5项,最后一项更是汉语特有的语言现象。但应该指出 中文5项毕竟不是中文信息处理序盘的大场,极少情况是中盘的急所,绝大多数只是收关阶段的大官子。中文信息处理是否为中文5项付出了太多的精力?这是值得反思的,因为直接“为5项而5项”乃是一种超前行动,很难取得预期效果。20项难点需要综合治理,不是“单打独斗”可以解决问题的。20项难点的前15项乃是语句理解处理、即句类分析SCA的共性问题,其中的前5项才是句类分析的大场与急所,对中文信息处理来说 难点2更是重中之重,HNC 十分重视这一急所问题的探索[Jin02],并取得了较大进展。

语境单元萃取SGUE8项重大难点与2.6.2小节所列举的8项理论课题相对应。大正语言知识处理研究院在语境单元萃取SGUE技术的开发方面取得了一定进展[Jin03]。声学所HNC实验室在句群理论和领域句类的基础研究方面取得了一定进展[Luo&Du03]

语境生成ABS6项重大难点与下列6项理论课题相对应,这6项课题是:

变换原则

同步原则

适应原则

对应原则

虚实原则

层次与要点原则

变换原则包括3项变换:第一是领域DOM变换,将(HNC3-1)表示式中的DOM变换成(HNC4)中的BCN,将(HNC3-2) 表示式中的8y:|DOM变换成(HNC4)中的BCD;第二是情景变换,将(HNC3-1)中的SIT变换成(HNC4)中的XYN,PT,RS;将(HNC3-2)中的SIT变换成(HNC4)中的XYD,PT,RS;第三是背景变换,将某些情景SIT的内容分别变换成事件背景BACE或述者背景BACA

语境生成(摘要)ABS的核心运算就是上述3项变换,在进行这些变换运算的同时完成对(HNC4)表示式的逐步填写。

同步原则是指语境单元萃取SGUE与语境生成ABS基本同步进行,而不是先对整段或整篇文本作完语境单元萃取以后 才进行语境生成。语境单元SGU和摘要ABS都是富于弹性的结构体,其中的零部件可全可缺,可常量也可变量,可已知也可未知。这使得交互引擎同交际引擎一样 具备随意阅读的特性,不必限定它必须逐句逐段处理。

适应原则是指对文体的适应。文体的传统分类方法可以借用,但适应原则亟待研究的课题是篇章整体的叙述性或论述性判定,区分的判据远比语境单元萃取时复杂。

对应原则是指(HNC4)中的BCN//BCD仍然按照(HNC3)的领域DOM分类。这一与领域概念(表4)同构的ABS层次符号系统既是长时记忆的基本索引,又是交互引擎学习结果的基本索引。语境生成ABS的最终结果就是一个按对应原则(即按领域分类)建立起来的、规模日益扩大的知识库,将称领域知识库。对应原则亟待研究的课题是基本索引的延伸结构,这一延伸结构将包括记忆的遗忘机制。

虚实原则是指对上述领域知识库的两种重组方式——虚重组与实重组。虚重组用于对特定事件的描述,形成特定事件知识库;实重组用于常识库和专业知识库的建立。特定事件如“2001年阿富汗战争”“莱温斯基事件”等,特定事件知识库由领域知识库的文件索引号构成,不给出具体内容。常识库的内容如“人的平均寿命”“各国人口与面积”“名人简历”等,专业知识库的内容主要是专业术语的意义及其相关知识。领域知识库的相应内容一旦转变成常识库,则其相应栏目将仅给出一个默认符号。虚实原则亟待研究的课题是:特定事件、常识和专业知识的认定规则。

层次与要点原则是语境生成ABS最重要的原则,领域知识库、特定事件库、常识库和专业知识库的描述都需要体现层次与要点特征。这里的层次与要点是紧密关联的,要点是层次的函数,不同层次具有不同的要点描述。层次与要点原则亟待研究的两项基本课题是:一是领域知识库如何利用连接在因特网上的海量资料,二是特定事件库的描述框架。

上列6项原则都是亟待耕耘的理论沃土,这片沃土首先在召唤理论探索者而不是技术开发者。HNC团队和所有交互引擎的探索者应该积极响应这一理论召唤,并应该清醒地看到理论召唤与市场召唤的本质差异,不能在连法拉第定律都没有搞清楚的情况下,就忙着去做发电机和电动机开发的傻事。这种科学幼稚病在科技探索的历史长河中屡见不鲜,在后工业时代仍远未绝迹。幼稚病与悲观论是科技探索中的两种极端表现,语言信息处理学界是否出现得更多一些?这是很值得反思的。

交互引擎三步曲的排练与演奏当然需要一个长远规划,它需要以上述3项理论工程为先导、以上述3项技术工程为主体协调有序地开发各种知识库、规则库和语言理解处理软件,HNC团队近6年的实践表明,这是一场需要多军种、多兵种协同作战的现代高科技战役,而我们还是比较习惯于工业时代、甚至是农业时代的战役思路。应该说 这是交互引擎探索最大的危机,而问题的严重性在于我们对这一危机的认识十分不足,甚至不想去认识。

 

3.2 HNC翻译引擎原理概述

机器翻译是自然语言处理技术的先行官,这一历史的偶然起源于当年冷战造成的市场拉动需求。这一纯粹市场拉动的消极后果不仅导致初期机器翻译开发的失败,而且形成了一个“机器翻译=词典+语法规则+软件”的简化翻译模式。这一简化模式是科学幼稚病的典型表现之一,其本质并未因语料库语言学的兴起而发生变化,甚至在某种程度上还加强了它的简化性弱点,更加置语言理解的关键性作用于不顾。“简化翻译模式+词语知识库+EBMT+特定领域”可以产生比较好的译文,当前机器翻译学界的主流技术在这一综合策略的指导下正在作出极其艰苦的努力,也必能获得相应的回报。但从交互引擎的角度来看,这不是治本之路,也不可能根本突破机器翻译的雪线现象,即通行文字文本的译准率到了60%-70%之后即停滞不前的现象。

作者在[H99-2]中曾简述过HNC翻译引擎原理的基本思路,那就是所谓“两转换、两变换、两调整”的6项过渡处理。两转换是句类转换和句式转换,两变换是语义块构成变换和语义块主辅变换,两调整是主块分离和辅块位置的调整和句群小句顺序的调整。

6项过渡处理是翻译引擎原理3步映射处理的第二步

SGSL => SGS

SGS => SGT (HNC5)

SGT => SGTL

第一个映射表示式对应着源语的理解过程,即交互引擎的句类分析,将源语句群SGSL映射成源语句群介层(这里的介层主要指第一介层,下同)表示式SGS;第二个映射表示式对应着翻译引擎的过渡处理,将SGS映射成目标语句群介层表示式SGT;第三个映射表示式对应着交互引擎的语言生成过程,将SGT映射成目标语句群SGTL。这3个映射表示式统称(HNC5)

HNC的传统论述里 把第一个映射表示式简称映射,可简记为SGL => SG,表示从语言空间到语言概念空间的映射,即语言理解过程;把第三个映射表示式简称逆//反映射,可简记为SG=>SGL,表示从语言概念空间到语言空间的映射,即语言生成过程。

句群介层表示式就是一些句类表示式的迭加,可简写成句类代码的迭加。如下面的汉英对照句群所示。

1904年8月22日~||,邓小平||出生在||四川省广安县协兴乡牌坊村。

+原名||邓先圣,

+5岁~||进||私塾||发蒙,

+学名||邓希贤,

+[后]转入||新式小学。

+{高小|毕业}后~||,考入||广安县中学。

+1919年秋~||考入||重庆勤工俭学留法预备学校。

 

Deng Xiaoping || was born|| August 22, 1904, ||~in Paifang village, Xiexing township of Guangan County, in Sichuan Province.

++ His original name|| was|| Deng Xiansheng.

++[Where] he|| was sent to|| an old-style school||~ at the age of five,

++he|| was given|| the school name of Deng Xixian.

++[Afterwards] he|| transferred to ||a new-style primary school,

+[then] went on to|| Guangan County High School, ~||after{passing|the entrance exam}.

++In the fall of 1919~||, he|| went to|| Chongqing Preparatory School for students going to France on a work-study program.

 

SGNC=Cn1P4P11*20J +D2P11*20J +Cn1T02T19*322J +D2P11*20J

+T02T19*22J +Cn5T4bT19*22J +Cn1T4bT19*22J

SGNE=!02P4P11*20JCn2 ++jDJ ++!02T0aT19*22JCn1 ++!02D2P11*20J

++T02T19*22J +T02T19*22JCn5 ++Cn1T02T19*22J

最后的句群介层表示式分别对应着汉语的SGNC英语的SGNE(其中的“N”是叙述型句群的符号)。表示式里的“+”号表示迭句,“+ +”号表示复句。迭句是复句共享GBK1的特殊情况。为便于句群描述 HNC对传统复句的概念补充引入了共享句、迭句、链句等术语,具体定义请参阅本论文集的论文[Luo&Du03]。汉语偏爱共享句、特别是其中的迭句,而英语较少使用迭句。复句、共享句、迭句和链句的概念对句群的标注 对汉语与英语的相互翻译都至关重要。HNC在标注汉英对照语料的过程中历经多次反思与碰撞才形成上列标注样式,这一样式里还有关于每项过渡处理的子类、复杂语义块具体构成和句间接应标记的标注,这里都省略未录。

这个句群围绕着状态的底层概念节点50a\150a\2描述邓小平这一特定对象,但50a\1的描述十分简略,比较齐全的是50a\23(教育状况),依据前述语境单元萃取的第一项原则(实际是其中的齐全性原则)这7个小句主属教育状况50a\23这一特定领域,句群中间的句号显然不会构成对这一判断的干扰。这一句群的汉英介层表示式十分鲜明地显现了翻译引擎必须经常面对的原理性课题:即前述过渡处理中的前5项,如表5所示。

5:一个特定句群的过渡处理简况

编号 句类转换 句式转换 语义块构成变换 主辅变换 辅块移位
第一句   + +  +  
第二句 + +      
第三句 + ++     +
第四句   ++      
第五句   +      
第六句 ++ +     +
第七句 + + +    

5呈现了前5项过渡处理的普遍性和关键性,普遍性无庸解释,这里关键性的特定含义是:如果没有相应过渡处理原则//规则的指导 机器翻译就不可能进入智能//理解//可信的水平,也就不可能突破前述机器翻译的雪线现象。当然 5表现了该句群的自身个性:句类转换率高达5/19(就汉英翻译来说 该项过渡处理的比率应为8%左右),而语义块构成变换率仅占2/19(比率应超过30%),而句式转换率竟高达9/19。下面对表53点解释。

第一 ++”号表示该语句存在两次相应的过渡处理,如第六句既有EgJ的句类转换,又有前提条件辅块Cn5里的ElJ句类转换;第三和第四句既有汉语迭句向英语复句的转换,又有汉语!0格式向英语!02格式的转换。

第二 本句群的汉语采用一秆子插到底的迭句,这一现象当然是汉语偏爱迭句的极致表现,但并非罕见。

第三 本句群的语义块构成都比较简单,仅第一句和第七句各有一个语义块存在多元逻辑组合型复合构成,故该项变换仅占2/19。第一句的多元组合仅由包含性概念构成,汉语和英语之间的变换规则十分简明,从下面给出的机器译文可以看到,该机器翻译系统显然意识到了这一点,可惜由于对汉语动态词(前述语句理解处理的第18号难点)的处理能力太弱而功亏一篑。

句群的介层表示式说明:上述过渡处理主要是句类空间的处理,更准确地说 是在第二介层俯瞰视野下对第一介层的处理。前已指出 介层具有“天使”与“凡人”的双重特性,这一特性的存在产生了6项过渡处理的需要,这一处理需要形成了翻译引擎原理的核心。6项过渡处理就是机器翻译引擎的基本原理。机器翻译雪线现象的根源就在于翻译引擎基本原理的研究实质上未曾提上研究日程。

因此 机器翻译研发的当务之急是加强以6项过渡处理为核心的翻译引擎原理的基础研究,这一半世纪前就应该认识到的要点至今尚未在机器翻译学界取得共识,这属于罕见的学术悲剧之一。HNC团队近两年才有条件投入部分力量对这一重大课题进行了初步探索,虽然取得了一定进展[Zh.Q02][Zh.K.L02][Zh.K.L03][Li&Chi02],但只是万里征途才走了几百里,本论文集里有多篇论文反映了这百里历程的印迹。

一个必然产生的问题是:两年才行进了百里旅程,那万里之遥是否需要百年之久?中国的一句古话说得好——万事起头难。翻译引擎研究的基本条件是句群SGL的上列HNC标注,而更重要的关键因素是研究者的“一叶知秋”悟性,对标注语料的统计不能代替研究者对典型语料的敏锐分析,没有这种基于语言概念空间的“一叶知秋”悟性,就会在复杂而多变的语言现象面前产生“规则恐惧症”。这里应该向读者转达基本信息是:两年来 声学所HNC实验室在改善翻译引擎研究的基本条件和促进研究者悟性方面的成绩都好于我的预期,因此我们有理由相信HNC翻译引擎的梦想可以在5-8年的时间里成为现实。这一梦想的具体目标与实施就不在这里描述了。

本小节最后给出示例句群的机器译文,该机器翻译系统的句法分析很见功力,译文质量在同类产品中堪称出类拔萃。其译文的失误很有研究价值,所引译文最明显的弱点在于动态词和句式的处理,它表明两者的传统研究方式存在着不符合翻译引擎需求的状况,这是极其自然而可以理解的。

On August 22, 1904, Deng Xiaoping was born revitalizing the village of memorial archway of the township in the wide association of An County of Sichuan Province.

++It has the original name of Deng XianSheng

++ Five years old enter old-style private school get confused,

++ formal name wish to be virtuous,

+Afterwards change over to the new-type primary school.

+After the higher primary school graduates, are admitted to wide middle school of An County.

+Admitted to the part-work and part-study of Chong Qing and study in France in the preparatory school in autumn of 1919.

 

4 HNC研发平台

本章不分节,将以漫谈的形式进行论述。

HNC研发平台就是交互引擎的研发平台。不重视这一平台的开发将铸成难以挽回的损失,这个平台是HNC探索的生命,如果问HNC团队近5年的征战存在什么遗憾的话,那毫无疑义 最大的遗憾就是未能正式启动这一平台的开发。

当前 获得10亿量级的汉语或英语原始文字语料已经是比较平常的事了,将大规模真实语料作一定加工以后就成为语料库。传统的加工包括编目、标注、管理与服务软件的配置。

传统语料库建设以词性标注为基础,基本服务目标是句法分析,对汉语来说还要首先作分词标注。

这种传统语料库已有20多年的发展历程,取得了丰硕成果,为词频、词性、动态词、短语和句法分析的研究以及各种应用研究做出了一定贡献。但是也应该看到 这样的语料库对交互引擎的研发没有实质性意义。

人们已经注意到了传统语料库的局限性,正在增加词义和短语结构的标注,我们希望这一努力将与HNC语料库的追求殊途同归,并在未来的探索征途中加强交流,而不要像过去那样“老死不相往来”。

HNC语料库是指以HNC方式标注的语料库。其基本标注内容是语句的句类、格式和语义块3项。句类标注对每一个语句标出它的句类代码,格式标注对每一语句标出它的格式代码,语义块标注对每一语义块标出它的主辅、边界及主块分离情况[Du&Luo03]。这里的语句包括全局和局部语句,因而句类代码、格式代码和语义块主辅及边界的标注都有全局与局部之分,局部语句的句类和格式代码在上级语义块表示式中给出,实际上也属于语义块标注。局部语义块的边界以符号“|”标记以区别于全局边界的“||”。上列3项标注叫做基本标注,作了基本标注的语料库叫做HNC基本语料库。

应该指出 HNC基本语料库本身仅具备理论价值和基本意义,并不能直接用于交互引擎理解度的定量测试而建设各种有利于理解度定量测试并能培育交互引擎成长的语料库才是我们的真正追求。这一论断极为重要,下面将围绕着这一论断继续本章的漫谈。

◇关于HNC基本语料库的理论价值

在上述“三无限与三有限”假设的实际验证过程中 最关键的是句类有限的验证。如果我们对1万个语句作了基本标注而未出现例外,那么该假设不适用的概率应小于万分之一,如果是10万个语句未出现例外,那不适用率就应该小于10万之一了。这里应该向读者传达的信息是 10年来这一验证从未间断过,如今已通过了3万分之一的路标。

◇关于HNC基本语料库的基本意义

HNC基本语料库的标注以实际语句的(HNC2R)认定为核心,这一认定的成功就标志着交互引擎实现了对语句的理解,标志着交互引擎演奏三部曲迈出了关键性的第一步,这在理论上是毫无疑义的。如果直接用基本语料库对交互引擎的语句理解度进行测试,我们确实可以得到一组似乎十分重要的数据,如全局//局部语句理解率、辅块辨认率、局部语句类型辨认率(下文将简称3率)等。但是 3率的“知其然、而不知其所以然”特征具有根本缺陷。因为初期句类分析系统的3率不可能达到100%水准,假定都达到了90%,这乍看起来似乎十分令人鼓舞。然而 由于不能知其所以然,那310%的剩寇就可能变成3块再也啃不动的硬骨头了。如果真是这样 那交互引擎就成为不可实现的梦想了。虽然不管那些剩寇也可以开发出许多比现有水平高明一些甚至高明得多的相关产品,但这样的结局终究并非HNC的预定目标,我们必须毫不动摇地向着知其所以然的目标前进。为此 我们必须从改善测试手段着手以求得知其所以然,从而获得扫荡剩寇的能力。但是 下面将要说明 测试手段的改善都必须以HNC基本语料库为基础,该库的基本意义即在于此。

◇关于语句理解度

语句理解度密切联系于前述理解处理的20项难点,对20项难点的治理水平才真正反映交互引擎的语句的理解度。上述3率只是理解度的表观现象,而且还没有反映语义块出现多元逻辑组合这一极为重要情况时的处理水平。交互引擎的语句理解度的定量描述应采用下面的公式:

语句理解度::=UDSC=ΣβmUDSCm(m=1-M) (UD1)

语句理解模糊度::=AMSC=Σβm[1-UDSCm] (m=1-M) (AM1)

公式(UD1)与公式(AM1)等价。理想情况下交际引擎的UDSC=1AMSC=0,交互引擎不可能达到这一水准。但是理论上我们应该有一个底线,这一底线的确定与测定就是一个重大的理论与技术课题。

公式(UD1)中的UDSC Understanding Degree of Sentence Category 的缩写,UDSCm表示句类分析对m号单项或组合难点的治理度,语句理解度定义为全部单项或组合难点治理度的加权和。加权系数与各项难点的出现频度有关,同时还与它对语句理解的作用有关, βm的确定在理论上固然具有重要意义,但交互引擎研发更感兴趣的是UDSCm的分布方图,将简称语句理解度分布方图或句类分析难点治理方图。上面所说的底线就是指这一分布方图的及格曲线。

为了获得语句理解度分布方图,我们需要按难点类型重组HNC基本语料库,即将同一种难点的语句集中在一起以便进行语句理解度分布方图的测试。为此需要对基本语料库中的语句进行难点类型的标注。而为了深知其所以然,我们一方面要对前述20项难点作更精细的分类,另一方面还要对难点的组合进行研究,后一研究尤为重要。这就是说 语句理解度分布方图可以也必须有多种样式,语句理解度表示式(UD1)里的M是一个变量,其最小值为20,而其最大值可远大于20。不同样式的语句理解度分布方图可以为交互引擎语句理解度的培育提供更准确的信息。

这种带有难点类型标注的语料将称为精细语料,在HNC的内部论述里曾把它叫做Ⅲ型语料。此外还有Ⅱ型语料,就语句来说 Ⅱ型语料就是按句类或领域句类重组的基本语料,今后将把Ⅱ型语料叫做重组语料。

上面关于语句理解度的论述同样适用语境单元萃取、语境生成和机器翻译过渡处理。对它们也可以给出相应的公式和各自的难点治理方图,这里就不一一具体说明了。它们都来于下面的统一理解度量化公式:

UD=ΣβmUDTYPEm(m=1-M) (UD0)

公式(UD0)里的UDTYPEm表示理解度的具体类型,它与理解处理不同环节的具体难点密切相关。

2.6.2小节曾引录交际语境研究的基本论述:“理解这个词是含混不清的,最狭窄的意义是表示两个主体以相同的方式来理解一个语言表达;而最宽泛的意义则是表示两主体间存在某种协调”。公式(UDmm=0-4)给出了理解度的量化表示,它的构造借用了该论述对理解的定义,不过把其中的两主体之一定位于计算机罢了。

◇ 关于重组语料库和精细语料库的建设

重组语料库有两大类:一是按句类重新整合的语料库,简称句类语料库,该库以每一基本句类和混合句类为索引,同一句类的例句集中在一起;二是按语境单元重新整合的语料库,简称语境单元语料库,该库以每一领域句类为索引,同一领域句类的句群集中在一起。

精细语料库有三大类:一是按句类分析难点重新整合的语料库,简称精细句类语料库,该库以句类分析20项难点及其各种组合为索引,同一难点的例句集中在一起。二是按语境单元萃取难点重新整合的语料库,简称精细语境单元语料库,该库以语境单元萃取8项难点及其各种组合为索引,同一难点的典型句群集中在一起。三是按语境生成难点重新整合的语料库,简称精细语境语料库,该库以语境生成6项难点及其各种组合为索引,同一难点的典型段落或篇章以标题地址的方式集中在一起。

难点的组合并非简单的两两组合,三种精细语料库的难点组合方式都是有待研究的重要课题,这里既需要理论方面的透彻思考,更需要结合对交互引擎不同环节已暴露弱点进行深入的系统分析。

总之 重组语料库和精细语料库的建设需要尽快启动,它事关交互引擎研发的成败。这里不仅是工作量的问题,还有一系列理论问题有待探索。

◇关于基本语料库、重组语料库和精细语料库的相互关系与各自的作用

基本语料库是重组语料库的母体,重组语料库又是精细语料库的母体;另一方面 语境单元语料库可视为基本语料库的纵向扩展,而所有的精细语料库都可以视为基本语料库的横向扩展。这就是三者的相互关系。对基本语料库和重组语料库来说 其母体身份本身就是一种基本作用。各种语料库的其他基本作用如表6所示。

6:各种语料库的基本作用

类型 基本作用
基本语料库 句类分布方图和偏差分布方图
  《手册1》理论论证的依据
句类语料库 《手册2》理论论证的依据
语境单元语料库 《手册3》理论论证的依据
精细句类语料库 句类分析难点分布方图
  语句理解度分布方图
  促进句类分析技术的成长
精细语境单元语料库 语境单元萃取难点分布方图
  句群理解度分布方图
  促进语境单元萃取技术的成长
语境描述语料库 篇章理解度分布方图
  促进语境生成技术的成长
汉英对照精密句群语料库 过渡处理难点治理分布方图
  促进汉英机器翻译引擎的成长

不言而喻 6也是对HNC研发平台基本作用的概说。

◇关于语料库的标注

传统语料库建设追求自动标注,这一追求当然极其美好,但自动标注对于HNC语料库的建设则是一个绝对不切实际的美梦。HNC探索者如果也沉溺于这一美梦 则是不可思议甚至是不可原谅的。

上面已经说过HNC语料库的标注都只能依靠HNC行家的亲力亲为,这里应该补充的是 HNC的每一位探索者也只有通过这一亲力亲为才能成为HNC的真正行家,HNC团队对此已有深刻体会。显而易见 HNC研发平台语料库的建设确实需要“愚公移山”的精神,需要睿智与雄心。但HNC团队的“聪明”人都很愿意干这样的“傻事”。

那么 为什么HNC团队会产生上述令人“怆然泪下”遗憾呢?这里的原因极为复杂,就不在这里漫谈了。至于HNC平台建设的技术方面则无庸作者来说外行话。

 

5 结束语

如果上述3项理论工程、4项技术工程和HNC研发平台能够正式启动,

那就标志着向交互引擎进军的正式开始。

这次进军的最终目标是:

让电脑获得一个接近于人类大脑的语言思维载体,

从而有希望真正理解自然语言。

 

能不能说 这将是科学史上一次伟大的进军?

答案应该是一清如泉的。

然而

进军的号令终究尚未正式发出。

 

因为 存在一个普遍的担心——

外国人都屡受挫折

中国人能行么?

 

诚然

这是一个万里征途。

征途就不可能没有艰险,

现在的问题不在于这些艰险能不能逾越,

而在于能否出现一个具有DARPA理念和“两弹”雄心的特定计划。

恕我直言

现在的实际情况乃是

万事具备,只欠东风。

这东风

就是那科学弥赛亚的 mighty hand

 

弥赛亚要求祈祷,

世界需要祈祷,

这次研讨会

就是一次科学而非神学的祈祷。

因此 请允许我用这样的词语来结束这个报告:

谢谢!阿门!

 

附记:20世纪最值得怀念的学术研讨应该是德国哥丁根大学和美国考尔斯委员会所举办的学术沙龙,前者培育了20多位诺贝尔物理学奖获得者,后者培育了10多位诺贝尔经济学奖获得者。出于对学界先贤的景仰 近两年来 声学所HNC实验室以多种形式举办“哥-考”式沙龙以推动学术反思与碰撞,本文的许多论点直接受益于这些沙龙或来于它的启发。例如 “语境单元萃取”这个术语即来于张全博士在一次沙龙上的建议,原来沿用句群截取的概念而使用“语境单元截取”的术语,这“截”与“萃”的意境之差可谓赫然有天壤之别。语义块边界的标注在许多情况存在两可的困扰,它如何与口语的自然停顿和介词短语的概念保持一致?这里的困扰很值得玩味,张克亮在读博士为这个问题的最终完满解决作出了决定性贡献,而池毓焕在读博士则对概念延伸结构3种类型的最终确定作出了特殊贡献。HNC沙龙可记者甚多,在此独记上列3者,不唯避掠美之嫌也,更在其最使我神往耳。

仰山(作者内用笔名)

04-2-24

 

 

 

 

 

参考文献

乔姆斯基

[C57] Syntactic Structure《句法结构》

[C65] Aspects of the Theory of Syntax 《句法理论若干问题》

[C66] Language and Mind 《语言与思维》

[C71] Studies on Semantics in Generative Grammar 《生成语法的语义问题》

[C76] Reflections on Language 《对语言的思考》

[C80] Rules and Representations 《规则与表达》

[C82] Some Concepts and Consequences of the Theory of Government and Binding

《管制与约束理论中的某些概念与推论》

[C86] Knowledge of Language: Its Nature, origin , and Use

《语言知识:它的性质、来源与使用》

 

[Du&Luo] 杜燕玲 雒自清 语义块分离现象与语句格式和EK构成的关系(见本论文集)

[G75] H.P.Grice Logic and Semantics in P. Cole(Eds) Syntax and Semantics, vol.3

黄曾阳

[H98] HNC(概念层次网络)理论》

[H99-1] 《语句理解处理的20项难点》

[H99-2] HNC理论与自然语言语句的理解

中国基础科学,19992):83-88

[H01] HNC的发展与未来

汉语学报,2001上卷

[H02] 语义及概念体系在NLP中的作用

《中文信息处理若干重要问题》,科学出版社。

[H03] HNC理论的语言学基础(北京师范大学应用语言学讲座论文,该讲座的专集待出版)

[Jin02] 晋耀红 汉语理解处理中多动词难点的研究与实现

中国科学院研究生院博士论文

[Jin03] 晋耀红 一个基于语境框架的文本特征提取算法

《计算机研究与发展》 待发表.

[K93] 克里克(F.Crick) 《惊人的假说》p15

[L88] P.J.Laird 《The Computer and the Mind》(1988)

[L95] D.B. Lenat CYC: A large-scale investment in knowledge infrastructure

Communications of the ACM, 38(11)

[Li&Chi04] 李颖 池毓焕 汉英机器翻译中要素句蜕变换初探

《机器翻译研究进展》(黄河燕主编)

[Li&Chi04] 李颖 池毓焕 对偶性概念的再思考

《中文信息学报》2004年第5期(待出版)

[Li04] 李颖 面向汉英机器翻译的包装句蜕处理

《计算机应用》2004年第6期或第7期(待出版)

[Luo&Du&Hao] 汉英语料的句群标注(见本论文集)

[Miao01] 苗传江 HNC句类知识研究

中国科学院研究生院博士论文

[Miao03] 苗传江 HNC导论》(待出版)

[Song03] 统计和规范中的误区

《中文信息处理若干重要问题》(徐波,孙茂松,靳光瑾主编)

[Wei03] 韦向峰 汉英机器翻译中转移句的句类转换和格式转换

Advances in Computation of Oriental Languages p323

[Zh.Q03] 张全 汉语和英语逗号的对比分析及其翻译处理

《语言计算与基于内容的文本处理》

[Zh.K.L02] 张克亮 汉英机器翻译中是否判断句的转换

《机器翻译研究进展》(黄河燕主编)

[Zh.K.L03] Keliang Zhang On the Sentence Category of Action-effect Sentences in Chinese-Inglish Machine Translation PACLIC17 p319

 

交际语境研究的部分经典著作(按年代排序)

1938莫里斯(Morris,C.) 《指号理论基础》

Foundations of the Theory of Signs

1942 Carnap,R. Introduction to Semantics

1954 维特根斯坦 《哲学研究》

1957 Grice, H. Meaning. Philosophical Review 67,377-388

1962 Austin,J.L. How to do Things with Words.

1969 Searle,J . Speech Acts

1975 Cole,P. & Morgan,J.(ed.) Speech Acts in Syntax and Semantics v.3

1975 Wilson,D. Presupposition and Non-Truth Conditional Semantics.

1978 Cole(ed.) Pragmatics

1979 Gazdar,G. Pragmatics: Implicature, Presupposition and Logical Form.

1981 Cole(ed.) Radical Pragmatics

1983 Levinson,S. Pragmatics.

1983 Leech,G. Principles of Pragmatics.

1981 Leech,G Semantics

1989 Green, G. M. Pragmatics and NLU