HNC的发展和未来

黄曾阳

(中国科学院声学研究所 100080)

 

1引言:提倡学术碰撞──并在语言学研究中探索

超数学、超逻辑的超碰撞模式

    学术交流的根本意义在于引发学术碰撞,学术碰撞是科学进步的根本动力。没有碰撞的学术必然衰落,碰撞活跃的学术必然兴旺,这是东西方科学技术发展形成巨大反差的根本原因。500年前,西方世界就开始重视培育有利于学术碰撞的社会环境,而东方世界到今天还对此重视不够。能否扭转这种状况,是东方能否在新世纪与西方并驾齐驱的第一要素,其它都不是第一位的。

    相互碰撞的前提是相互了解。就HNC来说,与兄弟学科双向碰撞的条件亟待改善,因为拙著《HNC理论》十分难懂。当然,拙著的难懂不等于HNC理论的难懂,但两者之间终究存在着一定关联性。准确的说法也许是“HNC理论并不难懂,但《HNC理论》那本书确实难懂”。书难懂,已是事实和历史,可以暂时不去管它。理论难懂,则需要尽快采取补救措施,否则,这次研讨会就难以完全达到预期的交流目的。所以,我的报告题目虽然采用组织委员会指定的名称“HNC理论的发展与未来”,但重点是力求对HNC理论作一个易懂的阐释。这是一件很费力的事,深感心有余而力不足,效果也许适得其反。但作为始作俑者,不能不做一点弥补过失的事。

    这次研讨会的名称是“HNC与语言学研究学术研讨会”。所以,不能把这次研讨会仅看作是许嘉璐先生最近提出的中文信息处理学界第一流派和第二流派之间的首次学术交流,因为第一流派不等于第二和第三流派之外的语言学,第一流派只是语言学中关注语言信息处理的分支。这个分支领域在中国还不够强大,这次研讨会希望促进它更加强大起来,希望原来不关心或不太关心语言信息处理的语言学家今后能给予更多的关注。当然,这个希望是不应该由我来表达的,请原谅我这种越俎代庖的失礼。实际上,我想说的是下面两点:第一,HNC也许能够为语言现象的考察和阐释提供一些新的视野和方法。第二,语言学界各领域对HNC的参预意味着不同流派的学术碰撞,将对HNC的发展提供新的动力,我们对此寄以厚望。

    学术碰撞并不是什么高深莫测的东西,从下面的实例就能清楚地看到这种碰撞现象。大家熟悉的下面两个语串“热爱人民的周总理”“他在树上摘花”,第一和第二流派所采取的分析方式有很大的差异。

    第一流派会这样提出问题:

        热爱人民的周总理=热爱(人民的周总理)?

                        =(热爱人民)的周总理?

            他在树上摘花=他在树上+他摘花?

                        =花在树上+他摘花?

HNC则以另一种方式提出问题:

    热爱人民的周总理=>热爱||人民的周总理

                      <热爱||人民||的周总理>

                      “热爱”是全局特征语义块Eg?

                       还是局部特征语义块El?(“热爱”是龙头老大么?)

                       2号难点(Eg/El 辨认难点)

        他在树上摘花=>他||在树上||摘||花

                    “摘”是摘植物花果、摘附属物、摘牌子、摘右派帽子

                         中的哪一个“摘”?

                       1号难点(多句类代码难点)

                       “在树上”=条件辅语义块Cn2

    显然,两流派对第一语串的关注焦点相同,但阐释方式有很大差异;对第二语串则连关注焦点本身就完全不同。关注焦点的差异来于两者的“立场”不同,第一流派站在“以人为本”的立场,而HNC站在“以计算机为本”的立场。阐释方式的差异来于两者的“观点、方法”不同,第一流派以“主谓宾定状补”为基本分析工具,把句法树的生成作为语句分析的基本目标;而HNC则以语义块和句类表示式为基本分析工具,把句类的认定和语义块构成分析作为语句理解的基本目标。

    站在“以人为本”的立场,“以语词解释语词”的传统释义方式是天经地义的,没有改变之必要;站在“以计算机为本”的立场,则传统释义方式被认为是不可取的,至少是有严重缺陷的,必须加以改变。按照句法树的观点,树的构成即代表对语句的一种理解;按照HNC的观点,语义块之间概念联想脉络的形成才代表对语句的基本理解。无庸讳言,两流派的分歧是巨大的。但是,也应该看到,两者在立场和观点上的不同,并不是你死我活的“阶级斗争”,而是可以互相取长补短的学术碰撞。因为,“以人为本”与“以计算机为本”并非水火不相容,两者都需要运用“以已知阐释未知”的根本原则。句法树和句类表示式也不是水火不相容,两者实际上都在对一个语串按照各自的标准进行组装,虽然组装的总体方式差异甚大,但某些局部组装的“工艺”和“技巧”并非不可以互相借鉴,这方面的潜力究竟有多大,不经过相互碰撞是难以作出准确判断的。

    上述碰撞仅仅是语言学内部两个流派之间的碰撞,与语言学研究所需要的全面碰撞相比,只是一个小小的局部碰撞。也许可以说,在所有的学术领域中,当代语言学研究可碰撞的学术范围之广和碰撞火化的奇特是独一无二的,是当之无愧的学术碰撞之王,其具体表现就是标题所概括的三“超”。

    超数学的“超”有两层意思,一是指语言现象的表述要尽量纳入数学的确定性模式,但不可能全部纳入,二是指所谓“数学确定性丧失”的危机也许可以从语言不确定性的探索中得到启发甚至找到出路。因此,语言学与当前数学的结合要寻求某种“超然”的方式。

超逻辑的“超”与超数学的“超”类似,一是指语句陈述要尽量纳入逻辑命题的范畴,但不可能全部纳入。二是指语言描述的因果关系不能都转化为逻辑演绎。因此,语言与现代数理逻辑的结合也要寻求某种“超然”的方式。

超碰撞的“超”也有两层意思,一是指碰撞的类型不是通常意义下的人文科学与自然科学的简单碰撞(如经济学的运用数学方法,历史学的运用天文学知识等),而是可以在基本概念和基本方法上迸发出思想火化的超级碰撞。二是指碰撞的范围不是与自然科学的个别领域,而是涉及文理工的众多基本领域。

两“超然”方式,在下面还会谈到。至于三“超”之说,实际上是对西方一派学者意见的归纳,这样的意见在国内不大容易听到,因为有人过于喜爱跟随国际主流,视主流之外为“异端邪说”。但是,主流之外不等于异端邪说,压制是错误的。由于本届研讨会的组织者提倡学术碰撞,所以我有勇气说了上面的话,并把它作为引言的标题。

 

2、HNC只研究自然语言的理解过程

    HNC理论是一个关于语言概念空间的理论,但它只研究这个空间的部分特性,即与自然语言的理解过程有关的特性,这是HNC对自身研究范围的基本定位。

    语言概念空间是人类概念空间的一个子空间,与自然语言空间相对应。

    语言概念空间具有第一位的同一性(共性)和第二位的差异性(个性),可以假定人类具有共同的语言概念空间。另一方面,人类拥有众多的自然语言空间。但多种多样的语言空间是同一语言概念空间的外在表现形式,自然语言空间与语言概念空间存在相互映射或相互转换的关系。如果我们把从自然语言空间到语言概念空间的转换叫做映射,把语言概念空间到自然语言空间的转换叫做逆映射,那么显然,映射是自然语言的理解过程,而逆映射是自然语言的生成过程。对语言现象的研究是否应该区分这两个不同的过程呢?HNC认为,这一区分不仅是必要的,甚至是关键性的。任何一种现象或过程,当存在正反两方面的对偶特征时,如数学中的变换与反变换,物理学中的裂变与聚变,通讯中的编码与译码,都要对正反两方面分别加以研究,这是科学研究的基本法则之一,对语言现象的研究当然也应该遵循这一原则。

HNC理论只研究语言理解过程,有意避开语言生成过程。为什么?语言太复杂了,不可能“毕其功于一役”。乔姆斯基先生的初期转换生成语法理论,有人认为它脱离语义是一个疏忽或缺陷,其实这正是乔先生的高明之处。该理论的本意就是只管语言生成过程,避开语言理解过程。当然,这两个过程不可能截然分开,两过程的研究也必然具有互补性,因为两者由同一个“顶头上司”思维过程统管着。但这两个过程终究具有本质差异,如果不加区分,反而会对自然语言研究的整体思路和策略产生不利影响。特别是“以计算机为本”的计算语言学似乎更应该重视这一区分,并从这一角度对自己的研究历史进程进行必要的反思。

语言概念空间的存在性是一个非常复杂的问题,涉及大脑或思维的根本奥秘。但必须假定语言概念空间的存在,否则语言理解过程的研究将陷入无源之水的困境。所以,HNC理论以这一存在性为其基本假定。黑格尔先生曾经说过,“哲学的开端就是一个假定”,HNC理论认为,对语言本质的研究,必须以上述存在性假定为开端。

人类的概念空间在不断发展,语言概念空间也在不断发展。但是,在笛卡尔和牛顿之前的漫长历史时期,这两者的发展都是非常缓慢的。是在这两位历史巨人的推动下,人类概念空间才获得了迅猛的发展,但语言概念这个子空间的发展步调依然。

如果把概念空间看作是人类理性认识的“加工厂”,那么,这个“加工厂”的概念“加工”能力,现代与古代有天壤之别,原因何在?但语言概念空间的“加工”能力并没有什么变化,原因又何在?

第一个问题可以说是笛卡尔、牛顿之后哲学探索的主题,从而促成了哲学研究本身从本体论向认识论的历史性转变,并取得了辉煌战果。第二个问题应该说在19-20世纪之交也引起了哲学家的广泛注意和思考,并促成了语言哲学的诞生,但遗憾的是成效不大。

第一项探索的重要成果之一是符号学的诞生,被誉为现代语言学之父的索绪尔先生也是符号学的奠基人之一。自然科学的巨人们创立了一系列前所未有的符号体系,通过这些符号体系,人们对客观事物的规律性,甚至对人类抽象思考的产物本身,能给出科学的表述。这就是符号学形成的背景。符号学的精髓也许可以概括成这样一句话,那就是:科学设计的符号就是科学的生命细胞。

20世纪西方有所建树的哲学家几乎每一位都从符号学的观点考察过自然语言现象,可惜他们的考察仅局限于自然语言符号体系本身的一般特征,未能上升到“将符号再符号化”的高度。而自然科学家的理论探索应该说一般都是处于这一高度的。

将自然语言符号体系再符号化有两方面的含义,一是对语言抽象(语言本身是对现实空间的抽象)进行再抽象,应该说这是语言概念空间研究中最为重要的基础性研究。二是将自然语言符号体系形式化,要抛弃自然语言符号体系的任意性原则(这是索绪尔先生十分强调的基本语言原则之一),而代之以关联性原则。站在“以计算机为本”的立场,这两项研究对语言理解过程显得尤为关键。但面对语言的无限性,语言学界感到困惑,有关的论述很多,这里引用一段比较有代表性的论述。

  假定语言L的全部表达式组成集合W={E1,E2,…,En,…},

  怎样确定各个Ei的所指U={M1,M2,…,Mn,…}?

  怎样确定各Ei和各Mi之间的关系,亦即怎样确定映射法则(E)R(M),

    使W映入U和使U映入W?

  ……

  然而W的成员的所指却更为缥渺多变,甚至无迹可求。因为我们不

  知道U中有哪些基本单位,也不知道有哪些复合单位,所以,我们

  不知道U是不是可列集,甚至也不知道怎样列举U的各个成员以及

  U的成员应该用何种方式去表示。

在国内的理论语言学论文中,像这样经过深沉思考的论述应该说还是比较难得的。但是,作者在语言“缥渺多变”的前提下,一连讲了4个(实际上有5个)“不知道”,接着既没有回顾许多先行者为了变“不知道”为“知道”而进行的探索,也没有进一步论证为什么就“不能知道”,作为20世纪90年代的论文,不能不说是有点落后于时代了。

引文的WU就是本文所说的自然语言空间和语言概念空间,“使W映入U”就是本文所说的“将自然语言符号体系再符号化”。值得注意的是引文中的“L的全部表达式”和“各个Ei的所指”这两个提法。就提法本身来说,完全符合语言哲学的标准,然而却是导致悲观主义的祸根。第一个提法不利于“映射法则(ERM)”的建立,因为在建立这些法则时必须采取各个击破的策略,不能把“全部”一刀切。第二个提法不利于双向思维,为什么仅考虑“所指”,而不考虑“反所指”?“使U映入W”不就是“反所指”么!实际上对“所指”的研究主要是一个归纳过程,而对“反所指”的研究主要是一个演绎过程,而解决作者所说的5个“不知道”,是需要将归纳与演绎、分析与综合的方法紧密结合起来的。

关于语言理解过程研究的方法论说明,本来可以到此为止,但美国著名心理学家黎黑先生关于“狐狸”与“刺猬”的一段话,我觉得值得在这里介绍一下,因为它对于语言学的碰撞式研究能提供一些有益的启示。黎黑先生的原文如下:

    古希腊诗人阿奇洛丘斯说过:“狐狸知晓许多事物,而刺猬只懂一件重要的事”。杰出的思想史家贝林爵士用这句寓意深远的话表达了他对作家和思想家存有这一天壤之别的看法。一般说来,人们之间也可能存有这一深刻的差异。两者之间截然有别,一方面“刺猬”爱把一切与一种单一的中心观念相联系,根据这种单一的普遍的组织原则,他们的存在以及他们所说的一切便有了意义;另一方面,“狐狸”却追求多种目标,这些目标通常或毫无联系或相互矛盾,即使有联系,也仅仅是事件方面的关连。

    Rorty先生在《Philosophy and the Mirror of Nature》一书中区分了“大P”和“小P”哲学。“大P”哲学家是哲学界的“刺猬”,他们雄心勃勃地想使哲学成为其他一切学科的首要原则和基本原则,为科学家和人文主义者提供建构理论的主要原理。相反,“小P”哲学家是哲学界的“狐狸”,他们批判地检验自己那个时代的思想,提出他们所希望的富于启发性和指导性的述评,但不提供他们自己的观点,因为他们认为本来就不存在什么基本观点。因此,构思出理想国的柏拉图是一只理性主义的“刺猬”,是一个“大P”哲学家;而他的老师苏格拉底,那只叮在国家臀部上的牛虻则如一只“狐狸”,是一个“小P”哲学家。

黎黑《心理学史》第二版序言

引这段话的目的是想说明,语言学界同样存在“大L”语言学家和“小L”语言学家。目前的情况是“小L”语言学家似乎太多了一点,更重要的是,我们需要“大L”与“小L”相结合的语言学家。通过引言中所说的“超”碰撞,这样的语言学家会逐步成长起来的,而这次研讨会将起到“催生”的作用。

 

3、语言概念空间的概念基元符号体系(第一组“M i”)

   各种数学空间的研究,形成了空间基元的重要思想。一个空间如果找到了一组完备的基元,那么这个空间的特性就可以精确表达了。把基元的思想明确引入语言研究的是美国的山克先生(R.C.Schank),由于这位先生过于“离经叛道”,在中国语言学界没有什么名气,不过在拙著的参考文献中却予以特殊优待,选了他的5部著作。

    山克先生对“转移”这个概念作了“刺猬”式的深入研究,认为它是语言概念空间的概念基元之一。但是,语言概念空间到底有多少个与“转移”相当的概念基元?山克先生却采取“狐狸”方式了。

HNC对语言概念空间的概念基元集合继续进行了“刺猬”式研究,把“转移”的“同胞胎姐妹”都找出来了,他们是:作用、过程、转移、效应、关系和状态。转移只是6“姐妹”的一员。她们一起构成语言概念空间的核心空间,命名为主体基元概念,也叫作用效应链。

关于作用效应链,拙著中有一段话,由于常被引用,已经变成了一段“套话”,这里就不来重复了。

“套话”的中心意思是:作用效应链的6个环节是任何事物的6个基本侧面。如果一个事物的这6个侧面都得到了充分描写,那么这一事物的面貌和特征就足够清晰了。所谓一个事物的知识表示,归根结底就是对这6个侧面的表述,所谓对一个事物的理解,就是要把握这6个侧面的信息和知识。语句既然是对事物的表达,那作用效应链当然也就是语句表达的核心内容。因此,作用效应链既是核心概念基元分类的总纲,又是语句分类的总纲。这一点下一节还要提到。

作用效应链只是语言概念空间中概念基元的一类,那么,这样的“类”总共有多少?许多先行者探索过这个至关重要的问题,大多数探索者自觉不自觉地走上了仿效生物分类学的思路。然而语言不是生物,远比宏观生物学复杂,仅用归纳、分析和综合的方法是不够的,还需要融合演绎及假设检验的方法。大脑中客观存在的语言概念空间,目前认知科学和脑科学可提供的知识虽然日益丰富,但离开揭示大脑奥秘这一宏伟目标,还只是万里长征迈出了第一步。比较现实的探索思路不妨多依靠一点演绎和假设检验的方式。

依据这一思路,HNC假定:语言概念空间首先可划分为具体和抽象两大子空间(或两大区域)。具体概念是指那些可以直接与具体物相对应的概念,如“山、湖、河、海、植物、动物、人物”“国家、城市”“工厂、商店”等等。抽象概念是指那些不能直接与具体事物相对应,或只能与一类具体事物的属性与表现相对应的概念,这是两个子类,统称抽象概念。前者如“作用、过程、效果、关系、状态”等等,后者如“概念、思考、情感、意识、道德、提倡、惩办、贪污、数量、质量、名词、前缀”等等。

 

3.1 抽象语言概念空间的4项假设和4类子空间

抽象概念的第一子类即作用效应链,如上面所阐释的,它构成语言概念空间的核心空间,这是关于语言概念空间构成的第一项假设。此类概念有一个鲜明的特点,就是语言哲学的“能指”与“所指” 概念在这里并不完全适用,因为它既“无所不能”,又“无所不指”。

抽象概念的第二子类有点“缥渺多变”的意味,但是人类活动,包括心理活动和思维活动,显然是其中的“一大块”,理所当然地是语言表述的主要对象和内容。据此可以作出第二项假设,人类活动是直接围绕上述核心空间的外层概念空间,命名为复合基元概念空间,简称复合基元概念。

有了主体基元概念空间和复合基元概念空间,那个“缥渺多变”的抽象语言概念空间已经不那么“缥渺”了。我们把这两类概念空间合称基元概念空间,简称基元概念。此空间的基本特征是:有一个内容明朗的核心和一个同样内容明朗的庞大外层。

基元概念空间虽然巨大,但究竟不能包含全部抽象概念,还有什么大块头的抽象概念集合?几千年来哲学和自然科学共同探讨的一些基本对象可以构成抽象概念空间的另一个子空间,并命名为基本概念空间,实际上这就是关于语言概念空间构成的第三项假设。

有了基元概念空间和基本概念空间以后,那个“缥渺”的抽象语言概念空间已经相当具体化了。现在应该考虑一下完备性的问题,想一想存在什么明显的漏洞。漏洞是明摆着的,那就是语言概念空间与自然语言空间相互转换或映射所产生的需要。这个需要可以说就是转换所需要的“工具”,那就是狭义形态及广义形态里所包含的抽象概念,包括汉语里特别丰富的所谓虚词。HNC把这一类概念命名为语言逻辑概念,这是关于语言概念空间构成的第四项假设

有了基于4项假设的4个抽象概念子空间,语言概念空间的抽象“区域”就完备了么?对数学家所关心的这一首要问题,就需要采取引言中所说的“超然”态度了。现在,问题的关键不是完备性的数学证明,而是4项假设的检验。但在检验之前,需要对4类子空间的数学结构给出具体的设计。

 

3.2抽象语言概念空间的数字符号设计

抽象语言概念空间的符号设计实质上就是前面所说的“自然语言符号体系的再符号化”,这里的设计对象是语言概念空间的概念基元,与之对应的自然语言符号主要是词汇。因此这一设计也可以看作是对自然语言词汇符号的再设计。但其实施过程是先在自然语言空间归纳,而后在语言概念空间演绎,不同于WordNet或“知网”的仅在自然语言空间归纳。

概念基元的数学结构这个术语似乎有点神秘,但实际上只是一层薄薄的窗户纸。“数学结构”者,一串数字符号而已。但是,相对于自然语言符号而言,这个数字串必须进行下列3点改进:第一,要求概念基元数字串的每一位数字都具有确定和唯一的意义,而自然语言(特别是拼音语言)的音节串或字母串,其单个音节或字母一般是没有确定意义的,串的整体才有确定意义,且绝大多数不具有唯一性。第二,要求概念基元数字串从起点开始在任何一点截断,都具有相应的整体意义,而自然语言的词语一般不具有这一特性。第三,要求对概念基元的三项基本特征,即概念局部联想脉络的三项基本内容——层次性、内部关联性、外部关联性,通过数字串的适当排序分别予以明确表示,而自然语言符号不可能拥有这一表达手段。

基于这三项要求,概念基元的数字串就必须设计成

               y|(m|t|)|

的一般形式,其中符号“|”表示它前面的变量可重复。这里数字串y|表示概念的层次性,简称高层;数字串m|表示概念的内部关联性,简称中层;数字串t|表示概念的外部关联性,也叫做网络性,简称底层。符号(m|t|)|表示(m|t|)作为一个整体又可重复。其中的m|t|可以是空集,这意味着m|t|的顺序可以交换,即高层之后可直接进入底层,底层之后又可出现中层,但高层总是在最前面。

y|(m|t|)|表示方式的具体实现可以有两种选择,一种是对中层和底层符号分别加上标记符,另一种是不加标记符,仅约定高层数字串的位数,并对中层和底层给以不同的数字。HNC符号体系选择后一种表示方式。下面先给出一些典型示例,然后对符号的整体设计作进一步说明。为了便利不熟悉HNC的读者,对中层和底层符号分别加上了相当于标记符的符号( )和[ ],以与高层符号相区别。

                HNC概念节点示例表

高层表示  

        0          作用

        00         “免除”和“约束”之外的所有作用

        01         对作用的承受

        02         生命体对作用的反应

        03         对作用的免除

        04         约束,使对象“有所不为”的作用

        1          过程

        10         过程的基本特征和基本类型

        11         过程的序

        12         过程的因果源流

        13         过程的趋向与转化

        14         新陈代谢与生死

        2          转移

        20         转移的基本特征

        21         接收

        22         物转移

        23         信息转移

        24         交换、替代与变换

        5          状态

        54         结构

        54-        体结构

        54-0       面结构

        54-00      线结构

        54-000     点结构

 

            7          心理活动及精神状态

71         心理活动

            711        态度

7115       人际交往中的态度

高中底层表示

        00[8]       物理作用

        00[9]       化学作用

        00[a]       生物作用

        10[b]       生命过程

        10[b](c5n)  (n=1幼,n=2少,n=3青,n=4中,n=5老)

        11(e5n)     (n=1开始,n=2结束,n=3持续)

        22b         物自身转移

        23[9]       信息定向信息

        23[9](1)    

        23[9](1)[9]  质问

        23[9](2)    

        23[9](2)[9]  抵赖

        23[9](ea4)   依托于一定关系的定向信息(建议)

        23[9](ea5)   自上而下(指示,命令,批准)

        23[9](ea6)   自下而上(汇报,请示,呈报)

        23[9](ea7)   无上下级关系、强期待应答(要求)

        23[98]      陈述

        23[99]      善意有益的定向信息(规劝,批评,警告)

        23[9a]      恶意有害的定向信息(指责,诽谤,恐吓,欺骗)

        23[9b]      对恶意有害定向信息的回应(辩解,驳斥)

        7115[9]     交往姿态

        7115[9](e41) 不卑不亢

        7115[9](e42) 卑(谄媚)

        7115[9](e43) 亢(傲慢)

 

这些示例体现了y|(m|t|)| 结构式的全部特征,数字采用16进制。

概念的层次性通过“7-71-711-7115”概念序列不难得到一个比较清晰的印象。层次性包括语义学的上下位概念,上下位关系的表示通常采用奎廉语义网络,那是语言空间的表达方式。读者不妨与这里的概念空间表达方式比较一下,并作出自己的判断。

概念的内部关联性包括对偶、对比、包含三个方面,相应的中层符号分别是

      对偶   emn n   n=0-3 4-7

      对比   cmn dmn

      包含   - -0 -00

对偶性概念是对语义学的反义词概念的扩展,对比性概念是对近义词概念的定量化。从上面的示例可以看到,对偶性概念是一个需要深入探讨的概念,不是伟大哲学“刺猬”黑格尔先生发明的“对立统一”可以全部概括的,这次研讨会上另有专文讨论。

概念的外部关联性十分复杂,体现外部关联性的底层符号用数字符号8-b表示。但实际上,每一个底层符号都可以用一组高中层符号的组合来表达,这就是说,底层符号实质上是高中层符号的再符号化或简化。这个再符号化过程也许涉及“知觉、再认、回忆”和记忆的核心奥秘,姑妄言之,不敢深谈。从实用观点来说,底层符号的设置可简化概念关联性的计算,这是HNC当前仍在努力设计底层符号的依据或动力。“但是,底层设计是一个复杂的系统工程,我们寄希望于与语言学家及同行们的合作。”拙著中的这一段求援的呼吁,依然有效。

 

3.3语言概念空间的子空间设计

语言概念空间子空间的设计实际上就是概念类别的划分或设计。这个问题在本节的前言和3.1节里已经作了要点说明。这里补充下列两点:一是语言概念空间的整体描述及概念基元的完整符号表示;二是语言概念空间设计中演绎过程的主要体现。

3.3.1语言概念空间的整体描述及概念基元的完整符号表示

“百闻不如一见”,一张虚拟的彩色图片当然是语言概念空间整体面貌的最佳展示。可惜老夫不会这一技术,只好沿用老一套,如下表所示。

                          语言概念空间

 


               抽象概念空间                      具体概念空间

 

                                 p    w   

                                      

                                      

                                      

                                                  

                  

                j   l   jl    s  f,h,q   x     p,pe, w,pw, jw

     2   3-4    2    2   2     3        挂靠   挂靠  挂靠   2

     6    8     9   12   2     4                            7

此表的要点如下:

第一点,语言概念空间可划分为抽象概念空间和具体概念空间,抽象概念空间分7个子空间,具体概念空间分3个子空间,两者之间存在一个过渡或两可的物性概念子空间。表中字母行标出了各子空间的标记符,也叫概念类型符号,主体和复合基元概念曾以希腊字母φ为共用类型符号,已弃而不用。语法概念设置了3个符号,但目前带有数字符号串的只有fp类和w类概念都只列举了两种类型,不全。表中第一行数字代表相应概念的高层位数,复合基元概念中仅“心理反应与精神状态”为4位,其它都是3位。“挂靠”的意思是,本身不带有数字符号串,依靠与抽象概念符号的连接取得相应意义,如w54-为结构体,w54-0为面结构体,pw22b为交通运输工具,p10bc55为老年人。表中第二行数字代表相应子空间根节点的数目。

第二点,抽象概念中除语法概念外,都具有五元组特性,其中基元概念的五元组尤为完备,五元组及其各种组合称为概念类别。概念基元的完整表示式是:

      [类型符号]+[类别符号]+[数字串]           HNC1

表示式HNC1所表示的符号命名为HNC映射符号,通过HNC1及其组合,可以表达语言词汇的语义。这样,语义的表达就从自然语言空间转换到了语言概念空间,实现了“符号任意性”到“符号关联性”的转换,为计算机把握语义提供了可计算的符号基础。

五元组的意义在《HNC理论》中有详细阐释,它与词性的关系这次研讨会上也另有专文。这里只想说一点,那就是汉语词性问题的争论,如果放到语言概念空间来考察,也许更容易理清思路。黎锦熙先生关于汉语“词无定类,类无定词”的论点,高名凯先生在词类问题上独树一帜的论点,现在看来,如果范定在基元概念空间,那么,应该说黎、高两位先生的论点是无可非议的,但不能推广到全部语言概念空间。形态的狭义与广义之说,是论其“然”而未论其“所以然”。抽象概念本来就有五元组特性,汉语由于单音节特性和相应方块字的限制,只好对五元组特性采取置之不理的对策,因而出现词性兼类现象,方言里的丰富形态并不能改变汉语的这一根本特性,为什么不能对此达成共识?

第三点,上列语言概念空间的类型可以看作是语义场的类型,每一类型内部的每一个根节点所张开的语言概念集合就是一个具体的“语义场”。场是有类型的,不同类型的场有不同的特点,要分别研究。物理学的统一场论,爱因斯坦先生为之奋斗了几十年都毫无结果,语言学的“统一场论”谈何容易。但分别研究各种具体的语义场是可行的,HNC概念基元符号体系为开展这项研究,提供了一个与单纯自然语言空间有所不同的思考空间。

第四点,HNC概念基元符号体系的每一个高、中层节点就是一个义素,每一个底层节点可以看作是一个复合义素,义素集合的完备性问题曾令人生畏,随着HNC概念基元符号体系的建立,义素的完备性问题虽然并没有得到证明,但已经可以采取“超然”态度了。语义学著作中常说:“语义场分析和义素分析提出了一些而不是全部语义分析维,只能用于有限的语义空间,用于全部词语还远远不能胜任。”现在,这个说法需要修改了。

 

3.3.2 语言概念空间设计过程中的演绎

语言概念空间各子空间根节点的确定,主要是一个归纳过程。这一归纳过程是对词语中蕴涵的共性与个性向上逐级层次化的过程,直至到达最高层次为止。这一逐级层次化的“加工”过程当然不是一件轻松的事。但幸运的是:数量仅1200多个常用汉字为这一“加工”过程提供了无与伦比的便利条件。这些语义充分基元化的汉字,在现代汉语中形成了数以万计的后向连接和前向连接的双字词(两者构成“正交”矢量),蕴涵在这些双字词中的概念联想信息,其条理之分明,脉络之清晰,堪称语言信息资源之“奇观”。从这一“奇观”中归纳出“作用、过程、转移、效应、关系、状态”这6项主体基元概念的最大共性,其实并不是一件太难的事。所以,拙著《HNC理论》里说:“在这里作者不能不对创立汉字的祖辈表示敬意。可以设想,如果菲尔墨和山克先生粗通汉语,概念层次网络理论也许在20年前就出现了。”

在取得各子空间的根节点之后,各个根节点的高层设计就得主要依靠演绎了。以根节点“作用”为例,与作用最密切的概念是作用的承受,因为,如果没有承受方,作用就是“空”的、无意义的“作用”,就不必进行语言描述了。这就是说,作用必然伴随着承受,“作用的承受”必须是“作用”根节点之下的一个支节点。承受方在承受作用之后,必然产生某种效应,如果承受方是生命体,则把这种效应特殊定名为“反应”。生命体对作用没有反应是不可思议的,因此“生命体对作用的反应”也必须是“作用”的一个支节点。再从作用本身来看,有两种特殊形式的作用必须予以特殊考虑,一是取消或免除某种作用的作用,二是产生某种约束的作用。为什么要特殊考虑?因为表达这两种作用的语句具有不同于一般作用表述的特殊语句知识,那就是在作用对象(相当于语法的宾语或语义的受事)的内容方面具有特殊性也就是下一节要说明的句类知识。这样,“作用”这个根节点就需要“HNC概念节点示例表”中所给出的5个支节点,也称二级节点。

所谓高层节点设计的演绎过程,就是上述两方面的考虑:一是根概念派生出来的概念,类似于俗话所说的亲生子女。二是根概念本身的一些特殊侧面,表达这些侧面的语句蕴涵着一些特殊的语句知识。这两条主线具有一般性,或者说,假定它们是所有根节点的概念联想主线,那么,沿着这两条主线的思考过程就是演绎、而不是归纳了。

过程与转移的高层设计也鲜明地表现了上述演绎过程。“过程的序”“过程的因果源流”“过程的趋向与转化”都是“过程”的亲生子女,而“新陈代谢与生死”是“过程”的一个特殊侧面。同样,“接收”是“转移”的亲生子女,而“物转移”“信息转移”“交换、替代与变换”是“转移”的特殊侧面。这里有两个有趣的现象值得注意,一是“过程”有3个亲生子女,而“转移”只有独生子“接收”;二是10定义为“过程的基本特征和基本类型”,而20定义为“转移的基本特征”。第一个现象是由于“转移”是从“过程”分离出来的独立根概念,与“效应”是从“作用”分离出来的独立根概念类似。这样,“过程”的亲生子女就具有过继给“转移”的特性(“法律“依据),不必在“转移”里重复设置了。这好比美国是从英国独立出来的国家,英美两国的文化具有很多共性,许多文化领域的研究就可以利用这一共性(语言哲学最为明显)了。第二个现象来于“转移”的不同基本类型具有不同的句类知识,而“过程”的不同基本类型不具有这一特性。这样的解释当然只是“道其然”而未“道其所以然”,若究其所以然,则由于“转移”所依托的空间比“过程”所依托的时间复杂,此其一;“转移”与“关系”强关联,而“过程”与“关系”弱关联,此其二。

每一个根概念的高层设计都有其个性问题,这里就不一一说明了。最后需要强调的一点是:反应人类活动的复合基元概念的高层设计是归纳与演绎并重,这个子空间是语境的具体化。以往关于语境的研究主要采用“狐狸”方式,HNC则改用“刺猬”方式,试图给出一个计算机可以把握的形式化语境模式。当然,复合基元概念子空间只是一个符号基础,形式化语境模式的完善,还有待于句群、段落和篇章理论模式的配套,这里同样存在“狐狸”与“刺猬”的深层合作问题。也许可以这样说,“狐狸”与“刺猬”的“联姻”之日,就是计算机可自动生成语境之时,中国语言学能否在这一关键领域走在世界前面?应该说是很有希望的!

 

4、语言概念空间的语句基元符号体系(第二组Mi)

    973项目的一次论证会上,当我第一次公布57个基本句类表示式的时候,项目首席科学家、中科院自动化所所长马颂德教授(现任科技部副部长)在场下大声说,“我在你那本书上到处找这些表示式,就是没有找全,原来你保密。”这是马教授的过人之处,他并不是语言学家,而是图像信息处理专家,但他一下子抓住了HNC的要害。

    “语义块是句类的函数—句类表示式—基本句类57—混合句类3192”

这就是语言概念空间的语句基元符号体系的要点

    句类表示式的概念从哪里来?这可以从多个角度进行说明,今天我想讲的是:句类表示式不过是对“主谓宾定状补”概念的语义转换。

对“主谓宾”概念进行各种转换的研究可以说是近半个世纪来语言学研究的焦点,流派众多。其中最著名的应推乔姆斯基先生的转换生成公式

                    S=NP+VP

这个公式并不是语义转换,但终究是一个计算机可以把握的语句表示式,通过它,就可以让计算机把握“主谓宾”的概念了。从这个意义上说,乔姆斯基先生是第一位将语言学从“以人为本”转变到“以计算机为本”的先行者,而且他在策略上十分精明,先给出一个对印欧语系接近“鲁棒”标准的S=NP+VP通用表示式,然后用管辖(GB)理论加以缝补。

    直接从事“主谓宾”语义转换研究的有两位代表人物,一位是乔姆斯基的学生菲尔墨先生,另一位是乔姆斯基的对手山克先生。这两位先生都意识到主谓宾(SVO)之间存在某种函数关系,但都不明说,且回避“函数关系”的提法,分别用“格”和“概念从属”的术语来替代。为什么?因为如果直接采用函数关系的提法,而又写不出函数表示式,那将对论文的尽快发表产生不利影响。

    建立函数关系表示式是所有科学研究的共同追求目标,也是所有自然科学分支从最初无所不包的哲学中独立出来的标志。自然语言的语句能否建立某种形式的函数表示式?这当然是一个非常严肃而重大的课题。刚才说到的“格”和“概念从属”理论都试图探讨这一课题,并从主语和宾语是谓语的函数这一隐含假定着手。但这一隐含假定隐含着一个明显的失误。因为,主谓宾之间存在3种相互制约的关系,不能只管主谓、谓宾两种相互制约关系,而置主宾相互制约关系于不顾。这一失误的根源,不能不说是动词中心说(对印欧语系的语句是正确的形式概括)和配价语法理论(对语句现象的另一种正确概括)造成的。

    考虑到主谓宾三者之间都存在相互制约的关系,那就应该假定三者共同受到一个更基础的东西的制约,如果这一东西存在,并命名它为x,那么,就可以仿效乔姆斯基表示式写出下面的“语句块表示”:

               J(x)=[JK(x)]+[EK(x)]+[{fK}|]                HNC20

“语句块表示”是“语句的语义块表示”的简称,其意义是:句子J3种类型的语句单位—JKEKfK─的各自有限集合构成,符号“[ ]”表示有限集合。JKEK分别命名为广义对象语义块和特征语义块,合称主语义块,两者大体相当于NPVPfK命名为辅语义块,与某些PP相当,fK的括号{ }表示它不是必须单位。

    语句块表示HNC20与乔姆斯基表示式的根本区别,不在于用JK替代NP,用EK替代VP,并用JKEK两者的各自有限集合(包括空集)替代NPVP的递归性,而在于HNC假定JK和EK是某一自变量x的函数

于是,问题归结为,这个假定的x究竟是什么?HNC的答案是:句类。句类的字面解释是:语句概念联想脉络的类型,也叫语句级全局概念联想脉络,简称句类。

那么,句类如何划分?或者说句类划分的依据是什么?

答案是明确的,“作用效应链既是核心概念基元分类的总纲,又是语句分类的总纲。”这指的是语句的最高级分类。

作用效应链为6个环节,那么7个基本句类之说从何而来?

7个基本句类”仍然指的是语句的最高级分类,7=6+1,这“+1”来于亚里斯多德的语句命题说,“北京是中华人民共和国的首都”这样的典型命题句(基本判断句)不属于作用效应链的范畴。命题属于判断,“作用效应链+判断”也被称为广义作用效应链,这个术语不必深究,不过是为了叙述方便而已。

57组基本句类才是正规的说法,那么,“57”这个神秘的数字从何而来?

主要来于作用效应链的二级概念节点。这些概念节点的设计过程要同时考虑到基本句类划分的需要,上一节已对此作了扼要的阐述。但仍然觉得不够透彻,故这里引用拙著《HNC理论》中的一段话,虽然这段话大约属于难懂的典型之一,但只好滥竽充数了。

    六个主体基元概念二级节点的设计,不仅必须反映每一基元概念的总体特征,还应该考虑到每一基本句类的子类分类特征。这是主体基元概念二级节点设计的基本依据。

    所谓基元概念的总体特征是指与全局联想有关的内容。如作用就要联想到作用的承受和反应;效应就要联想到变化和结果;过程就要联想到开始和结束、因与果、趋向与转化以及进展性与重复性等;转移就要联想到发和收、入和出、起点和终点、转移的内容、工具和途径等。

    但是,并不是每一总体特征都具备构成句类子类的资格,我们只选择那些具备这一资格的特征充当二级节点,而将其他的特征放到0分行里。过程的内容(指运动、演变和生命过程)在0分行,而转移的内容(指物和信息)却构成转移的二级节点,道理就在这里。

HNC理论》pp85-86

那么,“57”这个数字等于广义作用效应链二级节点数量的总和么?否!“57”是基本句类表示式的“组”数,不是“个”数。“组”的划分,基于多方面的考虑,这里就从略了。应该说明的是,基本句类表示式有5级之分,但这个级别的意义相当于我国的教授,而不是行政干部。还应该说明的是,57”这一数字不是不可以变动的,我甚至欢迎HNC自身队伍里出现主张不同数字的流派。

 

4.1语句块表示的符号体系和符号化

上面阐释了语句块表示 HNC20 的物理意义,但这样的表示式仍然是计算机不可操作的,还需要将表示式中的3种语义块进一步符号化。符号化首先就要设计主语义块的符号基元以及他们的组合方式。

主语义块是句类的函数,那么,如何在主语义块的符号表示式中体现这一函数关系?最直截了当的办法是:一,用句类基元的定义域直接替代特征语义块的符号基元。二,把广义对象语义块的符号基元连接在特征语义块符号基元之后。这样,语义块与句类的函数关系就明确表示出来了。

句类基元的定义域就是广义作用效应链,作为句类的符号基元,需要重新约定相应的符号。HNC约定:广义作用效应链的7个环节分别用下列7个大写英文字母代表:

                  EÎ{X,P,T,Y,R,S,D}

E表示句类基元的通用符号,定义域中的具体句类基元符号,如过程P、转移T、关系R、状态S取自英语相应word的第一个字母,但作用与效应采用了特殊符号XY,这是由于考虑到两者的特殊地位。判断未取judgeJ,而取 decide D,那是从权,因为J已预定用于句子 juzi 的代码表示。用J表示句子,无疑是不智之举,但我认为,有必要将句类表示式与乔姆斯基的语句生成表示式区别开来,同时S是状态句类符号的自然之选,所以就横下心来,冒一次“天下之大不韪”了。

现在假定广义对象语义块的通用符号为G(其定义域见下文),那么,语句块表示 HNC20 就可以改写成便于计算机操作的 HNC21 形式了。

               J(Em)=[EmG|n]+[Em]                   HNC21

表示式HNC21 中的数字下标m表示句类的级别,n是广义对象语义块的关系标记。在这个表示式中省略了辅语义块,同时应注意到,式中的G也是可以重复的。

    表示式HNC1和 HNC21代表了HNC理论研究到今天为止的全部成果,面壁6年,所得不过就是这两个表示式。概念节点表是从HNC1演化出来的,57组基本句类表示式是从HNC21演化出来的。但在《HNC理论》中不仅没有明确给出这两个表示式,而且还在个别地方,故意搞了一点神秘感甚至误导。这是因为市场时代是“狐狸”为王的时代,迫使老实的“刺猬”们不能不多留一点心眼。

表示式HNC21的细节说明需要较多的文字。这里仅对下标m的约定稍作说明。m的位数代表句类的级别,一位数代表一级句类,两位数代表二级句类,依此类推。各“位”的数字代表相应级别句类的子类类型。例如,一位数的Xmm=1-4)分别代表作用句的4种一级子类:作用的承受、作用的反应、作用的免除和约束,一位数的Tmm=1-4)分别代表转移句的4种一级子类:转移的接收、物转移、信息转移、交换替代与变换;两位数的X20X21X22分别表示一般反应、主动反应和被动反应3种反应句(作用句的二级子类),T2b表示转移句二级子类之一的自身转移句;三位数的T492代表先出交换句;四位数的T4a10代表扩展替代句。这里还应该特别说明,下标m可以为空,代表0级(最高级)句类,共7个,分别命名为基本作用句XJ,基本过程句PJ,基本效应句YJ,基本状态句SJ,基本判断句jDJ,块扩判断句DJ和作用效应句XYJ。上面谈到句类的级别相当于我国的教授级别,那么,这70级句类就很类似于我国1956年内定的4位特级教授了。

对表示式HNC21中的G,在《HNC理论》“论文2”的2.2节作了不遗余力的说明,可惜文字艰涩,令人难以卒读。该节力图阐明两个要点:一是语义块必须作为句类的函数来处理,二是必须引入语义块基元的概念,并试图证明广义对象语义块的基元有而且只有3个:作用者A、对象B和内容C其中内容基元C的引入是关键性的,故不惜笔墨,从各个角度作了近乎繁琐的论证。这3个广义对象语义块基元就是G的定义域

                      GÎ{A,B,C}

字母A来于agentactorB来于objectC来于content。所谓HNC21G的重复,应区分两种情况。在句类的语义块表示式中,是指ABC必须按顺序连接(主要是BCAC连接),不容颠倒,且ABC本身不能重复。但是,在进行语义块构成分析,即进行语义块的对象、内容分解时,三者不仅可以顺序颠倒,而且本身也可以重复。例如,

              <奋战通宵||的张教授>精神||依然很好

这样一句话,属于简明状态句S041J=SB+SC

其中       SC=依然很好

           SB=<奋战通宵||的张教授>精神    

                       SBB       SBC

                 SBBC     SBBB

对于SB来说,如两符号行所示,存在下面等式所表示的对象内容分解

             SB=SBB+SBC=SBBC+SBBB+SBC

简明状态句是汉语最常用的基本句类之一,没有特征语义块,只有两个广义对象语义块。该句类的句类知识约定:SB可包含SBC,但SC不包含SCB。所以,例句两语义块的分界线划在“精神”与“依然”之间,而不是在“张教授”与“精神”之间。在57个基本句类中,语义块之间的分界线需要进一步探讨的,S041J是唯一的句类。所以,这次研讨会上至少有两篇论文涉及到这一句类,希望通过碰撞能有所收益。

本节内容,是理解HNC的关键。以上所说,也许更加难懂,深感没有尽到弥补过失的承诺。现在转到下一个话题,希望有助于难懂度的缓解。

 

    4.2句类表示式及句类知识

表示式HNC21是构成句类表示式的基础,但本身还不是句类表示式。为什么?因为句类表示式必须给出各主语义块排列的顺序,而表示式HNC21并没有规定顺序。基本句类总表所给出的所有表示式都给定了主语义块的顺序,那才是句类表示式。例如上面提到的基本作用句、基本过程句、基本状态句、物转移句、信息转移句、一般反应句、先出交换句、扩展替代句、作用效应句、简明状态句的句类表示式分别是:

      XJ     =  A+X+B

      PJ     =  PB+P

      SJ     =  SB+S

      T2J    =  TA+T2+TB+T2C

      T3J    =  TA+T3+TB+T3C

      X20J   =  X2B+X20+XBC

      T492J  =  TA+T492+T4B2+T4C

      T4a10J  =  T4B1+T4a10+T4B2+T4C

      XYJ    =  A+XY+B+YCYC=(E)+EC

      S041J   =  SB+SC

这些基本句类表示式可统称HNC语句表示式,当然只是HNC语句表示式的一部分,因为还有混合句类和复合句类的表示式。

每一个句类表示式各拥有特定的句类知识,HNC希望把所谓世界知识的精华尽可能纳入到句类知识中,也就是升华到概念层面去表达世界知识。也许可以说,能否实现这一点是能否让计算机理解自然语言的最终“瓶颈”

那么,这个披着神秘“面纱”的句类知识到底包括哪些基本内容呢?拙著中多处有所阐述,这次研讨会上苗传江博士还另有专文,这里仅略举数例。

1:基本作用句XJ的对象语义块B,通常包括3项要素,HNC把他们分别命名为作用对象XB,效应对象YB和效应内容YC,因此,B语义块的一般构成可写成下面的表示式:

        B=XB+YB+YC

这个表示式是基本作用句的句类知识之一,叫做语义块构成知识。对汉语来说,这项知识里还具有一项非常可爱的特性,那就是3项要素的排列顺序一定严格遵守表示式的标示,不容颠倒。在《HNC理论》的p128p339中都曾兴致盎然地谈到这一点,不妨参阅。

2:基本过程句PJPB必须以抽象概念为核心要素,基本状态句SJSB必须以具体概念为核心要素。乔姆斯基先生那有名的、但实际上是带有自嘲意味的句子“无色的绿色思想在狂怒地睡觉”,按句类分析应归于基本状态句,但显然不符合该句类的句类知识,因而其不合理性是很容易判定的。

3:物转移句T2J的转移内容T2C必须以具体概念为核心,而信息转移句T3J的内容T3C必须是抽象概念信息为核心,而且T3C具有块扩特性,即必须扩展为另一语句,否则,只能以指代性短语替换。

4:一般反应句X20J的反应者必须是生命体,首先是人。代表反应引发者及其表现的语义块XBC必须同时包含具体和抽象概念,经常句蜕。如果该语义块仅含有具体或抽象概念,那就意味着省略,而且这一省略必然与某种常识性知识相对应。

5:先出交换句T492J和扩展替代句T4a10J各有3个广义对象语义块,三者之间的关系与其用“双宾语”来描述,不如用“双主语”更贴切,因为两句类的T4C都存在着“易主”现象。

6:作用效应句同信息转移句一样,具有块扩特性,都属于“双谓语”句类。“双谓语”意味着可能需要两个“中心动词”。对于语言中大量存在的句蜕和块扩现象,HNC认为有必要引入下列两组特征语义块“符号对”来加以描述:

      Eg, El       g=globle    l=local 

      Ep, Er       p=premise   r= result

句蜕和块扩现象在印欧语系里由于受到一个中心动词句法规范的影响而比较隐蔽,把这一隐蔽语言现象凸现出来,对于机器翻译和汉语动词兼类现象的处理都大有益处。

7:基本状态句,是无特征语义块的句类之一。西语仅在口语里才偶然使用这种句类,而汉语无论是口语和书面语都大量使用。

以上所述,仅是句类知识的一鳞半爪,更是知识海洋的沧海一粟,但当前的关键不在数量,而在于知识的表示方式是否容易为计算机所掌握或理解。实现知识形式的这一转变,可以说是HNC理论始终追求的唯一目标。“语言概念空间概念基元符号体系”和“语言概念空间语句基元符号体系”的设计都是围绕着这一目标,句类知识的挖掘和积累也是围绕着这一目标。

当然,这里有一系列重大理论问题需要探索,包括:句类知识潜力的评估,句类知识与规则,句类知识的相对性和绝对性,句类知识的客观性和赋予性等。这些本文就不来讨论了。

 

4.3 语句表示式及其格式

语句表示式这个术语在《HNC理论》中经常使用,上一节还在前面加了HNC修饰词,这意味着可以有各种各样的语句表示式。但我们始终没有给语句表示式下一个定义。这里建议采用下面的定义:把各语句单位按一定顺序排列起来、并形成一定意义的语句表示方式。

按照这个定义,乔姆斯基的S=NP+VP表示式并不符合语句表示式的条件,因为它虽然规定了语句单位的排列顺序,但不能保证形成一定意义,其生成能力过强众所周知,上面所引用的乔氏自嘲名句就是例证。为什么乔氏表示式不具备语句表示式的资格?简单地说,是由于他的语句单位选用不当,直接采用短语为语句的下一级构成单位。

表示式HNC21之所以可以充当构成语句表示式的基础,是由于它规定了一个语句具有一定意义的最小充分必要条件:主语义块的类型与个数。这句话似乎有一个“多余”,一个“不通”。“多余”的是“具有一定意义”,“不通”的是“最小充分必要条件”。

“多余”说的理由是:既然是语句,当然就具有一定意义,加这个修饰词不是画蛇添足么?这个问题要从两方面来回答,一,这里的“一定”不是泛指的“一定”,而是一系列特指的“一定”,这些特指就是各具体句类。二,无意义的语句可以由乔氏表示式大批量“生产”,而且文学和语言学大师们还经常玩弄变无意义为有意义的语言游戏,站在“以计算机为本”的立场,需要对“意义”加以适当限制。所以,加上修饰词“一定意义”就很有必要了。

“不通”说的理由是:既然是充分必要条件,就无“最小”之说。这个问题也需要从两方面来回答。一,语句的意义不仅决定于语义块的类型和个数,还决定于它们的排序。二,语句的意义虽然主要决定于主语义块,但辅语义块的贡献也不可忽视,有时甚至超过主语义块。由于这两重原因,“主语义块的类型与个数”就只是语句具有一定意义的充分必要条件的“最小值”。严格数学意义下的充分必要条件确实无“最小”之说,但语言学借用数学概念,不是需要采取“超然”方式么,这又是一例而已。

那么,把表示式HNC21中的各语义块按什么顺序排列,才能构成语句表示式?不要小看这个问题,它涉及许多基本语言现象的“根”,如西语名词的格,介词的语法功能,汉语的“把”字句等。

为了研究语句表示式,最好回到HNC20的形式,并在符号上作两项简化:去掉自变量x;把特征语义块EK减少到一个。这样,语句表示式就可以写成下面比较简明的形式:

           J=[JK]+EK+[{fK}]                    J-0

这是仅有一个特征语义块的语句表示式,但是,如果对JK引进块扩和句蜕的概念,就可以增强它的适应性,允许多个特征语义块的存在,从而包括上述全部57组基本句类。这个表示式的物理意义可以这样来陈述:它代表这样一类语句,它们以一个特征语义块EK为核心,配置一个或若干个广义对象语义块JKn,并可另行配置一个或若干个辅语义块。

根据这一陈述,那么对此类语句的感知或理解,就是要找出这些语义块。换句话说,语句的感知或理解过程就是一个辨认各个语义块的过程。这个辨认过程理论上应该分为两步,第一步是辨认JKEKfK三者之间的差异,第二步是辨认三者的内部差异或意义。

设想存在这么一种理想的自然语言,它对每一个语义块的上述两种差异都给出明确的标记,那么,两步认定过程就迎刃而解了,什么两步和语义块的顺序,都无所谓了。

但是,上述理想语言实际上是不存在的,也是不现实的,因为内部差异的标记非常复杂。自然语言的实际做法是,将上述两种差异合并为语法特性加以标记。不同的语种在标记的方式或技巧方面各有千秋,不过,比较起来也许是日语表现最“佳”,而汉语表现最“差”。

所谓屈折语的形态变化,黏着语的黏附成分,主要就是为了实现下述两项功能:一是充当语义块的差异标记,二是充当语义块内部构成的指示标记。其它的功能是次要的,甚至是多余的。

除了标记之外,语义块本身的排序也可以提供语义块的辨认信息。例如,将语句表示式HNC20改写成下面的两种形式

          J=JK1+EK+[JKm]+[fK],   m=2,3¼          J-1

              J=[JKm]+[fK]+EK                         J-2

就可以减轻语义块辨认的负担,因为前者给出了JK1EK的明确位置信息,后者明确给出了EK的位置信息,两者分别相当于所谓SVOSOV语言。SVOSOV之说如果加上“双O”(双宾语)和“双S”(双主语)的概念,适用性是比较宽的。不过,HNC仍然认为:采用符号JKm替代S和O,对于研究语句表示式的各种变化更为方便。当然这样做的必要前提是:能够对JK的下标m赋予确定的语义角色意义,而这一点由于基本句类和混合句类的发现已经不存在任何障碍了。所以,下面将以语句表示式J-1为基础来讨论语句格式问题。

语句格式定义为语句主语义块的排列顺序,每一种排列顺序就是一种或一类格式,为什么有“一种”与“一类”之分?本次研讨会有一篇关于语句格式的专题论文,读者可从中找到答案。格式不管辅语义块,因此,把J-1再改写成下面的5种形式:

          J =JK1+EK+[JKm]  m=2,3                 

          J3=JK1+EK+JK2                        

          J4=JK1+EK+JK2+JK3                    

         J21=JK+EK

         J22=JK1+JK2

除了复句之外,这5种形式的语句的覆盖面对于格式的研究是足够的。HNC把上列形式的语句统称基本格式。应该再次强调的是,这里的JKm都已经在句类的基础上分配了给定的语义角色,与语法意义下的主语宾语概念完全脱离了关系。完全脱离关系的利弊很值得研究,但不属于本文的讨论范围了。

基本格式是对语义块顺序信息的充分利用,其基本特征是不对任何语义块给出任何标记信息,因为它认为位置就包含了所需要的全部信息,代表了各语义块的语义角色。这个说法表面上“气壮如牛”,但是实际上仍然存在问题,各个语义块之间的边界就那么一目了然么?即使说把EK摆在第二号位置可形成两个天然分界,那J4语句的JK2JK3之间,J22语句的JK1JK2之间总存在边界模糊吧!但是,基本格式就是采取“蛮不讲理”的态度,对此置之不理。因此,采用基本格式的语言可以说是“蛮不讲理”的语言。

那么,世界上真有这样的语言么?有!有多少我不知道,但我知道至少有一位,那就是汉语。英语对“p400e31-0”有I me 之分,汉语用一个“我”全代表了,甚至还扩展到代表myour。你看汉语之“蛮”,简直到了“野蛮”的程度,不是吗?!

然而,正如许多哲人说过的,真理与谬误常常只有一步之差,汉语的上述“野蛮”正是其高度智慧的表现。“J4语句的JK2JK3之间,J22语句的JK1JK2之间”的边界永远是“对象B”与“内容C”的边界,不可能是两“对象B”或两“内容C”之间的边界,如果你能够区分“对象B”与“内容C”,那么,这个边界模糊实际上是不存在的。而人的大脑对于“对象B”与“内容C”的区分是轻而易举的,据此,汉语就放心使用基本格式了,难道这不是智慧的表现么!但是,对于电脑来说,这个边界模糊却是一道不可忽视的障碍,在《HNC理论》p165中把这一障碍叫做“BC佯谬”。

值得特别指出的是,汉语一方面在严格意义上使用基本格式,同时又丰富多彩地使用各种非基本格式,包括HNC定义的规范格式、违例格式和各种省略格式。

规范格式是指主语义块在基本格式的基础上互相交换位置,这时,在每两个广义对象语义块之间就要加上边界标记,指示边界后面的广义对象语义块的m编号,即该语义块语义角色的代号。违例格式是对规范格式的违规,缺省了部分或全部应有的语义块边界标记符。看下面的例句:

 1   张三||已经通知了||李四#参加||明天下午的桥牌比赛#

 2   张三||[|已经]^\{参加||明天下午桥牌比赛}的事/||通知了||李四。

 3   \{参加||明天下午桥牌比赛}的事/||^||张三||通知||李四。

 4   {李四||参加||明天下午桥牌比赛}的事/||^||张三||通知

 5   明天下午的桥牌比赛||^||张三||通知||李四||(参加)。

 6   明天下午的桥牌比赛||张三||要赶紧通知||李四||(参加)。

 7   明天下午的桥牌比赛,李四||非参加不可,张三||要赶紧通知。

 8   明天下午的桥牌比赛,李四||非参加不可,[|]^让张三||赶紧通知||他。

这是内容基本相同的一组信息转移句

             T3J=TA+T3+TB+T3C,   T3C=ErJ

1句是基本格式,2-5句是规范格式,6-7句是违例格式。下面对这些例句稍作说明。先交代一下标记符号:

            ||     语义块边界标记符

           {  }   原型语蜕标记符

           \  /    包装句蜕标记符

           #  #   块扩标记符

           [|  ]   特征语义块前向分离标记符

            ^     语义块指示符

信息转移句的T3C具有块扩特性,这里的块扩语句是一个效应句

             Y90J=YB+Y90+YC

在这个效应句里省略了YB。根据信息转移句与效应句相配合的句类知识,效应句中省略的对象一定是TB,这里就是李四。如果在YB的位置上出现了人称代词“他”,那“他”一定是指TA,而不是YB,这里就是张三。但应注意,后面的“规则”要排除TBT3C之间出现逗号的情况。

在规范格式里,语义块总数不变。但是,基本格式里的块扩语句却变成了一个包装原型句蜕,这并非必然现象,但有规律可寻,很值得研究。第五句的参加似乎可以省略,其实不然,一省略就有歧义,参加、参观、参预(比赛工作人员)的界线就不清楚了。

违例格式的语义块边界在第六句里呈现出“BC佯谬”,在7-8两句里,用逗号替代了语义块边界标记,这是违例格式常用的语法手段。但逗号的语法功能太多,是不是充当违例格式的语义块边界标记符,惟有依靠EgEp的句类知识才能作出判断。

从上面3种格式的对比可以看出,汉语的不同格式,是对语法范畴“格、时、体、态、式”的综合运用。汉语语法学家早就知道汉语语序的这一语法功能,并进行过深入系统的研究,HNC需要虚心学习。但是,“语序”之“语”的单位似乎应该更明确一些,把它划分为语义块间和语义块内两大类型,是否更有利于汉语的“时、体、态、式”研究?借这个提出问题的机会,我愿意郑重推荐:凡是以语义块为“序单位”的语言现象,格式的概念是非常有用的。说到这里,我不禁想起在20世纪遭受到种种不公平评说的国学大师们(这里按国学的当时标准),他们的功过在21世纪也未必能得到科学的论定。但是,他们对音韵反切表示法的过度钟爱,却是可以作出定论的。

本节需要说明的要点现在只剩下“混合句类3192”了。这个数字来于

           5757-1=3192

没有任何神秘。混合句类是基本句类的衍生物,基本句类的定义是:主特征语义块只表述作用效应链的一个环节;混合句类的定义是:主特征语义块表述作用效应链的两个(或两个以上)环节。对混合句类,我只想说这么一句话,它提供了一个设计、赋予、配置句类知识的巨大空间。我们需要更多的博士来研究这个具有重大意义的课题。

 

5、结束语

我最害怕展望未来。因为第一,在我看来,未来学尽管出了很多名人,但还不是一门科学。第二,我只是一只比较勤奋的“刺猬”,而且永远学不会“狐狸”的智慧,而展望未来是需要这一智慧的。

HNC未来的展望不能孤立地进行,要同许嘉璐先生最近提出的中文信息处理第二阶段战役结合起来考虑。

第二阶段战役从句处理开始,到篇章处理结束。这个战役在国外已经打响了半个世纪(因为人家不需要字处理战役),“突破性”进展曾屡有报导,但无一不是昙花一现。自然语言处理属于人工智能这个“大杂烩”学科的分支,这一学科的大师级人物中唯一的诺贝尔奖金获得者H·西蒙先生曾两次展望人工智能的光辉前景,但都以彻底破产落幕。我们在展望中文信息处理第二战役的前景时,不能不考虑上述历史背景或事件的根源。

第二战役的应用领域都涉及到语言知识处理的核心技术,这一核心技术绝对离不开对自然语言的计算机理解。绕过语义或理解另辟蹊径的做法是当前自然语言处理技术路线的国际主流,但许先生明确指出,绕开语义之路是行不通的。我完全支持许先生的这一基本论断。

HNC理论为计算机的语句理解制定了一个可以实现的标准,即句类分析技术,并为这一技术配备了一系列相应的知识表示方案。现在,这个技术已经在计算机上初步实现了,本次研讨会上有多篇这方面的报告。

当前的基本势态是:句类分析技术的两翼(软件与知识库)与理论基础都需要有一个新的飞跃才能赢得第二战役的决定性胜利。

软件新飞跃的主要标志是:对HNC符号体系或类似符号体系(但绝不能是自然语言符号体系本身)实现全面的“编译”;将句类分析技术升级为扩展句类分析技术,实现理解处理20项难点的综合治理。

知识库新飞跃的主要标志是:将句类知识体系或类似的语句知识体系(但绝不能仅仅是句法知识体系)进一步完善;将词语预期知识的覆盖率提高到接近人类大脑的水准。

理论基础新飞跃的主要标志是:将语境知识框架形式化,为此不能仅采用“狐狸”式研究,要推进向“刺猬”方式的转变;将句群、段落、篇章要点的表示框架形式化,并在研究方式上推进同样的转变。

实现上列新飞跃的关键在于涌现一支顶尖人才的团队。这个团队不仅需要理论和技术人才,还需要市场运作高手;需要张良、韩信、萧何的紧密配合,还需要一位刘邦来统帅。

我愿意毛遂自荐,充当半个张良。

这个团队的核心正在形成,但还需要扩展十倍。

这一扩展团队的基本形成,就是第二战役决定性胜利即将到来的可靠征兆。

这就是我对中文信息处理第二战役的展望。而HNC的未来,当然是依附于这一展望之上。

 



*本文得到973项目“G1998030506”的支持

** 本文听取了李耀勇博士后的许多重要建议,特此致谢。