52个论题之35:本体层与挂靠层

 

35.0  引言

    从本论题到论题39是〈论题〉系列的第7组,都与语义距离计算有关。这一计算的具体技巧问题在Paper3中已有详尽讨论,本组论题概不涉及。但与语义距离计算密切相关的物理概念,过去的阐述不够系统,此组论题希望对此有所弥补。

    HNC层次符号的本体层与挂靠层之分,是抽象概念表达的一种方式,本体层体现概念表达的一类特定需要,对抽象概念来说,这样的特定需要共有三种。下面将分别对三种本体层作详细说明。

    所谓概念表达的一类特定需要,就是说需要引入一类新概念,但新概念与原有概念应该存在一定的关联性。本体层连接挂靠层的概念表示方式是对这一关联性的简明表达,实质上就是用原有的概念对新定义的概念予以联想式说明。这种表达方式适合于两种新概念,一是新概念在层次上低于原有概念,基元概念对基本概念的挂靠,语言逻辑概念对基本和基元概念的挂靠就属于这种情况;二是新概念体现了概念体系的整体特征,人类活动的层次性,概念的动态和势态特性就属于这一情况。

    大家知道,抽象概念层次符号有高中底层的划分(参看下一个论题)。底层主要用于表达概念之间的联想脉络特征。按照这一思路,本体层也分别设置了前本体层和后本体层。挂靠结束符号“*”的引入就是为了实现后本体层的表达。不过,后本体层的数字符号不象底层层次符号那样限于8~b,而是0~d,仅混合基元概念例外。此类概念无挂靠层,但配置了完备的后本体层,两者之间自然省去挂靠结束符号,后本体层层次符号的取值限定为6~d。

    具体概念的挂靠表达方式可以认为是省去前本体层的特殊表达方式。具体概念的后本体层已跨入常识性知识的范畴。对某些极为重要的具体概念应配置后本体层,但目前仅对wj2作了第一层的设计。动态和势态的精确表达也需要后本体层,当前皆付阙如。应该指出,展开的表达方式不能替代后本体层,两者是相互弥补的。

    在Paper6中曾写道:“语言知识如何表达?这个问题到今天,……依然不能给出完善的答案。也许可以说,这个答案完善之日,即接近自然语言理解大功告成之时。而这个时日,似乎不是一代人的努力可以完成的”。这个说法与两个“完备”的第一完备岂非自相矛盾?不!第一完备指的是概念表述体系及其高层节点的完备。这就象说一座大楼完工了是指主体结构而不包括庭院绿化和室内装修一样。Paper6的低调是基于抽象概念底层设计和具体概念后本体层设计的艰巨。但是,同时应该指出,底层和后本体层的不完备对于HNC的第一期目标的实现影响甚微,请注意,这里我用了“微”而不是“小”。如果有人问此说根据何在?我愿意说一句话,为此我曾浪费了大量的时间,其他则无可奉告了。

 

 

35.1  语言逻辑概念的本体层

    本节讨论的重点可能显得有点名不副实,因为将重点说明符号h,q的知识表示。这是两个十分特殊的概念,曾经放在l4里,后来觉得不妥,就把它独立出来了。它的特殊性主要表现在两个方面。第一,h,q用于语素位置的表达,分别表示后搭配和前搭配。后缀和前缀的说法只是它的特殊情况。“缀”仅适用于紧邻搭配,只用于词的构成。而h,q包括远搭配,可扩展用于短语、语义块和句子,如hPh,hK,hJ分别表示短语、语义块和句子的“后缀”。q与h的配套使用还可以用来表示双语义块指示符l2和l3以及汉语特有的括号型短语或语义块标志的先后。第二,h还具有词性变换和句类特征的标志功能。这些广义的语法功能有点超出了语言逻辑概念的预定范畴,在“语法”类概念中虽然有搭配这一项,但原意也是只管形式而不涉及内容。上述两点特殊性特别是第二点显然具有综合类概念的特征,所以最后把它们独立成一类特殊的概念类别符号了。但在本质上仍然属于语言逻辑概念。

    下面先简单回顾一下语言逻辑概念l的本体层,然后转入h,q的知识表达。

    语言逻辑概念的本体层体现三项表达的需要:语义块基元的类型,语义块的构成特征,句间关系兼语义块复合特征。承担语义块基元类型表达的是l0到l3另加l8;承担E语义块构成特征表达的有l6,l7,la;承担一般语义块构成特征表达的有l4和l5另加符号h和q以及H和Q;承担第三项表达是lb。以前我曾说过语言逻辑概念的本体层提供语法信息,这是不确切的,它只大体适用于l4和l5,而不适用于其他节点。以后以上面的说法为准。

    h,q作为词语构成的“缀”,h,q通常与五元组连用或单用。连用时约定五元组符号在后。以前还曾约定过五元组在前的组合方式,另有特定含义,我现在也记不得是什么意思了,这里宣告作废。

    五元组以前没有给定一个统一的符号,这在某些情况不利于表述,所以这里引入希腊字母χ作为五元组的符号表示,但知识库和软件暂时都不必使用这个符号。语义块曾引入过符号SK,取英语semantic chunk一词的首尾两字母,照用。对组合符号hx或qx的知识表示需要采用多种方式,这里给出统一规定。以前采用过的表达方式不够规范,今后以此为准。

                     1  hx+(HNC)            表示以HNC符号表示该后缀的语义,

                                                          合成词的词义是两者的并。

                                                        曾采用过(hx,(HNC))的表示方式,作废。

                     2 h¥x                     表示词性变换,词义决定于前面的字或词。

                     3 hv¥EJ                表示该复合动词将形成的特定句类

                     4 hv|SK                表示该复合动词宾语的语义块类型,

                                                          主要是对象与内容的区分。

                     5 hv|(HNC)          表示该复合动词宾语核心块素的优先性概念,

                                                          可加分号取多个义项。

                     6 hv&(HNC)           表示该复合动词对象宾语的优先性概念

                     7 hv‖SK                表示该复合动词主语的语义块类型

                     8 hv‖(HNC)           表示该复合动词主语的优先性概念

    这8种表达方式可以连用,连用时在两种方式间用逗号隔开。

    上列表示的4到6是复合动词宾语的三种不同层次的表达方式,4的层次最高,6的层次最低。最低层次表示仅用于宾语为具体概念的情况。宾语与HNC语义块数学表示式的非JK1相当。表示式里的宾语默认为JK2,如果不是,则以JKm替代SK。对混合句类,可能出现JK4甚至JK5。对复合句类,语义块数学表示应采用两位数字下标,即JKmn的形式,m=1表示第一个子句,m=2表示第二个子句。当hv类复合动词要求多个宾语时,可采用JKmax的表示方式,max表示JK的总数。如果需要对各JK的概念优先性作进一步的说明,则采用通常的JKm:的表示方式,如果直接以汉字表示,则采用组合符号:|。各项表示式之间用逗号隔开。

    主语相当于JK1。hv复合动词的主语也有高低两层次表示方式,如7、8所示。

    汉语的后搭配远多于前搭配,所以,上面以h为代表进行说明,它同样适用于前搭配q。

 

35.2  扩展和混合基元概念的本体层

    这两类基元概念的本体层用于表达人类活动的本能、智能和社会层面。Paper1对此已有详细阐述。这里仅从知识库填写和软件运用的角度补充下列几点。

    第一,实际语言词语的三层面表现具有“半导体”特征,因此,三层面的取舍一般应就低不就高。但是,当高层面的使用频度远高于低层面时,可采用先高后低的展开方式予以表达,展开项可只保留本体层而省略挂靠层或后本体层(对混合基元概念)。三层面表示是软件最容易使用和常用的语境知识,不是用于语义距离计算,而是用于不合法检验。在层选、段接、句类假设检验和语义块构成处理时都会用它进行解模糊处理,这时实际上并不进行语义距离计算,只运用论题26中所说的“合则留,不合则去”的七字诀。因此,三层面表示在填写时要精心思考。

    应该指出,无三层面信息的主体基元概念当然也可表述人类活动。上述先高后低的表达方式的“低”当然也可用主体基元概念代替。反过来,主体基元概念在先,三层面表示在后,也是一种表达方式。对这类表示,就不能简单采用七字诀了,而需要进行语义距离计算。

    第二,汉语的字义很少有三层面之分,组合词才表现出这一特征,这符合自然语言的发展规律。西语由于无汉语的词语组合便利条件,所以其词语的三层面特征非常淡薄,我喜欢指出汉语的优点,这是又一个例子。

    第三,三层面的运用要善于抓两头,即本能和社会性两头。从知识库的填写来说,要特别注意这两头的表达,把它放在第一位。这里要提醒一下,过去填写零级词时,很少碰到着重本能层面的词,所以只强调了a行信息的表示,现在应该同时注意6m特别是61和62的信息了。它们将构成第六号语境,这在论题39里将作进一步说明。

 

35.3  第三类本体层-动态与势态

    动态与势态是所有抽象概念是共同特征。两者都是过程的基本属性,但表现为一种状态特征,曾经考虑过把它们安置在j7的二级节点里,但为了表达的便利,最后选择了作为本体层的52、53表示方案。

    动态与势态提供的信息将用于隐知识的揭示,所以目前只是备而不用。但知识库填写者应能体会到,52、53的引入,对于某些词语的语义表达简直是神来之笔。

    动态与势态需要后本体层,部分语言逻辑概念(如l41,l42)也有这种需要,但人类活动的三层面则不需要。不过,这些后本体层都尚未设计。

    动态与势态符号同所有的本体层一样不参与语义距离的计算。它们能否提供一些语境信息?曾为此按我的方式查阅过语料,但未能得到确定性的结果。

    第四类本体层是500,它专门挂靠基本概念,这里就不作说明了。

 

 

                                                   黄曾阳

                                                     1998.10.16.