2.1    HNC理论的语言概念空间

 

HNC理论的基本假设是,在人脑中有一个概念空间,它是人们认识世界和进行思维活动的基础。语言概念空间是概念空间的一个子空间,它与自然语言的表达密切相关。人们利用语言概念空间进行自然语言的理解和生成。HNC理论认为,自然语言理解的过程是,首先把自然语言映射到语言概念空间,然后在语言概念空间中进行概念联想脉络的激活、扩展、浓缩、转换与存储,从而达到对自然语言的理解[14]

 

2.1.1  HNC理论语言概念空间的渊源

 

       在语言概念空间中研究语言,是HNC理论的主要观点。HNC理论不但完整而深入地研究了语言概念空间,而且使用概念空间对语句进行了分析,形成一套语句分析的理论和技术,对语句的分析取得了很好的结果。在描述HNC理论的语言概念空间之前,我们首先讨论一下语言概念空间的历史渊源。

 

以前的绝大多数的语言学理论,都是在自然语言空间中研究语言,只有Schank的概念依存理论,是在语言概念空间中研究语言。但Schank只对“转移”这类概念进行了深入研究,即只对语言概念空间的一个局部进行了细致的研究。可以说,Schank是研究语言概念空间的先驱。

也许许多人都认识到了自然语言的理解依赖于把自然语言映射到人脑中概念和概念的组合和转换,但存在于人脑中的语言概念空间是如何组成的,其整体结构如何?很少有人认真地思考和研究这个十分重要的问题。HNC理论的创立者黄曾阳先生,以丰富的知识、卓越的思考力和对自然语言的透彻理解,对语言概念空间进行了长期深入的思考和探索,以概念层次网络为基础刻画了语言概念空间的组成和结构。

 

语言概念空间是自然语言空间在人脑中的对应物,从自然语言空间到语言概念空间的映射是自然语言理解的重要步骤,而从语言概念空间到自然语言空间的映射是语言生成的关键步骤。粗略地讲,这两个映射互为逆映射。既然语言概念空间和自然语言空间存在双向映射,那么这两个空间应该具有同构的关系。

自然语言空间与语言概念空间存在同构关系,那么,认真考察语言空间是研究语言概念空间的一条重要途径。每一种自然语言都形成一个语言空间。因此,人类拥有众多的自然语言空间,但却拥有同一个语言概念空间(这样,不同语言才可以彼此翻译、使用不同语言的人们才可以互相理解),多种多样的语言空间是同一语言概念空间的外在表现形式。当然,不同语言空间对语言概念空间的表现形式可能有所不同,表现的侧重点也可能不同。汉语具有“字义基元化,词义组合化”的特点,是研究语言概念空间中概念基元及其组合关系的很好材料。对此,HNC理论的创立者黄曾阳先生深有体会。另外,汉语中丰富的虚词、严整的语序,使得汉语很适合于语句结构的研究;汉语的流水式的、意合型的句式结构,意尽为界的行文方式,对于语言概念空间中句群的结构也很有启发性。

 

还应该注意到,作为人类认识世界和理性思维基础的概念,受到了人类历史上伟大思想家的密切关注和研究。在西方的伟大哲学家中,亚里士多德对语言中命题逻辑进行过深入研究,康德对人类具有的基本概念进行过深入的思考,黑格尔对概念间的对立统一关系进行过认真研究。

 

可以说,Schank先生对自然语言中“转移”类概念的深入研究,汉语的独特特征与汉语言研究的伟大传统,以及西方古典哲学家对语言概念的研究成果,是HNC理论中语言概念空间研究的三个渊源[7]

 

2.1.2          语言概念空间的结构

 

      从数学角度讲,空间是一个由许多元素组成的、具有一定结构的集合。自然语言空间以某种自然语言(如汉语)的全体成分,如字、词语、语句、句群、段落等,作为它的元素。众所周知,自然语言具有分层的结构,比如,由字组成词,由词组成句,由句组成句群。因此,自然语言空间也具有分层的总体结构,而每一层又具有丰富的结构。自然语言空间的整体结构如图1所示。我们将在下一小节对自然语言空间的结构作进一步的解释。

 

 

                 0       语素

                 1       词语

                 1.5      语义块

                 2       语句

                 3       句群

                 4       段落

                 5       篇章

 


 

1  自然语言空间的分层结构

 

语言概念空间作为自然语言空间在人脑中的对应物,应该具有与自然语言空间同构的结构[1]。因此,语言概念空间也具有分层的结构,而且每一层又具有自身的结构特点。

HNC理论第一次比较完整地刻画出了语言概念空间的分层结构,主要结果如图2所示。

 

   1     概念基元(概念层次网络)

   1.5    概念的组合

   2     语句(57种基本句类,3192种混合句类)

   3     句群

   4     段落

   5     篇章

 

 

 

2   语言概念空间的分层结构

 

按照HNC理论,语言概念空间的第1层是概念基元,概念基元是概念空间的基本元素,因此概念基元层是语言概念空间的最基本的一层,其他各层都建立在它之上。概念基元层具有丰富的结构,它由HNC理论的概念层次网络表示出来。

概念层次网络是一个既具有层次性又具有关联性的结构,它由11个网络组成,每个网络分为高、中、低层,其中高层是固定的,而中层和底层可以相互交叉。概念网络的高层体现概念的层次性,是一个树状的结构;中层表达概念的对偶性、对比性和包含性,表达概念之间的并列或包含关系;底层体现概念的关联性,是其他概念的组合,是复合概念的再抽象。

概念层次网络的主体是抽象概念,共有7个网络,即主体基元概念、复合基元概念、基本概念、语言逻辑概念、基本逻辑概念、综合概念和语法概念,绝大多数抽象概念又具有外在的五元组表现,即动态(v)、静态(g)、属性(u)、值(z)和效应(r)。具体概念分为3部分,即P类概念、W类概念和基本物概念,前两类概念主要用挂靠方式表示,而且也为它们设计了2个网络,即,物化基本概念和人化基本概念。在抽象概念和具体概念之间,是一个过渡或两可的物性概念网络,也采用挂靠的方式表示物性概念。

 

       语言概念空间的下一层(1.5)是概念的组合,它是一个过渡层,它既建立在第1层的基础上,仍然表示各种概念,同时又与第1层合在一起,作为第2层语句层的支撑。概念的组合共有6类组合结构,分别是,作用和效应、对象和内容、偏正、主谓、逻辑组合、展开。第1层的概念基元通过组合算子构成复合概念,用于表达比较复杂的概念。另外,复合概念也可以再组合。

 

语言概念空间的第2层建立在第1层和第1.5层的概念基元和复合概念的基础上,表示语句级的概念。语句通过把几个相关的概念结合在一起,用于表达对象及其表现。语句表达的对象和对象的表现决定了语句应该使用哪些概念。根据语句希望表达什么对象和对象的什么表现,对语句进行的分类,称为句类。这是语句在概念空间的类别。不同的句类表达不同的对象或相同对象的不同表现。

HNC理论确立了57个基本句类,基本句类可以相互混合或复合,构成混合或复合句类。在57个基本句类中,大部分句类既是常见的句类,又是句类基元;而有些常常仅作为句类基元;另一些本身是混合或复合句类,因为比较常见而列为基本句类。

 

对象和对象的表现是语言概念空间的重要元素,它们是各种基元概念和复合概念与语句、句群相联系的桥梁。对象通常以一个或几个并列的概念为核心;对象的表现通常以一个v类或u类概念为核心,也可能以几个概念的组合为核心。在语言空间的语句中,对象和对象的表现用语义块表示,语义块是语句的构成单元。

在语句表达的对象中,分别出一类特殊对象,用作用者语义块(A)表示,一般的对象用对象语义块(B)表示。对象的表现也分为两类,对象的一般表现用语句的特征语义块(E)表示,特殊表现用内容语义块(C)表示。用于表达对象及其表现的语句,它的主体一般是由这4类语义块构成。相应的,这4类语义块称为语句的主语义块。

在一个语句中,需要哪些对象,需要如何表达对象的表现,换句话讲,一个语句有哪些主语义块,语义块的核心由那些概念充当,都由语句的句类决定。这就是HNC理论中一个很重要的论断,“语义块是句类的函数”。

 

语言概念空间的第3层是句群。句群是由一些相关联的语句组成的。与语句相同,句群也是用于表达对象及其表现。然而,一般来讲,语句表达对象的相对简单的表现,而句群表达对象的比较复杂的表现。与语句类似,句群可能涉及几个对象,但应该有一个主要的对象,一个句群常常用于说明这个对象的比较复杂的表现,这个对象称为句群的公共对象。同样的,句群表达的对象及其表现在语言空间中也用语义块表达。

语句表达对象的简单表现,往往是单一的表现,这种表现使用一个E块,或一个C块,或E块加上C块,就可以表达清楚。句群表达公共对象的复杂表现,句群表达的表现可以是多侧面的,也可以是多步骤的,公共对象复杂表现的每一个侧面或步骤需要用一个语句表达;进一步,句群还要表达公共对象的多个简单表现之间的关系。

因此,句群通常包含多个语句,即包含多个E块和C块,用于表达多个表现。句群还常常包含语句间逻辑概念(lb)E要素逻辑说明概念(la)对应的词语,用于说明多个表现之间的逻辑关系。使用这些逻辑关系把句群的公共对象的多个简单表现组合起来,就是句群所表达的公共对象的复杂表现。

从结构上讲,句群表达的公共对象应该在句群的所有主要语句中出现,一般出现在语句的广义对象语义块中,作为语义块的要素,也可能作为块饰成分,也可以以某个语句的对象的表现作为句群的公共对象。在句群的开始语句中,公共对象一般不省略,而在句群的后续语句中,公共对象常常省略。

那些说明公共对象的简单表现的语句就是句群的主要组成成分,可以称之为主语句,类似于语句的主语义块;而其他的语句类似于语句的辅语义块,可以称之为辅语句。

与语句类似,根据所表达的对象及其表现,句群也可以在语言概念空间进行分类。句群公共对象的表现(即多个简单表现和它们之间的逻辑关系)是决定句群类别的主要因素。相应的,一个句群所需要的主语句类别和特征,由句群类别决定。

 

语言概念空间的第4层是段落,它由多个相关的句群或语句组合而成。由几个句群或语句构成的段落,各个句群的公共对象是密切相关的。一个段落表达一个主题,所谓主题,就是相关对象及其相关表现,可以使用一个或几个语句表达。

段落可以构成更大的段落,直到组成一个完整的篇章。因此,段落是分层次的结构。

语言概念空间的第5层是篇章,一个篇章表达一个完整的主题。

 

2.1.3          从自然语言空间到语言概念空间的映射

 

与语言概念空间相对应,语言空间也是一个分层的结构。自然语言空间的整体结构如图1所示。不同的自然语言之间有许多具体的差异,对应的语言空间也有一些差别,但其整体结构是相同的,因为它们都与同一个语言概念空间有同构关系。

       自然语言空间的语素和一部分词语映射到语言概念空间的基元概念,另一部分词语映射为概念的组合。应该指出的是,很多词语,包括一些语素,都是多义的,即,它们对应多个概念,词语对应的每一个概念称为词语的一个义项。相应的,一个概念也可能对应多个词语。

一个抽象概念具有五元组特性,它在自然语言中有很多外在的表现。而相对应的词语把概念的众多外在表现具体化和固定了下来。词语的词性就是描述词语的这些特性的[18]

       另外,在一种语言中,某个概念可能需要用一个语义块,或一个语句,甚至用一个句群来表达,这是由于这个概念很少被使用这种语言的人表达。一旦这个概念在这种语言中表达得多了,该语言通常会创造一个词语去方便地表达它。

 

       语言空间中的语义块对应于概念的组合,它通常由要素和块饰两部分组成。也有特殊的语义块,HNC理论称之谓句蜕和块扩,对应于语句,因为在这样的语义块中,既有对象又有对象的表现。

       HNC理论在自然语言空间中发现了语义块。应该指出,语言空间中存在语义块,是在语言概念空间中研究语句的必然推论。在语言概念空间中,语句表达对象及其表现。一个具体的语句,它所表达的对象种类和个数都是确定的,所表达的对象的表现也是确定的。在自然语言空间,语句所表达的对象及其表现就是用语义块表示的。语义块在概念空间表现为概念或概念的组合,在语言空间表现为直接组成语句的结构和意义的单元。

       我们把语句的语义块作为语言空间的第1.5层,因为在自然语言中,语义块的形式标志不很明显,其组成也不太固定,具有动态性。然而,语义块的确是构成语句的直接成分。自然语言的语句正是使用语义块表达对象和对象的表现,从而把语言概念空间中的语句表现出来。HNC理论在语言概念空间中研究语句,发现了语义块。对语义块的发现和研究是HNC理论的重要贡献。

 

       语句是语言表达的基本单元。在语言概念空间中语句表达的是对象及其表现。在语言空间,语句使用语义块表示对象及其表现,语义块是语句的意义单元,又是语句的结构单位。

       当然,语句表达的对象及其表现,需要一定的背景和舞台,例如条件、参照、工具、方法和目的等。在语句中,使用辅语义块表达这些背景和舞台。

       应该指出,我们按照语言概念空间中语句的含义,可以对自然语言的语句给出了一个比较精确的界定,即,在考虑语言中省略现象的前提下,语言中完整地表达对象及其表现的一个最小语串就是一个语句。在概念空间中,不同的对象及其表现决定不同的句类,而在语言空间中,语句所表达的对象及其表现用主语义块表示。因此,属于不同句类的语句具有不同类型的语义块。由于我们对属于某个句类的语句所包含的主语义块类型和个数是已知的(即句类表示式),这样,对于一个语串,可以通过分析它的构成,特别是其中所包含的主语义块类型及其个数,判断它是否是一个语句,并判定它的句类。

 

       句群是语言表达中的一个比语句高一级的单位。许多研究者都认识到自然语言中句群的重要性,并对句群做过许多研究[19]。在概念空间中,句群表达对象的比较复杂的表现。在语言空间中,句群由一些相关的语句构成,这些语句常常通过一些语句间逻辑概念对应的词语或短语而联系起来,表达这些语句之间的逻辑关系。除了过渡语句和插入语句外,句群的语句共用一个对象,这个对象称为句群的公共对象,它通常是这些语句的广义对象语义块的要素,也可能是一个语义块,例如C语义块,也可能是一个简单语句。

       这样,我们就可以对句群作一个比较明确的界定,即,前后相连的几个语句,除了过渡句和插入句外,它们共用一个对象,并有一些表示语句间逻辑关系的联结词或其他标识表明这些语句的逻辑关系;这些语句表达公共对象的比较复杂的表现。这些语句构成一个句群。这样,句群既具有外在标志,又具有内在含义,而且两者是统一的。

句群的公共对象把句群的语句连接在一起。句群所表达的对象的复杂表现,既通过表达语句间逻辑关系的联结词或其他标识来表现,也通过公共对象在各个语句中充当的语义角色来表达。对语句的分析,即句类分析,是对句群进行分析的基础。

 

       (第一级)段落是由一些相关的句群和语句组成的[2]。一个段落表达一个主题,该主题可以用一个语句表示,是组成该段落的句群和语句的概括和总结。在不少文章中,通常用一个标题表达一个段落的主题。

通常,在语言空间中,组成段落的句群之间,经常使用一些关联词语,表示这些句群之间的逻辑关系。也有的句群使用修辞手段或韵律语气特征表达句群间的逻辑关系。而由段落组成的更高层次的段落,其组成成分间的逻辑关系主要使用意合手段表达,也可能使用一些过渡语句或句群,或利用段落标题间的联系。

 

从上面的讨论可以看出,HNC理论中使用的语句、句群、段落等概念,其含义与一般语法书中使用的概念有许多不同。在汉语中,按照关于标点符号用法的国家标准[3][20],在一段文本中,句号、问号和感叹号标志着一个句子的结束,这可以看成是语句的一个形式的定义。与此形成对比的是,我们在HNC理论中以表述一个对象及其表现作为界定语句的标准,也就是根据一个句类所需要的主语义块类型和数量,并考虑缺省的原则,确定一个语串是否是一个语句。这是从意义和结构两方面考虑而确定的界定语句的标准。

容易看出,利用标点符号确定语句的形式标准,有很大的任意性。因为,按照国家标准[20],句子被定义为,“前后都有停顿,并带有一定的句调,表示相对完整意义的语言单位”。在这个定义中,“相对完整意义”是不明确的,因此该定义具有模糊性,它没有明确地说明句子的含义、构成。对于同一段话,有的人可能只用一个句号,从而当成一个语句;另外的人可能使用两个或多个句号,从而把它看成几个语句。

HNC理论确定语句是根据结构、组成和含义,根据语句所需要的语义块类型和数量,具有确定的标准(即句类表示式和句类知识)。这个标准既可以用于人对语句的判定,也可以用于计算机对语句的判定和分析。在语句的定义基础上,我们给出的句群定义,也是根据结构、组成和含义,因而也具有可操作性。

具体的讲,HNC理论在概念层次网络的基础上,按照意义和结构对语句进行分类,确定出了每一类语句所需要的语义块的类型和个数。这些先验的知识(称为句类知识)用于指导语句的界定和分析。通过分析语句,可以达到消除语言模糊、理解语言[4]的目的,而且为句群的分析奠定了基础。与HNC理论的语句定义形成对比的是,通常的意见是根据标点符号确定语句[5],应该指出,这种做法不但具有主观性和随意性,而且对于消除语言模糊、理解语言的帮助也不大。

 

在汉语中,句号结束的一个语串,一般认为是语句的,在很多情况下,就是我们这里所定义的句群。因为句号结束的语串,往往是表达了一个对象的复杂表现,而且它所包含的主要语句都共用一个对象,这符合我们的句群的定义。

另外,在汉语中,一般认为是句群的,通常是我们这里界定的一级段落,因为它包含几个句群,具有一个主题。段落是分层次的,低层次的段落组成高层段落,直至组成篇章。

 

       从前面的分析可以看出,HNC理论把自然语言映射到语言概念空间进行研究。自然语言有多种,每一种自然语言都对应一个自然语言空间;而语言概念空间只有一个,它反映了使用自然语言刻画现实世界和人类思维的本质情况,只有在语言概念空间才能很好地实现对语言的认识和理解。在语言概念空间中研究语言的理解,可以使我们排除具体语言的干扰,更好地理解人类的语言理解能力和语言的本质。

    HNC理论在语言概念空间中研究语言,非常适合于机器翻译。因为机器翻译是利用计算机把用一种自然语言写成的文本翻译成另一种自然语言,如果机器翻译的源语言和目标语言差别很大,例如英语和汉语,那么,我们就不可能仅仅通过对原文表层特征的分析而得到比较好地译文;换句话讲,我们必须摈弃源语言特有的特征对原文的影响,对原文进行深层的分析。HNC理论把语言映射到语言概念空间进行研究,正是对语言进行深层分析,并排除了语言特有的表面特征的干扰。另外,HNC理论特别为利用计算机理解自然语言而设计,很适合在计算机上实现。因此,HNC理论十分适合相差较大的自然语言间的机器翻译,比如汉语和英语之间的翻译。



[1] 从数学上讲,对于两个空间XYX上有一个二元关系RY上也有一个二元关系R',我们称空间XY对于二元关系RR'是同构的,如果从XY存在一个一一映射f,使得对于X中的任两个元素ab,若ab有关系R,即R(a, b)成立,则R'(f(a), f(b))也成立。

[2] 请注意,按照我们关于语句和句群的界定,有的语句可能不是某个句群的组成单元,而是直接构成段落,或者它本身就是一个段落。

[3] GB/T 15834----1995  标点符号用法。

[4] 文字流有3重模糊,即,词的多义模糊、语义块构成模糊、指代冗缺模糊,而语音流除了具有这3重模糊,还具有另外2重模糊,即,发音模糊和音词转换模糊。HNC理论认为,如果对文字流和语音流,能够消解这三重或五重模糊,就是实现了在语句级对自然语言的理解。详细论述参见文[7]

[5] 实际上,HNC理论在判定语句时,也采取了一些利用标点符号的形式标准,这主要体现在,在一对点号之间最多只能有一个语句。为此,HNC理论定义了复合句和复句两种语句类型,复合句是指在一个语句中,两个或几个小句至少共用一个广义对象语义块的,而复句是指在一个语句中两个或几个小句不共用广义对象语义块。如果严格按照意义和结构的标准界定语句,复合句和复句不是一个语句,而是两个或几个语句。然而,为了计算机分析语言的方便,并考虑到复合句和复句所包含的语句关系十分密切,我们把复合句或复句当成一个语句。