句群标注与分析

 

黄曾阳  杜燕玲  雒自清 郝惠宁

(中国科学院声学所,北京 100080)

0引言:

多年来HNC团队对语料的标注与分析实质上仅面向单句,现在是转向以句群为主的新阶段了。本文是为了适应这一新阶段的需求而写,是对引文[1]有关论述的具体化和引文[2]的发展。句群是语境单元和语境框架研究的基础,其标注与分析还有许多问题需要探讨。标注是分析的一种结果,不同角度和不同深度的分析将导致不同形式的标注。标注有人工标注和机器自动标注两种形式,将这两种标注的结果进行比较与分析是任何语言信息处理系统的基本检验工程,更是交互引擎研发的基本检验工程。

机器自动标注和人工标注都需要区分语言空间和语言概念空间的不同标注方式,这两种标注方式的内容(目标与意义)具有根本差异。语言空间标注直接面对语言文本,标注内容主要是语句的形式结构,最简单的标注是词语的词性,对汉语文本来说,最基本的标注是分词,向上是短语和句法树标注。如果进一步标注多义词的具体语义,那就进入语言概念空间的标注了。但传统语料标注并不明确区分语言空间和语言概念空间的不同标注。

HNC明确区分语言空间和语言概念空间的不同标注。简单地说 前者是形式标注,但不等同于语法标注;后者是意义标注,但又不等同于语义标注。HNC以语义块为语句的下一级构成单元,故HNC的语言空间标注将以语义块的标注为中心;HNC将语言概念空间区分为概念基元、句类、语境单元和语境框架4层级空间,故HNC的语言概念空间标注也区分概念基元空间、句类空间、语境单元空间和语境空间的4层级标注。在这4层级标注中,句类空间标注起着承下启上的关键性作用。本文的语言概念空间标注仅涉及句类空间标注,属于基本语料库。关于各种HNC语料库建设的概述见引文[1]

下面通过一个例句来具体说明HNC语言空间标注和句类空间标注的区别。

例句:

孙中山先生领导的辛亥革命,推翻了统治中国几千年的君主专制制度,对中国社会进步具有重大意义,但也未能改变中国半殖民地半封建的社会性质和人民的悲惨命运。

语言空间标注:

<孙中山先生|领导|的辛亥革命>||,推翻了||<统治|中国|[几千年|]的君主专制制度>

+{中国社会|进步}~||具有||重大意义,

+[*但也]未能改变||中国[半殖民地&半封建的社会性质][人民的悲惨命运]

句类空间标注:

SG=R011X*20J#R0B1=<R411J>#R0B2=<!24R411X*21J[HE|]>

 + ReC S0jD1*20J #ReC={PS*10J} +(lby)XY0*22J

   例句的标注符号请参看下文说明,这里先指出语言空间标注和句类空间标注的基本差异。语言空间标注侧重于语义块边界(符号为 || |)和语义块的具体构成形式,对后者又侧重句蜕类型(符号为 < > { })和常规构成的串联和并联,标注直接在语言文本上进行。句类空间标注侧重于句类代码和语句格式代码,标注以句群为单位,符号“SG=”代表句群表示式,等号右边写出该句群各个//各级语句的句类代码和格式代码,标注符号与语言文本分开。

句群如何定义、如何截取?这显然是句群标注必须首先解决的问题。[1]给出的句群定义是“围绕着一个特定概念展开的话语”,本文将采用这一定义,并据此进行句群截取。

句群截取是交际引擎概念联想脉络的运作过程与结果,这一运作过程从语言空间之词语向语言概念空间之概念基元CP的转换(映射)开始,到语言空间之句群向语言概念空间之语境单元SGU的转换结束。本文关注的句群表示式“SG=”是语境单元SGU的过渡性产物。HNC假定 交际引擎的运作存在这一过渡性产物,句群的人工句类空间标注(句群表示式“SG=”)就是这一过渡产物的符号表示式,这一表示式是交际引擎与交互引擎相互接轨的物理(符号)基础。至于交互引擎如何形成相应的句群表示式 那不是本文讨论的范围,但这里应该指出 在交互引擎研发的3级提升过程中[1] 句群表示式的生成是语境单元萃取的关键步骤,本文属于语境单元萃取的基础研究。

下面分3节进行论述,第一节讨论句群的组合结构,第二节讨论句群的标注符号体系,第三节讨论句群标注仍有待探索的一些问题。

1句群的组合结构

一个句群内部一般存在若干个以句号标记的句子,而句号标记的句子内部可能又存在若干个以逗号标记的小句。下文为描述方便 将把句号标记的句子叫大句,以区别于逗号标记的小句。众所周知 逗号是一个多功能标记[3],小句标记只是其众多功能之一。逗号功能的认定是语句理解处理20项难点的9号难点。汉字的特有优势本来可以方便地将逗号专用于小句标记,而将逗号的其他功能一律纳入空格符号。这一符号改革简单易行,而对于汉语的语言信息处理可谓功德无量。因此 本文愿意在这里正式发出逗号改革的呼吁,并以实际行动表明这一改革的简单易行性。

除了句号和逗号 问号、感叹号和分号都可以作为大句或小句的符号,局部小句还可以使用顿号标记。句号、逗号、问号、感叹号、分号就是传统语言学为句群组合结构提供的信息标记。这些标记能够满足交际引擎的信息需求,但不能满足交互引擎的信息需求。这就是HNC要重新审视句群组合结构的基本起因。

大句和小句只是句群结构的形式之一,这一形式区分对于句群的理解并不关键,关键是句群中大句的组合形式,包括下述3项内容:一是大句的各小句之间出现语义块的整体或局部共享,将简称共享现象;二是大句的某一或某些小句的语义块或其要素出现对另一//一些小句的整体继承,将简称照应现象;三是句间语义接应的词语表示,将简称接应信息。本节主要讨论共享现象,因为它是最常见、最重要的句群结构。

出现共享现象的大句将简称共享句,共享句有整体与局部之分。出现整体共享的大句将简称共享句,出现局部共享(即要素共享)的大句将简称半共享句,不存在共享现象的大句将简称列句。下面依次给出列句、共享句和半共享句的示例。

陕西有著名的大雁塔,四川有著名的峨眉山,湖北有著名的黄鹤楼。

陕西有个大雁塔,号称天下第一名塔;四川有个峨眉山,号称天下第一佛教名山;湖北有个黄鹤楼,号称天下第一名楼。

陕西有个大雁塔,离天只有一丈八;四川有个峨眉山,离天只有三尺三;湖北有个黄鹤楼,半截竖在天里头。

句群1是列句。三小句里有共同的修饰词语“著名”,它不是语义块要素,没有也不可能共享。句群23个分句都是共享句,分别共享语义块“大雁塔”、“峨眉山”和“黄鹤楼”。句群33个分句都是半共享句,共享要素仍然是“大雁塔”、“峨眉山”和“黄鹤楼”,但三者只是居后小句GBK1的一部分。下面对句群23作进一步的讨论。

句群2里的共享句是共享形式之一,居后小句的GBK1借用(从而采取省略手段,下文的“借用”都意味着省略)居前小句的GBK2HNC把这种共享句叫链句,其定义是居后小句的GBK1借用居前小句的GBKmax。链句是值得特殊关注的共享句之一,因为不同语种(例如汉语和英语)对链句的处理有所不同,另外 法律文件对链句的使用要特别慎重,因为链句的省略具有形式模糊性。

比链句更值得特殊关注的另一种特殊共享句是居后小句的GBK1借用居前小句的GBK1HNC把这种共享句叫迭句。汉语偏爱迭句,甚至允许多个小句一迭到底的极端形式,英语较少使用迭句,极少采用一迭到底的形式。引文[1]3.2节有“一迭到底”的汉语句群样式,并附有英语对照译文,读者可以参阅。

句群3是一个争吹家乡名胜的笑话,三个分句都是半共享句。共享内容是居前小句的GBK2构成居后小句GBK1的对象要素之一,居后小句的GBK1还有另一对象要素“天”,所以只是半共享。

句群33个分句都由两小句构成,各小句的语义块构成似乎都很简单,但面临着语句理解处理的1号、6号、11号、17号和18号难点的综合治理。前5个小句的句类认定都得从“有”字取得句类假设信息,而“有”字的1号难点比较突出,它可以形成多种句类,并具有(jD1,E)转换特性(11号难点),还具有体词特性(17号难点)。因此“有”字句是综合治理难度较高的语句。关于“有”的概念信息描述,见本刊论文——‘有’字的HNC阐释与处理(引文[4])。

共享与半共享是大句组合结构的第一位基本特征,也是句群组合结构的第一位基本特征。对各种共享特征要进行系统深入的研究,为什么?因为 它们直接关系到语言理解处理下列4项基本内容——格式、省略与指代、语义块的辨认与构成、要素的概念优选——的检验,这4项检验是语句理解的基本环节。一个语言信息处理系统(交互引擎)如果对这4项检验若明若暗,甚至茫然不知,那就谈不上理解。交互引擎是否具有语句理解能力的基本标志就在于它是否具有完成这4项检验的有效综合治理能力。句类分析的假设检验 归根结底就是这4项检验。交际引擎对这些检验应付裕如,它一读到句群3里的“离天”,就知道这里有省略,并知道省略了什么(‘离’的另一对象及其内容),后面的“一丈八”、“三尺三”都是概念联想脉络的预期。交互引擎能做到这一点么?做到这一点的关键举措(必需的知识与技术)是什么?如何测定交互引擎实际达到的水平?引文[1]对这3个根本问题作了宏观性论述,本文则是对第三个问题的基础性研究。这一基础性研究必须从大句或句群的上述共享特征起步,因为当存在共享现象时 对共享性的揭示乃是大句或句群理解处理的第一要务。

照应现象也是句群内部的常见现象,是大句组合结构的第二位重要的基本特征,传统语言学作过较多研究。英语偏好照应,汉语偏好共享,汉英翻译时 汉语的共享句要经常转换成英语的列句,原因就在于两者的这一偏好差异。但本文定义的照应现象具有如上所述的特定意义,下面通过一个例句对此作进一步的说明。

谁是我们的敌人?谁是我们的朋友?这个问题是革命的首要问题。中国过去一切革命斗争成效甚少,其基本原因因为不能团结真正的朋友,以攻击真正的敌人。

这里有两个大句。大句1之小句3的语义块“这个问题”是对前面两小句内容的整体继承。大句2的小句2语义块“其基本原因”里的“其”是对小句1内容的整体继承。这种继承是通过指示代词(例句分别采用了“这个”和“其”)来实现的。这里照应的一方不是个别词语、短语或语义块,而是整个语句。这是本文所定义的照应现象的要点,语料标注需要指明这一特殊照应现象。

接应信息关系到大句各小句之间的语义关联性,是大句组合结构的第三位重要基本特征,邢福义先生对此作过系统的研究[5]HNC把句间关系语义指示信息统一纳入语言逻辑概念林l的概念树lb。这一概念树的根概念设计还需要改进,当前的标注将采取过渡的变量形式。

本节讨论了大句或句群组合结构的3种基本类型,对应着大句的各小句之间的共享现象、照应现象和接应信息。文中重点讨论了共享现象,并特别关注其中的迭句和链句。下一节将给出共享现象、照应现象和接应信息的标注符号。苗传江博士曾设计过共享句的通用标注方式[6],本文建议仅在一般共享句的附加标注中加以使用。

2句群标注符号体系

如上所述 HNC语句标注符号体系区分语言空间标注和概念空间标注。前者直接在语言文本上进行标注,以语义块的标注为核心;后者在句群后面进行标注,也可以在小句或大句后面进行过渡性标注,句群的句类空间标注以句类代码和格式代码的标注为核心。对大句或句群来说  句间接应信息在语言空间和概念空间都要进行标注。

下面分两小节进行论述,2.1小节论述语言空间的句群标注,2.2小节论述句类空间的句群标注。

2.1 语言空间的句群标注

本小节先给出语句的HNC语言空间标注符号,说明语言空间标注的要点。随后给出标注例句,并作简要说明。语言空间的句群标注除这些符号外,还需要使用表2里的编号为6-11的句间信息标注符号。

          

1HNC语言空间语句标注符号总表

组号

符号

组合符号

意义

组号

符号

组合符号

意义

1

||

 

全局语义块边界标记

3

 

{}

原型句蜕边界标记

~

 

辅块附加标记

4

 

< >

要素句蜕边界标记

 

~||

左边辅块右边主块

5

 

\ /

包装句蜕边界标记

 

||~

左边主块右边辅块

6

 

[# #]

块扩小句边界标记

 

~||~

左右两边都是辅块

7

&

 

并联标记(曾使用符号Λ

2

|

 

局部语义块边界标记

8

 

[ ]

词组标记

 

~|

左边辅块右边主块

9

 

[* ]

特殊词语标记

 

|~

左边主块右边辅块

10

 

[| ] , [ |]

特征语义块EK分离部分标记

 

~|~

左右两边都是辅块

11

 

[% ], [ %]

广义对象语义块分离部分标记

 

    111组标记符号体现了HNC对语句标注的4个关注点。第一是语义块,其基本内容是语义块边界、语义块的全局与局部之分、语义块的主块与辅块之分三项标注;第二是句蜕和块扩现象,其基本内容是句蜕类型与包装的标注;第三是词组的内部组合结构,其基本内容是串联与并联顺序的标注;第四是语义块分离现象,其基本内容是特征语义块EK分离和广义对象语义块GBK分离的区分。下面给出语言空间的汉英对照标注例句。

  例句1

<孙中山先生|领导|的辛亥革命>||,推翻了||<统治|中国|[几千年|]的君主专制制度>

+{中国社会|进步}~||具有||重大意义,

+[*但也]未能改变||中国[半殖民地&半封建的社会性质]& [人民的悲惨命运]

<<The 1911 Revolution| led |by Dr. Sun Yat-sen>, which |overthrew| <the autocratic monarchy that| had ruled| China[for several thousand years|]>>||, was of|| great significance[in{promoting| China's social progress}].

++[*Yet], it|| did not succeed|| ~in {altering|[the [semi-colonialand & semi-feudal]nature of the Chinese society] and& [the miserable fate of the Chinese people]}.

例句2

||就是||

  \{我们|[*为什么]必须始终反对|{以教条主义的态度~|对待|马克思主义理论}}的道理所在/

That ||is||

\one reason why{we| have remained opposed to| dogmatism toward the theory of Marxism}/.

  例句3

在新的历史时期~||\{坚持|马克思列宁主义、&毛泽东思想}||[关键%]/{[坚持]|邓小平理论}~|[{观察|当今世界}&{观察|当代中国}]

{To uphold| Marxism-Leninism and Mao Zedong Thought| ~in the new historical period}~||,[*it] is|| vital]||{{to use| Deng Xiaoping Theory}~| {to observe| the present-day world and contemporary China}},

下面分别给出3个例句的简要说明。

    例句1的汉语表达是一个由3个小句构成的大句,居后两小句与第一小句共享GBK1,采用了汉语常见的迭句形式,可以把这里的大句更具体地叫做两迭句。相应的英语译文变成列句,3小句变两小句。这里的英语列句将叫做形式列句,代表形式不共享而实质共享的意思。汉语也采用形式列句,但其偏好程度远低于英语。

汉语例句1的小句1出现了两次要素句蜕,分别充当该小句的GBK1GBK2;小句2出现了一次原型句蜕,充当该小句的参照辅块Re;小句3无句蜕现象,但其GBK2呈现出比较复杂的多元逻辑组合结构,用词组标记 [ ] 进行了标注。这里值得强调的一点是 汉语句蜕的英语译文仍然是句蜕,句蜕类型保持不变,但格式必须变换。

例句2是一个单句,其GBK2出现了原型包装句蜕,这一特征汉语和英语是一致的。然而 两者又存在两项重大差异,一是包装品与包装体的相对位置不同,汉语的包装品在后而英语的包装品在前。汉语的包装品“道理所在”在包装体“{我们|[*为什么]必须始终反对|{以教条主义的态度~|对待|马克思主义理论}}”的后面,而英语的对应包装品“one reason”在包装体“{we| have remained opposed to| dogmatism toward the theory of Marxism}”的前面;二是包装体的结构不同,汉语的包装体是二重原型句蜕,而英语的包装体是单重原型句蜕。汉语的第二级原型句蜕{以教条主义的态度~|对待|马克思主义理论}在英语里变成多元逻辑组合dogmatism toward the theory of Marxism(其中的toward of是逻辑组合符号)。这里应该强调说明的一点,那就是 这里的一致性特征和第一项差异具有铁律性,第二项差异不具有铁律性,但具有转换的规则性。这些属于机器翻译引擎原理的研究内容。

例句3也是一个单句,汉语和英语都存在比较复杂的语义块构成现象。汉语的复杂性表现在包装品“关键”的分离和特征语义块“是”的省略(后者在语言空间的标注里没有给出),英语的复杂性在于特殊词语[*it]的运用。从翻译引擎原理的角度来看 这里存在复杂的语义块构成变换和语义块主辅变换现象。对这些现象的分析放在句类空间标注后面来说明。

2.2 句类空间的句群标注

本小节先给出句类空间的标注符号总表,随后给出2.1小节例句1的标注,最后论述句类空间标注的作用与意义。

 

2:句类空间标注基本符号总表

序号

符号

意义

注释

1

SG=

句群表示式

 

2

PSG=

单句//复句表示式

 

3

EJ

基本句类代码

 

4

E1E2*kmnJ

混合句类代码

 

5

!km|

语句格式代码,

符号“|”表示可重复,下同

6

+

迭句连接标记

 

7

+~

链句连接标记

 

8

+*

一般共享句连接标记

 

9

+% // +~% // +*%

半共享句的相应连接标记

 

10

++

列句连接标记

曾使用+++代表大句

11

+&

照应句连接标记

 

12

#|

句蜕标记

 

13

#|(GBKm)=//(fK)=

句蜕块物理表示式

(GBKm)代表广义对象语义块物理表示式,(fK)代表辅块物理表示式。

 

14

#|(GBKm)=%//(fK)=%

句蜕物理表示式

=%相当于包含符号

曾使用符号É表示语义块中含有句蜕

15

[#(GBKm)#]=

块扩物理表示式

 

16

(lby)

句间接应信息符号

 

17

(f1y)

句内接应信息符号

 

18

&

辅块插入标记

曾使用符号ß

     

2列举了18种句类空间标注符号,其中的6种连接标记和句间接应信息符号用于句群或复句的句类空间标注,实质上就是句间组合结构的描述,这组符号也用于语言空间的句群标注,其他用于单句的句类空间标注。这18种符号经历了5年的锤炼,现在可以而且应该定型了,表2应视为最终约定。

例句1的句类空间标注符号如下:

SGC=R011X*22J#R0B1=<R411J>#R0B2=<!24R411X*21J[HE|]>

 + ReC S0jD1*20J #ReC={PS*10J} +(lby)XY0*22J

SGE=S0jD1*20JReC#DB=<R011X*20J>##R0B1=<!01R411J>

##R0B2=<R411X*21J[HE|]>#DC=%{!31XY60*21J}++(lby)YJReC#ReC={!31XY0*22J}

句类空间标注保留着语言空间标注的全部信息,但增加了句类代码和格式代码信息,从后者可以清晰看到汉语和英语巨大差异中的不变性和可变性,下面将对此作详细分析。

例句1句类空间标注的物理阐释如表3所示。

 

3:例句1句类空间标注的物理阐释

 

汉 语 

英 语

句群形式

迭句

列句

语句特征

小句1

关系作用句R011X*22J

小句1

状态存在句S0jD1*20J

R0B1=<R411J>

DB=<R011X*22J>

R0B2=<!24R411X*21J>

R0B1=<!01R411J>

+小句2

+状态存在句S0jD1*20J

R0B2=<R411X*21J>

ReC={PS*10J}

DC=%{!31XY60*22J}

+小句3

+作用效应句XY0*22J

++小句2

++基本效应句YJ

ReC={!31XY0*22J}

共享内容

 

<R411J>(以迭句形式共享)

<!01R411J>(通过it共享)

 

3概述了例句1的句类空间结构特征,这一特征的汉语和英语表现具有重大差异,但差异中又具有不变性。从句类空间视野对这些差异及其不变性进行系统深入的研究不仅是翻译引擎原理研究的需要,也是句群研究本身的需要,这样做有利于突破单一语种研究的局限性。2.1小节对例句1的汉英形式差异作了一个简略描述,下面从句类空间的视野对汉英表达的结构差异及其不变性作具体说明。

例句1的汉语句类空间结构可以形象地描述成关系作用句R011X*22J、状态存在句S0jD1*20J和作用效应句XY0*22J的“串联”,形成迭句。而英语的句类空间结构可以形象地描述成状态存在句S0jD1*20J和基本效应句YJ的“并联”,形成形式列句。两者的形式差异很大,宏观上出现了句式转换、句类转换、主辅变换和句蜕格式转换。句式转换表现为汉语的迭句转换成英语的形式列句,这里尤其值得注意的汉语前两个小句构成的迭句R011X*22J+S0jD1*20J直接转换成英语的单句S0jD1*20J;句类转换表现为汉语小句3的作用效应句XY0*22J转换成英语的基本效应句YJ;主辅变换出现了两次,一次表现为汉语小句2里的辅块ReC变换成英语主块DC的一部分,另一次表现为汉语小句3的主块B变换成英语小句YJ的参照辅块ReC;要素句蜕的汉语与英语格式代码完全不同。下面就来对这4项差异作进一步的讨论。

例句1汉语与英语在句类空间的前两项差异表现了句类转换和句式转换在汉英互译中的突出地位。问题是本例句的转换具有代表性么?这两类转换具有可寻求的规则么?这是翻译引擎原理研究首当其冲的关键课题。HNC团队正在对此进行系统深入的探索[8-11]。这里应该指出的一个要点是:常见转换的多数具有一叶知秋特性,而不具有一叶知秋特性的转换可以通过上面的HNC对照标注语料寻得可靠的转换规则。这是一条人工标注与机器统计分析相结合的研究途径,代价是巨大的。然而 这是机器翻译走出雪线困境的唯一出路[1]。仅仅依靠分词与词性标注即进入以对齐为主的大规模统计分析是一个冒险的探索浪潮,是需要深刻反思的。对语料加上格关系或论元标注可以有所改进,但能否取得决定性进展仍然值得怀疑,因为这些标注之理论基础(主要是配价语法)的根基还没有转移到语言概念空间的基层(概念基元空间)和第一介层(句类空间),更不用说第二介层(语境单元空间)和上层(语境空间)了[1]。当然 配价语法理论还可以发展,最后也许会走到与HNC殊途同归的高度,但目前还没有这个迹象。

研究例句1句式转换要抓住两个基本点,一是汉语与英语的上述偏好(汉语偏好迭句,英语偏好形式列句),二是共享内容——孙中山领导的辛亥革命、The 1911 Revolution led by Dr. Sun Yat-sen——的确定,共享内容与传统语言学的焦点说有共同点又有重大差异。这里的差异类似于语义块之于传统语法的主谓宾语或格语法的角色,后者未透视主语//宾语//角色结构里的对象与内容之区分,而HNC则把这一透视作为理解语义块构成的关键,所谓语义块是句类的函数,是指语义块的构成及其要素的概念优先与句类密切相关,而这里概念优先必须首先区分对象与内容的不同优先,对象有对象的概念优先,内容有内容的概念优先,两者绝不能混淆,这是概念联想脉络最基本、最重要的特性,不了解这一点,就不能理解HNC句类理论的基本透视点。下面以国内语言学界经常讨论的“我吃食堂”语句为例来说明HNC的这一基本透视点。

汉语的“吃”字如同前面提到“有”字一样,具有比较复杂的多句类代码特征(即语句理解处理的1号难点比较突出),“吃”是生命体维持生命的必须动作 与“喝、吸”一起同属概念根节点22的延伸概念62223e21t=b,对应的句类代码是T21X0*22J,该句类的基本世界知识对应着延伸概念62223联想脉络基本内容的描述:吃者TA一定是活生命体;TA依靠摄入转移内容(食物)T2C维持其生命;转移内容T2C必然进入吃者的胃,胃是该转移的TB2,因此TB2可以省略;食物T2C必然是可食之物jw6y9//pwq631,被吃以后即不复存在;主语TA与宾语T2C的相互关联性主要决定于两者自身,与谓语T21X0无关。所谓语义块是句类的函数 就句类T21X0*22J来说 基本内容(即该句类的句类知识)就是上列5项。你看 谓语中心论或动词决定论在这里是不是失灵了呢?在语句角色关系或语义块相互关系这个重大问题上 HNC以往的论述也有失误,在引文 [1]作了系统的反思,读者可以参阅。

例句“我吃食堂”的阐释就需要上列句类知识第五项的细化或具体化,人类的食物T2C4大类,一是每个家庭每日3餐的餐食,二是非家庭制作的商品餐食,三是餐食的“部件”和“零件”,四是零食,后三者形成了餐饮业。例句“我吃食堂”里的“食堂”代表第二类食物的制作者,凡符合这一条件的具体概念peq641都可以进入汉语的这一句式。这一句式的T2C省略了食品要素的具体描述,因为这一信息已经隐含在食品的具体制作者里了。因此 “我吃食堂”里的“食堂”与其看作是地点状语(HNC的术语是条件辅块Cn2),不如看作是语义块T2CT2CB,而该语义块T2CC被省略了。引文 [1]曾建议HNC 探索与实践》网络季刊多刊登一些诸如“我吃食堂//*办公室”之类典型例句的分析,为什么“我吃办公室”不成立呢?因为办公室不符合peq641的条件,这个条件就是HNC常说的概念优先约束。HNC概念基元符号体系为这一约束条件的描述提供了比语言空间直接描述远为方便的符号工具。HNC理论探索当前集中力量于《手册1》的编撰就是为了把这个符号工具搞得更好一些,这是一项巨大的理论工程,单靠HNC团队的力量是不够的,我们热切期望广大语言学工作者和研究者关心、指导并参与这项理论工程,HNC 探索与实践》网络季刊将为这一期望的实现提供一个方便的交流平台。

语义块的对象内容分解是语义块构成研究的核心内容,而这一研究必须依托于句类。一般情况下内容C优先于抽象概念,但物转移句T2J的内容T2C必须是具体概念,这是物转移句的基本句类知识,混合句类T21X0*22JT2C继承这一知识。T2CT2CB代表商品餐食的制作者,T2CC代表制作的具体商品,这是混合句类T21X0*22J的一项特殊句类知识。利用这一句类知识可以解释“我吃食堂”及类似语句的成立性,同时也可以解释“我吃办公室”的不成立性。这是汉语的个性表现,但上述句类知识则对任何语言都是适用的。HNC过去侧重于句类知识共性的抽取,但《手册1》的撰写过程将加强句类知识的语种生成个性研究。鲁川先生在HNC沙龙的多次精彩发言是促成这一转变的重要因素。

例句1的句类转换——汉语的作用效应句转换成英语的效应句——不属于句类转换的常见类型之一,也不具有一叶知秋特性。这里的转换与句群或复句内部的句式协调性有关。句群内部的句式协调性是广义作用句和广义效应句视野里的一种语言现象。与汉语相比 英语更重视句式协调性,例句1的英语小句1是广义效应句,协调性要求小句2向小句1看齐,因此译文将汉语小句3的广义作用句转换成英语小句2广义效应句。这一语言现象在句类空间的视野里比较明显。当然 句式协调性不仅是“看齐”现象,但句类空间的标注语料是深入研究这一重要语言现象的基础。

例句1的两次主辅变换都与句式转换有密切联系,这一联系是翻译过程主辅变换规则性探求的关键所在,本文作者之一正在她的博士论文里对此作专门研究。

例句1的句蜕格式变换则具有一叶知秋特性,引文[7]对这一现象作了规则性说明。

上面通过例句1的句类空间标注具体说明了句群研究面临的基本课题,那就是句群小句组合结构与共享现象的关联性、句群内部各小句的句式协调性、语义块主辅变换对句式的依赖性、句蜕现象在翻译过程的不变性和可变性。这4项基本课题的研究需要在两种语言的平台上才能获得更宽阔的视野。这是本小节希望传达的基本信息。

 

3句群标注的若干待探索课题

 

句群标注待探索的课题也需要区分语言空间和句类空间,两空间的标注符号都比较复杂,不同标注者标注结果的一致性是首先需要探索并回答的课题,这需要作专题研究。一致性表现在标注的各个具体侧面,因此需要针对每一具体侧面作具体研究。前面提到语句语言空间标注的4个关注点,一般来说 每一关注点的每一项内容都可能存在待探索课题,这里一定要抓住要点,抛弃枝节,并避免钻牛角尖,否则就会陷于问题成堆的困境。例句1汉语前两个小句的标注是按迭句处理的,因而小句2里的“对中国社会进步”就成为参照辅块Re。但是如果按半共享句处理,则它就是主块SB的一部分,共享部分“孙中山领导的辛亥革命”与增加部分“中国社会进步”之间形成效应型组合结构。这也是一种解释,从前两个小句来看 这两种解释各擅胜场,但把小句3加进来一起考察,第二种解释就太不符合句群小句的协调性原则了。因此 对例句1小句2的标注应取第一种解释。如果坚持第二种解释,那就是钻牛角尖的偏激。当然 一个问题是否属于牛角尖有时很难形成共识,这就需要信任越辩越明的真理,因此 大力提倡并促进学术碰撞是解决一致性问题的根本出路。这一根本出路的具体实践需要组织工作的落实,如果仅仅停留在口号上,那就不可能真正解决一致性问题,也不可能形成有价值的HNC标注语料。

句群标注一致性的要点是哪些?下面将给出一个基本清单,然后对这个清单作简要说明。

              句群标注一致性问题基本清单

    1 语义块边界

    2 主块与辅块

    3 全局语句与局部语句

    4 全局//局部语句的句类代码与格式代码

    5 串联与并联

    6 语义块分离现象

    7 共享句、半共享句与列句

    8 迭句与链句

    9 句间接应信息

   10 语习信息

4的前6项属于单句的标注,7-9项属于小句之间组合结构的标注,最后一项可出现在小句内部,也可出现小句之间。下面依次说明每一标注项的待探索课题。

标注项1也许可以说已不存在待探索课题,但这是当前情况。以前这个问题也是比较严重的,集中表现在以下两个方面,一是简明状态句S04JSBSC之定义不明晰,造成两者边界标注的不确定性;二是英语复杂EK构成后边界的不确定性。这两项标注方式原先都未考虑语义块边界与语气停顿的一致性原则,这条原则是后来制定的,可以有效消除原标注的不确定性。上面例句3的标注也体现了这一原则,该例句的包装品“关键”与其包装体之间并不存在通常意义下的分离,这里的分离是由于逗号的插入造成的,而这里的逗号表示语气停顿信息。标注项1是否已完全不存在待探索课题?上面用了“也许可以说”,因为标注项12有密切联系。

标注项2的待探索课题也是标注项1的待探索课题,两者是交织在一起的。用传统语言学的术语来说 就是某些PPVP之句子成分或语义角色的认定问题,用HNC术语来说 是某些句类的主辅两可问题和某些Eu的认定问题,两者将简称PP问题和VP问题。例句3的英语译文就存在PP问题,那里出现了两个以 in 为标记的同样结构的PP,但第一个PP标注成主块DCDCu,第二个PP标注成参照辅块Re。这样标注的依据是两小句的句类知识,然而 句类知识本身是有弹性的,这需要作进一步探索。VP问题如“他急忙跑过来告诉我”“他们冒着大风雪在深山老林里搜捕逃犯”里的“急忙跑过来”“冒着大风雪”这两个VP如何标注呢?当前的约定是两者都应标注成Eu,然而 后者由于“在深山老林里”的存在,依据协调原则也可以标注成Cnx,这也需要作进一步探索。

标注项3的全局语句的待探索课题主要与EK省略的因果-果因句、是否判断句相联系。这两个基本句类的EK省略是汉语的常见现象,前者容易与复句混淆,后者容易与简明势态句混淆。例句3就是一个EK省略的是否判断句,由于语义块DB要素“关键”与其说明部分以逗号分离,“关键”后面又紧跟通常标记简明势态信息的“要”字,这个语句很容易被误判成简明势态句,然而它实际上是一个省略了“是”字的是否判断句。英语不存在EK省略的是否判断语句,故译文恢复原貌。然而 译文将“关键”的说明部分变换成辅块Rt,而且采用以引词it为引导的特殊语句格式,这里译文的变换处理具有规则性么?这是值得深入研究的语言现象。这里应该指出 绝大多数情况的全局语句辨认对交际引擎(即人工标注)不是一个难题,因而标注一致性也比较有保证。但对交互引擎来说 这是汉语语句理解处理的天字第一号难点(20项难点的第二号难点)。

标注项3局部语句标注存在的待探讨问题最多,这将在本刊作专题讨论。

标注项4的句类代码标注是HNC语料标注的灵魂,已标注语料在这方面存在的问题最多,是HNC语料库建设待探索课题的重中之重。在这个问题没有获得基本解决之前 追求标注语料库的数量是没有意义的。一定要通过有效的学术沙龙形式在这个根本问题上取得扎实的进展。至于格式代码的标注 剩下的问题只是5主块句的格式代码尚未制定。

标注项5的基本问题是语义块出现多元逻辑组合时的标注。预定的标注方案是将各种形式的逻辑组合简化成串联与并联两种基本形式,默认并联先于串联,串联自右而左依次进行,违反默认规则时 才以符号[ ]标注联结的先后顺序。上述默认串联顺序用于汉语,英语则改成“自左而右”。实际的串联具有不同的逻辑组合意义,英语通常通过介词给出具体的逻辑组合意义,汉语由于缺乏这些逻辑表达词语,不得不采取直接堆砌手段(即词序手段)。并联组合的汉英比较研究是一个十分有趣又具有重大实用价值的课题。

标注项6的待探索课题主要涉及HNC引入的QEHE概念及其对应词语和短语,两者对应着传统语言学的部分状语和补语,HNC引入这两个概念的目的是想把过于宽泛的状语和补语概念进行细化和类化,为句类假设与检验提供更有效的引导信息。然而具体操作起来仍然存在一定问题,需要作进一步探索,例句1里的“几千年”就是一个典型例子。本文标注是按3主块句R411X*22J句类的HE处理的,但也可以按4主块句R411S0*322J句类的GBK3处理。然而 这就需要进一步探索,为什么?因为 后者涉及混合句类合理分配的复杂课题。

标注项7-8的待探索课题最少,目前引入的概念和符号应该可以满足相当长时间的语料标注需要。

标注项9-10的待探索课题主要涉及HNC的语言逻辑概念lb和全部语习概念f与传统语法概念的接轨,这将在本刊组织系列讨论。在这一接轨问题未获得充分解决之前 HNC将采用变量符号形式作过渡性标注,如例句1句类空间标注里的(lby)

 

4结束语

本文论述的标注是语言空间的语句//句群向句类空间的提升,而不是向语境单元空间的提升。后者的标注是句群标注的最终目标,本文讨论的标注只是最终目标的预备工作,然而这一步极为关键。语境单元标注还有待于HNC探索3项理论工程的第一项——《概念基元符号体系手册》——取得足够进展以后,这是全面启动语境单元萃取研究的必要条件。科学探索必须遵循自身的固有规律,违反这些规律的冒险行动无益于交互引擎研发的宏伟目标。

HNC语料标注经历了6年的艰辛摸索,才取得本文所描述阶段性成果。这一阶段性成果的过渡面貌在引文[12]里有所介绍,读者可以参阅。

 


参考文献

[1]黄曾阳. 在反思中前进,在碰撞中成长[A]. 语言概念空间的基本定理和数学物理表示式[C]. 海洋出版社,2004.7

[2]雒自清 杜燕玲 郝惠宁. HNC知识库的句群、语境研究. 第二届HNC研讨会论文集. 2004.7

[3]  全. 汉语和英语逗号的对比分析及其翻译处理[A]. 孙茂松、陈群秀主编:语言计算与基于内容的文本处理[C]. 北京:清华大学出版社. 2003:444-450.

[4]黄曾阳 李颖.有”字一论-“有”字的概念阐释[A]. 见本刊创刊号.

[5]邢福义. 汉语复句研究[M]. 商务印书馆. 2001.

[6]苗传江. HNC语料简明标注规范. 内部文章. 2001.

[7]李颖. 面向汉英机器翻译的包装句蜕处理[J]. 计算机应用. 2004,24(6):137-141

[8]张克亮. 汉英机器翻译中是否判断句的句类转换[A]. 黄河燕主编:机器翻译研究进展[C]. 北京:电子工业出版社, 2002:172-183

[9]张克亮 黄曾阳. HNC作用效应句的汉英句类转换[J]. 中文信息学报, 2003(5):19-26

[10]张克亮. 基于HNC理论的汉英机器翻译策略研究[J]. 解放军外国语学院学报,2003(5)

[11]张克亮.HNC承受句的汉英句类转换. 第二届HNC研讨会论文集. 2004.7

[12]  全. HNC语料库标注体系浅识. 第二届HNC研讨会论文集. 2004.7


作者简介:

黄曾阳(1935~  ),1958年毕业于北京大学物理系。一直在中国科学院声学研究所工作,1985年晋升为研究员。

    1988年以前,主要从事声纳系统研究。1989年以后,转向自然语言处理领域,创立了概念层次网络理论HNC。黄曾阳研究员领导的HNC课题组先后进入了“八五”科学院重大项目、“九五”国家重点科技攻关项目和第一批“973”项目。
    HNC理论已经成为国内多所知名大学的研究生课程,著名语言学家许嘉璐先生曾撰文,将HNC列为我国中文信息处理三大流派之一。2000年,HNC课题进入科学院声学所创新工程,黄曾阳被聘为特邀研究员。HNC技术已有产品推向市场。