句群标注与分析
黄曾阳 杜燕玲 雒自清 郝惠宁
(中国科学院声学所,北京 100080)
0引言:
多年来HNC团队对语料的标注与分析实质上仅面向单句,现在是转向以句群为主的新阶段了。本文是为了适应这一新阶段的需求而写,是对引文[1]有关论述的具体化和引文[2]的发展。句群是语境单元和语境框架研究的基础,其标注与分析还有许多问题需要探讨。标注是分析的一种结果,不同角度和不同深度的分析将导致不同形式的标注。标注有人工标注和机器自动标注两种形式,将这两种标注的结果进行比较与分析是任何语言信息处理系统的基本检验工程,更是交互引擎研发的基本检验工程。
机器自动标注和人工标注都需要区分语言空间和语言概念空间的不同标注方式,这两种标注方式的内容(目标与意义)具有根本差异。语言空间标注直接面对语言文本,标注内容主要是语句的形式结构,最简单的标注是词语的词性,对汉语文本来说,最基本的标注是分词,向上是短语和句法树标注。如果进一步标注多义词的具体语义,那就进入语言概念空间的标注了。但传统语料标注并不明确区分语言空间和语言概念空间的不同标注。
HNC明确区分语言空间和语言概念空间的不同标注。简单地说 前者是形式标注,但不等同于语法标注;后者是意义标注,但又不等同于语义标注。HNC以语义块为语句的下一级构成单元,故HNC的语言空间标注将以语义块的标注为中心;HNC将语言概念空间区分为概念基元、句类、语境单元和语境框架4层级空间,故HNC的语言概念空间标注也区分概念基元空间、句类空间、语境单元空间和语境空间的4层级标注。在这4层级标注中,句类空间标注起着承下启上的关键性作用。本文的语言概念空间标注仅涉及句类空间标注,属于基本语料库。关于各种HNC语料库建设的概述见引文[1]。
下面通过一个例句来具体说明HNC语言空间标注和句类空间标注的区别。
例句:
孙中山先生领导的辛亥革命,推翻了统治中国几千年的君主专制制度,对中国社会进步具有重大意义,但也未能改变中国半殖民地半封建的社会性质和人民的悲惨命运。
语言空间标注:
<孙中山先生|领导|的辛亥革命>||,推翻了||<统治|中国|[几千年|]的君主专制制度>,
+对{中国社会|进步}~||具有||重大意义,
+[*但也]未能改变||中国[半殖民地&半封建的社会性质]和[人民的悲惨命运]。
句类空间标注:
SG=R011X*20J#R0B1=<R411J>#R0B2=<!24R411X*21J[HE|]>
+ ReC S0jD1*20J #ReC={PS*10J} +(lby)XY0*22J
例句的标注符号请参看下文说明,这里先指出语言空间标注和句类空间标注的基本差异。语言空间标注侧重于语义块边界(符号为 || 和 |)和语义块的具体构成形式,对后者又侧重句蜕类型(符号为 < > 和 { })和常规构成的串联和并联,标注直接在语言文本上进行。句类空间标注侧重于句类代码和语句格式代码,标注以句群为单位,符号“SG=”代表句群表示式,等号右边写出该句群各个//各级语句的句类代码和格式代码,标注符号与语言文本分开。
句群如何定义、如何截取?这显然是句群标注必须首先解决的问题。文[1]给出的句群定义是“围绕着一个特定概念展开的话语”,本文将采用这一定义,并据此进行句群截取。
句群截取是交际引擎概念联想脉络的运作过程与结果,这一运作过程从语言空间之词语向语言概念空间之概念基元CP的转换(映射)开始,到语言空间之句群向语言概念空间之语境单元SGU的转换结束。本文关注的句群表示式“SG=”是语境单元SGU的过渡性产物。HNC假定 交际引擎的运作存在这一过渡性产物,句群的人工句类空间标注(句群表示式“SG=”)就是这一过渡产物的符号表示式,这一表示式是交际引擎与交互引擎相互接轨的物理(符号)基础。至于交互引擎如何形成相应的句群表示式 那不是本文讨论的范围,但这里应该指出 在交互引擎研发的3级提升过程中[1] 句群表示式的生成是语境单元萃取的关键步骤,本文属于语境单元萃取的基础研究。
下面分3节进行论述,第一节讨论句群的组合结构,第二节讨论句群的标注符号体系,第三节讨论句群标注仍有待探索的一些问题。
一个句群内部一般存在若干个以句号标记的句子,而句号标记的句子内部可能又存在若干个以逗号标记的小句。下文为描述方便 将把句号标记的句子叫大句,以区别于逗号标记的小句。众所周知 逗号是一个多功能标记[3],小句标记只是其众多功能之一。逗号功能的认定是语句理解处理20项难点的9号难点。汉字的特有优势本来可以方便地将逗号专用于小句标记,而将逗号的其他功能一律纳入空格符号。这一符号改革简单易行,而对于汉语的语言信息处理可谓功德无量。因此 本文愿意在这里正式发出逗号改革的呼吁,并以实际行动表明这一改革的简单易行性。
除了句号和逗号 问号、感叹号和分号都可以作为大句或小句的符号,局部小句还可以使用顿号标记。句号、逗号、问号、感叹号、分号就是传统语言学为句群组合结构提供的信息标记。这些标记能够满足交际引擎的信息需求,但不能满足交互引擎的信息需求。这就是HNC要重新审视句群组合结构的基本起因。
大句和小句只是句群结构的形式之一,这一形式区分对于句群的理解并不关键,关键是句群中大句的组合形式,包括下述3项内容:一是大句的各小句之间出现语义块的整体或局部共享,将简称共享现象;二是大句的某一或某些小句的语义块或其要素出现对另一//一些小句的整体继承,将简称照应现象;三是句间语义接应的词语表示,将简称接应信息。本节主要讨论共享现象,因为它是最常见、最重要的句群结构。
出现共享现象的大句将简称共享句,共享句有整体与局部之分。出现整体共享的大句将简称共享句,出现局部共享(即要素共享)的大句将简称半共享句,不存在共享现象的大句将简称列句。下面依次给出列句、共享句和半共享句的示例。
陕西有著名的大雁塔,四川有著名的峨眉山,湖北有著名的黄鹤楼。
陕西有个大雁塔,号称天下第一名塔;四川有个峨眉山,号称天下第一佛教名山;湖北有个黄鹤楼,号称天下第一名楼。
陕西有个大雁塔,离天只有一丈八;四川有个峨眉山,离天只有三尺三;湖北有个黄鹤楼,半截竖在天里头。
句群1是列句。三小句里有共同的修饰词语“著名”,它不是语义块要素,没有也不可能共享。句群2的3个分句都是共享句,分别共享语义块“大雁塔”、“峨眉山”和“黄鹤楼”。句群3的3个分句都是半共享句,共享要素仍然是“大雁塔”、“峨眉山”和“黄鹤楼”,但三者只是居后小句GBK1的一部分。下面对句群2和3作进一步的讨论。
句群2里的共享句是共享形式之一,居后小句的GBK1借用(从而采取省略手段,下文的“借用”都意味着省略)居前小句的GBK2。HNC把这种共享句叫链句,其定义是居后小句的GBK1借用居前小句的GBKmax。链句是值得特殊关注的共享句之一,因为不同语种(例如汉语和英语)对链句的处理有所不同,另外 法律文件对链句的使用要特别慎重,因为链句的省略具有形式模糊性。
比链句更值得特殊关注的另一种特殊共享句是居后小句的GBK1借用居前小句的GBK1,HNC把这种共享句叫迭句。汉语偏爱迭句,甚至允许多个小句一迭到底的极端形式,英语较少使用迭句,极少采用一迭到底的形式。引文[1]的3.2节有“一迭到底”的汉语句群样式,并附有英语对照译文,读者可以参阅。
句群3是一个争吹家乡名胜的笑话,三个分句都是半共享句。共享内容是居前小句的GBK2构成居后小句GBK1的对象要素之一,居后小句的GBK1还有另一对象要素“天”,所以只是半共享。
句群3的3个分句都由两小句构成,各小句的语义块构成似乎都很简单,但面临着语句理解处理的1号、6号、11号、17号和18号难点的综合治理。前5个小句的句类认定都得从“有”字取得句类假设信息,而“有”字的1号难点比较突出,它可以形成多种句类,并具有(jD1,E)转换特性(11号难点),还具有体词特性(17号难点)。因此“有”字句是综合治理难度较高的语句。关于“有”的概念信息描述,见本刊论文——‘有’字的HNC阐释与处理(引文[4])。
共享与半共享是大句组合结构的第一位基本特征,也是句群组合结构的第一位基本特征。对各种共享特征要进行系统深入的研究,为什么?因为 它们直接关系到语言理解处理下列4项基本内容——格式、省略与指代、语义块的辨认与构成、要素的概念优选——的检验,这4项检验是语句理解的基本环节。一个语言信息处理系统(交互引擎)如果对这4项检验若明若暗,甚至茫然不知,那就谈不上理解。交互引擎是否具有语句理解能力的基本标志就在于它是否具有完成这4项检验的有效综合治理能力。句类分析的假设检验 归根结底就是这4项检验。交际引擎对这些检验应付裕如,它一读到句群3里的“离天”,就知道这里有省略,并知道省略了什么(‘离’的另一对象及其内容),后面的“一丈八”、“三尺三”都是概念联想脉络的预期。交互引擎能做到这一点么?做到这一点的关键举措(必需的知识与技术)是什么?如何测定交互引擎实际达到的水平?引文[1]对这3个根本问题作了宏观性论述,本文则是对第三个问题的基础性研究。这一基础性研究必须从大句或句群的上述共享特征起步,因为当存在共享现象时 对共享性的揭示乃是大句或句群理解处理的第一要务。
照应现象也是句群内部的常见现象,是大句组合结构的第二位重要的基本特征,传统语言学作过较多研究。英语偏好照应,汉语偏好共享,汉英翻译时
汉语的共享句要经常转换成英语的列句,原因就在于两者的这一偏好差异。但本文定义的照应现象具有如上所述的特定意义,下面通过一个例句对此作进一步的说明。
谁是我们的敌人?谁是我们的朋友?这个问题是革命的首要问题。中国过去一切革命斗争成效甚少,其基本原因因为不能团结真正的朋友,以攻击真正的敌人。
这里有两个大句。大句1之小句3的语义块“这个问题”是对前面两小句内容的整体继承。大句2的小句2语义块“其基本原因”里的“其”是对小句1内容的整体继承。这种继承是通过指示代词(例句分别采用了“这个”和“其”)来实现的。这里照应的一方不是个别词语、短语或语义块,而是整个语句。这是本文所定义的照应现象的要点,语料标注需要指明这一特殊照应现象。
接应信息关系到大句各小句之间的语义关联性,是大句组合结构的第三位重要基本特征,邢福义先生对此作过系统的研究[5]。HNC把句间关系语义指示信息统一纳入语言逻辑概念林l的概念树lb。这一概念树的根概念设计还需要改进,当前的标注将采取过渡的变量形式。
本节讨论了大句或句群组合结构的3种基本类型,对应着大句的各小句之间的共享现象、照应现象和接应信息。文中重点讨论了共享现象,并特别关注其中的迭句和链句。下一节将给出共享现象、照应现象和接应信息的标注符号。苗传江博士曾设计过共享句的通用标注方式[6],本文建议仅在一般共享句的附加标注中加以使用。
如上所述 HNC语句标注符号体系区分语言空间标注和概念空间标注。前者直接在语言文本上进行标注,以语义块的标注为核心;后者在句群后面进行标注,也可以在小句或大句后面进行过渡性标注,句群的句类空间标注以句类代码和格式代码的标注为核心。对大句或句群来说 句间接应信息在语言空间和概念空间都要进行标注。
下面分两小节进行论述,2.1小节论述语言空间的句群标注,2.2小节论述句类空间的句群标注。
本小节先给出语句的HNC语言空间标注符号,说明语言空间标注的要点。随后给出标注例句,并作简要说明。语言空间的句群标注除这些符号外,还需要使用表2里的编号为6-11的句间信息标注符号。
表1:HNC语言空间语句标注符号总表
|
组号 |
符号 |
组合符号 |
意义 |
组号 |
符号 |
组合符号 |
意义 |
|
1 |
|| |
|
全局语义块边界标记 |
3 |
|
{} |
原型句蜕边界标记 |
|
~ |
|
辅块附加标记 |
4 |
|
< > |
要素句蜕边界标记 |
|
|
|
~|| |
左边辅块右边主块 |
5 |
|
\ / |
包装句蜕边界标记 |
|
|
|
||~ |
左边主块右边辅块 |
6 |
|
[# #] |
块扩小句边界标记 |
|
|
|
~||~ |
左右两边都是辅块 |
7 |
& |
|
并联标记(曾使用符号Λ) |
|
|
2 |
| |
|
局部语义块边界标记 |
8 |
|
[ ] |
词组标记 |
|
|
~| |
左边辅块右边主块 |
9 |
|
[* ] |
特殊词语标记 |
|
|
|
|~ |
左边主块右边辅块 |
10 |
|
[| ] , [ |] |
特征语义块EK分离部分标记 |
|
|
|
~|~ |
左右两边都是辅块 |
11 |
|
[% ], [ %] |
广义对象语义块分离部分标记 |
表1中11组标记符号体现了HNC对语句标注的4个关注点。第一是语义块,其基本内容是语义块边界、语义块的全局与局部之分、语义块的主块与辅块之分三项标注;第二是句蜕和块扩现象,其基本内容是句蜕类型与包装的标注;第三是词组的内部组合结构,其基本内容是串联与并联顺序的标注;第四是语义块分离现象,其基本内容是特征语义块EK分离和广义对象语义块GBK分离的区分。下面给出语言空间的汉英对照标注例句。
例句1:
<孙中山先生|领导|的辛亥革命>||,推翻了||<统治|中国|[几千年|]的君主专制制度>,
+对{中国社会|进步}~||具有||重大意义,
+[*但也]未能改变||中国[半殖民地&半封建的社会性质]和& [人民的悲惨命运]。
<<The 1911 Revolution| led |by Dr. Sun Yat-sen>, which |overthrew| <the autocratic monarchy that| had ruled| China[for several thousand years|]>>||, was of|| great significance[in{promoting| China's social progress}].
++[*Yet], it|| did not succeed|| ~in {altering|[the
[semi-colonialand & semi-feudal]nature of the Chinese society] and&
[the miserable fate of the Chinese people]}.
例句2:
这||就是||
\{我们|[*为什么]必须始终反对|{以教条主义的态度~|对待|马克思主义理论}}的道理所在/。
That ||is||
\one reason why{we| have remained opposed
to| dogmatism toward the theory of Marxism}/.
例句3:
在新的历史时期~||,\{坚持|马克思列宁主义、&毛泽东思想}||,[关键%]/{[要坚持]用|邓小平理论}~|[去{观察|当今世界}、&{观察|当代中国}],
{To
uphold| Marxism-Leninism and Mao Zedong Thought| ~in the new historical
period}~||,[*it] is|| vital]||{{to use| Deng Xiaoping Theory}~| {to observe|
the present-day world and contemporary China}},
下面分别给出3个例句的简要说明。
例句1的汉语表达是一个由3个小句构成的大句,居后两小句与第一小句共享GBK1,采用了汉语常见的迭句形式,可以把这里的大句更具体地叫做两迭句。相应的英语译文变成列句,3小句变两小句。这里的英语列句将叫做形式列句,代表形式不共享而实质共享的意思。汉语也采用形式列句,但其偏好程度远低于英语。
汉语例句1的小句1出现了两次要素句蜕,分别充当该小句的GBK1和GBK2;小句2出现了一次原型句蜕,充当该小句的参照辅块Re;小句3无句蜕现象,但其GBK2呈现出比较复杂的多元逻辑组合结构,用词组标记 [ ] 进行了标注。这里值得强调的一点是 汉语句蜕的英语译文仍然是句蜕,句蜕类型保持不变,但格式必须变换。
例句2是一个单句,其GBK2出现了原型包装句蜕,这一特征汉语和英语是一致的。然而 两者又存在两项重大差异,一是包装品与包装体的相对位置不同,汉语的包装品在后而英语的包装品在前。汉语的包装品“道理所在”在包装体“{我们|[*为什么]必须始终反对|{以教条主义的态度~|对待|马克思主义理论}}”的后面,而英语的对应包装品“one reason”在包装体“{we| have remained opposed to| dogmatism toward the theory of Marxism}”的前面;二是包装体的结构不同,汉语的包装体是二重原型句蜕,而英语的包装体是单重原型句蜕。汉语的第二级原型句蜕{以教条主义的态度~|对待|马克思主义理论}在英语里变成多元逻辑组合dogmatism toward the theory of Marxism(其中的toward和 of是逻辑组合符号)。这里应该强调说明的一点,那就是 这里的一致性特征和第一项差异具有铁律性,第二项差异不具有铁律性,但具有转换的规则性。这些属于机器翻译引擎原理的研究内容。
例句3也是一个单句,汉语和英语都存在比较复杂的语义块构成现象。汉语的复杂性表现在包装品“关键”的分离和特征语义块“是”的省略(后者在语言空间的标注里没有给出),英语的复杂性在于特殊词语[*it]的运用。从翻译引擎原理的角度来看 这里存在复杂的语义块构成变换和语义块主辅变换现象。对这些现象的分析放在句类空间标注后面来说明。
本小节先给出句类空间的标注符号总表,随后给出2.1小节例句1的标注,最后论述句类空间标注的作用与意义。
表2:句类空间标注基本符号总表
|
序号 |
符号 |
意义 |
注释 |
|
1 |
SG= |
句群表示式 |
|
|
2 |
PSG= |
单句//复句表示式 |
|
|
3 |
EJ |
基本句类代码 |
|
|
4 |
E1E2*kmnJ |
混合句类代码 |
|
|
5 |
!km| |
语句格式代码, |
符号“|”表示可重复,下同 |
|
6 |
+ |
迭句连接标记 |
|
|
7 |
+~ |
链句连接标记 |
|
|
8 |
+* |
一般共享句连接标记 |
|
|
9 |
+% // +~% // +*% |
半共享句的相应连接标记 |
|
|
10 |
++ |
列句连接标记 |
曾使用+++代表大句 |
|
11 |
+& |
照应句连接标记 |
|
|
12 |
#| |
句蜕标记 |
|
|
13 |
#|(GBKm)=//(fK)= |
句蜕块物理表示式 (GBKm)代表广义对象语义块物理表示式,(fK)代表辅块物理表示式。 |
|
|
14 |