语句语义类型语料库标注规范

1 范围

本规范确立了汉语语料库语句语义类型标注的符号体系和内容。

本规范适用于汉语语料库语句语义类型的标注,及以此为基础的各种中文信息处理。

 

2 术语与定义

下列术语和定义适用于本规范。

2.1 语言空间 language space

各种自然语言本身,如汉语、英语等。

2.2 语言概念空间 concept space of language

根据概念层次网络理论制定的、适用于各种语言的概念符号表示体系,是对语言空间内容的再抽象。

2.3 作用效应链 action-effect chain

反映一切事物的最大共性,作用存在于一切事物的内部和相互之间,作用必然产生某种效应,在达到最终效应之前,必然伴随着某种过程或转移,在达到最终效应之后,必然出现新的关系或状态。过程、转移、关系和状态也是效应的一种表现形式。新的效应又会诱发新的作用,如此循环往复,以至无穷。

2.4 句类 sentence category

根据语句中各主要语义角色的概念联想脉络进行分类的某一种语句类型,即语句的概念类型。

2.5 基本句类 base sentence category

仅突出体现作用效应链中某个特定环节的句类。   

2.6 混合句类 compound sentence category

体现作用效应链两个或两个以上环节的句类。

2.7 语义块 semantic chunk

构成语句的下一级单位,在句子中充当特定的语义角色;其构成可以是一个词、一个短语或者一个句子。

2.8 主语义块 main semantic chunk

体现语句中主要概念联想脉络关系的语义块。根据其描述的是动作还是关于动作的联想角色,又可以分成特征语义块和广义对象语义块两大类。广义对象语义块又可以进一步分成动作的发出者、承受者和内容三类基元。

2.9 辅语义块 auxiliary semantic chunk

描述语句的方式、工具、途径、参照、条件、动因和目的的语义块。

2.10 句蜕 sentence-degeneration-into-chunk

语义块的一种构成方式,语句变形或者不变形嵌入到语义块中,充当整个语义块或者语义块的一部分,此时句蜕语句的主语义块仍然服从其所属句类的约束。

2.11 原型句蜕 original sentence-degeneration-into-chunk

句蜕的一种表现形式,由不变形的语句直接充当语义块或其中的一部分。

2.12 要素句蜕 kernelled sentence-degeneration-into-chunk

句蜕的一种表现形式,语句经过变形后充当语义块或其中的一部分。

注:  汉语的表现形式通常是将表述中心放到右边,在表述中心前加,然后在左边给出蜕化句子的剩余部分。

2.13 包装句蜕 enveloped sentence-degeneration-into-chunk

句蜕的一种表现形式,在原型或要素句蜕的基础上增加相关词语,对句蜕内容进行概括或指定。

2.14 块扩 chunk-extension-into-sentence

       某些句类的特定主语义块由语句充当的语言现象。

2.15 共享句 main-chunk-shared sentences

多个语句整体共享某个主语义块。

2.16 半共享句 half-main-chunk-shared sentences

多个语句共享某个主语义块的一部分。

2.17 迭句 main-chunk-overlapped sentences

共享句的一种,后面语句共享前面一个句的第一个广义对象语义块。

2.18 链句 main-chunk-chained sentences

共享句的一种,后面语句的第一个广义对象语义块共享前一个语句的最后一个广义对象语义块。

 

3 语料标注符号

下列符号适用于本规范。

3.1 语言空间的标注符号

下列符号在本规范中用于语料语言空间的标注。

++:非共享句之间的间隔符号。

+:迭句之间的间隔符号。

+~:链句之间的间隔符号。

+*:除迭句和链句之外的其他共享句之间的间隔符号。

%:半共享句的说明符号。

||:语句级语义块间隔符号。

~:辅语义块的说明符号。

|:句蜕中语义块的间隔符号。

&:并合内容的说明符号。

 

下列符号由左右两部分组成,成对出现,标明标注内容的类型和边界。

{  }:原型句蜕的标记间隔符号。

<  >:要素句蜕的标记间隔符号。

\  /:包装句蜕的标记间隔符号。

[#  #]:块扩语句的标记间隔符号。

[  ]:词语优先组合标记间隔符号。

[|  |] 特征语义块向前分离成分的标记间隔符号。

[=  =]:特征语义块向后分离成分的标记间隔符号。

[-  -]:广义对象语义块向前分离成分的标记间隔符号。

[+  +]:广义对象语义块向后分离成分的标记间隔符号。

3.2 语言概念空间的标注符号

下列符号在本规范中用于语料语言概念空间的标注。

++:非共享句句类代码之间的间隔符号。

+:迭句句类代码之间的间隔符号。

+~:链句句类代码之间的间隔符号。

+*:除迭句和链句之外的其他共享句句类代码之间的间隔符号。

%:半共享句句类代码的说明符号。

&:辅语义块插入标记符号。

EJ:基本句类句类代码表示的语句语义类型结构。标注时,按附录A《基本句类名称、代码及语义块表示式》给出具体的句类代码。

E1E2*kmnJ:混合句类句类代码表示的语句语义类型结构。E1E2的含义和取值同上面的Ekmn表示形成的混合句类广义对象语义块的情况。其中,k表示广义对象语义块的总数,m表示从E1句类中第一个广义对象语义块依次选取广义对象语义块的个数,n表示从E2句类中开始依次选取广义对象语义块的起始位置,选取k-m个广义对象语义块。如果不从E2中选取广义对象语义块,或者n=m+1时,n应省略。

!km:以语句格式代码表示的主语义块顺序。标注时,按附录B《语句格式代码设计说明》给出具体的语句格式代码。

:  句蜕的标记符号。

=%:语义块部分构成中包含句蜕的标记符号。

[  ]:优先组合标记符号。

{  }:原型句蜕标记符号。

<  >:要素句蜕标记符号。

\  /:包装句蜕标记符号。

[#  #]:块扩标记符号。

 

4 语料标注

4.1 概述

语句语义类型语料标注,以一个句号、问号或叹号等句末点号点断的内容为标注单元。在语料文本上进行语言空间的标注,重点是给出各种切分的类型与切分点;另起一行,进行语言概念空间标注,重点是给出语言概念空间的各种结构信息。

本规范使用的各种标注符号均为半角西文符号。   

4.2 语料的语言空间标注

4.2.1 语言空间标注符号的使用

在本规范中,语言空间标注符号的左右侧应当有空格,凸现标注符号。当标注符号连用时,之间只保留一个空格。当标注符号出现在句首或者句尾时,相应左侧或右侧的空格应当省略。说明符和间隔符连用时,中间不用空格而直接组合。

4.2.2 语句间的标注

根据语句之间主语义块共享情况,选用相应的语句间隔符号进行标注。

如果语句之间有标点符号,语句间隔符号应当标注在标点符号的右侧。

如果语句共享的不是整个主语义块,需要使用半共享句说明符号。根据主语义块共享的情况,将“%”添加在“+” “+~” “+*”后,分别表示:

—— +%:语句间只共享第一个广义对象语义块的一部分。

—— +~%:后面语句的第一个广义对象语义块部分共享前面语句最后一个广义对象语义块。

—— +*%:除上述两种情况之外的主语义块部分共享。

 

示例 1

< 孙中山先生 | 领导 | 的辛亥革命 > || ,推翻了 || < 统治 | 中国 | [= 几千年 =] 的君主专制制度 > + { 中国社会 | 进步 } ~|| 具有 || 重大意义, + 但也未能改变 || 中国 [ 半殖民地 & 半封建的社会性质 ] &  [ 人民的悲惨命运 ]

注:  迭句。有三个语句,它们共用了第一个语句的孙中山先生领导的辛亥革命充当第一个广义对象语义块。

 

示例 2

\ { 我们党 | 领导 | 人民 | [# 奋斗 || 八十年 #] } [ [峥嵘岁月] & [光荣业绩] ] / ||,如同 || 一幅 [ 逶迤 [ 而又 ] & 气势磅礴 ] & [ 雄浑 [ 而又 ] & 绚丽多彩 ] 的画卷 || +~ 展现在 || 世人面前。

注:  链句。有两个语句,第二个语句以前一个语句的第二广义对象语义块 “……画卷作为它的第一个广义对象语义块。

 

示例 3

这方面的经验教训 || ,我们党 ||~ 在《关于若干历史问题的决议》和《关于建国以来党的若干历史问题的决议》中 ~|| 进行了系统的总结,+* 大家 || 必须牢牢记取。

注:  一般共享句。有两个语句,第一个语句的第二广义对象语义块“……教训提前,并用逗号点断,第二个语句也以此作为第二个广义对象语义块。

 

示例 4

<  [- 那个 -] | 阴沟 | > || 仪表非凡: +% 身材 || 修长、清瘦—— + 堪称 || 优雅,+% 绝对不像 || 一个典型的工人。

注:  有两个半共享句。第一句和第二句之间半共享“……,第二句的身材是指“……的身材。第二句和第三句是迭句,共享第一个广义对象语义块。第三句和第四句之间半共享,第三句的第一个广义对象语义块是那个人的身材,第四句的第一个广义对象语义块是那个人

 

示例 5

马克思主义的基本原理 || 任何时候都要坚持, ++ 否则我们的事业 ||~ [| 就会 |] 因为 { 没有 | 正确的理论基础和思想灵魂 } ~|| 而迷失方向 + 就会归于失败。

注:  有三个语句。第一句和第二句不共享广义对象语义块。第二句和第三句是迭句。

 

4.2.3 语义块间的标注

在本规范中区分语句级语义块和句蜕嵌套语句语义块,使用不同的语义块间隔符号。对于句蜕中再嵌套的句蜕,在间隔符号上不再区分。

语句级主语义块之间直接使用语句语义块间隔符号,句蜕中的主语义块直接使用句蜕嵌套语句语义块的间隔符号。切分辅语义块时,需要在辅语义块出现的一侧添加辅语义块说明符。

如果语义块之间有标点符号,语义块间隔符号应当标注在标点符号的左侧。

块扩部分的语句属于语句一级,不属于句蜕级。因此块扩内语义块之间的间隔符号使用语句级语义块间隔符号。

如果块扩的边界上有标点符号,则块扩的左侧标记在标点符号的右侧,右侧标记在标点符号的左侧。

      

示例

马克思主义的发展史 || 充分说明 || [# { 解放 | 思想 } &、实事求是 ||,是 || < 引导 | { 社会 | 前进 } | 的强大力量 > #]

  1:这个语句说明之后的部分是块扩。块扩部分有原型句蜕和要素句蜕。原型句蜕只充当语义块的一部分。要素句蜕中又嵌套了原型句蜕。

  2:辅语义块的标注可以参看4.2.2的示例135

 

4.2.4 句蜕的标注

根据句蜕的类型选择相应的句蜕符号对句蜕进行标注。

在包装句蜕中需要标明其中的原型或要素句蜕。

如果句蜕的边界上有标点符号,则句蜕的左侧标记在标点符号的右侧,右侧标记在标点符号的左侧。

注:           参阅4.2.2的示例24.2.3的示例。

 

4.2.5 词语优先组合

在本规范中,将需要优先组合的词语用词语优先组合标记间隔符号标注出来,表示他们优先组合。词语优先组合标记间隔符号通常与并合内容的间隔符号(&)一起出现,标明语义块内部词语之间的结构关系。

对于上述两种情况,如果其边界上有标点符号,则左侧标记在标点符号的右侧,右侧标记在标点符号的左侧。

注:  参阅4.2.2的示例125

 

4.2.6 主语义块分离现象的标注

在本规范中,如果主语义块发生分离,需要标注出主语义块中分离出去的部分。在标注时需要区分特征语义块和广义对象语义块的分离,以及分离出去的部分是向前(左)还后(右)分离。对不同的情况,采用相应的符号进行标注。

如果主语义块分离部分的边界有标点符号,则分离标注的左侧标记应在标点符号的右侧,右侧标记应在标点符号的左侧。

注:  参阅4.2.2的示例145。在示例1中,句蜕部分的几千年应当和统治一起构成特征语义块,但是这里出现了特征语义块分离现象,几千年分离到了统治之后。同样,示例5就会分离到了迷失方向之前。示例4中是句蜕块的广义对象语义块分离,那个应和在一起构成的第一个广义对象语义块。

 

4.3 语料的语言概念空间标注

在本规范中语言概念空间标注的内容包括两个层面:语句和句蜕。其共同核心是句类代码方式表述的语句语义类型。

4.3.1 语句的标注

首先根据语句的概念联想脉络确定语句的句类代码。其次,根据语句语义块具体出现的顺序确定语句格式代码。这样就完成了对语句语义类型的描述。然后,根据语言空间标注的语句间隔符号选择相应的语言概念空间间隔符号,在间隔符号的右侧给出下一个语句的语义类型描述。

如果语句中有辅块,则在对应语句语义类型描述的左侧给出辅块的具体名称,如果辅块与语句之间有逗号点断,则用“&”连接。

如果语句中有块扩,则从左向右依次对每一个块扩语义块进行描述。描述的方法是:在对应语句语义类型描述右侧用“[# GBK #]”(其中GBK是具体块扩语义块的代码)标记块扩的语义块,后接等号,在等号的右侧给出块扩部分的语句语义类型描述;同样的方式描述下一个块扩语句。

 

示例 1

< 孙中山先生 | 领导 | 的辛亥革命 > || ,推翻了 || < 统治 | 中国 | [= 几千年 =] 的君主专制制度 > + { 中国社会 | 进步 } ~|| 具有 || 重大意义, + 但也未能改变 || 中国 [ 半殖民地 & 半封建的社会性质 ] & [ 人民的悲惨命运 ]

R011X*22J#R0B1=<R411J>#R0B2=<!242R411X*21J>+ReCS0jD1*20J#ReC={PS*10J}+XY0*22J

 

示例 2

\ { 我们党 | 领导 | 人民 | [# 奋斗 || 八十年 #] } [ [峥嵘岁月] & [光荣业绩] ] / ||,如同 || 一幅 [ 逶迤 [ 而又 ] & 气势磅礴 ] & [ 雄浑 [ 而又 ] & 绚丽多彩 ] 的画卷 || +~ 展现在 || 世人面前。

jD00J#DBC1=\{R41140J}/[#RC#]=!31XP11*21J+~Y30S021*21J

 

示例 3

这方面的经验教训 || ,我们党 ||~ 在《关于若干历史问题的决议》和《关于建国以来党的若干历史问题的决议》中 ~|| 进行了系统的总结,+* 大家 || 必须牢牢记取。

Cn!212D01Ya0*21J+*!212X20Y80*21J

 

示例 4

< [- 那个 -] | 阴沟 | > || 仪表非凡: +% 身材 || 修长、清瘦—— + 堪称 || 优雅,+% 绝对不像 || 一个典型的工人。

S04J#SB=<!242XJ>+%S04J+D2J+%jD00J

 

示例 5

马克思主义的基本原理 || 任何时候都要坚持, ++ 否则我们的事业 ||~ [| 就会 |] 因为 { 没有 | 正确的理论基础和思想灵魂 } ~|| 而迷失方向 + 就会归于失败。

!31212X20Y80*21J++PrYJ#Pr={jD10J}+YJ

 

示例 6

马克思主义的发展史 || 充分说明 || [# { 解放 | 思想 } &、实事求是 ||,是 || < 引导 | { 社会 | 前进 } | 的强大力量 > #]

YT31*21J[#T3C#]=jDJ#DB=%{!31X301J}#DC=<!242D01X*21J>##B={PY*10J}

 

4.3.2 句蜕的标注

如果标注的语句中有句蜕,则在语句语义类型描述的后面以#引导句蜕表示。在#之后,给出句蜕语义块的具体代码,然后用等号“=”间隔。在等号的右侧给出句蜕部分的语句语义类型描述,并用与语言空间标注对应的句蜕间隔符号说明句蜕的类型。

如果句蜕中出现嵌套,形成多级句蜕,对于嵌套中的句蜕则需要使用多个#标明句蜕嵌套的层次,其他标注同上。

如果在标注的语句中存在多个、多级句蜕,则按照从左到右、先高层后低层的顺序依次标注。

如果一个语义块中有多个同级的句蜕语句,则在对应的语义块代码等号的右侧用“[  ]”标注,将多个句蜕的类型和语句语义类型描述其中。

如果句蜕语句只是语义块的一部分,则用包含句蜕说明符号“=%” 替代上述的等号进行表示。

 

示例

二十多年来 ~|| ,我们 || 大胆探索 + 勇于实践,+ 不断推进 || < 经济体制 | 改革 >&< 政治体制 | 改革 > & 其他方面的改革, ++ [ 极大地解放 ] & [ 发展了 ] || 我国社会生产力,+ 推动 || { { 我国经济 | 发展 } & { 社会 | 进步 } | 发生了 | 巨大变化 }

Cn&T19S*11J+X20S*11J+XY60*21J#Y6C=%[<Y5J><Y5J>]++!31[X301+XY40*21]J+XY60*21J#Y6C={Y10J}##Y1B= [{Y4J}{Y5J}]

注:  在本句中有两个相同句类(XY60*21J)的语句,分别是第3句和第5句,它们的Y6C语义块中都出现了句蜕,而且有多个相同级别的句蜕。对于第3句,句蜕只是语义块的一部分,因此在标注的时候使用了“=%”表示语义块构成中包括句蜕。对于第5句,句蜕中嵌套句蜕,而且有两个第二级句蜕。关于句蜕标注的其他情况还可以参阅4.3.1中的示例。