汉语动词形态困扰标注说明
池毓焕 黄曾阳
(中国科学院声学研究所,北京 100080)
一、 引言
作为方块字的汉语动词基本上没有形态变化以标识动词角色,而辨识动词的不同角色对语言分析和理解又极为重要。我们把这一明显有别于西语的汉语现象称作“汉语动词形态困扰”。
只要检索相应的字词库,计算机很容易辨别出哪些字或词带有动词属性。那么 这些所谓动词在实际语句中究竟有哪些角色?如何辨识具体充当哪个角色呢?
就动词角色分类而言,首先要分出“非动词”,即实际不作动词使用的情况。以前叫“动词体词化”,现改名“动词异化”,因为既可能是名词或形容词等体词,也可能是介词、连词等虚词。这是汉语动词形态困扰在词汇层面的主要表现。
仍作动词使用的又分四种:①E块复合构成理论,为一组动词指派了vv、QE、qv、hv等角色,它们与Ek共同构成EK;②先验块扩理论,为一组动词指派Ep、Er角色;③句蜕理论,动词角色分别为Eg、El;④包括共享句在内的复句,其角色为Em、En。这四种动词角色,特别是动词角色上的Ep-Er、Eg-El、Em-En“三选一”,体现了HNC理论独到的视野和处理策略。汉语动词在充当以上不同角色时基本上没有形态特征,这是汉语动词形态困扰在语句层面的表现,其困扰之消解尤为重要。
逻辑实证主义倡导科学研究的目标是“描述、解释和控制”。首先要把科学问题描述清楚,这是“知其然”的基本要求;接着进行理论阐释,“知其所以然”,并能预测和控制,表现在语言学研究上就是制定规则加以处理。为了描述与研究方便,需要引进两个工程意义的概念,构成五个考察层次:一是“语串”,主要以逗号结束为标志(但不包括句首语、简明时间短语等),与晋耀红博士论文的约定基本一致;二是“语段”,主要以句号结束为标志,与晋论文约定完全不同(他指语串内部的语言片段)。语串之下的考察对象可称作“邻近语域”,是传统语言学词性搭配理论发挥作用的主要战场;现有的句类分析系统主要以语串为处理对象;扩展句类分析系统至少要扩展到语段范围;语段之上就是句群,是语境单元萃取的基本单位;句群之上自然是段落篇章。
二、 动词形态困扰与语言分析难点的关联
目前仍以句类分析SCA为主,未包括语境单元萃取SCUE和语境生成ABS。
直接关联:
(02) 全局语句GS(简记为EgJ)与局部//蜕化语句LS
(简称句蜕,简记为ElJ)的判定
(03) 句蜕语句与复句的判定
(05) Ek//EK复合构成与分离的分析
(09) 逗号功能的判定
(17) 动词异化的识别
间接关联:
(04) 广义对象语义块多元逻辑组合的分析
(10) 语义块主辅变换的分析
(11) 句类转换的分析
(12) 特殊块扩的辨认
(13) 复杂因果句的识别
由此可见,汉语动词形态困扰问题涵盖了一半的SCA难点,需要综合治理策略。
三、 动词形态困扰的描述与解释
我们考察的基本对象是语串。语串有“无动词”和“有动词”之分,“有动”又分单动、双动、多动。在此需要对几类特殊的多动词现象特别关注:
一是连见,即两个动词连在一起,边界明确,词间无标记;
二是团块,至少三个动词连在一起,其他与“连见”同;
三是并列,有顿号等显著标记,应作同一化处理;
四是紧靠,有hv、l4等单字隔开,视作两处动词;
五是EK分离,其中EQ或部分QE(如“需要”)前分离尤为常见。
由此引入“动词位”的概念:连见、团块、并列等只算一个动词位,紧靠、EK分离等算两个动词位。
动词形态困扰标注的第一步就是描述清楚语串中动词的分布情况,其中需要特别关注的现象优先描述,称为前端描述。无动或单动的以ok或OK标记,表示不存在动词形态困扰问题;双动以上的用sk表示,其中s(Separate)表示动词出现在不同位置上,k表示语串的动词位数。
接着要描述语串中有无Eg及其位置,如Eg落在团块连见中,还要指明其中的位置。有Eg的,区分出块扩、复句等情况;不是Eg的,进一步标注El的结构和类型,包括并列、嵌套、共用包装等复杂情况;仅是动词异化的,只标g或l即可。这部分标注称为主体描述。
最后要对语串本身的角色做一个总结,称作总体描述:一个语串可能只是一个辅块fK、一个广义对象语义块GBK(简记为K),也可能是两个块或更多块但句子未完整,还可能仅仅是广义对象语义块的一部分,这些都需要描述清楚。当然语串也可能是一个完整的句子或复句,这是缺省的情况。
现象描述的符号约定如下:
㈠前端描述:
|
符号 |
源自 |
说明 |
备注 |
|
jt//kjt |
Joint Two |
两动词连见 |
k 表示所处的位号;无k表示语串只有该位动词。 n 表示该位动词总数;约定为两动词的不必标。 // 或者,下同。 |
|
jg//kjgn |
Joint Group |
动词团块 |
|
|
sbs//ksbsn |
Side-By-Side |
多动词并列 |
|
|
nea//knea |
NEAr |
两动词紧靠 |
|
|
sep |
SEPerate |
EK分离 |
㈡主体描述:
①关于动词分布的主体描述:
|
符号 |
源自 |
说明 |
备注 |
|
ok0//ok0e//OK0 |
OK |
语串无动词 |
e 表示处于语段结束符所在语串。如果语串等于语段,则省略e,整个标记大写。下同。 |
|
ok//oke//OK |
OK |
语串只有一个动词 |
|
|
skm//skm|//sk0 |
Separate |
多位动词,其中k表示动词总位数,m表示Eg的位号,1≤m≤k,若m=0表示无Eg |
| 表示此前符号可重复。 |
②关于skmn的扩展:
|
符号 |
源自 |
说明 |
备注 |
|
skmn-y |
|
skmn不扩展,表示多Eg语串缺省为复句 |
|
|
y=kk |
KuaiKuo |
多Eg语串为块扩 |
|
|
y=sep |
SEParate |
多Eg语串为Eg复合结构并分离 |
|
③关于skm-x的扩展:
|
符号 |
源自 |
说明 |
备注 |
|
skm-x//skmn-y-x x=a//h//e//m//hm//me |
|
当skm|中的m与kjt//kjg中的k相等时,进一步说明Eg在连见或团块中位置 |
|
|
x=a |
All |
连见或团块全部作Eg |
|
|
x=h |
Head |
Eg在连见或团块的头部 |
|
|
x=e |
End |
Eg在连见或团块的尾部 |
|
|
x=m |
Middle |
Eg在动词团块的中间 |
|
|
x=hm |
Head&Middle |
Eg在动词团块的头部和中部 |
|
|
x=me |
Middle&End |
Eg在动词团块的中后部 |
|
④关于El结构和类型的扩展:
|
|
符号 |
源自 |
说明 |
备注 |
|
基本 |
pt |
ProtoType |
原型句蜕 |
|
|
ke |
KEy |
要素句蜕 |
|
|
|
s |
Special |
变异句蜕 |
|
|
|
p |
Pack |
包装句蜕 |
|
|
|
pp |
PackedPrototype |
原型包装句蜕 |
|
|
|
pk |
PackedKey |
要素包装句蜕 |
|
|
|
并列 |
ptk |
ProtoType |
k个原型句蜕并列 |
k为变量 |
|
kek |
KEy |
k个要素句蜕并列 |
||
|
嵌套 |
pt( ) |
ProtoType |
外套为原型句蜕 |
括号内容可以是上述各类型及其组合 |
|
ke( ) |
KEy |
外套为要素句蜕 |
||
|
p( ) |
Pack |
共用包装 |
||
|
并列单元引用 |
ptkm |
ProtoType |
对第m个并列单元的引用 |
1≤m≤k |
|
kekm |
KEy |
对第m个并列单元的引用 |
㈢总体(终结)描述:
|
符号 |
源自 |
说明 |
备注 |
|
Kp//Ke |
GBK-Part//End |
广义对象语义块的一部分 |
成组出现 |
|
K |
chunK |
广义对象语义块GBK |
|
|
EK |
Eigen chunK |
特征语义块 |
|
|
fK |
fu-chunK |
辅块 |
|
|
sp//se |
Sentence-Part//End |
句子的一部分 |
成组出现 |
|
sm//Se |
Small-sentence//End |
复句中的小句 |
成组出现 |
|
S |
Sentence |
语串=语段时,为独立小句 |
|
上述现象描述全是标注者有关动词形态困扰的表现的判断结果,至于标注者是如何做出这些判断的,属于解释学范畴。为了给计算机支招,需要进一步标注每一判断结果所依据的知识,这就是解释描述。区别不同的考察层次,我们约定:依据在语串内的,解释符号全部为小写字母;语段范围的,第一字母大写;超语段的,全部大写。解释符号本来应该用小字体下标格式,但为数据库存储和统计方便,改用方括号表示。并列的内容用逗号分开。
㈣解释描述:
|
符号 |
源自 |
说明 |
备注 |
|
ABS |
ABStract |
语境知识,特别是短时记忆 |
一般超语段 |
|
adj//adv |
ADJective//ADVerb |
纯形容词或副词所修饰的内容 |
词性搭配 |
|
cc |
Complex Combination |
特征语义块复合结构 |
|
|
fmx |
yuFa |
语习类概念提供的特殊知识 |
特别是f1//f2 |
|
hv//qv |
Hou-Verb//Qian-Verb |
出现hv或qv对确认Eg的作用 |
|
|
l41 |
Linguistic Logical |
“的”字排除功能 |
|
|
l7//l1//l0//l5 |
Linguistic Logical |
语言逻辑概念提供的知识 |
|
|
l83 |
Linguistic Logical |
括号型因果辅标 |
|
|
l9 |
Linguistic Logical |
指示代词特有的知识 |
词性搭配 |
|
mat |
forMAT |
格式知识 |
|
|
mv |
Mixed Verb |
动词与非动词混合类型 |
曾用!vv表示 |
|
mor |
MORpheme |
语素字或词 |
词性搭配 |
|
pv |
Pure Verb |
纯动词 |
|
|
qe |
Qian-Eigenchunk |
EK的时态等修饰成分,常分离 |
本是QE |
|
sck |
Semantic-Category Knowledge |
句类知识 |
|
|
sd |
Semantic Distance |
语义距离,包括同行和交式关联 |
词性搭配 |
|
selmor |
SELf-MORpheme |
除了做语素,本身也是独立词 |
如“工作” |
|
sym |
SYMmetry |
对称性,对仗信息 |
|
|
syn |
SYNthesis |
综合类概念常做语素或包装品 |
如“方式” |
|
vv |
Verb-Verb |
vv类概念做EQ引导Ek |
|
|
x |
x |
未知数,表示尚无明确可用知识 |
|