汉语动词形态困扰标注说明

池毓焕 黄曾阳

(中国科学院声学研究所,北京 100080

 

一、       引言

作为方块字的汉语动词基本上没有形态变化以标识动词角色,而辨识动词的不同角色对语言分析和理解又极为重要。我们把这一明显有别于西语的汉语现象称作“汉语动词形态困扰”。

只要检索相应的字词库,计算机很容易辨别出哪些字或词带有动词属性。那么 这些所谓动词在实际语句中究竟有哪些角色?如何辨识具体充当哪个角色呢?

就动词角色分类而言,首先要分出“非动词”,即实际不作动词使用的情况。以前叫“动词体词化”,现改名“动词异化”,因为既可能是名词或形容词等体词,也可能是介词、连词等虚词。这是汉语动词形态困扰在词汇层面的主要表现。

仍作动词使用的又分四种:①E块复合构成理论,为一组动词指派了vvQEqvhv等角色,它们与Ek共同构成EK;②先验块扩理论,为一组动词指派EpEr角色;③句蜕理论,动词角色分别为EgEl;④包括共享句在内的复句,其角色为EmEn。这四种动词角色,特别是动词角色上的Ep-ErEg-ElEm-En“三选一”,体现了HNC理论独到的视野和处理策略。汉语动词在充当以上不同角色时基本上没有形态特征,这是汉语动词形态困扰在语句层面的表现,其困扰之消解尤为重要。

逻辑实证主义倡导科学研究的目标是“描述、解释和控制”。首先要把科学问题描述清楚,这是“知其然”的基本要求;接着进行理论阐释,“知其所以然”,并能预测和控制,表现在语言学研究上就是制定规则加以处理。为了描述与研究方便,需要引进两个工程意义的概念,构成五个考察层次:一是“语串”,主要以逗号结束为标志(但不包括句首语、简明时间短语等),与晋耀红博士论文的约定基本一致;二是“语段”,主要以句号结束为标志,与晋论文约定完全不同(他指语串内部的语言片段)。语串之下的考察对象可称作“邻近语域”,是传统语言学词性搭配理论发挥作用的主要战场;现有的句类分析系统主要以语串为处理对象;扩展句类分析系统至少要扩展到语段范围;语段之上就是句群,是语境单元萃取的基本单位;句群之上自然是段落篇章。

二、       动词形态困扰与语言分析难点的关联

    目前仍以句类分析SCA为主,未包括语境单元萃取SCUE和语境生成ABS

直接关联:

   (02) 全局语句GS(简记为EgJ)与局部//蜕化语句LS

(简称句蜕,简记为ElJ)的判定

   (03) 句蜕语句与复句的判定

   (05)  Ek//EK复合构成与分离的分析

   (09) 逗号功能的判定

 (17) 动词异化的识别

    间接关联:

 (04) 广义对象语义块多元逻辑组合的分析

 (10) 语义块主辅变换的分析

 (11) 句类转换的分析

   (12) 特殊块扩的辨认

   (13) 复杂因果句的识别

   由此可见,汉语动词形态困扰问题涵盖了一半的SCA难点,需要综合治理策略。

三、       动词形态困扰的描述与解释

我们考察的基本对象是语串。语串有“无动词”和“有动词”之分,“有动”又分单动、双动、多动。在此需要对几类特殊的多动词现象特别关注:

一是连见,即两个动词连在一起,边界明确,词间无标记;

二是团块,至少三个动词连在一起,其他与“连见”同;

三是并列,有顿号等显著标记,应作同一化处理;

四是紧靠,有hvl4等单字隔开,视作两处动词;

五是EK分离,其中EQ或部分QE(如“需要”)前分离尤为常见。

由此引入“动词位”的概念:连见、团块、并列等只算一个动词位,紧靠、EK分离等算两个动词位。

动词形态困扰标注的第一步就是描述清楚语串中动词的分布情况,其中需要特别关注的现象优先描述,称为前端描述。无动或单动的以okOK标记,表示不存在动词形态困扰问题;双动以上的用sk表示,其中s(Separate)表示动词出现在不同位置上,k表示语串的动词位数。

接着要描述语串中有无Eg及其位置,如Eg落在团块连见中,还要指明其中的位置。有Eg的,区分出块扩、复句等情况;不是Eg的,进一步标注El的结构和类型,包括并列、嵌套、共用包装等复杂情况;仅是动词异化的,只标gl即可。这部分标注称为主体描述。

最后要对语串本身的角色做一个总结,称作总体描述:一个语串可能只是一个辅块fK、一个广义对象语义块GBK(简记为K),也可能是两个块或更多块但句子未完整,还可能仅仅是广义对象语义块的一部分,这些都需要描述清楚。当然语串也可能是一个完整的句子或复句,这是缺省的情况。

现象描述的符号约定如下:

㈠前端描述:

符号

源自

说明

备注

jt//kjt

Joint Two

两动词连见

k  表示所处的位号;无k表示语串只有该位动词。

n  表示该位动词总数;约定为两动词的不必标。

//  或者,下同。

jg//kjgn

Joint Group

动词团块

sbs//ksbsn

Side-By-Side

多动词并列

nea//knea

NEAr

两动词紧靠

sep

SEPerate

EK分离

㈡主体描述:

①关于动词分布的主体描述:

 符号

源自

说明

备注

ok0//ok0e//OK0

OK

语串无动词

e  表示处于语段结束符所在语串。如果语串等于语段,则省略e,整个标记大写。下同。

ok//oke//OK

OK

语串只有一个动词

skm//skm|//sk0

Separate

多位动词,其中k表示动词总位数,m表示Eg的位号,1mk,若m=0表示无Eg

|  表示此前符号可重复。

②关于skmn的扩展:

 符号

源自

说明

备注

skmn-y
(y=kk//sep)

 

skmn不扩展,表示多Eg语串缺省为复句

 

y=kk

KuaiKuo

Eg语串为块扩

 

y=sep

SEParate

Eg语串为Eg复合结构并分离

 

③关于skm-x的扩展:

符号

源自

说明

备注

skm-x//skmn-y-x

x=a//h//e//m//hm//me

 

skm|中的mkjt//kjg中的k相等时,进一步说明Eg在连见或团块中位置

 

x=a

All

连见或团块全部作Eg

 

x=h

Head

Eg在连见或团块的头部

 

x=e

End

Eg在连见或团块的尾部

 

x=m

Middle

Eg在动词团块的中间

 

x=hm

Head&Middle

Eg在动词团块的头部和中部

 

x=me

Middle&End

Eg在动词团块的中后部

 

④关于El结构和类型的扩展:

 

符号

源自

说明

备注

基本
类型
符号

pt

ProtoType

原型句蜕

 

ke

KEy

要素句蜕

 

s

Special

变异句蜕

 

p

Pack

包装句蜕

 

pp

PackedPrototype

原型包装句蜕

 

pk

PackedKey

要素包装句蜕

 

并列
组合

ptk

ProtoType

k个原型句蜕并列

k为变量

kek

KEy

k个要素句蜕并列

嵌套
组合

pt( )

ProtoType

外套为原型句蜕

括号内容可以是上述各类型及其组合

ke( )

KEy

外套为要素句蜕

p( )

Pack

共用包装

并列单元引用

ptkm

ProtoType

对第m个并列单元的引用

1mk

kekm

KEy

对第m个并列单元的引用

    ㈢总体(终结)描述:

  符号

源自

说明

备注

Kp//Ke

GBK-Part//End

广义对象语义块的一部分

成组出现

K

chunK

广义对象语义块GBK

 

EK

Eigen chunK

特征语义块

 

fK

fu-chunK

辅块

 

sp//se

Sentence-Part//End

句子的一部分

成组出现

sm//Se

Small-sentence//End

复句中的小句

成组出现

S

Sentence

语串=语段时,为独立小句

 

上述现象描述全是标注者有关动词形态困扰的表现的判断结果,至于标注者是如何做出这些判断的,属于解释学范畴。为了给计算机支招,需要进一步标注每一判断结果所依据的知识,这就是解释描述。区别不同的考察层次,我们约定:依据在语串内的,解释符号全部为小写字母;语段范围的,第一字母大写;超语段的,全部大写。解释符号本来应该用小字体下标格式,但为数据库存储和统计方便,改用方括号表示。并列的内容用逗号分开。

 

    ㈣解释描述:

  符号

源自

说明

备注

ABS

ABStract

语境知识,特别是短时记忆

一般超语段

adj//adv

ADJective//ADVerb

纯形容词或副词所修饰的内容

词性搭配

cc

Complex Combination

特征语义块复合结构

 

fmx

yuFa

语习类概念提供的特殊知识

特别是f1//f2

hv//qv

Hou-Verb//Qian-Verb

出现hvqv对确认Eg的作用

 

l41

Linguistic Logical

“的”字排除功能

 

l7//l1//l0//l5

Linguistic Logical

语言逻辑概念提供的知识

 

l83

Linguistic Logical

括号型因果辅标

 

l9

Linguistic Logical

指示代词特有的知识

词性搭配

mat

forMAT

格式知识

 

mv

Mixed Verb

动词与非动词混合类型

曾用!vv表示

mor

MORpheme

语素字或词

词性搭配

pv

Pure Verb

纯动词

 

qe

Qian-Eigenchunk

EK的时态等修饰成分,常分离

本是QE

sck

Semantic-Category Knowledge

句类知识

 

sd

Semantic Distance

语义距离,包括同行和交式关联

词性搭配

selmor

SELf-MORpheme

除了做语素,本身也是独立词

如“工作”

sym

SYMmetry

对称性,对仗信息

 

syn

SYNthesis

综合类概念常做语素或包装品

如“方式”

vv

Verb-Verb

vv类概念做EQ引导Ek

 

x

x

未知数,表示尚无明确可用知识

 

 

四、       标注示例

例一、要 继续 贯彻||\[{唱响|主 旋律}、{打好|主动 仗}、{促进|改革 发展}、

  {维护|{社会 |稳定}}]的 工作 方针/,   

R412jD02*21[X]J,  1jg3-3jg3-s61-hm[vv,sck,Mat]-p(pt4)-gg[sym,sd]-pt44(pt*[sym])

-g[mv,selmor]

例二、{建立|和平稳定、公正合理的国际政治经济新秩序}          

||成为||时代的迫切要求和\{历史|发展}的必然/。       

Y0J#YB={!31XY10*21[X]J},    s53[MAT,sck]-g[sym]-pt-g[sd,adj]-pp

 

五、       统计结果初步展示

目前已经标注了1412个语串(如果逗号结束就算语串,现有1478串)。初步统计结果如下:

1、动词位置数的语串分布直方图(包括无动词情况):


2、动词连见jt数量在语串总量中的比值=325/1412=23.02%

3、动词团块jg数量在语串总量中的比值=65/1412=4.6%

4、体词化动词g在动词总量中的比值=737/3252=22.66%和在语串总量中的比值=572/1412=40.51%

5、原型句蜕pt在语串总量中的比值=349/1412=24.72%

6、包装原型句蜕pp在语串总量中的比值=138/1412=9.77%

7、要素句蜕ke在语串总量中的比值=274/1412=19.41%

8、包装要素句蜕pk在语串总量中的比值=24/1412=1.7%

9、复杂句蜕c在语串总量中的比值=175/1412=12.39%

10、辅块fK在语串总量中的比值=129/1412=9.14%

11、句子的一部分sp在语串总量中的比值=102/1412=7.22%

12EK分离sep在语串总量中的比值=22/1412=1.56%(本数值不准确,因为未全标);

13GBK的一部分(KpKe)在语串总量中的比值=164/1412=11.61%

14、动词连见jt和动词团块jgh-e-m分布:

Eg落在jt的情况:


 


Eg落在jg的情况:


15、汉语动词形态困扰消解所用知识示意图:


 

 

 


六、       结束语

汉语动词形态困扰的标注符号仍在进一步改进过程中,特别是解释描述仍待细化和系统化。另一方面,现象描述仅仅是基础,是条件,对现象出现的条件进行进一步的分析和解释并据以制定策略和规则才是目标,是目的。后续工作仍多多。