一、句类分析难点1

1.1 全局特征语义块Eg的多句类代码难点(1号难点,标记:v**)

1号难点有三种基本情况:

●一是特征语义块核心采用简单构成,也就是说只有一个动词,但该动词可选用基本句类或混合句类不同类别。这里需要说明,对于同一句类可取不同句类表示式的情况不属于难点。例如“宣布”这个词,虽然可选用信息转移句的全部4种句类表示式,但不能选用其他句类,因而不属于难点词。但“带来”却属于1号难点词,因为它可取基本句类的因果句和一般转移句。“带来”这一类的词《现汉》都不收录,这不是《现汉》的疏忽,而是它的标准,《现汉》的标准从语言学来看也许是有道理的,但从中文信息处理的角度来看,则未必正确。这里特别要注意两类词,一是它属于1号难点,二是它充当某一或某些概念节点的重要汉语反映射词。“带来”符合这两条标准,是必须收录的。

●二是特征语义块核心采用复合构成,也就是采用HNC所定义的特征语义块核心的一般表示式EQ+E+EH(当EQ、EH都不存在时,就是上面的简单情况)。这是一个难点与亮点并存、而以亮点为主的复杂情况。后面将对这一情况进行详细说明,并采取忆思的方式,或许于读者有所裨益。

●三是动词连见而不连用的情况,简称动词连见干扰。典型例子是:两个连见动词之一属于特征语义块,另一个却属于广义对象语义块。这里说的特征语义块包括全局性和局部性两类,如例句12.1:

最近,一些阿拉伯机构||指责@\u27779沃尔特·迪斯尼公司|宣扬*\反对*|阿拉伯人/的暴力活动/

句中的“宣扬反对”就属于动词连见干扰,它既是对全局特征语义块“指责”的干扰,本身又是动词连见干扰。两动词连见实际上有4种可能的组合方式:

前者充当E块核心(全局或局部),后者进入广义对象语义块

后者充当E块核心(全局或局部),前者进入广义对象语义块

两者合起来充当E块核心(全局或局部)

两者都失去了动词功能

对最后一种组合方式,如果不存在明确的指示信息,可暂时不予考虑。对前两种情况“进入广义对象语义块”的动词,则不论是否存在指示信息,都应该查明它是否失去了动词功能,而不能有所不为,这实际上就同7号或9号难点纠缠在一起了。

对三个以上动词的连见,可应用两分准则按上述原则处理。

关于1号难点的简要说明就写到这里,下面转入忆思式畅谈。

在全部20项难点中,HNC针对特征语义块复合构成这一难点耗费了最多的心血,E块核心复合构成概念的提出是经过很长一段时间磨练的。触动这一思考的是关于中心动词的话题,当年看到不少文章提出这样的基本论点:西语中心动词有明确的形态标记,汉语没有,而且动词满天飞,因而汉语的自然语言理解和处理必然大大难于西语。我对这一论点深表怀疑,因为根据我当时对英语句子处理水平的了解,英语的这一优势只适用于形式上的句法分析,而句法分析离理解处理还有很大的距离,不能把句法分析与理解混为一谈。所以,在《专著》的〈理解问答28〉中写了下面的一段话:

中心动词、形态标志、词性的作用都被语法界过分夸大了....由形态标志给定的中心动词不一定是(特征语义块)语义的中心....从最高层次的理解即文学语言欣赏的角度来说,连标点符号都是多余的东西,何况形态标志和词性之类的外在标记?艺术作品不需要标点符号,音乐美术是这样,文学语言也是这样....在语法框架依然统治汉语理解的今天,这一最高层次理解的本质--只依赖于内容,不依靠外在的包装--难道不是很有一点振聋发聩的启示意义么?

我当时写下这一段话是有背景的,这个背景主要是句类的认识已经形成,并直接起因于关于特征语义块核心构成的一次顿悟。有一天我看到《黄焯文集》里的一段先父对他的一位博士生的题词:

学问文章皆宜以章句为始基…当潜心玩索文义…精心观览全书,而不可断取单词。

我在讲授“Lesson4句类分析三重协奏曲”时引用过这一段话。当时面对着不可断取单词这6个字,我沉思甚久,突然萌发了特征语义块(E块)的核心应采用复合构成表示式的顿悟,这是HNC理论发展过程中关键性的顿悟之一,产生了后来命名为高低搭配、动静搭配、vv类动词等概念。这些概念替代了传统语言学中部分补语和动宾结构的概念。从形式总体来看,主谓宾定状补加上介词和连词等概念形成了语法概念的完备集合,HNC的句类、语义块及其相应表示式的概念从某种意义上也可以说是对这一语法概念集合的语法-语义转换,从语法空间转换到语义空间或概念联想脉络空间。自然语言理解处理几十年来沉重的脚步和蹒跚的历程是这一转换极为艰难的见证。但是对这一转换之路的探求是不曾停止过的,语法学大师乔姆斯基本人也从事过这一探求,不过最近他本人又说,这一探求是错误的(见王宏强的美国友人E-mail)。这里,我们可以对乔姆斯基先生说:No! HNC had finished this transform.

所谓汉语述语动词辨认的困难,由于特征语义块核心复合构成表示式的概念和特征语义块上下装概念的提出(两者合起来形成特征语义块一般表示式的概念),形成了两个耀眼的亮点,这两个亮点交相辉映,基本上解除了述语动词辨认的形式困难,这一点将在第二章详说。

从理解处理来看,真正的难点不在于述语动词的辨认,而在于述语动词的解释。HNC把这一解释定位成句类假设的检验,这才是突破理解难关的关键性的一步,而且仅仅是第一步,因此把汉语述语辨认的困难与诺贝尔奖联系起来是荒唐可笑的。HNC联合攻关组成员应牢牢记住这一点。

特征语义块核心复合构成的思想是对动词连见现象的一种理论阐释或揭示。西语由于有发达的形态标志,不能出现无形态区别的连见动词,于是汉语的动词连见就成了一种少见多怪的语言现象,这是中心动词概念为害的结果。一个句子通常至少需要一个特征语义块以表明它陈述什么样的表现,另外还需要若干个--最多4个--广义对象语义块以表明它陈述什么样的对象,这是HNC关于句子基本构成的基本观点(句子基本构成观)。在57个基本句类中有52.5个需要特征语义块。但是特征语义块的完整表达与单个中心动词完全是两回事,一个完整的特征语义块核心的表达有时不仅需要多个动词,而且还需要体词的配合。这就是特征语义块核心复合构成思路的要点。西语有形态标志的中心动词不一定是特征语义块的中心,那个形式上的中心动词实质上有时反而是“中心”的副词,例如

The food we eat||seems to have profound effects||on our health

相应的汉语大体是

人们吃的食物||似乎|对人类的健康||有深远的影响

这是混合句类之一的效应作用句,它必须有三个主语义块,特征语义块是:

seems to have profound effects 似乎....有深远的影响

两个广义对象语义块YXA和YXB(按约定简记为A和B)分别是:

The food we eat 人们吃的食物

(on) our health (对)人类的健康

在这里,仅仅抓住英语形式上的中心动词seems对理解处理是没有意义的,过分强调它的中心作用甚至是一种严重的失误。

按照特征语义块核心复合构成的思路可以避免这种理解处理过程的失误。对HNC理论略知一二的读者应能从这个例句窥知,依照句类表示式的指引,软件不难达到HNC所定义的理解(读懂),并据此完成汉英两种语言的互译。

上面几段,不自觉地又进入了本文力求避免的陈述方式,因为有些读者会对这种陈述方式产生过敏反应。下面将回到通俗方式,但适当采用非通俗方式仍然是必要的,因为我不善于用通俗方式给出画龙点睛之笔。

特征语义块核心的一般表示式是:

Ek=EQ+E+EH

这个表示式是陶明阳在他的硕士学位论文里第一次正式提出来的。Ek的下标k表示核心,取自英语的kernal,这个表示式显然有下列4种特殊表示:

Ek=E

Ek=EQ+EH

Ek=EQ+E

Ek=E+EH

第一种表示相应于E块核心的简单构成,第二种表示相应于E块核心的常规复合构成,以常规名之是因为语言学早就注意到这一语言现象,第三和第四种表示以及一般表示所代表的3类Ek构成应该说是HNC提出来的新概念,对它们还分别给出了相应的搭配命名:

Ek=EQ+E 高低搭配及vv动词搭配

Ek=E+EH 动静搭配

Ek=EQ+E+EH 高低动静搭配

应该说明,高低搭配和动静搭配也是其他语义块复合构成的一般特征,特别是高低搭配。这里仅针对Ek作进一步的说明。

Ek的高低搭配是指高层动词与低层动词搭配,搭配规则(顺序)是前高后低,汉语和西语都是如此。高低搭配往往采取远搭配方式,即中间插入广义对象语义块,汉语和西语都有这种倾向。高低搭配概念的提出是对“中心动词”概念的补充或否定,但是不应该将“中心动词”概念与“head driven”概念相混淆,后者大体相当于HNC的特征语义块概念,不过它没有升华到句类和句类表示式的高度而功亏一篑。

所谓高层和低层动词,顾名思义,就是与HNC概念符号的高层和低层动态概念所对应的动词。v概念与动词是有区别的,动词一定有相应的v概念,但v概念不一定有相应的动词。在概念层面(空间)叫v概念,在语言层面(空间)叫动词,所以,高低搭配有时也解释为高层概念与低层概念的搭配。至于高层、中层、底层和低层概念的定义,请参看《专著》,这里就不解释了。汉语的典型高层动词有“进行、提出、搞、做、作…”等,英语有get make…等。

vv类动词和vv动词搭配概念的提出是一种工程需要,也是对高低搭配概念的补充,当年曾考虑过重新定义工程意义下的高层和低层概念的方案,后来放弃了,而以vv类动词的概念来替代。vv动词是这么一类动词,它必须在后面补充另一个动词才能构成Ek,Ek的句类由后面的动词决定。这类动词将称为纯vv动词,汉语里的“加以、予以、给以”就是典型代表。除了纯vv动词之外,还有大量的所谓兼类vv动词,这些动词可独立充当Ek,但是也可以充当后续动词的配角。与纯vv类动词类似,两者合起来的句类由后续动词决定,最有代表性的兼类vv动词就是“开始”。兼类vv动词可以按照Ek=EQ+EH的方式来处理,但不如按Ek=EQ+E方式简明。不言而喻,vv类动词本身又可以连用,软件设计要注意到这一点。

vv动词是概念类别的一种,因此,有时也把vv动词叫做“vv概念类别”。但绝不能说“vv类概念”,这样的概念是不存在的,因此概念的HNC表示式中没有vv的形式,这是需要明确的。因此,今后最好只用vv类动词的说法,而不要使用vv类概念的说法。

上面的说明肯定会使一些读者产生疑问,有必要提出vv类动词这样古怪的说法么?难道传统语言学没有相应的权威命名?应该说语言学确实注意到了这一语言现象,并给出了“形式动词”的命名,但这个命名既不适用于表示汉语里的兼类vv动词,也不适用于表达英语中大量存在于vv+to+v组合结构中的vv类动词,这就是本文的回答。

vv动词的出现是亮点而不是难点,纯vv动词更是耀眼的亮点。兼类vv动词的出现,往往伴随着多句类代码难点,因为你不能认定它就是兼类vv动词,而只能作为一种假设,然后通过句类检验予以确认。至于对这种情况是否先采取“有所不为”的策略,应该先不作决定,而等待统计结果。

下面讨论动静搭配。

如果说高低搭配是对一部分补语概念和所谓动宾结构两者的一种变换,那么动静搭配就可以说只是对所谓动宾结构的一种变换。例如“动手术、负(承担)责任、搞对象、感兴趣、伤脑筋、奠定基础、采取措施”等,从形式上看,这些确实是动宾结构。但是一个句子里动宾结构的数量是不确定的,各种动宾结构的意义又很不相同,只分析到动宾结构可以说还只是征途的起步。重要的是要搞清楚这些动宾结构在句子里各起什么作用?HNC采取“各个击破”的策略,将不同的动宾结构分别划入特征语义块、句蜕块和块扩的范畴。在这三个范畴里,应该说对采用动宾结构形式的特征语义块的辨认是三划分的突破口或切入点。因为这一范畴既关系到句子分析的全局,又具有最明确的预期知识可供利用,预期知识放在HNC词语知识库的@K栏目里。但这不等于说,动静搭配的特征语义块辨认不存在难点,难点在于“动”与“静”的分离。这里说的分离包括在“动”、“静”之间插入广义对象语义块或其一部分和插入Eu两种情况。看下面的例句:

(1) 李大夫||正在 |为张先生||动 |肝脏 |手术”

A QE l8 XB X YB XH

!11XJ

(2) 张先生||正在动 ||肝脏 |手术

YBCB QE Y YBCC YH

Y01J

(3) 李大夫||正在 动 ||肝脏|手术

A QE X YB XH

!XJ

(4) 张县长||要对这起大楼倒塌事件||负 领导 责任

X1B l0 XBC X10 Eu X10H

!11X10J

例句(1) 给出了作用句的YB要素插入E块的示例,例句(4) 给出了一般承受句的E块插入了Eu的示例。作为对比的另外两个例句表现了十分有趣的模糊现象,同时也表明了现有HNC文本标注方式的不足,将在第四章中对这两点进行相应的讨论。

EQ+E、E+EH之间可能出现两可的疑难,例如例句4.4* 的“起到$越来越重要的作用”。但两可疑难往往不是疑难,也就是说,某些“两可”可采取“任选”的方式。就这个例子来说,关键在于“任选”是否影响句类的判定,而这里显然是没有影响的,因此“任选”是可行的。但是软件不欢迎“任选”,因此,针对EQ+E、E+EH的两可制定了一项硬性规则(约定),这就是约定E+EH的EH只能是纯体词,否则就选定EQ+E,不管兼类,也不管“的”的所谓体词化功能。

总之,采用EQ+E、E+EH形式结构的特征语义块虽然也有其特殊的难点,但总的情况是亮点多于难点。

至于EQ+E+EH复合构成,一般来说,这一结构的出现同纯vv动词一样,是亮点而非难点。

最后谈一下EQ+EH构成方式。

EQ+EH构成属于E块的常规复合构成,表现为两个或多个动词连用构成E块核心,如“贯彻落实,又打又拉,半工半读,恫吓与利诱并用,审议并通过”,又如“组织、加强、保护和利用(7.1),彻底重新定义并且重新组织(7.2)”。常规复合面临着混合句类代码的约定问题,请参看陶明阳论文。

EQ+EH构成的难点在于假连见的判定,什么是假连见?连见与连用有什么区别?将在第四章说明。

在本节的最后,我建议读者思考一个问题:为什么把1号难点统称为多句类代码难点?这里只提示一点,针对1号难点,一方面给出E块核心构成的一般表示式,据以形成统一处理模式;同时又给出E块核心复合构成的4种特殊形式,据以形成“区别对待”的灵活处理模式。这就是毛泽东谋略的运用。从上面的分析可以看到,这一谋略确实十分有效,从难点中挖出了不少亮点。