HNC理论与自然语言语句的理解

 

黄曾阳

中国科学院声学所 声场声信息国家重点实验室
北京 100080

 

摘要   本文阐释了自然语言理解的HNC标准,介绍了句类概念,说明了基本句类知识的内涵,陈述了句类分析的性能特征,展望了句类分析技术在机器翻译领域的应用前景。

关键词   HNC 自然语言理解 句类分析 机器翻译

 

1. 引言

        自然语言理解的本质是概念联想脉络激活、扩展、浓缩、转换与存储的全过程运作。激活运作的要点是语句的理解;扩展与浓缩运作的要点是段落与篇章的理解,转换与存储的要点是记忆与学习。语句的理解显然是自然语言理解的基础,但这不等于说,任何一种形式的语句理解处理算法都可以成为自然语言理解的基础。要取得这一资格,就必须把语句理解定位于概念联想脉络运作全过程的激活。

        这是自然语言理解的一种理解观。HNC理论是为了实现这一理解观而创立的,其全名是概念层次网络(Hierarchical Network of Concepts)理论。

        从应用的角度来看,自然语言处理的两个分支——机器翻译和自动文摘在信息时代大有用武之地,都可能形成网络信息服务产业的巨大市场。不言而喻,两者的有效服务都要求计算机读懂面前的自然语言文本。当然,不懂或似懂非懂而翻译、而摘要是有许多法门的,但终究是不可靠的,很难赢得市场的普遍认同。

        那么,读懂的标准是什么?图灵先生提出过著名的图灵标准,计算语言学先后普遍采用过句法分析和多种多样的句法语义分析标准。就当前的计算机硬件软件水平和迫切的市场需求来看,这两个标准各有偏高和偏低的不足。那么,是否还能找到一种折衷标准?HNC为此提出了句类分析(Analysis of Sentence Category)的标准,简称ASC。

        句类是语句概念联想脉络的一种表述模式,句类分析就是概念联想脉络激活过程的一种具体操作,是自然语言语句理解的一种折衷标准。

        本文将分别介绍句类和句类分析的要点。

 

2. 基本句类及基本句类知识

        自然语言的语句呈现出无限和不确定的表观特性,这是人们所熟知的。但是,在这一复杂的表观现象背后是否存在一种有限和确定的语句结构?人们对此进行过多方面和多层次的探索。传统语言学的主谓宾定状补句法成份分析是这一探索的第一种答案,依托于乔姆斯基语法理论的各种句法树分析是第二种答案,依托于其他各种现代数理逻辑理论的句法语义分析是第三种答案,依托于隐马尔科夫HMM模型和人工神经网络ANN模型的各种统计处理是第四种答案[12]。这四种答案与语言微观和宏观特性的联系,大体上依次呈现出反变和正变的趋向。然而,对自然语言特性的把握必须是微观和宏观并重的,对语句特性的把握更是如此。

        那么,什么是语句的宏观和微观特性?

        HNC的答案是:语句的宏观特性可以用语句的句类表示式来表达,语句的微观特性可以用语义块的构成表示式来表达。句类是语句的语义类型,它的定义是根据作用效应链的思想来确定的[3]。每个句类拥有自己的句类表示式;每个句类表示式拥有特定的语义块类型和数量,并且语义块之间具有特定的概念关联性。句类的这些特性统称基本句类知识。下面给出句类表示式的8种代表类型及其相应的名称和编号。

 

编号

句类名称

句类表示式

-----------

------

-----------------------------------

----------------------------------------------------------------

08

一般反应句

X20J=X2B+X20+XBC

42

过程素描句

P1J=P1B+P1+P1C

17

信息转移句

T3J=TA+T3+TB+T3C

39

基本效应句

Y01J=YBC+Y01

28

扩展主从关系句

Rm1n0J=RB1+Rm1n+RB2+RC

47

三换位状态句

S02J=SB+S02+SC

        =SC+S02+SB

        =SB+SC+S02

31

块扩判断句

DJ=DA+D+DBC

DBC=EJ

57

简化状态句

S04J=SB+SC

-----------------------------------------------------------------------------------------------------

 

       这些表示式所表示的句类都属于基本句类。基本句类表示式的标志是:左侧只用一个大写字母表示句子的语义类型。这样的大写字母总共有7个,分别是X、P(rocess)、T(ransfer)、Y、R(elation)、S(tate)和D(ecision),相应于作用、过程、转移、效应、关系、状态和判断等7种类型的语句(大写字母J表示语句,取自汉语“句子”的第一个声母符号)。大写字母后的数字表示相应类型句类的子类。句类表示式右侧的各项是语义块表示式,其中位于第二号位置且与句类标志符号相同的语义块叫做句类的特征语义块,其他带有2~3个大写字母的语义块叫做广义对象语义块,两者合称语句的主语义块。广义对象语义块的第一个大写字母取自句类标志字母;后续的字母表示广义对象语义块的类型基元,共3种,记为A、B、C,分别命名为作用者、对象和内容。

        这些句类表示式都蕴含着各句类的基本句类知识。值得强调指出的是,这种知识是概念层面的,与语种无关,也与具体的语句无关。例如,一般反应句的反应者X2B和反应引发者及其表现XBC都强依赖于反应特征语义块X20,通常可以从X20取得关于X2B和XBC的足够预期知识。又如,信息转移句的内容T3C一定要扩展成另一个或多个子句,如果在特定语句中采取了简化的指代形式,则在上下文中必须另外以语句的形式重现,只在口语中才可以心照不宣。同样,块扩判断句的语义块DBC也必须扩展为另一个语句。再例如,单向关系扩展句里的RC代表关系双方RB1和RB2共同从事的活动,因此,RC一定是一个没有主语的子句(因为主语就是RB1与RB2),而且,RB1和RB2的双方一定具有容易辨识的对称性。这些基本句类知识是极为丰富又极为宝贵的,是世界知识的共性表现(当然不能包括全部世界知识)。然而,只有在句类的约束下,才能把它们凸现出来,并给出形式化的表达。例如,对一般反应句可以给出下表所示的基本句类知识(其中也包括与语种有关的特定句类知识):

 

句类表示式

X20J=X2B+X20+XBC

预期知识

X2B:p;pe;pj01;jw62.

X20:v71;v6m02∧(m=3,4,5);v7202.

{X20:v7121;∧XBCB:p;pe.→XBC=J}

{X20:v7139;→XBCB:p4005.}

{X20:v713y∧y=(4,5,6)→XBCB:p4006.}

{X71yym∧(m=1,5)→XBCC:j861}

{X71yym∧(m=2,6)→XBCC:j862}

预期信息

块扩表示

XBCC

基本特征

XBC 非良性

汉语优先 !11

汉语拥有特定的JK2 标记符l0202“对”和
“为(wei4)”

汉语常进行(X10,X20) 转换

句类检验

要素检验

X20-X2B

X20-XBCC

 

        这些概念层面的语句知识的获得是句类表示式的一项不容忽视的独特贡献。

        HNC理论揭示出,这样的基本句类表示式总共有57个,表中给出的句类编号是相应句类的实际编号。

        全部基本句类可统一写成下面的一般表示式:

EJ=JK1+EK+∑JKj      (j=2~n;   n≤3)

EK是特征语义块的统一符号,JK是广义对象语义块的统一符号。该表示式表明,基本句类最多有4个主语义块:一个特征语义块加3个广义对象语义块;最少有两个主语义块:JK1+EK或JK1+JK2。对于4主块句,JK2一定以对象语义块基元B为主体,JK3一定以内容语义块基元C为主体。对于不含EK的两主块句,JK1和JK2一定是分别以基元B和C为主体。

        拥有3和4个主语义块的语句,主块的排列顺序可以分别有6种和24种之多。但是,并不是每一句类都具有这种改变主块排列顺序的自由。HNC把拥有这种自由的基本句类叫做广义作用句,把不具有这种自由的句类叫做广义效应句。在57个基本句类中编号为1~31和38~57的句类分属广义作用句和广义效应句。

        广义作用句的每一种主块排列顺序叫做一种句类格式。汉语广义作用句的格式变化远比西语丰富多彩。句类格式的变化不改变语句的基本语义,但语感是有变化的。3主块和4主块广义作用句的句类格式并不只6和24种,因为还需要考虑到相应广义对象语义块是否加上语义块标记的不同情况。HNC把标记齐全的格式叫做规范格式,把标记不齐全的格式叫做违例格式。6和24种格式之说只适用于规范格式加句类表示式所规定的格式(后者亦简称标准格式)。规范格式之外,3和4主块句还另有5种和72种违例格式。

        汉语在其发展过程中由于句类格式(包括违例格式)多姿多彩的涌现,而又缺乏形态手段的支持,不得不“别出心裁”对一些汉字赋予主语义块标记符(介词)的功能,如“把、被、向、对、就、为、于、给”等字。其中的“把、就、于、给”没有相应的西语word,因此对这些汉字功能意义的全面揭示,仅用西语的语法概念来解释是不够的,而从语义块标记的角度则可以给出明确的阐释。

        句类表示式所规定的主语义块只是一个语句的语义表达的必要和主体部分,但往往并不充分,充分的语义表达还需要补充一些辅助性语义块。HNC把这些语义块叫做辅语义块,并记为fK,以与JK相区别。辅语义块通常都带有语义块标记,其排列位置不像主块那样受到规范性约束而具有一定灵活性。这两点是各语种的共性,显然后者是前者的合乎逻辑的派生特性。但辅语义块最本质的特性是它与句类无关,也就是说,不同的句类可以选用相同类型的辅语义块,虽然不同句类有不同的优先选用倾向。而主语义块类型的选用则密切依赖于句类,由句类表示式所唯一确定。HNC定义了7种辅语义块和4种两可语义块,详尽说明见文献[5]。

        句类表示式的严格范定还涉及特征语义块一般结构表示式、广义对象语义块的句蜕与块扩现象、主语义块分离现象、主辅语义块变换、句类转换等5个环节。这5个环节都可能出现十分复杂的语言现象,也许可以说,这些语言现象是句类这一特定视野中的景象,是从句类这一观察角度才能清楚看到并加以深刻阐释的。关于这些环节的最新研究结果见文献[5~7]。

         上面简要说明了句类、句类表示式和基本句类知识的概念,这个说明是对引言中所说的“句类是语句的概念联想脉络的一种表述模式”这一论断的诠释。

         本节最后需要补充一点,自然语言的语句除了基本句类之外,还有单个全局特征语义块的混合句类和两个或多个全局特征语义块的复合句类。混合句类是指一个特征语义块表述了作用效应链两个或多个环节的意义[3]。理论上,混合句类应有57×56=3192种,两特征语义块的复合句类应有3192+57×3192+3192×3192种。这个数量的巨大并不可怕,因为混合和复合句类继承基本句类的句类知识。自然语言中基本句类与混合句类之比大约是7比3,常见的混合句类只有理论值的十分之一左右。汉语较少采用复合句类,但西语以复合句类为主,从本文附录的英汉双语语料库片段即可看到这一特点。

 

3. 句类分析

         句类分析是自然语言理解处理的一种方案,是句类概念的必然产物。上一节我们介绍了句类的各种先验知识,利用这些知识进行语句分析显然是事半功倍的上策。我们把优先利用句类知识的语句处理方案叫做句类分析。引言中所说“句类分析是概念联想脉络激活过程的一种具体操作”,就是这个意思。

         句类分析采用所谓“语义块感知和句类假设、句类检验、语义块构成分析”三步曲的处理策略,详细说明见文献[4]。这里仅对句类分析的性能特点和它在机器翻译中的应用前景作简要说明。

         句类分析适用于任何语种,只要具有一种语言的HNC词语知识库[3],就可以对该语种进行句类分析。附录中给出了英汉相应语句的人工分析结果,语料中带“*”标记的地方表示机器句类分析时的难点。句类分析的理想结果是完成从语言层面到概念层面的映射,这一映射的完成就是“懂”的初级标志。句类分析的第一项性能指标是它的难点消除率。难点消除率决定于句类分析软件和HNC词语知识库两者的水平,而最终水平对知识库的依赖性更大。从句类分析来说,西语的难点多于汉语,因为西语词语的语义模糊远比汉语严重。

        句类分析的第二项性能指标是分析自明度(自知之明的程度),分析自明度是无疑点分析结果的正确率。分析自明度与难点消除率成反变关系,前者越高,后者越低,反之,前者越低,后者越高。两者的适当比例才代表句类分析整体水平。汉语句类分析已进入对两者进行综合测试的阶段。

        假定分析自明度为99%以上,而难点消除率可达到90%,那么,在这一基础上的机器翻译系统是可信赖的。这时,机器将相当有把握地将译文区分为可信赖和有疑问两类交付用户或人机交互系统。

         上面只说明了对原文的分析,翻译还有一个译文的生成过程。用HNC的语言来说,这一过程是概念层面到语言层面的反映射。这一过程不仅需要通常的双语词典,还需要一个从HNC概念节点到语言词语的反映射知识库。按照当前的设想,HNC双语翻译将以后者为主。译文的生成当然还需要从语义块到语句和从词语到语义块两级生成规则的支持。如果不考虑艺术性要求,第一级生成规则比较简单。但是,即使不考虑艺术性要求,第二级生成规则仍然是十分复杂的,在这一环节HNC将充分吸收已有的研究成果。

         但是,翻译的真正难点不在两级生成规则的制定和使用,而在于从分析结束到生成启动之间的一系列过渡处理。这包括(同时给出附录中需要进行该项处理的英语句子编号及语义块名称):

 

句类转换

e2|XJ

e3|X21J,e3|T492J

e4|jDJ

e5|jDJ

句类格式转换

e1|jD00

e5|XJ

语义块主辅变换

e1|Cn

e4|Cn

语义块构成变换

e1|TA,e1|ReB

语义块排序调整

e1|ReB

e2|Re

语句排序的调整

 

        上列两转换、两变换、两调整的过渡处理,是句类分析思路的必然演绎,也许有助于对机器翻译总体方案的设计。对于这些过渡处理,需要制定相应的策略,我们正在为此而努力。

        至于附录中以“*”表示的各种难点处理,对汉语来说,多数情况已是句类分析的强项,当然还需要完善和提高,主要是句间信息的利用。英语的难点处理,从句类分析来说,并无原则上的特殊困难,只不过数量更多一些而已。

 

4. 结束语

        我们将按照HNC的思路研究和开发一种汉语和英语的双向翻译系统。这个系统的根本特点是它具有自知之明,即能给出可信赖译文和有疑点译文的明确区分,并能在必要时给出疑点的多种可能解决方案。按照计划,这一系统将于2002年问世。这一系统的问世,将对多语种机器翻译和网络翻译服务产业的发展产生决定性的影响。

 

 

附录:英汉HNC双语语料库片段

 

e1 T2bJ+jD00J

Commander Victor Henry||

rode a taxicab||

home*

TA

In

T2b+TB

||

from

the Navy Building on Constitution Avenue,

l19

ReB

in

a gusty gray March rainstorm||

that ||

matched*|

his mood*.

l1

Cn

(DB1)

jD00

DBC2

c1.1 T2bJ

维克多 · 亨利中校||

乘出租汽车||

宪法路海军大楼||

回家,

TA

In

l19

TB1

T2b+TB

c1.2 jD001J

三月里阴暗的暴风雨天气

和*他当时的心境||

十分相象

DBC

l4

jD00

 

e2 T10J+XJ

In his War Plans cubbyhole||

that afternoon,

Cn

Cn

he||

had received||

an unexpected word*||

from

on high*||

TB

T10

T1C

l19

TB1

c2.1 T10J

今天下午||

在作战计划处的斗室里||

Cn

Cn

他||

上级嘴里||

听到||

一个很意外的消息,

TB

l19

TB1

T10

T1C

c2.2 DJ

据*他这个老于世故的人||

估计,

DA

D

这样一来|

他的锦绣前程||

可能就此*葬送。

lb

YBC

Y01

DBC=Y01J

 

e3 T492J+X21J

Now||

he||

had to

consult||

his wife||

about an urgent decision;

Cn

TA

QE

T492

T4B2

T4C

yet

he  ||

did not

altogether

trust||

her opinions.

lb

X2A

QE

QE

X21

XBC

c3.1 T49J

现在||

他  |

不得不|

他妻子||

商量,

马上作出决定;

Cn

T4B1

QE

l4

T4B2

T49

T4C

c3.2 X20J

然而,

他 ||

她的见解||

毫无信心。

lb

X2B

l0

XBC

QE

X20

 

e4 jDJ+jDJ

At forty-five,

Rhoda Henry||

Cn

DB

remained*||

a singularly* attractive* woman,

jD

DC

but|

she||

was rather||

a crab*.

lb

DB

jD

DC

c4.1 S04J

罗达 · 亨利||

虽已45岁,

SB

SC

c4.2 !31jDJ

却依旧

是||

一个非常漂亮的女人,

QE

jD

DC

c4.3 S04J

只是

她||

太会唠叨,

lb

SB

SC

 

e5 XJ+jDJ

This||

coloured*||

her judgement,

A

X

B=XB+YC

and|

 it ||

was||

a fault* |

  he  |

found |

hard to forgive|

her.

lb

(DB)

jD

DC=[X20J]

(X2B)

(X20Q)

(X20H)

(XBC)

c5.1 !11XJ

这||

她的判断力||

罩上* 一层阴影。

A

l0

B=XB+YB

X=X+XH

c5.2 !21X20J

在她丈夫||看来*,

她的这个缺点||

很难原谅。

Re

XBC

X20

 


 

参考文献

 

[1] Carberry S and Lambert L. A process model for recognizing communicative acts and modeling negotiation subdialogues. Computational Linguistics, 1999, 25 (1 )

[2] Minker W, Gavalda M. and Waibel A. Stochastically-based semantic analysis for machine translation. Computer Speech and Language, 1999, 13 (2)

[3] 黄曾阳. HNC(概念层次网络)理论——计算机理解自然语言的新思路. 北京:清华大学出版社. 1998

[4] 晋耀红. 基于概念层次网络理论的句类分析的设计与实现. 见:黄曾阳. HNC(概念层次网络)理论. 北京:清华大学出版社. 1998. 442~478

[5] 张艳红. HNC理论的主辅语义块及其相互转换. 北京语言文化大学硕士学位论文. 1999.  http://farad.ioa.ac.cn/hnc/zhyhmst.html(即将上网)

[6] 薛 侃. 现代汉语的句蜕及块扩研究. 中国人民大学硕士学位论文. 1999.  http://farad.ioa.ac.cn/hnc/xuekmst.html(即将上网)

[7] 陶明阳. 现代汉语特征语义块的复合构成. 中国人民大学硕士学位论文. 1999.  http://farad.ioa.ac.cn/hnc/taomymst.html(即将上网)

 


HNC Theory and Understanding of the Sentences of Natural Language

Huang Zengyang

National Laboratory of Acoustics, Chinese Academy of Sciences
Beijing 100080

 

Abstract.   In this paper, the HNC (Hierachical Network of Concepts) standards for the Natural Language Understanding are presented. A brief introduction of the new concept called Sentence Category is given. The basic knowledge of the sentence categories and the features of the functions of the Analysis of Sentence Category (ASC) are described. Finally, the prospect for the applications of ASC to machine translation is given.

Keywords:   HNC;  Natural Language Understanding;  Analysis of Sentence Category;  Machine Translation.