HNC理论概要(提纲)

2000.4.9

 

绪论

      HNC, Hierarchical Network of Concepts,概念层次网络。

           一个关于自然语言理解的理论体系。黄曾阳先生创立。

 

1.    HNC的目标

1.1     对立足于语法、逻辑和统计的传统自然语言理解处理方案进行全面的改革。这一传统方案不能有效地分析和处理自然语言,其根本弱点在于,它不是描述语言感知过程的适当模式。

1.2     以概念联想脉络为主线建立一种模拟大脑语言感知过程的自然语言表述模式和计算机理解处理模式。大脑对语言的感知或理解实质上是一个对概念的激活、扩展、浓缩、转换和存储的过程。

1.3     使计算机具有消解自然语言模糊的能力。对自然语言五重模糊(发音模糊、音词转换模糊、词的多义模糊、语义块构成的分合模糊、指代冗缺模糊)的消解是大脑和计算机理解自然语言的首要任务。目前自然语言理解各应用领域的共同弱点是在模糊面前无能为力。自然语言理解的当前目标应当定位于消解模糊。

1.4     预定建立自然语言的五个理论模式:

(1)      自然语言概念体系的理论模式;

(2)      自然语言语义块和语句的理论模式;

(3)      句群、段落和全文要点的表述模式;

(4)      短期记忆和长期记忆的形成及其相互转换模式;

(5)      基于文字文本的计算机自学习模式。

 

2.    HNC取得的进展

2.1     建立了体现概念联想脉络的语义网络。语义网络是概念化、基元化、层次化、网络化的,不是对词义的分类。

2.2     建立了网络式概念基元符号体系,即自然语言概念的数学表示式。这个符号体系具有语义完备性,能够与自然语言的任何词语建立起语义映射关系,而且,它是高度数字化的,每一个符号基元都具有确定的意义,可以充当概念联想的激活因子。这个体系可以把概念之间的联想关系形式化地表达出来。例如,

迅速 u1009c21       编辑 va34; pa34    承担 v901

发展 v10a8          报社 pea34        责任 rc010

思考 vg810          思维 g810         想法 r810

垮台 va11+v142      达成 vc249a$(v3008|(jlv001/v810))

2.3     建立了语句的语义表述模式,即自然语言语句的物理和数学表示式。物理表示式是语句的句类表示式。数学表示式是语句的格式表示式。穷尽地发现了自然语言的57个基本句类。运用这些表示式可以表述自然语言任何语句的语义结构。例如,

一般反应句:

    X20J=X2B+X20+XBC

          反应者+反应+反应引发者及其表现

          张先生很喜欢李小姐的个性。    张先生最怕李小姐发脾气。

信息转移句:

    T3J=TA+T3+TB+T3C

        转移发出者+转移+接收者+转移内容

        张先生告诉李小姐一个好消息。    张先生告诉李小姐小王很喜欢她。

2.4     形成了提纲挈领式的知识表示体系,及知识库建设的原则和规范,并建立了相当规模的概念知识库和汉语知识库。通过对语义、语法、语用和世界知识的综合抽象与提炼,提供自然语言理解的关键知识。例如,

爱好 (like, be fond of)       表扬 (celebrate, commend, praise)

v,r  vr7122  X20  ^!       v,g,ug,I10,I01,I03  v9239#v361  T3X*21

@S  XBC:=!31J            @S  B=XB+YC  XB:p;pe  YC:g;v

@CA  {r, S04/SBC}         @CA  {ug, FKQ  FKH:gw. |;}

2.5     形成了称为句类分析的自然语言理解处理模式。句类分析是对大脑语言感知过程的初步模拟,在消解模糊方面理论上能接近甚至超过常人的水准。句类分析技术已经在计算机上初步实现。

    以上五个方面的进展是HNC理论的基本内容,它们的关系如下图所示。

句类分析系统




知识库

概念和语句表述模式

语义网络

小结:

    HNC建立了自然语言表述和处理的合理模式,揭示出自然语言总体上是well-defined的。

    HNC可以使计算机实现对大脑语言感知过程的初步模拟,获得相当强的消解模糊能力,从而迈上自然语言理解的第一个台阶。

    HNC提供了观察自然语言的望远镜和显微镜,为语言研究开辟了新天地。