“973”自然语言理解课题情况简介


1、技术基础

句类分析系统

“对汉语语句出现的多个动词时中心述语辨识、词性模糊和分词歧义、词的多义性的认定、句蜕及块扩等复杂语言现象和困难,形成了一些有效的处理策略,取得突破性进展。”

知识库

知识库建设必须走向规范化、工程化,这是本课题在973项目中的一项重要任务。课题集中精力对词语知识库规范化,制定出适用于不同语种的统一的HNC词语知识库规范。

“HNC知识库从概念和语言两个层面对语法、语义、语用和世界知识进行综合、抽象和提炼,把语法、语义、语用三个层面的知识融为一体,以语义为天然核心。该系统中的各种知识表示可为句类检验、语义距离计算并进一步实现多义选一处理和模糊消解提供依据。”

机器翻译方案设计

从源语言向目标语言的翻译需要映射和反映射的两个过程,即先对源语言进行句类分析,分析的结果是把它映射为概念空间的表示,然后把这种概念空间的表示生成目标语言的形式,这是一个反映射的过程。概念空间是唯一的、独立的,而语言空间则有形形色色不同语种的语言。

HNC机器翻译的总体方案是:以语义块为中枢,先理解源语言,然后在概念空间进行过渡处理,最后生成目标语言。

语言有符合规则的一面,也有调皮的一面,还有约定俗成的一面。对于约定俗成的说法,以及违反规则的情况,我们使用基于实例的翻译。

机器翻译过渡处理

HNC机器翻译是以语义块为中枢的翻译,就源语言和目标语言而言,语义块的内涵是不变的,但由于语种各有不同的个性,句类的确定、语句的格式、语义块的构成及位置等则不同。这样,在机器翻译的模型中,需要一个过渡处理,主要完成从概念空间向目标语言的反映射。这就是"两转换、两变换和两调整”六个环节。即句类转换、语句格式转换;语义块构成变换、语义块主辅变换;语义块的位置调整和句类排序调整。

2、创新性

为计算机的自然语言理解处理,建立了一个定位适当的模拟大脑语言感知过程的理论模式和理解处理总体方案。人类对语言的感知和理解从根本上来说不是靠语法、频度或逻辑推理,而是靠大脑中建立起来的概念联想脉络,语言习得的过程也就是建立概念联想脉络的过程。自然语言理解的本质是概念联想脉络激活、扩展、浓缩、转换与存储的全过程运作。激活运作的要点是语句的理解;扩展与浓缩运作的要点是段落与篇章的理解,转换与存储的要点是记忆与学习。因此HNC理论的目标是,以概念联想脉络为主线建立一种模拟大脑语言感知过程的自然语言表述模式和计算机理解处理模式,包括概念表述模式、语句表述模式、段落篇章表述模式、记忆与学习模式等。

3、主要成就

HNC建立了自然语言的概念表述模式和语句表述模式,揭示出自然语言总体上是well-defined的。从表观上看,自然语言是无限的、不确定的,但是自然语言语句的类型以及它们的变化规则是有限的。语句的类型就是HNC发现的57个基本句类和3192个混合句类,它们的变化规则就是HNC四种格式变换:即基本格式、规范格式、违例格式和省略格式。在语言分析20个难点的总体指导下,从句类的角度分析语言,可以从深层次揭示语言的本质,给语言学研究提供一个新的角度。比如:传统语言的连动、主谓谓语等结构,虽然从表面上看是一种结构,但是其中的语义关系各不相同,从句类的角度对这些语义关系进行详细的研究,必将使语言分析更深入、更透彻。HNC目前已经成为国内几所著名大学的语言学研究生课程,并且与华中师范大学语言学系建立了长期合作关系,HNC已经或正在推进语言学的研究。

HNC通过数字化的概念设计,把语义变成可操作的计算对象,从而使计算机获得相当强的消解模糊能力,为语言的计算提供了强大的武器。一般情况下,计算语言学都采用图或网的形式表示语义,把语义的计算转换为经典的图的匹配、合一运算。这种转化赋予了语义一定的可操作性,但是图操作却带来了很大的计算复杂度,使语义始终停留在模型阶段,不能进行大量的计算。HNC的概念描述是数字化的,它把复杂的语义体现在简单的数字串中,把语义的计算转化成数字串的比较操作,而后者是计算机最得心应手的工作,这就使语义的大量计算成为可能。正如麦克斯韦方程当年使电磁场成为计算的对象,从而开辟了电磁研究的新时代一样,HNC语义距离计算将大大推进语言计算,并使语义处理进入工程化。