基于HNC理论的扩展句类分析平台研究

韦向峰


摘 要

 

汉语是一种以意合为主的语言,汉语无形态变化、词性兼类严重、没有格数时形态变化等特点使汉语的语句理解出现许多难点。HNC(概念层次网络)理论认为,世界上的6000多种语言都对应着一个语言概念空间。自然语言理解是从语言空间到语言概念空间的映射过程。在语句的分析处理中,直接获取语句的概念联想脉络,形成了将语句投射到语言概念空间的方法,称为句类分析。

本文的目标是在HNC理论的基础上搭建可扩展句类分析平台,探索句群理解的初步处理,为实现计算机的语句、句群理解乃至篇章理解奠定坚实的基础。

本文的研究方法主要采用规则方法,以形式化规则处理为主线,将扩展句类分析的各阶段串接在一起,实现“亮点先行、统分结合、逐级深入”的处理策略。

围绕扩展句类分析平台的搭建,本文主要研究内容包括:基于形式化规则的可扩展软件平台的设计与实现;语义块感知和句类假设;句类检验和语义块构成;句群构成分析;语境单元基本信息的初步获取。

HNC理论已有研究的基础上,本文开展了相关的研究工作,主要贡献和创新点如下:

(1)    设计形成了服务于HNC句类分析的形式化规则描述语言,使用该语言可以将句类分析不同阶段的规则形式化,研究人员不必介入软件的编程细节,就可以在软件平台中实现规则处理的研究;

(2)    实现了基于形式化规则的可扩展软件平台,在此平台上可以执行形式化的规则,平台的处理能力可随着研究的深入进行扩展,从而实现句类分析处理能力的不断扩展;

(3)    平台具有友好的可视化界面,以图形界面显示处理结果,文本结果可以定制,有利于人机交互和程序开发;

(4)    研究了时空数概念短语的识别规则,并在实现的软件平台中用实际语料进行了验证,结果表明规则具有较高的正确率和覆盖率,同时规则可以进一步完善和丰富,增强平台的处理能力;

(5)    研究了全局特征语义块的感知规则,特别是动词连见的处理规则,同时将这些规则形式化并进行了语料验证,结果表明规则具有较好的处理能力,丰富和细化了软件处理平台的能力;

(6)    在已有句群研究的理论基础上,研究了句群小句间主语义块的共享关系,探讨了省略语义块的恢复策略和规则,为句群构成分析打下了理论基础;

(7)    总结了语境基本信息的初步获取方法,并且在语段中进行了探索,为深入研究多语段的相关处理积累了经验。

综上,本文在规则形式化表示设计的基础上,实现了可扩展的、服务于句类分析的软件平台,在这一平台上实现了句类分析相关阶段的部分处理规则,进行了语料的验证工作。扩展句类分析平台的实现,将从深入全面地展开句类分析20项难点的攻关以及迈向句群处理两个方面,为推进语句-句群理解处理研究工作奠定坚实的基础。

 

关键词HNC理论;规则;句类分析;句群;语境