HNC(概念层次网络)语言理解技术及其应用》

晋耀红 

科学出版社

20064


 

 

       自从1995年,师从HNC(概念层次网络)理论的创立者黄曾阳先生,学习和研究HNC以来,一晃10年过去了。

10年来,在黄曾阳先生专著《HNC(概念层次网络)理论——计算机理解语言研究的新思路》的基础上,HNC理论进一步发展,并逐渐趋于完善。确定了“概念无限而概念基元有限、语句无限而句类有限、语境无限而语境单元有限”的基本论点。正式将HNC的探索目标定位于交互引擎的研发,将语言概念空间描述……概括为概念基元空间、句类空间、语境单元空间和语境空间的4模式说,给出了这4个模式的数学表示式;将交互引擎的基本模块凝练成句类分析、语境单元萃取和语境生成的3部曲或3个基本环节。”并为交互引擎的实现规划了3项理论工程、4项技术工程和1个平台建设。

10年来,HNC语言理解技术得到了长足的发展,相继完成了中国科学院“八五”重大项目、国家“九五”科技攻关项目和国家重点基础研究发展规划项目(973)等国家重大项目,基本完成了HNC语句一级的理解处理系统——句类分析系统的设计与实现,并于2001年成功实现了技术转换,成立了HNC研究院(注册名:北京大正语言知识处理研究院有限公司)。HNC研究院以市场应用为导向,成功开发了基于HNC技术的第一个应用产品“HNC智能信息过滤器”,取得了良好的社会效益和经济效益。全国人大常委会许嘉璐副委员长对“HNC智能信息过滤器”给予了高度评价。

10年来,HNC语言理解技术取得了两次质的飞跃:一是从理论到技术的飞跃,实现了零的突破,其标志是句类分析系统的研究成功;二是从技术到产品的飞跃,实现了技术的产品化,其标志是“HNC智能信息过滤器”的研发成功。这两次飞跃,极大地推动了HNC技术的发展,也为交互引擎的研制打下了坚实的基础。作者有幸在黄曾阳先生的指导下,主持了句类分析系统的研究与实现,以及“HNC智能信息过滤器”的设计与开发,并亲自设计实现了其中绝大部分的算法。本书是作者在此期间工作的总结。

本书系统阐释了句类分析系统的基本思路、处理策略、相应算法的设计以及试验结果,详细说明了服务于“HNC智能信息过滤器”的应用技术,包括语境单元萃取技术、语义立场判断技术等,并简单介绍了HNC语言理解技术在文本特征提取、文本相似度计算、文本分类以及信息检索中的应用。

句类分析系统的发展,经历了3个不同的阶段,也经历过3次设计与重新构架。

第一个阶段是1997年到1998年,是句类分析系统的探索期,其标志是作者的硕士论文《基于HNC理论的句类分析系统的设计与实现[1]的完成。在此期间,HNC理论的基本框架已经浮出水面,亟待能在计算机上实现。在黄曾阳先生的主体协调和指导下,在几经周折后,最后由作者主持系统的设计。经过全体同志的努力,特别是以刘志文老师、苗传江博士负责的知识库工作的配合下,终于于1998年,完成了句类分析系统的基本构架,并成功应用于“汉语音字转换”系统。本书中的语义距离计算、基本概念短语构成、概念激活等算法,以及“在汉语音字转换中的应用”等章节的内容,都是在此期间完成的。

第二个阶段是1999年到2000年,是句类分析系统的发展期,其标志是2000年信息产业部专家对句类分析系统的技术鉴定(国家“九五”科技攻关项目),专家认为,句类分析系统“在汉语语句理解处理方面达到国际领先水平”。在此期间,苗传江博士领导的知识库规模进一步扩大,系统的构架改为以文字文本为处理对象,处理能力得到了进一步提高。本书中,E块复合构成、句类假设、句类检验等算法,大都成型于此期间。

第三个阶段是2001年至今,是句类分析系统的成长期,其阶段性标志是作者的博士论文《汉语理解处理中多动词难点的研究与实现》的完成。由于HNC研究院的成立,以及产品开发的需要,推动着句类分析系统向纵横两方面发展。纵的方面,表现在对自然语言理解的20项难点的综合治理,知识库规模的不断扩大与知识精度的进一步提高。横的方面,在系统的鲁棒性、可移植性以及接口的规范化等方面都开展了大量的工作,系统已经可以适应WindowsUnixLinux等流行平台,以及GB2312Big5等各种汉字编码。本书中的句类检验之“全局检验”、第二部分的“难点处理”等,都在此期间完成。

本书中的所有应用,都是以句类分析技术和语境单元萃取技术为基础的。在“HNC智能信息过滤器”的开发中,语句一级的处理能力已经不能满足应用的需要,迫切需要研发句群一级的理解技术,语境单元萃取技术应运而生。随后,文本特征提取、相似度计算、语义立场判断等技术研发相继展开。语境单元萃取技术目前刚刚起步,还需要在很多方面加强,但通过它的研发以及成功应用,进一步展示了HNC语言理解技术的潜力,也进一步证明了交互引擎的可实现性,作者愿与更多的人分享这种探索的快乐。

HNC语言理解技术主要包括两方面:一是算法与规则,二是知识库,两者相辅相成,缺一不可。知识库是水,算法是龙,“潜龙在渊”,无水则无龙;“有龙则灵”,无龙则水无灵。本书内容主要涉及的是前者,即算法与规则,对知识库的内容只是在算法用到的地方有所提及。有关知识库建设的系统说明,请参阅苗传江博士的《HNC(概念层次网络)理论导论》。

HNC理论创立以来,一直有一种声音,“理论很深奥,但技术实现似乎无望”。本书作者希望通过自己的努力,通过本书内容的说明,让更多的语言学工作者、计算语言学工作者,特别是中文信息处理界的朋友们,了解HNC技术,认识HNC技术的理解能力,并能把HNC技术应用到自己的研究中去。如果能做到这一点,将是本书对HNC最大的贡献了。本书的论述,大都是以汉语为例来进行的,但这些策略和规则对其他语种同样适用。

本书内容,是作者的工作体会与总结,由于个人悟性以及水平有限,难免有错误疏漏或不当之处,敬请专家和读者不吝批评指正。

 

晋耀红 

200551

 

 



[1] 作者的硕士论文获得了中国科学院院长奖学金优秀奖。