面向开源文本的事件内容挖掘关键技术研究

吴崇斌


摘 要

 

面向开源文本的事件内容挖掘是将不具有固定结构或格式的文本中的事件内容信息转换成具有一定组织形式的事件数据,并对事件的领域进行识别的智能信息处理,是进行事件信息高级应用研究的基础。本文利用HNC理论知识,对利用概念知识的事件内容挖掘系统进行设计,并针对事件内容挖掘中的文本聚类、未登录词识别与词义自动学习、词义消歧等关键技术,探索了相应的解决方法和实现手段,取得以下研究进展:

1.        提出了基于HNC概念基元的文本向量表示方法,为了解决未登录词造成的语义信息丢失情况,在此基础上进一步提出了概念与词形混合作为文本特征的文本聚类方法。这些方法与单纯基于词形的文本向量表示方法相比,在向量空间维度上都有超过幅度90%的下降;而在基于人工标注类F值的评价标准上,基于概念基元的方法比基于词形的方法提高9.6%,而基于概念基元与词形相结合的方法比基于词形的方法提高25.8%

2.        提出了一种基于数据挖掘技术和网络搜索引擎的未登录词识别方法,进一步形成基于网络百科全书的词义自动学习方法。这两项处理方法利用了网络信息资源,无需训练,适合对开源文本进行处理,在一定程度上解决了未登录词对基于语义的处理系统性能的制约问题。其中,未登录词识别方法运用数据挖掘的Apriori处理思想进行未登录词挖掘,并将网络搜索引擎应用于的词语确认;而词义自动学习方法则通过利用HNC概念基元知识以及网络百科全书的词条信息来实现。实验表明,本文提出的未登录词识别方法取得93.9%的准确率和97.9%的召回率;而词义自动学习方法在本文提出的10分评分机制中,种类评分的宏平均值为7.2329,领域评分的宏平均值为6.3542,总体处理效果良好。

3.        针对词义消歧处理,在贝叶斯模型基础上提出上下文边界按词定制的处理策略,并对基于正确率和基于函数拟合两种最优上下文边界选取规则进行探索。与通常采取的对所有多义词采用统一上下文边界的策略不同的是,按词定制上下文的边界对每一个多义词分别求取最优上下文边界。本文从理论处理效果和实际实验结果两方面对按词定制上下文边界和统一上下文边界两种策略进行对比。在理论最优处理效果上,按词定制上下文边界的策略相对统一上下文边界的策略在3大组共6小组对比实验中取得的Macro-PMicro-P的平均值上分别有6个百分点和5个百分点的提高。但在自动实现的对比实验中,按词定制上下文边界与统一上下文边界两种策略的表现基本持平。

4.        对利用概念知识的事件内容挖掘系统进行了设计,为了使事件分类更为细致而引入了基于类型和领域的事件二维类别划分标准,并根据HNC句类语义块和事件要素的对应关系勾画了事件框架,服务于语言分析处理结果到事件抽取的处理。这一系统运用了HNC理论的语言概念空间知识和句类分析工具,不仅对事件内容进行组织和抽取,而且对事件领域进行识别,从而为挖掘同领域或相关领域事件的关系提供数据支持。这一设计为后续的事件内容挖掘系统研发提供了一套参考方案

 

关键词:事件内容挖掘;HNC理论;文本聚类;未登录词识别;词义自动学习;词义消歧;事件类别;事件框架