面向开源文本的事件内容挖掘关键技术研究

吴崇斌


目 录


致 谢 I
摘要 III
ABSTRACT V
目 录 VII
第1章 绪论 1
 1.1 研究背景 1
 1.2 问题的提出 2
 1.3 研究现状 3
  1.3.1 文本聚类的研究现状 4
  1.3.2 未登录词识别以及词义自动学习的研究现状 6
  1.3.3 词义消歧的研究现状 8
 1.4 本文主要研究内容及贡献 8
  1.4.1 本文主要研究内容 8
  1.4.2 本文研究的贡献 9
 1.5 论文结构安排 11
第2章 相关技术及研究 13
 2.1 文本聚类技术 13
  2.1.1 文本表示 13
  2.1.2 聚类模型 15
 2.2 未登录词识别与词义自动学习相关研究 18
  2.2.1 未登录词识别相关研究 18
  2.2.2 词义自动学习相关研究 19
 2.3 词义消歧技术 19
  2.3.1 朴素贝叶斯模型 19
  2.3.2 上下文边界 20
 2.4 HNC理论相关知识 20
  2.4.1 HNC理论概述 20
  2.4.2 概念基元空间 21
  2.4.3 句类空间与句类分析平台 24
  2.4.4 语境单元空间 26
  2.4.5 语境空间 27
  2.4.6 句蜕和块扩 27
 2.5 本章小结 28
第3章 利用概念知识的事件内容挖掘设计 29
 3.1 利用概念知识的事件内容挖掘系统设计概述 29
 3.2 相关研究 31
  3.2.1 事件抽取的研究现状 31
  3.2.2 事件分类 34
  3.2.3 要素抽取 36
 3.3 基于HNC理论的事件类别划分体系研究 37
  3.3.1 事件的类型与领域 37
  3.3.2 类型与领域两种标准的比较 37
  3.3.3 基于类型与领域的事件二维类别划分 39
 3.4 基于HNC理论的事件框架设计 40
  3.4.1 事件框架的设计要点 41
  3.4.2 事件框架的设计 41
 3.5 基于HNC句类分析的事件抽取要点设计 44
  3.5.1 基于HNC句类分析的事件抽取框架 44
  3.5.2 规则库和知识库 45
  3.5.3 处理模块 46
 3.6 本章小结 47
第4章 概念与词形相结合的文本聚类 49
 4.1 基于HNC概念基元的文本表示方法 49
  4.1.1 采用HNC概念基元作为文本特征 49
  4.1.2 概念基元的祖先节点的引入 51
  4.1.3 以概念基元为特征的文本向量生成方法 53
  4.1.4 以概念基元和词形混合作为特征的文本向量 55
 4.2 基于HNC概念基元的文本聚类 57
  4.2.1 以词形作为文本向量特征的聚类方法 58
  4.2.2 实验语料 58
  4.2.3 实验结果与分析 59
 4.3 概念基元层次范围对聚类效果的影响 61
 4.4 本章小结 64
第5章 未登录词识别与词义的自动学习 65
 5.1 引言 65
 5.2 基于规则的未登录词识别与词义获取 66
  5.2.1 规则库 67
  5.2.2 处理程序 68
  5.2.3 测试实例 70
  5.2.4 小结 71
 5.3 基于数据挖掘技术和网络知识的未登录词识别 71
  5.3.1 基于Apriori性质的候选未登录词发现 72
  5.3.2 基于搜索引擎的词语确认 76
  5.3.3 实验与分析 80
 5.4 基于网络百科全书的词义自动学习 82
  5.4.1 基于网络百科全书的词义获取 82
  5.4.2 对专家标注的词语的语义概念基元的调研 83
  5.4.3 从百度百科获取词语相关知识并自动生成词语语义概念基元 84
  5.4.4 处理性能评测 85
 5.5 本章小结 89
第6章 上下文边界按词定制的贝叶斯词义消歧 91
 6.1 上下文边界按词定制的贝叶斯分类器消歧方法 91
  6.1.1 词义消歧的理论最佳结果比较 91
  6.1.2 上下文边界按词定制的实现 93
 6.2 实验与结果分析 95
  6.2.1 实验使用数据 95
  6.2.2 实验内容与实验结果及分析 96
 6.3 本章小结 100
第7章 结束语 103
 7.1 本文研究工作及贡献 103
 7.2 本文研究工作的不足 104
 7.3 下一步工作展望 105
参考文献 107
附录A 第5章详细统计数据 111
附录B 第3、6章详细统计数据 117
个人简历 119
攻读博士期间发表论文与成果 121