利用语言概念知识的事件文本分析关键技术研究

池哲洁


目 录


摘要    I
ABSTRACT III
目 录    VII
表格目录 XI
插图目录 XIII
算法目录 XV
公式目录 XVII
示例目录 XIX
第1章 引言 1
1.1 研究背景 1
1.2 问题的提出 2
1.3 研究现状 4
1.3.1 事件抽取研究现状 4
1.3.2 文本相似度计算研究现状 8
1.4 本文研究内容及贡献 10
1.4.1 本文主要研究内容 10
1.4.2 本文研究的贡献 11
1.5 论文结构安排 12
第2章 相关技术及研究 15
2.1 文本向量表示技术 15
2.2 相似度计算技术 16
2.2.1 词语相似度计算技术 16
2.2.2 句子相似度计算技术 19
2.3 搭配抽取相关技术 21
2.3.1 词语搭配定义 21
2.3.2 关联测度 22
2.4 HNC理论相关知识 26
2.4.1 概念基元空间 26
2.4.1.1 基本构成 26
2.4.1.2 概念的外在表现 28
2.4.1.3 概念的挂靠表示 29
2.4.1.2 HNC符号 29
2.4.1.5 概念关联式 31
2.4.2 句类空间 32
2.4.3 语境单元空间之领域 34
2.5 本章小结 35
第3章 利用概念空间的事件抽取 37
3.1 概述 37
3.2 事件句及其类型识别 39
3.2.1 通用识别分析 40
3.2.2 事件触发概念表的构建 43
3.2.3 基于触发概念的事件类型判定 48
3.3 事件要素抽取 50
3.3.1 通用抽取分析 50
3.3.2基于具体句类的事件要素抽取 52
3.4 实验与分析 56
3.4.1 实验设置 56
3.4.1.1 实验对象选择 56
3.4.1.2 参数设置 57
3.4.1.3 评价指标介绍 58
3.4.2 结果与分析 59
3.4.2.1 事件类型识别结果与分析 59
3.4.2.2 事件要素抽取结果与分析 61
3.5 本章小结 62
第4章 基于搭配概念的词语相似度计算 65
4.1 搭配概念基元抽取 66
4.1.1 抽取步骤描述 66
4.1.2 概念搭配结果存储 70
4.2 基于搭配的概念相似度计算 72
4.2.1 概念搭配向量构造 72
4.2.2 基于直接搭配的相似度计算 73
4.3 HNC符号相似度计算 74
4.3.1 单一HNC符号相似度计算 74
4.3.2 HNC符号组合结构分析 76
4.4 词语相似度计算 78
4.5 实验及分析 79
4.5.1 实验设置 79
4.5.1.1 测试集构建 79
4.5.1.2 可调节参数设置 80
4.5.1.3 词语相似度的评测 82
4.5.1.4 对比实验设置 84
4.4.2 结果与分析 84
4.5 本章小结 86
第5章 基于概念基元符号系统的词语相似度计算 87
5.1 相似度度量思想 87
5.2 概念基元符号系统特性度量 87
5.2.1 层次性的度量 88
5.2.2 网络性度量 91
5.2.3 对比、对偶特性的度量 91
5.2.4 挂靠特性的度量 92
5.2.5 外在表现的度量 93
5.3 实验与分析 94
5.3.1 可调节参数设置 94
5.3.2 结果与分析 95
5.4 本章小结 98
第6章 利用概念空间的句子相似度计算 101
6.1 概述 101
6.2 基于概念和句类分析的句子相似度计算 102
6.2.1 句类表达式相似度度量 103
6.2.2 语义块相似度度量 105
6.2.3 包含混合/复合句类的分析 107
6.3 实验与分析 108
6.3.1 实验设置 108
6.3.2 结果与分析 109
6.4 在事件文本扩展及追踪中的应用 112
6.4.1 算法描述 112
6.4.2 算法评价指标 113
6.4.3 实验结果 113
6.5 本章小结 115
第7章 结束语 117
7.1 本文研究工作和贡献 117
7.2 本文研究的不足 118
7.3 进一步工作展望 119
参考文献 121
附录A 第3、4、6章数据及统计情况 127
附录B 第4、5章详细实验结果 133
个人简历 135
攻读博士期间发表论文与成果 137
致 谢 139