利用语言概念空间的文本分类研究

丁泽亚


目 录


摘要 I
ABSTRACT III
目 录 V
第1章 引言 1
1.1 研究背景 1
1.2 问题的提出 2
1.3 研究现状 3
1.4 本文主要研究内容及贡献 7
1.4.1 本文主要研究内容 7
1.4.2 本文研究的贡献 8
1.5 论文结构安排 9
第2章 相关技术及研究 11
2.1 文本分类技术 11
2.1.1 文本表示 11
2.1.2 文本特征选择方法 13
2.1.3 分类方法 14
2.2 HNC语言概念空间相关知识 20
2.2.1 HNC理论概述 20
2.2.2 概念空间 20
2.2.3 句类空间 22
2.2.4 语境单元空间及语境空间 24
2.3 本章小结 25
第3章 基于类别概念降维的文本分类 27
3.1 引言 27
3.2 类别核心概念特征选取方法 28
3.3 类别关联度分类方法 32
3.3.1 类别关联概念及关联权重计算 32
3.3.2 利用类别关联度的分类方法 33
3.4 实验及分析 36
3.4.1 实验语料 36
3.4.2 评价指标 36
3.4.3 实验结果及分析 37
3.5 本章小结 44
第4章 基于概念关联规则的文本分类 45
4.1 基于概念关联规则文本分类的思想 45
4.2 文本概念信息抽取 46
4.2.1 类别特征词选择及文本表示 46
4.2.2 文本概念树集的生成 47
4.3 类别概念关联规则的挖掘 51
4.3.1 类别概念关联规则的相关定义 51
4.3.2 类别概念关联规则挖掘方法 54
4.4 概念关联规则分类方法 56
4.4.1 类别概念规则树RTree 56
4.4.2 基于类别概念规则树的分类方法 59
4.5 实验结果 62
4.6 本章小结 71
第5章 基于语义块关联的文本分类 73
5.1 引言 73
5.2 文本语义块提取及其结构的概念表示 74
5.3 文本语句语义块关联的语义聚合 76
5.3.1 块相关度计算 77
5.3.2 文本语句语义块关联的语义聚合 81
5.4 类别语义聚合及分类 84
5.4.1 类别语义聚合 84
5.4.2 类语义聚合分类方法 86
5.5 实验结果 87
5.6 本章小结 95
第6章 文本分类相关辅助研究 97
6.1 引言 97
6.2 基于上下文语境关联概念的无导词义消歧方法 97
6.2.1 关于词义消歧 97
6.2.2 词义消歧相关研究概述 97
6.2.3 HNC关联概念词义消歧的思想 99
6.2.4 歧义词义项和上下文关联词集的提取 101
6.2.5 歧义词义项与上下文的概念关联树 109
6.2.6 歧义词义项与上下文语境语义相关度计算及消歧算法 113
6.2.7 实验结果 116
6.3 基于编辑距离的网页去重策略 119
6.3.1 关于网页去重 119
6.3.2 网页去重相关研究 120
6.3.3 编辑距离 122
6.3.4 基于编辑距离的网页去重策略 122
6.3.5 实验及结果分析 127
6.4 本章小结 130
第7章 结束语 133
7.1 本文研究工作及贡献 133
7.2 本文研究工作的不足 134
7.3 下一步工作展望 135
参考文献 137
攻读博士期间发表论文与成果 143
致 谢 145