使用语言概念空间特征的文本分类研究

张运良


目 录

摘要 I
ABSTRACT II
目录 I
第一章 引言 1
1.1问题的提出 1
1.2文本自动分类的研究现状 2
1.2.1规则方法和统计方法 2
1.2.2文本自动分类的模型 3
1.2.3文本分类结果的评价方法 3
1.2.4文本分类研究的进展 4
1.3本文研究的主要内容和意义 6
1.3.1本文研究的主要内容 6
1.3.2本文研究的意义 7
1.4本文的贡献及结构安排 8
1.4.1本文的贡献 8
1.4.2本文的结构安排 8
第二章 语言概念空间知识 10
2.1语言概念空间的提出 10
2.2概念空间 11
2.3句类空间 13
2.4语境单元空间和语境空间 15
2.5 HNC工程的现状及对文本分类的影响 16
2.6本章总结 16
第三章 使用句类空间特征的文本分类研究 18
3.1句类空间特征 18
3.1.1概述 18
3.1.2句类概念空间的特点及利用 18
3.2句类空间中的文本表示和处理 20
3.2.1句类空间中的文本表示模型 20
3.2.2句类向量的特征选择 20
3.2.3句类向量的权重 21
3.2.4文本分类算法 22
3.3句类分类方法的表现 22
3.3.1面向领域的分类 22
3.3.2 面向主题的分类 23
3.3.3面向作者写作风格的文本分类 24
3.4面向作者写作风格的《红楼梦》作者识别 26
3.4.1《红楼梦》作者识别实验及其结果 26
3.4.2语言概念空间的弱历时性 27
3.5影响分类器性能的问题讨论 28
3.5.1句类分析中非确定分析结果处理策略讨论 28
3.5.2其它影响分类器性能的问题讨论 29
3.6本章总结 29
第四章 使用概念空间特征的文本分类研究 30
4.1概述 30
4.2概念空间基础 30
4.2.1概念基元体系结构表和词语知识库现状 30
4.2.2概念的类别 31
4.2.3本章测试使用的语料库 32
4.2.4分类实验步骤和结果观察 33
4.3使用抽象名词性概念特征的文本分类 34
4.3.1特征简介 34
4.3.2面向主题分类研究 35
4.3.3作者写作风格分类研究 37
4.3.4小结 38
4.4使用具体名词性概念特征的文本分类 38
4.4.1特征简介 38
4.4.2面向主题分类研究 39
4.4.3面向作者写作风格分类研究 40
4.4.4小结 40
4.5使用特指概念特征的文本分类 41
4.5.1特征简介 41
4.5.2面向主题的分类研究 41
4.5.3面向作者写作风格的分类研究 42
4.5.4小结 43
4.6使用动态概念特征的文本分类 43
4.6.1特征简介 43
4.6.2面向主题分类研究 44
4.6.3面向作者写作风格分类研究 44
4.6.4小结 45
4.7使用属性和物性类概念特征的文本分类 45
4.7.1特征简介 45
4.7.2面向主题分类研究 46
4.7.3面向作者写作风格分类研究 47
4.7.4小结 47
4.8使用副词性概念特征的文本分类 47
4.8.1特征简介 47
4.8.2面向主题分类研究 48
4.8.3面向作者写作风格分类研究 48
4.8.4小结 49
4.9基于量词性概念特征的文本分类 49
4.9.1特征简介 49
4.9.2面向主题分类研究 50
4.9.3面向作者写作风格分类研究 51
4.9.4小结 51
4.10使用时间类概念特征的文本分类 52
4.10.1特征简介 52
4.10.2面向主题分类研究 52
4.10.3面向作者写作风格分类研究 53
4.10.4小结 54
4.11使用空间类概念特征的文本分类 54
4.11.1特征简介 54
4.11.2面向主题分类研究 54
4.11.3面向作者写作风格分类研究 55
4.11.4小结 56
4.12使用表切分组合的语言逻辑概念特征的文本分类 56
4.12.1特征简介 56
4.12.2面向主题分类研究 57
4.12.3面向作者写作风格分类研究 58
4.12.4小结 58
4.13使用其它语言逻辑概念特征的文本分类 58
4.13.1特征简介 58
4.13.2面向主题分类研究 59
4.13.3面向作者写作风格分类研究 60
4.13.4小结 61
4.14使用语习类概念特征的文本分类 61
4.14.1特征简介 61
4.14.2面向主题分类研究 62
4.14.3面向作者写作风格分类研究 63
4.14.4小结 63
4.15本章总结 64
第五章 文本分类算法的改进 65
5.1中长篇文本的拆分判决 65
5.1.1拆分判决的具体方法 65
5.1.2拆分判决的改进效果 65
5.1.3小结 65
5.2多特征的集成判决算法 66
5.2.1句类空间特征下的数据补充 66
5.2.2特征叠加的集成判决方法 68
5.2.3分类器叠加的集成判决方法 71
5.2.4小结 75
5.3柔性KNN算法 76
5.3.1问题的提出 76
5.3.2变K算法 78
5.3.3权重算法 80
5.3.4柔性KNN算法 82
5.3.5小结 84
5.4本章总结 84
第六章 有关文本分类的辅助研究 85
6.1文本分类辅助研究简介 85
6.2语义相关度计算研究 85
6.2.1本研究的意义 85
6.2.2语义相关度研究概况 85
6.2.3语义相关度计算方法 86
6.2.4语义相关度计算的应用 87
6.2.5本方法的优点 88
6.2.6小结 88
6.3动词异化的再研究 89
6.3.1本研究的意义 89
6.3.2利用语境信息的异化动词处理 89
6.3.3利用对称信息的异化动词处理 91
6.3.4利用近邻信息的异化动词处理 92
6.3.5统计数据和错误分析 94
6.3.6小结 95
6.4概念优先组合的判定研究 95
6.4.1本研究的意义 95
6.4.2概念优先组合的类型分布 96
6.4.3概念优先组合的基本研究方法 97
6.4.4并联结构研究 97
6.4.5串联结构研究 99
6.4.6混联结构研究 100
6.4.7其它问题研究 101
6.4.8小结 101
6.5服务于句类分析系统的微型专家系统构建 102
6.5.1本研究的意义 102
6.5.2微型专家系统的特点 102
6.5.3一个微型专家系统实例 103
6.5.4微型专家系统与句类分析系统的结合 105
6.5.5微型专家系统的管理与调度 105
6.5.6小结 105
第七章 结束语 107
7.1本文的研究工作及贡献 107
7.2本文研究工作的不足 108
7.3进一步的研究工作 108
附录A “不是”的用法及自动处理研究 109
附录B HNC理论与框架网络的比较研究 114
附录C语料标注符号说明 117
参考文献 119
攻读博士期间完成的论文和参加科研工作情况 124
致谢 126