使用语言概念空间特征的文本分类研究

张运良


摘 要

 

分类是文本处理中的一项重要的基础性工作,面向主题的文本分类可用于电子图书和期刊资源的加工,面向作者写作风格的文本分类可用于伪作鉴定、轶作确认和司法领域中文书作者的鉴定。文本分类也可以服务于信息检索等其它应用,改进其处理效果。语言概念空间是HNC认定的存在于人类大脑中的各种自然语言的普遍的共性部分,是人类交流的基础。语言概念空间的特征突破了各种语言的表象,揭示了语言深层的概念联想脉络。

本文研究的目的是通过对语言概念空间特征在文本分类中使用的理论分析和实验研究,探索改进文本分类效果的方法。

本文采取理论探索和实践检验相结合的研究方法,主要的研究内容包括:分析语言概念空间中各类特征的特点;选取有研究价值且现实可行的特征应用到文本分类;考察使用以上特征在文本分类中的性能表现并分析原因;针对已有算法中的不足进行改进,在改进中着重研究各种改进算法的原理、测试结果以及有关参数的确定。

       在研究中,本文取得了如下成果:

(1)     提出将表示语义深层的语言概念空间特征和向量空间模型相结合的文本分类策略,使用该策略形成的分类器取得了较好的分类效果:在面向主题分类中,MAFMmax(最大微平均F-测度)达到了0.904,在面向作者写作风格分类中,MAFMmax达到了0.984

(2)     提出了混合句类特征向基本句类特征转化的处理策略,在最大程度保存混合句类信息条件下,有效降低了句类向量空间的维度

(3)     根据部分文本中特征分布的非均匀性,提出并实现了长文本拆分判决算法,提升了分类器的效果。

(4)     提出并实现了多特征集成判决算法的三个方案,不同程度上提高了分类的效果;提出了特征选用的策略,并给出特征选用的参考顺序表(包含面向主题和作者写作风格两类不同需求下的13类语言概念空间特征)。

(5)     提出并实现柔性KNN算法,提升了分类效果;给出了算法的具体应用条件。

       本文使用语言概念空间特征和有关的改进算法,取得了较好的分类效果,并且随着语言概念空间特征分析能力的加强和相关算法改进,性能还会进一步提升。

 

关键词语言概念空间;HNC理论;文本分类;主题;作者写作风格;效果