利用语言概念空间的文本分类研究

丁泽亚


摘 要

 

文本分类是语言信息处理的基础技术,广泛应用于信息检索、信息过滤等方面,同时信息处理需求的提升对文本分类技术的要求也越来越高。本文针对主流文本分类方法无法做到内容理解、性能提升有限等问题,研究了将HNC语言概念空间的语义知识引入分类模型,运用概念信息、概念关联知识以及句类信息实现对类别文本一定程度上的内容理解,在此基础上提高分类效果。建立语言概念空间的语义知识与文本分类模型的有效融合是本文研究工作的难点。本文研究的主要贡献与创新点包括:

1.  提出基于类别概念降维的文本分类方法。该方法根据区分度挖掘类别核心概念,利用类别概念进行词特征降维,再根据类别概念计算文本与类别的关联度来完成分类。实验表明,类别概念特征降维方法能有效降低特征空间的维度,同时保证分类效果;特征项较少时,运用类别关联度分类相比SVMKNNBayes方法有优势,分类效果较好、速度较快。

2.  提出了基于概念关联规则的文本分类方法。该方法不局限于词特征和概念,进一步探索类别的概念关联关系特性,提出了从类别文本概念树中挖掘频繁概念项集和概念关联规则的方法,并通过概念规则树实现了运用类别概念关联规则的文本分类方法。分别对常见类别语料和特殊主题的网页语料进行了分类实验研究。结果表明,概念关联规则分类方法(NR)对两种语料分类的F1值分别达到了0.91230.9602,与SVMKNNBayes方法相比效果明显,并且高于类别概念降维分类方法。

3.  提出了基于类别语义块关联的分类方法(SSR)。该方法尝试在分类中引入语义块关联知识,通过文本中语义块概念节点组成及关联的聚合获得文本语句语义特征,再通过类别中不同文本之间语句语义信息的再聚合,获得类别语句语义聚合,建立了文本与类别语义聚合的语义相关度计算方法,实现类别判定。由于利用语句知识较少,SSR方法比Bayes方法的分类效果略好,相比NR方法、SVM方法等有所降低。

4.  提出了基于上下文语境关联概念的无导词义消歧方法,以解决文本分类中的概念模糊问题。综合考虑词语义项与上下文语境的词汇相关度和概念相关度,实现了不依赖于训练集的无导词义消歧,准确率达到了85.61%

5.  提出了基于编辑距离的网页去重策略,以解决网页文本分类中网页文本的大量重复问题。该方法兼顾网页内容和结构采用编辑距离方法计算网页文本的相似度,实现了准确快速的网页去重方法。实验中这种方法的准确率达到98.39%,召回率达到89.71%,去重效果较好。

 

关键词:文本分类;HNC理论;语言概念空间;概念节点;概念关联规则;语义块关联知识;歧义消解;文本去重