面向内容的信息检索模型研究

吴晨


摘 要

 

本文针对目前自然语言处理领域的研究热点――信息检索模型存在的问题,结合统计自然语言处理以及HNC自然语言理解技术的研究现状,提出了将语义方法与统计方法结合进而构建检索模型的新思路,并给出了面向内容的信息检索模型的逐步构建方案。在方案中,语义萃取和表示以及权重估算、相似度的极大似然估计等技术融为一体,服务于检索模型。根据统计方法在整个模型中所占比重的不同,本文提出了两个重要的检索模型:“基于词汇概念知识的信息检索模型”、“基于句群语义的信息检索模型”。前者是一个面向非限定领域的信息检索模型,在模型中,HNC扩展句类分析系统被采用,借此实现词汇的概念知识抽取和表示,在这一基础上,多种统计方法,如向量空间法、语言模型法、聚类方法被考察,以试图找出在词汇概念知识级,语义和统计方法的最佳融合点。与前一模型相比,后一模型在语句的理解程度上更进了一步,它以句群理解为基础,根据句群理解获得的语境单元框架中的领域信息,对构成句群的文章进行分类,给出属于每类的置信度,同时根据每类出现每一概念的可能性计算出文章出现每一概念的可能性。最后根据语境单元框架中包含的关键概念运用统计方法对概念索引。由于是对句群的处理,所以文中还设计了对句群进行初切分的研究内容。

本文还对检索模型的工程化问题进行了探讨,内容主要定位在系统的数据结构和算法设计上,目的在于指导构建高性能的、具有实际应用价值的、基于内容的全文检索平台系统。

通过对以上内容研究,本文所表现出的主要创新点在于:

1)        提出了语义与统计相结合的构建检索模型的新思路。给出了基于内容的信息检索系统的逐步构建方案,通过对两个重要模型的研究,证明了这一方案的可行性。该方案的主要特征为:将以HNC为基础的语义理解方法和统计检索方法进行了结合。实验表明,融入语义方法后,检索模型的检索效果都得到了一定程度的提高,在不同的检索方法下,准确率一致得到了提升(2%8%不等)。究其原因在于:语义方法使得检索模型中融入了更多的语言特征信息,帮助检索模型更加客观的评分。

2)        在对当前基于统计方法的检索系统的研究过程中,发现了其不足点。表现在:在统计语言模型中,查询模型与文档模型之间跨度太大的问题。统计语言模型中的极大似然估计风险问题。结合HNC语义表示的特点,本文提出了有针对性的改进意见,并在DGMSys模型中予以了体现,在最后测试中表现出了较好效果,在准确率召回率指标上,在CIRB030测试集中,在RelaxRigid评测标准下,它比传统VSM模型准确率分别高出了约6.8%7.5%。同时,DGMSys也充分考虑了处理规模和检索速度两个指标,系统支持50000万条以上词条,40亿篇以上文章的检索处理;在对38万余篇文档进行检索、实际返回文档在15.1707万篇(平均值,并标记每个关键项在每篇文档中的出现位置)、普通PC环境下,42组检索条件(每组包含10项关键项)的平均检索时间仅为800毫秒,达到了较高水平。

3)        在探索“基于句群语义的信息检索模型”的过程中,制定了能够满足计算机处理需要的句群划分及判定的规则。这些规则基于已有的HNC语言概念空间表示方法,充分考虑了句群本身的构成特点。从对1203个句群,4186个句子进行的实验来看。方法具有很高的句群切分召回率,约73%,同时具有很高的切分准确度,约82.9%,这为后续开展句群处理研究奠定了基础。

4)        所提出的以概念作为中介的、基于词汇概念知识的信息检索模型初步解决了数据稀疏的问题。实验表明,采用了概念作为检索中介以后,系统索引文件的大小大大减少。采用词语索引的系统中,所有381375篇文档所建立的倒排索引头文件大小要比基于词语的少约52%在基于概念的检索模型中,被索引的Token数量总共为120821个。在基于词语的检索模型中,被索引的Token数量总共为251206个。前者约为后者的1/2。数据稀疏问题的初步解决,有效提升了基于概念的检索系统的检索速度。

综上所述,本文通过对当前统计检索模型,自然语言理解技术的研究,提出了一种将统计方法与语义方法相结合的解决检索问题的新思路,实验表明,基于该思路构建的检索模型系统具有良好的性能,预示了一种崭新的解决检索问题的新方法的出现。

 

关键词信息检索;HNC理论;统计自然语言处理;语义;语言模型;