利用语言概念知识的事件文本分析关键技术研究

池哲洁


摘 要

 

信息技术的飞速发展带来信息爆炸式增长,其中占主要部分的是以自然语言表示的文本信息。面对海量文本,人们迫切需要从中获取有用知识,而表示“特定发生”的事件知识更是受关注的重点。事件抽取是获取事件知识的一个重要手段,作为细粒度的信息抽取,它在自动文摘、问答系统、信息检索、话题跟踪等领域均能发挥重要作用。事件抽取在发现描述事件文本的基础上对事件类型进行识别,抽取相应事件要素。同时,针对已获取的事件文本,往往伴随着进一步扩展、汇聚及追踪的需求,句子相似度计算则是解决该问题的一项关键技术。

本文利用语言概念空间知识,着重关注句类空间中句子语义结构的特性,结合概念基元空间中的概念知识,对事件描述文本进行分析,研究事件类型识别及事件要素抽取的方法;为满足事件文本的扩展、汇聚及追踪需求,在词语和句子层面开展相似度计算研究。本文工作取得的研究成果如下:

1.        提出基于语言概念空间的事件抽取方法,包括事件类型识别和事件要素抽取。该方法从HNC句子分析角度出发,在句类分析得到语义块后,以语义块和句类本身包含的事件概念信息为线索,利用频数指标提出事件类型判断方法。考虑到不同语义块对语句意义表达贡献程度存在差异的事实,加入了权重机制。在完成事件类型识别后,结合句类知识分析语义块和事件要素的对应关系,并建立对应规则,对事件要素进行抽取。与传统基于机器学习的方法相比,本文方法以知识库和规则为驱动,不受训练模型的影响,适用性较好。通过对中文突发事件语料库中语料进行实验,事件类型识别和事件要素抽取的F1测度宏平均分别为0.8710.768,分别较对比方法提升4.86.4个百分点,总体处理效果较好。

2.        提出基于搭配概念的相似度计算方法。该方法基于大规模语料统计的思想,通过搭配抽取为概念构建搭配概念向量,以搭配概念向量作为上下文环境,基于上下文环境的相似度来度量概念间的相似度,最后利用词语和概念基元的映射关系实现词语相似度计算。在结果评价上,为了实现对结果的排序一致性度量,本文提出了序对符合度指标。实验表明,该方法的计算结果与人工判断具有较高符合度,相关系数、兼容度和序对符合度分别为0.7040.7680.757。其中,相关系数较基于词语搭配的方法提升0.160,较基于《知网》的方法提升0.070,较已有的基于HNC的方法提升0.046

3.        提出基于概念基元符号系统的多维度概念相似度算法。该方法以概念基元符号系统为语义资源,充分考虑概念基元的层次性、网络性、挂靠特性、对比对偶特性及五元组信息,在综合度量各方面相似度后形成概念基元多维度相似度计算方法,最终,利用词语和概念基元的映射关系实现词语相似度计算。此外,在节点深度和节点距离的度量上,提出了权重函数拟合的思想,使计算结果与实际情况趋于一致。实验表明,该方法计算得到的相似度与人工判断结果符合程度较好,相关系数、兼容度和序对符合度分别为0.8100.8270.794。其中,相关系数较基于词语搭配的方法提升0.266,较基于《知网》的方法提升0.176,较已有的基于HNC的方法提升0.152,较基于搭配概念的方法提升0.126

4.        提出基于句类分析的句子相似度计算方法。为了能够更全面把握句子意义,该方法以语义块为处理对象。利用句类分析得到句子的语义表示结构,其中句类及语义块类型信息反映出句子的表层相似性,语义块内词语间相似性体现句子语义相似性。该方法融合二者相似性,通过加权的方式计算句子相似度,兼顾语法和语义层面的因素。对人工构建的句子集进行实验,分别应用前述不同的词语相似度计算结果,最终得到的句子相似度与实际情况均较为符合。其中,采用基于概念基元符号系统的相似度计算结果的方法略好于采用基于搭配概念的词语相似度计算结果的方法,其与人工打分的相关系数达到0.813,较基于依存分析的方法提升幅度为0.039。最后,利用词语相似度和句子相似度计算形成事件文本扩展、汇聚和追踪的方法,在小规模事件文本集上进行验证,结果表明该方法具备较好的事件文本扩展能力。

 

关键词:HNC理论;语言概念空间;概念基元;句类;语义块;事件抽取;词语相似度;句子相似度