中文地名与时间的识别和标注

李诺



摘 要


地名与时间信息是描述事件背景内容的两个关键信息。正确地识别地名与时间表达式,将有助于中文分词、未登录词识别、命名实体识别等处理性能的提高。同时,这一工作也是信息检索、内容抽取、问答系统等工作的基础,研究意义重大。中文地名与时间表达式在实际语料中出现的形式灵活多样,使其成为处理的难点。

本文设计并实现中文地名与时间表达式的识别与标注系统。文章在充分挖掘中文地名与时间表达式各自组成结构和上下文信息的基础上,首先通过统计与规则结合的方法进行初次识别,之后再对初次识别结果应用最大熵模型进行二次分析得到最终结果。在最大熵模型方面,引入了语义概念知识,提高模型整体识别效果。最后,本文研究了中文地名与时间表达式的标注工作。

具体而言,本文的主要研究内容和进展包括:

1、实现了中文地名识别系统。通过对大量中文地名有针对性地进行训练并分析地名的组成特点,应用N元文法的方法实现地名的初次识别,得到召回率大于97%的地名初次识别结果。再通过应用最大熵模型,结合不同方面的多种特征进行处理。经实际语料测试,对中文地名的最终结果F值达到88%(封闭),84%(开放)。

2、在最大熵模型特征选择方面,引入HNC概念属性。实验数据表明,HNC概念属性特征加入后,识别效果提高了1%。同时本文还使用了变长的特征窗口,给出了在小规模测试集上对中文地名的识别结果并进行了分析。

3、实现了中文时间表达式识别及标注系统。与中文地名的识别类似,本文先分析了时间表达式的组成结构,在TIMEX2等国际通用的时间标注规范的基础上,完善了中文时间表达式的定义。通过正则表达式及最大熵统计模型的方法进行识别,识别结果F值约为81%(封闭)。对于识别正确的时间表达进行标注,应用并实现TIMEX2标准的标注方法,在实际语料标注中,标注F值达到86%。最后本文还研究了时间表达式与事件发生时间的关系。

4、在中文地名与时间表达式识别的基础上,研究了中文地名的标注。设计并制作了地域信息知识库。包含中国地名的人口、面积、经纬、邮编、区划等方面。并以地域信息知识库指导地名的标注。

    综上所述,本文分析地名及时间表达式各自的组成结构特点,之后对地名和时间表达式都采用两级识别的模式进行识别。在此基础上,又分析了对地名和时间表达式各自的标注工作。本文的研究结果可以作为独立系统完成地名与时间表达式的识别和抽取,也可以作为中文分词、文本检索以及机器翻译等语言信息处理系统的一部分或一个模块。

 

 

关键词:地名两级识别;最大熵模型;特征函数;HNC理论;时间表达式标注;