基于概念知识关联的

中文人名和机构名称识别

贾宁



摘 要


未登录词中的命名实体识别是自然语言处理中的一项重要的基础性问题,信息检索、信息抽取、问答系统、机器翻译等领域都对命名实体的识别有很高的要求。命名实体在实际语料中出现数量大,构成形式灵活,是处理的难点,具有较高的研究价值。

本文研究的中心是中文命名实体识别中的人名和机构名称识别,提出了基于概念知识关联信息进行识别的思路,将人名和机构名转化为一类特殊的概念来处理。以HNC理论为理论基础,以扩展句类分析为工程基础,在扩展句类分析的结果之上,通过句子各语义成分之间的概念关联,确定包含人名和机构名概念的语义成分。再对该语义成分进行分解,进一步确定人名和机构名概念的位置,最后从定位的词串中提取出人名和机构名称。本文的主要贡献和创新点包括:

 

1.        提出了基于在句类分析和领域句类基础上实现的人名和机构名称识别算法。该算法从语义的角度出发,通过句类分析和领域句类表示式判定包含人物和组织机构概念的语义块。再根据语义块的内部结构进行分解,进一步确定人物和组织机构类概念的位置,通过识别算法得到人名和机构名。实验表明,系统对于人物和组织机构类概念的定位有很好的准确率。

 

2.        对句类空间的语义块关联知识和知识库进行了详细的研究,设计了概念层面和词汇层面的语义块关联规则,并建立了针对人物和组织机构类概念的语义块关联规则库。测试表明语义块关联规则对包含pp概念语义块的判定有超过99%的准确率。

 

3.        提出了建立从领域知识到句类空间的映射的方法。句类空间的句类表示式和领域句类表示式间的对应关系分为显式对应和非显式对应,对显式对应情况下,通过对领域句类表示式的语义块和句类空间的语义块进行类别划分,建立了二者之间的映射关系。这种映射关系将领域知识与具体的语言空间联系起来,使领域句类对语义块的预期知识能够发挥作用。

 

4.        提出了非句蜕广义对象语义块BC复合构成的核心构成原则和实现BC分解的算法,解决了BC分解中语义块是否复合构成和BC两个部分的判定这两个关键问题,并对基本句类的全部广义对象建立了语义块BC分解规则,实现了由计算机进行BC分解。

 

5.        提出了以句类分析为基础,在句群范围内进行省略恢复的算法。重点分析了语义块部分共享造成的省略现象,研究了不同的共享情况,并给出了相应的处理规则。本文提出的算法可解决由语义块整块共享形成的省略,对语义块部分共享形成的省略也有很好的处理效果。

 

综上所述,本文在HNC理论的框架内,根据已有的理论和知识,提出并实现了从句类到语义块,从语义块到含命名概念的语义块构成成分,再从构成成分到具体命名的从上而下的方法。同时对这个过程中在领域句类、句类、语义块各层面涉及到的问题进行了研究、提出了解决方案。本文是对HNC已有成果的深入发掘和有益补充,同时也为HNC理论的具体应用提供了一个新思路。

 

关键词:  HNC  人名识别  机构名识别  概念知识关联