中文地名与时间的识别和标注

目 录


原创性声明 2
学位论文使用授权说明 2
摘要... 3

ABSTRACT. 4

目 录 6
第一章 引 言 8
1.1问题的提出 8
1.2相关研究进展 9
1.2.1未登录词与命名实体 9
1.2.2未登录词识别方法与统计模型 9
1.2.3 中文地名和时间表达式 11
1.3 本文研究内容及主要工作 12
1.4 文本内容组织 13
第二章 地名边界初识 15
2.1 中国地名的特点 15
2.2 地名识别的设计思路 16
2.3 地名尾字触发 17
2.4 N元概率模型 17
2.5 数据平滑 18
2.6 地名前边界的确定与归一化 19
2.7 规则修正 20
2.8 中文地名初次识别结果 21
2.9 本章小结 22
第三章 结合最大熵模型对潜在地名的分析 23
3.1 最大熵模型介绍 23
3.1.1 最大熵模型形式描述 23
3.1.2 最大熵模型的优点与选择此模型的原因 24
3.2 利用最大熵模型对地名二次识别的整体结构 25
3.3 应用最大熵模型识别中文地名 25
3.3.1 最大熵特征选择 25
3.3.2 用于中文地名识别的特征选择 26
3.4 以HNC属性作为最大熵模型的特征 27
3.4.1 HNC理论简介 27
3.4.2 以HNC属性作为最大熵模型特征 29
3.5 以相关概念作为训练特征 31
3.5.1 词汇语义相关度 31
3.5.2 基于HNC理论的词汇语义相似度计算方法 31
3.5.3以概念相关类作为最大熵训练特征 33
3.7 识别结果与错误分析 35
3.8 本章小结 37
第四章 时间表达式识别与标注 39
4.1 时间表达式的识别 39
4.1.1 时间表达式的定义与识别目标 39
4.1.2 最大熵模型识别时间表达式 41
4.2 时间表达式的标注 43
4.2.1 标注规范 43
4.2.2 标注结果 45
4.3 文本时间与事件时间 46
4.3.1 时间变换与时间锚值 46
4.3.2 事件时间 47
4.4 本章小结 48
第五章 地域信息知识库的建设 49
5.1设计地名属性内容 49
5.2制作模板收集地域信息知识 50
5.3地域信息知识的数据整理 51
5.4中文地名的标注与分析 52
5.3本章小结 53
第六章 结束语 55
6.1本文的研究工作及贡献 55
6.2本文的遗憾及不足 55
6.3进一步研究工作 56
参考文献 57
附录A:PDF文件格式解析 60
攻读硕士期间参加的科研项目和发表的论文 63
致 谢 64