HNC语料库的设计与实现

目 录


摘要 I
ABSTRACT II
第1章 引言 1
1.1 课题的提出 1
1.2 前人的工作 3
1.2.1 什么是语料库 3
1.2.2 语料库的发展 3
1.2.3 语料标注 7
1.2.3.1 什么是语料标注 7
1.2.3.2 语料标注原则 8
1.2.4 HNC理论 8
1.2.4.1 四层级三提升[2] 9
1.2.4.2 HNC重要概念 10
1.3 本文的工作 13
1.4 本文的组织 14
第2章 HNC语料库整体设计 15
2.1 HNC语料库的需求分析 15
2.1.1 现有语料库的待改善之处 15
2.1.2 HNC语料库需求的认识 16
2.2 HNC语料库概要设计 18
2.2.1 HNC语料库的组成 18
2.2.2 HNC语料库的整体设计 19
第3章 HNC语料库的建设 22
3.1 语料采集 22
3.2 语料库的设计 23
3.2.1 HNC语料库的规模 23
3.2.2 HNC语料库的分类体系 23
3.3 语料存储 25
3.3.1 语料库存储系统设计的重要性 25
3.3.2 语料存储系统设计 26
3.3.2.1 文件系统 26
3.3.2.2 关系数据库 28
3.3.2.3 XML 29
3.3.2.4 文档数据库 31
3.3.3 HNC语料库存储设计 32
第4章 HNC语料库的加工管理 34
4.1 HNC语料库的加工管理子系统详细设计 34
4.2 HNC语料库的加工管理子系统编程实现 36
4.2.1 HNC语料库的加工管理子系统的主界面 36
4.2.2 HNC语料库的加工管理子系统的重要操作 38
4.2.3 文本预处理分析 43
第5章 HNC语料库的检索统计 45
5.1 HNC语料库检索统计系统详细设计 45
5.2 HNC语料库检索统计系统编程实现 46
第6章 HNC语料库的标注 48
6.1 HNC语料标注的内容 48
6.2 标注原则的考虑 48
6.3 HNC语料标注工具软件 49
6.3.1 HNC语料标注工具软件的功能描述 49
6.3.2 HNC语料标注工具软件的系统实现 50
6.4 HNC语料标注的重点技术详解 52
6.4.1 标注符号位置存储法 52
6.4.2 三层级标注错误检查机制 53
6.4.3 C#的正则表达式 57
第7章 HNC语料库辅助工具软件——HNC点点通 58
7.1 HNC点点通的功能描述和模块划分 58
7.2 HNC点点通的系统实现 59
7.3 HNC点点通的重点技术详解 60
7.3.1 界面编程技术的实现 60
7.3.2 屏幕取词技术的实现 62
第8章 总结 64
8.1 结论 64
8.2 今后的工作 64
参考文献 66
附录A:HNC语料标注符号数值对照表 69
附录B:正则表达式语法说明 71
攻读硕士期间发表的论文和参加的科研项目 73
致谢 74