面向HNC的语料库软件设计与实现

谢法奎



摘 要


语料库是指为语言研究收集的、用电子形式保存的语言材料,语料库是语言学研究和自然语言处理等相关领域研究的重要工具。HNC理论作为一个中文信息处理的流派,它的发展要求HNC语料库的同步发展。本文的工作是要设计和实现一个体现HNC自然语言处理理论特色的、服务于HNC研究的语料库。

论文的主要进展和贡献如下:

(1)     建立了功能完备的HNC语料库系统,包含生语料库和熟语料库,能够进行语料管理、加工、标注、检索、统计等。在系统设计上采用3层架构:应用层、接口层、实现层。接口层抽象出一套通用的语料库访问接口,能够有效隔离上层应用与底层语料库存储实现,简化了开发过程。

(2)     构建了多用户语料库管理平台。在服务器上构建语料库管理平台,集中管理用户语料和公共语料。系统采用C/S模型,允许多用户并发访问,为多用户协同工作提供了一个便捷的公共平台。

(3)     完善了语料库系统的功能。 在标注方面,构造了一种新的基于XML的语料标注方式,利用XML结合语言空间和语言概念空间标注信息,简化了标注过程。另外,提供了句群切分和语境单元标注工具,将HNC标注推向了语境单元层次。 在检索方面,采用Lucene全文索引技术实现了全文检索,并提供了3HNC特征检索方式:基本检索、高级检索、XQuery检索。 在统计方面,除了常规统计外,还提供了HNC特征统计功能,设计和实现了4HNC特征统计统计模式:数量统计、比值统计、限定属性分布统计、自定义分布统计,用户可以自由的定义统计内容,极大的满足了用户的统计需求。

(4)     研究机器辅助标注。利用已有的标注语料,采用最大熵模型来解决语义块切分问题,采用基于实例的方法解决句类判断问题。

(5)     建设了句类重组语料库。依托于基本语料库,按照句类重组熟语料,并提供了错误反馈和难点标注功能。

 

关键词:  HNC理论;语料库;语言空间;语言概念空间;标注;检索;统计;XMLXQuery;最大熵模型