语句类型及其语料库标注规范研究参加国家语委中期汇报 

 

  声学所语言语音及交互信息技术部语言知识处理实验室(四部一室)承担的国家语言文字应用“十五”重点科研项目“汉语语料库建设规范――基于语义的语句类型及其语料库标注规范研究”,根据国家语委科研规划领导小组的安排于4月24日至25日参加了中期汇报交流会。与会的领导专家对于课题组的科研工作给予高度评价,并希望课题组成员再接再厉,争取形成汉语语料库建设的国家规范标准,为汉语成为信息时代的强势语言、在信息时代继承和发扬汉文化影响做出积极贡献。

  教育部语信司王铁琨副司长主持会议。首先,王副司长介绍了整个“十五”规划项目的总体情况:语言文字应用“十五”科研项目启动近两年来,共立项109项,其中资助项目93项,自筹资金项目16项;重点项目18项,标准研制类项目27项。此次参加汇报交流会的是标准类研制项目和重点项目。语信司李宇明司长(兼任国家语委主任)全程参加了会议,并就加强语言文字应用研究对国家信息化和社会发展的重要性、以及完善对规范的认识等问题发表了讲话。李司长特别指出,作语言文字应用研究项目和其他项目比较而言,经费支持强度比较弱,但是其社会意义重大,具有巨大的社会效益,是国家高校和科研单位的责任。其实多年来HNC的发展得到各级领导和我所同仁的大力支持,正是我所作为国家科研单位对这种责任的自觉承担。他还鼓励参加项目的科研人员,要积极参与国际竞争,要在华语文化圈中,确立我国的主导地位;要在关于汉语的国际标准中有我们的领导权。同时他对绝大多数项目的顺利实施表示欣慰,对科研人员的付出表示感谢。随后,各个参加交流的项目进行了汇报和交流。

  声学所承担的项目属于标准研制类中的重点项目,与会人员重点介绍项目立项以来完成的主要科研工作,其中包括:根据HNC创立者黄曾阳先生制定的句群标注规范形成的汉语语料库句义标注规范草案;对语料标注规范的验证以及利用标注规范进行的语料标注;运用标注规范进行自然语言理解处理研究等。HNC语料标注的特点是:区分语言空间和语言概念空间的标注。语言空间标注就是直接在原始语料上的符号标注,主要标注句群的格式,语义块的边界,特征语义块的类型划分,句蜕类型和是否包装,语义块内部的并联-串联顺序等。语言概念空间标注句群或语句的各级HNC结构。HNC将语言概念空间独立于语言空间表述,清晰地表达了语句的句义和各种层次结构,同时保持了良好的可读性。另外,HNC的语料标注规范经验证完全可以应用于英语,能够表达英语的句义。这一特点将为形成国际通用的语料标注规范奠定基础。

  与会专家认为HNC的语料标注规范可行,具有句义表述的特点;有关领导希望课题进一步完善收尾工作,形成符合国家有关规范标准形式要求的汉语语料库标注规范标准,将会同相关的标准一起进行发布。这一方面将扩大研究工作的影响,另一方面为奠定我国在汉语语言文字应用方面的领导地位做出贡献。这也是我们课题组成员的目标。(张全)