成果展示窗口


一、语料标注:

    按照《语句深层结构语料库标注规范》(草案),利用HNC语料库管理平台及其计算机辅助语料标注工具,已标注100万字以上的熟语料。

注:所展示的汉英语料样例,第一行是语言空间标注,第二行是语言概念空间标注,第三行是以XML语言形式存储的标注结果。

㈠首批汉语标注语料约40万字,本样例文档114K:

㈢为句群研究、专名识别、指代消解而标注的奥运语料约25万字,在此分别给出句群标注样例和人名指代标注样例:

㈢为研究汉英/英汉机器翻译而标注的双语语料约40万字,又分三类:

⑴为测试汉英机器翻译的一句汉语对四句英语语料:

⑵为测试英汉机器翻译的一句英语对四句汉语语料:

⑶普通的汉英句对齐语料: 

说明:上述这些熟语料可以通用共享,但基于相关文本的版权保护,本站仅抽取少量样例予以展示。语料合作详细事宜,请联系:100190 北京市海淀区北四环西路21号 中国科学院声学研究所中科信利实验室 池毓焕 E-mail: cyh@mail.ioa.ac.cn

二、中英文概念节点及其词语捆绑:

   新版HNC概念符号体系概貌随时更新中,样例如下:

另外,我们将32,570词语捆绑于HNC概念节点上,样例如下:

 

三、理论阐述:

    黄曾阳先生计划耗时十年(2005-2015)撰写《HNC理论全书》,预计规模达二百万字,现已写作六十七万字。本网站陆续公布,敬请大家讨论并提宝贵意见或建议。

部分已完稿附后:


第二编 第一类精神生活

第一篇 心理

710 心情 

711 态度  

712 愿望  

713 情感  

714 心态(暂缺)

第二篇 意志

720 意志的基本内涵  

721 能动性  

722 禀赋 

第三编 第二类劳动

a0 专业活动基本特性

a1 政治

a2 经济(部分)

a3 文化(部分)

a4 军事

a5 法律

a6 科技

a7 教育(暂缺)

a8 卫保(暂缺)

第六编 第二类精神生活

第一篇 表层第二类精神生活(交往与娱乐)

q70 表层第二类精神生活的基本内涵

q71 交往

q72 娱乐(暂缺)

q73 比赛

q74 行旅