简明状态句句类特点浅析*

 

(中国科学院 声学研究所 100080

摘要

本文的主旨在于说明概念层次网络(简称HNC)理论如何处理无特征语义块的句类。

HNC理论提出了句类与语义块的概念,并将自然语言中的基本句类分为7个大类和57个子类。一个句子所属的句类一般由全局特征语义块决定,特征语义块的核心部分多数情况下由动态概念充当。这与动词中心说有相似之处。然而汉语中还有一部分句子,句中根本不出现动态概念。对此HNC在基本句类中专门设计了4个子类予以表述,本文主要讨论其中的简明状态句,内容包括简明状态句的主要特征,其他句类向它转换的特点,简明状态句内容语义块和对象语义块要素的关联特点以及这两类语义块切分上的两可处理。通过上面的阐述,可以形成简明状态句的理解处理策略,指导计算机分析和理解属于这类无特征语义块句类的语句,在进军汉语“动词满天飞”难题的同时,解决好无动词、无特征语义块语句的理解处理。

另外为了讨论的方便,文中还涉及了其他3种无特征语义块句类,指出简明状态句与他们的主要区别。

 

 

数量短语的HNC构成及其语义块特性分析*

 

(中国科学院 声学研究所 100080

摘要

本文从自然语言理解的角度分析了数量短语的构成特点及其在语义块中充当的角色,即语义块特性。

语句中经常出现数量概念,与数量有关的概念及词语是语言学研究的一个课题,已经取得了丰富的成果。HNC理论建立了概念和句类的表述体系,形成了语言概念空间,这一空间和具体的语言空间相对应,是语言空间的抽象。在汉语语言空间中,很难从字词的外形和读音上得到他们的相关性,相关性只能用具体词语的搭配或词性约束表达。汉语中特有的数量短语中量词更要求与特定名词搭配,简单的词性约束在这里失效。在概念空间,HNC定义了用数字串表达的概念基元,概念间的相关性首先表现为数字串中的数字相同,这以一种非常直接的形式突现了概念间的相关性。对于汉语量词-名词固定搭配现象,HNC的处理策略变成简单的对量词和名词映射符号的数字串从左到右逐层比较。本文从数量短语构成的角度说明了在概念空间中概念间相关性的表现方式。此外,数在自然语言中的语义比较单纯,构成的数量短语可以作为激活信息,因此本文进一步探讨了它构成短语的语义块特性。

时间概念短语初探*

 

(中国科学院 声学研究所 100080

摘要

本文是“数量短语的HNC构成及其语义块特性分析”的姊妹篇,重在阐述时间概念短语的构成及其语义块特性。

时间概念是自然语言中非常重要的概念,语言学非常重视对它的研究。HNC同样对这一概念高度重视,将其定为仅次于“序”的基本概念基元。HNC建立了概念联想脉络,对概念联想脉络一个很重要的操作是激活。因此,将自然语言的词汇映射到概念空间时,要充分提供激活信息。具体到时间概念,HNC除定义了基本时间基元外,还引入了物化时间,人化时间以及特殊时间和特定时间等多种具有激活信息的时间概念定义,为自然语言中有关时间概念的映射作了充分的准备,为不同时间概念激活相应的联想提供了丰富的线索。本文以此为基础,依据时间概念的分类分析了自然语言中不同类时间概念短语的构成特点,从句类-语义块的角度考察了时间概念短语的语义块特性,初步探索了时间概念短语为句类分析提供的激活信息。本文进一步的目标是,发掘时间概念中蕴含的、丰富的多种激活信息,并建立起与之对应的激活模式。

 

汉语语音识别的纠错处理

张全*     张倪**     韦向峰*

摘要

采用n-gram作为语言模型的语音识别系统取得了长足的进展,能够满足一些实际的使用,已有推向市场的产品。这说明,语音识别系统同语言处理的结合越来越紧密,语音识别已经不单纯是简单的语音信号处理,而是与语言处理紧密统合的处理。但是由于统计模型自身的局限,在识别结果中经常出现与语句中其他词语没有任何关系的词语,这就是“孤魂”。孤魂的出现表明统计模型不是对人脑自然语言感知模式的恰当模拟,要消除孤魂,就需要计算机掌握自然语言概念联想脉络的恰当激活模式,并以概念联想脉络的激活与抑制对输出的词语进行适当的选择。本文中首先对语音识别系统产生的错误在语音和语言两个层次上进行了分析,指明影响孤魂的主要方面,制定了基于概念层次网络(简称HNC)句类分析技术的孤魂消除策略。在句类分析系统的基础上构筑了孤魂消除的实验系统。通过对实验系统的测试表明,HNC句类分析技术能够突破现有统计模型的局限,取得理想的输出结果。HNC句类分析技术有望成为提高语音识别性能的、新的语言模型。



本文得到本文得到“973”项目G1998030506和中科院声学所知识创新项目资助。

*

本文得到本文得到“973”项目G1998030506和中科院声学所知识创新项目资助。

本文得到本文得到“973”项目G1998030506,国家“九五”重点科技攻关项目98-779-02-04和中科院声学所知识创新项目资助。

*作者单位:中国科学院 声学研究所 北京 100080

**作者单位:中国科学院 北京软件工程研制中心 北京 100080