句类分析技术通过专家鉴定

2000922日,由中国科学院声学研究所等四家单位联合承担的国家“九五” 科技重点项目“汉语理解系统的核心技术”专题顺利通过信息产业部科技司组织的技术鉴定和专题验收。由中科院自动化所、中文信息学会、中国人民大学、华中师范大学、清华大学、中科院 计算机语言信息工程中心及北京语言文化大学等单位学者组成的鉴定专家委员会经过认真评议一致认为:

“中国科学院声学研究所黄曾阳研究员独创的概念层次网络(Hierarchical Network of Concepts,简称HNC)理论,提出了创新的自然语言理解处理思路。攻关专题组根据这一理论形成的句类分析技术和系统雏形,突破了现有的自然语言的知识表述和处理模式,直接进入自然语言的语义深层进行处理,特别适合于非形态变化的汉语的理解与处理,在汉语语句理解处理方面达到国际领先水平。”

自然语言理解处理是人工智能领域的一个重要分支,也是跨哲学、计算机科学、语言学等多学科的边缘学科,主要目标是让计算机拥有类似人的自然语言智能。自然语言就是人类惯常使用的、在人类进化过程中自然形成的各种语言,区别于计算机诞生后,为了便于人操作计算机而定义的各种人工语言,如BASIC语言,C语言等。自然语言与各种人工语言的最主要的区别在于自然语言具有严重的模糊。消解模糊是自然语言理解处理必须面对和解决的第一个问题。这一问题不能得到很好的解决,谈自然语言理解、谈计算机拥有自然语言智能,都是在沙滩上建设高楼大厦――缺乏牢固的根基。这一点有时是致命的:当年日本的第五代计算机计划,尽管在大型机方面取得重大突破,但由于对自然语言存在的模糊没有足够的认识,因此,在自然语言智能方面败下阵来。仍然是在日本,由于同样的问题,它的东亚五国语言互译系统也无果而终。

从人脑感知自然语言的角度看,自然语言的语音形式存在五重模糊,即:语音模糊、音字转换模糊、词(字)的多义模糊,语义块切分组合模糊、冗缺指代模糊。对于文字形式只有后三重模糊。

下面,具体来看看这五重模糊。

语音模糊。人在听别人说话的时候常常由于自身的原因,没有听清对方说的话,有时会要求对方重新说一下;有时,会理解成另外的意思,这也就是日常生活中的“打岔”。人耳对声音不能百分之百的听准,计算机也同样。当计算机进行语音识别时,会把一个音识别成另外的音。对一个比较完善、成熟的语音识别系统,这种错误的产生通常是由于语音之间存在相似性,差异不明显造成的,例如将“ba”识别成“pa”等。

音字转换模糊,即一个音节或音节串对应多个字或词。由于汉语是单音节语言,一个下常常对应多个字,有些如“yi”“ji”“shi”这样的音节,对应的汉字超过一百个,可以说汉语在这方面有较大的模糊。其他语种也同样有类似的问题,以英语为例,它的“brake(刹车)”和“break(打破,停顿)”,“flower(花朵)”和“flour(面粉)” 发音都是相同的,存在音词转换的模糊。

词的多义性模糊,即一个词有多种解释。如“才能”,可以是“只有……才能……”的连词,也可以是“有才能”中的能力、才干。在具体句子中,它的意义是确定的。现代汉语中存在着大量的双字词,双字词的意义比较单纯,词的多义性模糊并不严重,但汉语单字词,义项比较多,多义性模糊比较严重。相对而言,英语词汇中很少有单义项的,多义性模糊很严重。

语义块的切分组合模糊,即词语之间组合关系存在的模糊。语义块,是HNC的术语,它的出发点是这样的:人对语句的理解往往是对一个个意群去感知理解,不是对一个个词语。仅次于句子一级的意群,就是语义块。语义块有内部结构,语义块的切分组合模糊经常表现为词与词之间结构关系疏密的差异上,有时也表现为词的切分组合上。如下面两例就分别有两种组合,“踢破皮球”(〖踢〗〖破 皮球〗,或〖踢破〗〖皮球〗);“对比较”(〖对比〗〖较〗,或〖对〗〖比较〗)。

冗缺指代模糊。语言为了表达的需要在句子中经常出现重复的信息,这就是冗余。从句子的完整性上来看,冗余是多出来的部分;缺省正好和冗余相反,句子中应有的部分省掉了;语言表达追求效率,对于已经明确的人或事常常用代词指代。当句子或句群中存在多个可能的冗缺指代对象时,就会产生模糊。这类模糊处理往往要用到句群及篇章的信息。

综上,可以看出模糊是自然语言具有的本质特性。人脑能够对严重的模糊应付裕如,是由于人脑最擅长进行多义选一处理。因此,计算机理解自然语言建立自然语言智能,应当从消解模糊入手;能否消除自然语言中的模糊,是检验计算机是否理解自然语言的第一步标准。

明确了自然语言处理的第一步目标还不够,还需要沿着这个思路深入下去。面对这一问题,HNC理论给出了自己思考的结果:“自然语言理解的本质是概念联想脉络激活、扩展、浓缩、转换与存储的全过程运作。激活运作的要点是语句的理解;扩展与浓缩运作的要点是段落与篇章的理解,转换与存储的要点是记忆与学习。语句的理解显然是自然语言理解的基础,但这不等于说,任何一种形式的语句理解处理算法都可以成为自然语言理解的基础。要取得这一资格,就必须把语句理解定位于概念联想脉络运作全过程的激活”。HNC采用模拟人脑语言感知过程的概念联想脉络,首先来进行模糊的消解处理,进而再将处理扩展到自然语言理解处理的全过程。因此,HNC是一个面向整个自然语言理解处理的理论框架。目前她已经建立了坚实的语句级的处理理论,通过“九五”项目的实施,该处理理论已经应用于汉语,并诞生了句类分析技术。

再来具体地看看HNC已经取得的成果。通过潜心研究,HNC的创立者首先建立了自然语言的概念空间。人与人之间可以进行交流,说明人在大脑中有共同的语言概念。同时人经常有这样的感觉,即有表达的意愿却找不到合适的自然语言表达词语。此外,类似于数学、艺术等都存在自己独立的,用自然语言难以表述的概念。据此可以认为人是用概念进行思考的,存在众多的自然语言空间和唯一的概念联想脉络空间,存在自然语言空间与这个概念子空间的多种相互映射形式,与自然语言空间相对应的概念空间是整个概念空间的一个子空间,这个概念子空间的概念基元是有限的。以概念空间为基础,HNC理论建立了局部联想脉络和全局联想脉络。简单地说,局部联想是指词汇层面的联想,全局联想是指语句及篇章层面的联想。更简单地说,理解句子有两种思路:一是从组成句子的词语入手,一是从句子的整体结构和上下文语境入手,前者就是局部联想,后者就是全局联想。当然,人在理解句子的时候,这两种联想不是截然分开的,而是并存的、相互作用的,计算机理解语言也应该综合运用这两类联想脉络。HNC的出发点就是通过建立两类联想脉络来“帮助”计算机理解自然语言。两类联想脉络的建立,为从语义上理解自然语言语句,消解模糊,奠定了坚实的基础,为句类分析技术的形成提供充分的理论准备。

句类分析技术包括两个方面――HNC知识库和软件处理系统。软件处理系统在HNC知识库的支持下,以语义为主要线索,采取激活方式进行“假设-检验”和智能调度,从而完成对自然语言语句的句类分析,在处理策略中弱化词性和形态的要求。HNC知识库从概念和语言两个层面对语法、语义、语用和世界知识进行综合、抽象和提炼,把语法、语义、语用三个层面的知识融为一体,以语义为天然核心。词汇的HNC映射符号是语义的静态表现,句类代码及相应的句类表示式是动词语义及语用的动态表现;格式代码及相应的语句表示式、句类转换是语用和语法的综合表现,语义块要素的预期知识是语义和语用的综合表现等。上述知识表达为处理系统进行句类检验、语义距离计算,并进一步实现多义选一、模糊消解处理提供了依据。

句类分析技术直接进入自然语言的语义深层进行处理,从而免除或缓解了汉语传统处理方法分析过程中遇到的一系列困扰,如“分词”瓶颈问题,述语动词的辨识问题和未登录词问题等,特别适合于非形态变化的汉语。同时从其技术原理上讲,对有形态变化的语种也具有很强的处理能力。

句类分析技术是汉语理解系统的核心技术,可以广泛应用于各种语言信息处理系统中,不仅能够提高目前已有的语言信息系统的处理能力,还将诞生多种新型的处理系统,产生丰厚的利润。这些系统包括:机器翻译,汉语文本的校对处理,基于内容的网络信息搜寻,文本分类,人机交互学习,汉语应用文写作助理,口语的理解,情报发掘,汉语语言研究服务等系统。

因特网、多媒体、信息高速公路,计算机应用几乎无所不在,软件将成为21世纪的主导产业,这标志着信息时代已经来临。但应当清醒地认识到,这只是信息时代的初级阶段。因为,面对信息知识的主要载体――自然语言,计算机目前还只是一部简单的数据处理机,而不是名副其实的电脑。尽管IBM公司的“深蓝”创造了战胜国际象棋世界冠军的记录,但“深蓝”式的智能仍然不能洗尽计算机在40多年前将英语的“心有余而力不足”翻译成“酒香而肉臭”的耻辱。洗尽这一耻辱的关键在于提高计算机的自然语言智能。计算机自然语言智能的关键不在于快速或并行运算,而在于建立模拟人脑的计算机自然语言感知处理模式。HNC的诞生,正是顺应了这个召唤,句类分析技术是HNC理论语句级的技术实现。

从未来信息产业的发展看,计算机自然语言智能关键技术的突破,将实现信息-知识的转换,使人类脑力劳动进一步解放。信息时代将从当前的以数据处理为主导的初级阶段过渡到以知识处理为主导的高级阶段,导致高级形式的信息产业――自然语言知识处理产业的诞生和发展。HNC理论为这一突破构筑了宏伟的理论蓝图,包括句群及篇章要点的表述模式、短时记忆和长时记忆的生成转换模式和知识自学习模式。在句类分析技术的基础上,发展形成对应上述三个理论模式的自然语言处理技术,将实现计算机自然语言智能关键技术的突破。

由于具有广阔的市场前景和强大的发展潜力,句类分析技术得到众多有远见的企业的青睐。目前HNC正在积极和有关企业协商,计划在未来的三至五年内重点解决句类分析技术的实用化问题;并开发推出基于句类分析技术的、用户乐于接受的语言信息处理软件产品。中国人有望在本世纪的第一个十年内朝着占领未来信息时代高级阶段技术制高点的目标迈出关键、坚实、重要的第一步。从这个意义上讲,正如科学院原自动化所副所长雷良颖教授指出的:“(句类分析技术及其产业化)对我们的国家、对我们的民族、对我们的IT行业是非常有意义的。”