浩瀚信息由死变活  

                 初探信息深层处理的HNC理论
            张倪


  按照处理信息的深浅程度来分,可将信息时代分为两个阶段:即现阶段和新阶段。现阶段的特点是只对信息进行表层处理或浅层处理,例如,目前流行的字处理、基于语料统计的语言信息处理、具有一定语法分析和语义分析的语音识别等,这些都是仅涉及到对信息的表层或浅层处理。表层处理和浅层处理的特点是计算机不能理解人的语言或信息的含义。新阶段的特点是对信息进行深层处理,例如,如何利用计算机将Internet网上堆积如山的信息变成人们可以利用的活知识;如何使机器翻译的译准率达到95%以上等问题就都要涉及对信息的深层处理。信息的深层处理的特点是计算机对人的语言、信息的含义有初级的理解。

  涉及信息处理深层的领域和学科主要有:自然语言理解、图象理解和知识挖掘等。在未来它们将是信息技术领域竞争的焦点。


  
茫茫语海,欲渡无舟


  信息的深层处理是一个世界性的难题。以美国和日本为代表的发达国家在信息表层处理上占有绝对优势,实力非常雄厚。但在深层处理方面它们却处在徘徊的境地。以自然语言处理为例,日本15年前就提出了一个第五代计算机(又称智能计算机)的计划,其中一个重要目标就是使计算机能理解人类语言,但它没有获得成功。接着日本又组织开发了亚洲五国(日本、中国、泰国、印度尼西亚、马来西亚)合作项目———“多国语言机器翻译系统”。由于项目主持国日本没有创新的理论和技术,这个项目搞了8年也没有搞出什么名堂。一位日本专家曾就此发出过这样的感叹:“对自然语言理解的研究大家很感兴趣,但一想到这项研究的难度、投资的巨大和渺茫的研究结果,便望而生畏。”这位日本专家的话真实地说出了这项研究“茫茫语海,欲渡无舟”的困境。美国微软公司1998年投入了26亿美元,用以开发新一代的软件技术(自然语言理解、图像识别、三维图形设计),自然语言理解是其中的首要技术。但至今世人也没有见到什么结果。

  为什么在语言深层处理这一问题上科学界付出了巨大的努力却收效甚微,而使这一问题成为了一个世界性的科研难题呢?其关键在于:计算机的自然语言理解处理首先需要建立一个定位适当的模拟大脑语言感知过程的理论模式。没有这样的理论模式,就不会有与大脑语言感知过程相类似的理解处理总体方案;没有这样的理解处理方案,就不会有语言信息深层处理技术的突破;而那些置这一关键问题于不顾,仅纠缠于语法、逻辑和统计的传统自然语言理解理论、方法与技术虽然在语言表层和浅层进行了大量的研究,但并未在这一关键问题上作出实质性的工作或取得实质性的进展。这就是为什么20年来机器翻译的译准率始终徘徊于70%以下,而停滞不前?为什么尽管十几年来在精密词性标注和大规模真实语料统计方面做了巨大的努力,而汉语的分词问题却仍然是制约中文信息处理的“瓶颈”的答案所在。


  
HNC另辟天地


  中国科学院声学所的黄曾阳教授经8年艰苦探索,在吸收菲尔墨(Fillmore)、山克(Schank)等人的有益思想的基础上创立了HNC(Hierarchical Network Concept,概念层次网络)理论。HNC理论建立了一个模拟人类语言感知过程的理论模式。在建立这一理论模式时,黄曾阳教授主要是通过以下3个途径:

  (1)把自然语言所表述的知识划分为概念、语言和常识三个独立的层面,对不同层面采取不同的知识表示策略和学习方式,并形成各自的知识库系统。

  (2)建立网络式概念基元符号体系,即概念表述的数学表示式。这个符号体系就是下文所说的三大语义网络及五元组,它是计算机把握并理解语言概念的基本前提。

  (3)建立语句的语义表述模式,即语句表述的数学表示式。这一模式是可表述自然语言任何语句的语义结构,即乔姆斯基所提出的语言深层结构。这个深层结构就是下文所说的句类格式。以句类格式为基点的语句分析叫做句类分析,这是对大脑语言感知过程的初步模拟。

  HNC理论摆脱了传统自然语言分析模式解决问题的套路。找到了一种描述自然语言感知过程的适当模式。因此它的问世将使自然语言处理领域中的很多问题取得突破性进展,使机器翻译、电话翻译、人机交互、智能检索、自动文摘等各个应用领域获得实质性的重大进展。

  由于当前发达国家,特别是美国,在信息的表层和浅层处理上实力非常雄厚,技术上遥遥领先。我们同他们在这一领域中竞争,明显处于不利的地位。但在信息的深层处理上美国和其他发达国家都没有什么优势。就自然语言的深层处理来看,他们目前还没有能提出与HNC相媲美的见解。因此,HNC是一件使我国能在自然语言深层处理这一领域中与发达国家相抗衡的有力武器。对它的深入研究及实用化将使我们在与发达国家在争夺语言信息深层处理制高点的竞争中占据有利的地位。


 
 HNC如何理解语言


  HNC理论的目标是建立一个模拟人类语言感知过程的理论模式。人对语言的理解本质上是一种认知行为,如果能描述大脑认知结构的具体模式,计算机就可以运用这些模式对自然语言进行理解和处理了。HNC理论把人脑认知结构分为局部和全局两类联想脉络。它认为对联想脉络的表述是涉及语言深层(即语言的语义层面)的根本问题。什么是局部联想和全局联想呢?简单地说,局部联想是指词汇层面的联想,全局联想是指语句及篇章层面的联想。HNC理论的出发点就是运用这两类联想脉络来“帮助”计算机理解自然语言。

  自然语言的词汇是用来表达概念的,因此,HNC建立的词汇层面的局部联想脉络体现为一个概念表述体系。概念分为抽象概念与具体概念。HNC理论的概念表述体系侧重于抽象概念的表达。HNC理论认为应该从多元性表现和内涵两个方面来描述概念。它创立了五元组,用来表达抽象概念的多元性表现。对抽象概念的内涵采用网络层次符号来表达。其网络层次符号包含三大语义网络:基元概念语义网络、基本概念语义网络和逻辑概念语义网络。HNC的五元组符号和三大语义网络的层次符号组合起来就可完成对抽象概念的完整表达,从而为计算机理解自然语言的语义提供了有力的手段。

  全局联想脉络是语句及篇章层面的联想。语句联想的主要内容是语义块和句类理论。语义块是句子的语义构成单位,分为主语义块和辅语义块两类。主语义块有4种,辅语义块有7种。句类是句子的语义类别,有7个基本句类,它可构成36个混合句类。语义块和句类理论的基本论点是:语义块是句类的函数。语义块和句类的这种函数关系具体体现为句类格式。句类格式是指一个句子的主语义块的排列顺序。

机器翻译.jpg (18051 bytes)
  图1 HNC的自然语言理解框架

  以上介绍的两个联想脉络是HNC理论的基础部分,除此之外HNC理论还构造了一个自然语言理解的框架。这个框架以句类分析为基础,共由7个模块组成。如图1所示,它们分别是:(1)语义块感知及句类假设模块;(2)句类检验模块;(3)语义块构成处理模块;(4)语境生成模块;(5)隐知识揭示模块;(6)短时记忆模块;(7)要点主题分析模块。


  HNC的研究现状


  为促进HNC理论的进一步发展,特别是尽快推出基于HNC理论的实用化技术和产品,在中国科学院高技术局的推动下,成立了由中国科学院声学研究所、中国人民大学对外语言文化学院、北京语言文化大学语言信息处理研究所、中国科学院北京软件工程研制中心等四个单位组成的“HNC联合攻关组”。HNC联合攻关组目前已经得到了多种渠道的经费支持。包括国家“九五”重点攻关项目、国家重点基础研究项目(973)和国家语委的项目。

  目前,在这些相对有限的研究经费的支持下,HNC联合攻关组主要开展了三个方面的工作:HNC理论的研究、HNC知识库的建设、HNC技术的软件实现。

  在理论上,HNC预定建立下列五个层面的概念联想脉络理论模式:

  (1)自然语言概念体系的理论模式;(2)自然语言语义块和语句的理论模式;(3)句群和篇章要点的表述模式;(4)短时和长时记忆的形成及其相互转换的理论模式;(5)基于文字文本的计算机自学习模式。

  目前HNC已完成了前两个理论模式,并在此基础上创立了名为“HNC句类分析”的自然语言理解深层处理技术,并编写了一部介绍这些理论成果的专著《HNC(概念层次网络)理论》。

  在知识库建设方面,目前已制定了HNC知识库的知识表示规范,并建立了1万汉语常用词语的词语HNC知识库及汉语特殊需要的音节知识库。基本建成了HNC概念联想脉络知识库。下一步将制定适用于不同语种的HNC语言知识库统一规范;建设适当规模的英语HNC知识库;建设HNC符号体系的汉英反映射(从HNC符号到自然语言符号)知识库;加强和完善已有的HNC概念联想脉络知识库。

  在软件实现方面,目前已经初步完成了HNC核心处理程序的开发工作。下一步将对核心处理程序作进一步的完善,并在此核心处理程序和上述一系列知识库的基础上开发若干种实用的软件产品。初步的设想是:第一,在一两年内推出一个汉语连续语音识别的二次智能处理系统。这个系统的正确率可稳定在在90%以上;第二,在五年内推出一个可将一般应用文进行汉英双向互译,并且具有“自知之明”智能(即系统可指出自身理解不准的文字,并主动要求人工帮助)的翻译系统。该系统的译准率可达到90%以上的实用水平;第三,在英汉双向互译系统的基础上推出更多种类的翻译系统,达到可将联合国八种工作语言自动互译的目标。




  机遇到来之前


  当人们为中国软件业的发展空间陷入困惑的时候,仍然有许多人默默无闻地在埋头于艰苦的探索,在这些人中间就包括中国科学院北京软件工程研制中心HNC(Hierarchical Network Concept)课题组和“女娲计划”的研究人员。微软的“维纳斯计划”使“女娲”名声大振,而HNC却无人知晓。记者在采访了北京软件工程研制中心HNC课题组的张倪副研究员之后不由得对这些开拓者深感敬佩。

  张倪副研究员介绍说,他以前也是搞“女娲计划”项目的,不久前才转到HNC项目上来。如果不是“维纳斯计划”的出台这样一个机遇,“女娲”不会有今天的知名度,在此之前他们与HNC项目一样默默工作了几年。虽然HNC短时期内还不可能像“女娲”一样受人瞩目,但它同样有着不容忽视的市场空间和广阔前景。

  今天,全球正在由工业经济向知识经济转变,人们已经把对信息的处理提高到了相当重要的位置,如何利用计算机将Internet网络上堆积如山的信息变成知识经济的助推器,是目前一个重要的课题。对于HNC而言这是比“维纳斯计划”更大的机遇、更大的挑战。让计算机能够遵循人类的思维规律、理解人类的自然语言将不再是遥远的梦想。简单地说来,由中科院声学所的黄曾祥教授创立的HNC理论所要达到的目的就是使人们利用计算机获取知识的能力有一个质的提高,并且可以彻底消除语言障碍的影响。在此基础上机器翻译、人机交互、智能检索、自动文摘等应用都将获得重大突破。

  目前,对HNC理论的联合攻关已经取得了一定的进展。其中,中科院北京软件工程研制中心负责HNC技术的软件实现部分,张倪介绍说,软件核心技术最主要包括三个模块:感知、句类假设、检验。下一步即将进入产品的开发和包装阶段,目前的产品开发方向主要定位在两个方面:一个是语音的二次智能处理;另一个是机器翻译。由于HNC是使计算机模拟大脑语言感知过程,从概念层建立一整套符号标注体系,因而可以达到与语种无关,并在各语种间架起一座桥梁。与目前普遍采用的基于语法规则和基于统计概率的信息处理思想相比是一种全新的出发点。由此计算机对信息的处理过程将由表层处理转向深层处理,这项研究将使我们与发达国家在争夺语言信息深层处理制高点的竞争中占据有利的地位。

  基于HNC理论开发出的产品有着独特的优势。语音的二次智能处理可以从根本上改变目前语音输入识别率低的局面,使识别率真正达到95%以上,而基于统计概率的匹配方式则存在着它不可逾越的障碍。HNC将是语音输入软件的有利的竞争者。另外,机器翻译软件的市场空间也是相当庞大的,目前我国市场上的翻译软件种类不下几十种。随着Internet上网人口的爆炸性增长,网际互译软件越来越受青睐,但是真正能令人满意的却是凤毛麟角,往往译出的网页内容让人不知所云、啼笑皆非。HNC从词汇、句子、句群、篇章4个层面建立符号体系,是从根本上解决机器翻译这一世界难题的一种方法。

  HNC使我们与国外研发机构站在同一起跑线上、甚至领先于国外水平,21世纪借助由此产生的实用化产品,人们对Internet网络上海量信息的利用能力将发生飞跃,这无疑将打开一个广阔的新市场。

  目前,HNC已经申请了专利,它将是对我国自主知识产权软件的一项重要贡献。值得注意的是我国骨干科研机构的知识产权保护意识已经普遍增强。下个世纪在知识经济社会中,竞争不能依靠克隆。

(张艳)