HNC与信息革命的重大挑战
全国政协委员、中国人民大学语言文化学院教授
 林杏光

  一、我在什么情况下看到HNC
  日本在第五代计算机计划没有搞成之后,紧接着发起组织亚洲5国共同研究《多国语言机器翻译系统》,历时8年,也没有取得应有的效果。但这8年的合作却开阔了我的学术视野,引发了我的深沉思考。我认识到,如果自然语言理解继续沿着语法分析、语法语义分析、语料统计方法等技术路线搞下去,计算机将永远不可能理解人类的语言。正当我寻求新的技术路线的时候,在国家科委召开的第42次香山科学创新会上结识了黄曾阳先生,他使我高兴地看到了HNC(概念层次网络)。

  二、我在HNC身上看到了什么
  1、看到了自然语言理解的新思路。
  新思路之一,是HNC对自然语言理解的“理解”有恰当的定位。HNC对“理解”定位于三种能力:预期能力、联想能力、消解语言五重或三重模糊的能力。一位老教授看到HNC对“理解”的定位之后说:“预期能力,是预见性;联想能力,是系统性;消解模糊的能力,是精确性。预见性、系统性、精确性,正是体现了科学知识的特色。”因此,我认为HNC将三种能力作为计算机理解语言初级阶段的标准,是一个重要的创新。
  新思路之二,是HNC在什么空间创立计算机理解语言模式这一问题上想出了一个新招儿。语言的表现现象是无限的,不确定的,而计算机反映语言内容概念空间的基元是有限的,确定的,其最基本的基元就是HNC作用效应链的作用、效应、过程、转移、关系、状态和判断。要特别注意的是HNC所指的概念空间非一般所说的用语言来说明的逻辑结构。因此,在反映语言内容的概念空间上创立的理解模式,它既可映射语言内容,又能反映射到语言空间上来,从而使语言能被计算机识别。HNC攻关组三年多的工程实践已证明映射和反映射都可实现。
  新思路之三,是HNC创立的理解模式独具一格。它既不是基于规则的推理,也不是基于语料库的统计,而是以概念联想脉络为纲的激活、扩展、浓缩、转换、存储的语言感知过程的理解模式。这一理解模式包含5个部分:词汇层面的模式、语句层面的模式、句群和篇章层面的模式、短时记忆变成长时记忆的模式、自学习的模式。词汇和语句层面的模式已创立出来,并走上了工程化的道路。这两个模式是后面三个模式的基础,有了这两个模式就可在语言处理领域进行机器翻译、智能检索等广泛的应用。
  新思路之四,是体现在HNC的知识库建构是创新的。它包含7个库(1、基本句类知识库;2、概念联想脉络知识库;3、汉语非单字词知识库,英语词语知识库;4、汉语音节知识库;5、汉语单词知识库,汉语、英语特殊词组知识库;6、英语语言逻辑概念知识库;7、反映射知识库),2个手册(基本句类手册、概念符号体系手册),3类语料。
  新思路之五,是HNC开创了一条全新的语句理解技术路线,即句类分析系统。HNC的句类分析系统未采用中文信息界已形成的分词——标词性——捆绑短语——分析句法,然后再映射到语义平面的格框架中去的语句处理思路,而是采用了另一种策略,叫中间切入,先上后下。拿到一个句子先感知特征语义块,相当于述语动词。用特征语义块确定句类,在句类控制下进行语义块构成分析,最后水到渠成地解决分词问题。实践证明,这种处理策略可以达到理解语句的目的。
  新思路之六,是HNC归纳出汉语理解的20个难点,并找到攻克难点的方法。其中包括使计算机在具体的语句中选择多义词的义项这一世界计算语言学中的重大难题,以及能让计算机在句子中识别述语动词等问题,有的问题已经得到解决。

  2、看到了HNC产业化路途的艰难。
  HNC的论文《HNC理论与自然语言语句的理解》在“中国基础科学”的创刊号上发表了,HNC的专著《HNC(概念层次网络)理论》在清华大学出版社出版了。文章千古事,得失众人评,千秋功罪让后人去评说吧!科研任务到此完成了,但实现产业化的路途还非常艰难。它要将汉语的每一个字、词、句映射到概念空间去,进一步将联合国的八种语言映射到概念空间去,还要从概念空间反映射到各种语言中来,劳动量实在太大!高新技术的许多产业已被发达国家占领了,只有自然语言理解这一产业还是空的,我们要去占领。不拿出搞“两弹一星”这样的劲头儿是搞不成的。

  3、看到了HNC与信息革命重大挑战的关系。
  信息革命给人类社会提出了一个重大的挑战,那就是要求信息处理向知识处理转换。这是一个全球性的将引无数英雄竞折腰的广大市场。一旦占据了这个市场,那就了不得!我拟围绕信息革命提出的信息处理向知识处理转换这一重大挑战谈5个问题,用以说明HNC与信息革命重大挑战的关系。
  (1)信息处理和知识处理有什么本质不同?这一问题应包含语言处理和图像处理两个方面,我这里不讨论图像处理的问题。就语言处理来说,信息处理是计算机没有理解语言的表层处理或浅层处理,知识处理是计算机理解了语言基础上的深层处理。信息处理和知识处理有本质的不同,其区别在于计算机是否理解了语言,两相比较,知识处理是比信息处理更高一个层次的内容处理。
  (2)为什么信息处理要向知识处理转换呢?随着网络的发展,网站越来越多,号称有千万个,导致网民想寻找自己所需要的信息不知道到什么网站上去搜索。“雅虎”公司已想办法将所有网站汇集起来,加以分门别类,帮助人们在网站上去搜索信息。遗憾的是,还未能够帮助网民在信息“堆积如山”的网站中消除所不需要的信息,留下所需要的信息。这个任务靠信息处理完成不了,只有知识处理才能承担。因此,市场迫切要求信息处理向知识处理转换。
  (3)将信息处理向知识处理转换需具备什么条件呢?必须让计算机具有智能,必须解决计算机理解语言的问题。可是,计算机理解语言是人工智能的一个重要分支,是半个多世纪没有攻破的一个世界重大科学难题。在所有的科学领域里,也许计算机理解语言这个领域发生过的悲剧是最多的。英国图灵先生的图灵标准,美国的CYC计划,日本的第五代计算机计划,日本组织开发的亚洲五国合作研究的《多国语言机器翻译系统》,欧共体组织开发的欧洲六种语言机器翻译系统,世界各国普遍采用的语法分析和语法语义分析、语料库统计方法、逻辑结构方法、复杂特征集等,都未能攻破计算机理解语言的堡垒。总之,美国人、日本人、欧洲人都曾在计算机理解语言这个科学堡垒面前弃甲丢盔,至今谈虎色变,心有余悸。有人据此预言:在未来的50至100年内别想在自然语言理解这个领域有任何突破性的进展。可喜可贺可赞的是,中国人创立了HNC(概念层次网络)理论,提出了自然语言理解的新思路,并迈步上工程实践的道路。现在,已完成了从理论到技术(句类分析技术)实现的基本过程,准备了产业化的基本前提,为信息处理向知识处理的转换创造了基本条件。因此,开发具有民族文化特点又有世界意义的知识处理系统,已水到渠成。
  (4)如何实现信息处理向知识处理的转换呢?整部人类文明史已经历了三个时代:农业时代、工业时代、信息时代。工业时代是信号处理,产品的形式是商品;信息时代初级阶段是信息处理,产品的形式是软件;信息时代高级阶段是知识处理,产品的形式是知识服务。我们实现信息处理向知识处理转换的想法是:树立西方人解决不了的科学难题中国人也能解决的民族自信心,实现科技团队、企业、政府三结合,汇集一笔资金,留住和招聘一流的科技人才,在中华大地上建立公司。这一公司以计算机技术、网络技术、HNC的语言理解创新技术三结合,创立新型的面向网络的“知识处理加工基地”,在网站上实现丰富多彩的知识处理服务,从而占领知识处理的巨大市场。
  (5)实现信息处理向知识处理的转换对中国有什么意义?说现在是信息时代,人家都认可。但许多人未必明白,信息时代还分阶段。我们现在还处在信息时代的初级阶段,正要向信息时代的高级阶段发展。中国的科学在农业时代领先过,在工业时代落伍了,在信息时代的初级阶段继续落后。面对即将来临的信息时代高级阶段的知识处理,全球处在同一起跑线上。世界各发达国家没有优势,中国却具备后来居上的有利条件。这对中国的科学发展是十分难得的前所未有的机遇。如果能抓住机遇,采取有力措施,打一场独领风骚的跨越式大仗,中国就将抢占到信息时代高级阶段的知识处理制高点,一洗我国百年来科学技术落后的尘垢,为中华文明的再次腾飞夺取先机!


版权所有 北京市哲学社会科学规划办公室