52个论题之52:论HNC技术的第一期目标

 

  25.1 引言

    在创立HNC的过程中,曾五次进行过阶段性总结。

    第一次是1992年下半年,围绕着基元概念的13个一级节点、基本概念和语言逻辑,共写了15篇专文,另外有一些关于知识库的短文和传统语言学的短评,这批稿子都是手写的。当时很穷,个人计算机很少,虽然我们拥有自己发明的使用极为方便的汉字输入方法——硕士卡,可是我个人还不具备享受这一成果的条件。这批手稿都已荡然无存,打印稿也残缺不全。这是HNC理论青年期的文字,锐气有余,深度不够,无存损失不大。

    第二次是1993年冬到1994年夏,是预定“闭关”十年的暂休时间,写了理解问答。试图系统阐述HNC对自然语言理解处理的总体思路和方案。大部分仍然是手稿,小部分是我自己直接在计算机上写的。共有几问几答,已没有确切的数字了。这是HNC理论进入成熟期的文字,有点保存价值。感谢张全博士,据说他保存了比较完整的打印稿。近日搜集了我自己的“存货”,大约一半都不到。我希望把这批稿子以原貌(除了大小写字母之类)整理成册并上网,其中必然有应该淘汰甚至错误的东西,但一定要保存这些反面的印迹,因为它们对于HNC未来探索的参考价值,或许超过正面印迹。

    第三次是1994年冬到1995年春末,写了语义学日记,试图通过对具体概念节点及其反映射汉字的阐述,剖析各局部联想脉络的内部结构和外部连接,并希望通过这一写作方式再次进入“闭关”状态。原文都是在荧屏前写的,没有手稿,也没有全部打印。当机内原始文件毁于一次机器事故时,因当时心情很坏,也没有及时采取补救措施,例如搜集和保存组内的拷贝文件及已打印稿件。这一损失是不堪回首和难以弥补的。

    以上三次都只是为内部需要而写,为了让我当时的研究生和助手了解HNC的来龙去脉,为他们牵线搭桥,期望他们按照HNC的思路去勇敢地探索自然语言理解处理的新路。

    第四次是1995年中到1996年春,由于马雄鸣先生的鼓励,开始具有走向社会的意识。拟定了一个HNC论文选集的计划,其中部分论文此前已有初稿或写就,预定21篇,目录如下:

        1    自然语言语义网络的基本构成及其特性

        2    自然语言的深层结构及句类分析

        3    HNC自然语言处理系统的基本框架

       {4}   解模糊及纠错处理

        5    关于汉语词库结构及汉语文本表示的建议

        6    概念知识和语言知识

        7    关于汉语HNC知识库的建设

       {8}   汉语音节感知库及字义库

        9    汉语的层选处理

       [10]  汉语的新词辨识

        11   语义块感知处理

       [12]  理解处理的环境仿真

       [13]  双向及多语种互译问题初探

        14   作用、效应句的句类知识

        15   作用反应句及作用承受句的句类知识

        16   过程句的句类知识

        17   转移句的句类知识

        18   关系句的句类知识

        19   状态句和基本判断句的句类知识

       {20}  一般判断句的句类知识

        21   混合句的句类知识

    但这个计划没有全部完成。其中,带[]号的3篇仅有提纲,带{}号的3篇仅有初稿,实际完成的只有15篇。这批论文都以Paper命名,以区别于过去的理解问答及其他。对这批稿件,刘志文先生承担了文稿的校订、编辑和打印,最后形成选录的繁重工作,杜燕玲女士主持了Paper5的写作,并参加了Paper19和Paper21两文的起草工作。

    随着鼠年“九五”的来临,HNC开始时来运转。先是国家语委主任许嘉璐教授对汉字拼音智能输入项目的安排,并表示对HNC理论寄以厚望,这不仅使当时面临解体之灾的HNC小组得以生存下去,而且给这项研究送来了极大的精神鼓励。接着是中科院高技术局主持了对HNC理论(以选录为依据)的专家评估会议,使HNC在中文信息处理领域开始有了一席之地,并继而把HNC列入国家计委“九五”攻关项目的申请专题。HNC的漫漫长夜终于出现了希望之光。

    这时,许多朋友对我进行了市场时代的启蒙教育,使我对自身角色的定位信念有所改变,然千呼万唤,犹抱琵琶。1996年到1997年我为HNC技术实现所写的各色短文、漫谈和纵横谈等都带有“非驴非马”的特征,正是所谓“江山易改,秉性难移”。近来所写的HNC理解处理52基本论题,将简称52个论题,是它们的第二代产物,因而必然带有其父辈的遗传缺陷。

    52个基本论题HNC的第五次阶段总结,预定三个月写完。中心目标是阐述HNC技术实现的策略,兼及HNC思路的形成过程。论题序列分为8组,第一组从论题1到5,讨论E语义块感知;第二组从论题6到12,讨论广义对象语义块、辅块和短语的感知;第三组从论题13到17,试图从知性的高度阐述语句表示式的来龙去脉,以期有助于提高HNC攻关组主要是句类分析设计者的理论水平;第四组从18到20,讨论句类转换;第五组从21到24,讨论汉语特有的音节感知处理;第六组从25到34,是整个〈论题〉的核心,讨论句类假设检验及语义块构成处理的基本策略,包括知识运用的基本策略;第七组从35到39,讨论语义距离计算的有关问题;第八组从40到51,试图用小散文的形式,而不是论文的形式阐述HNC的一些重要概念,以期有助于提高HNC攻关组主要是知识库建设者的理论水平。本文是〈论题〉序列的小结,但自身也是一个论题,它试图对HNC技术的近期应用前景和产品开发策略谈一些书生之见。

    写作之初定下了两条原则,一是急用先写,二是抛砖引玉。这两点的直接对象都是HNC联合攻关组,而不是一般读者。“急用”之作主要是服务于句类分析技术的提高和完善。“引玉”之作的本意则是出题目,活跃攻关组成员的思路,激励他们的写作热情。

    HNC联合攻关组是1997年3月3日成立的,这是一个值得纪念的日子,它标志着HNC从小作坊时期进入了符合现代要求的发展时期。促成这一转变的,关键是林杏光教授。他作为一个跨接语言学和计算机科学的语言研究工作者,以其广阔的视野和敏锐的目光,从21世纪语言信息科学和语言信息产业发展大势的战略高度出发,为联合攻关组规划了远景发展目标,制定了近期工作纲要,采取了一系列重大举措。……

 

    上面的文字是7月初写的,由于身体状况的突然变化,原定计划骤然终止,目前仍力不从心。略感宽慰的是,“急用”部分所缺甚少,未写或仅有提纲的论题只能有待于他日。然而,更期望由战友们或小友们来完成,题目仅仅是题目而已,不是专利,我的这一期望绝对是真诚的。

 

                                         黄曾阳  1998.8.30