《面向机器翻译的汉英句类及句式转换》

序 言

——谋事在人,成事在天


克亮告诉我,他的博士论文已纳入他们学校的一项出版计划,要我写一篇序言。此前 苗传江博士晋耀红博士已经分别把他们的博士论文扩展成为HNC探索的两部专著,并正式出版了。这是我第三次接受到这样的要求,在非常高兴之余,立即联想到“谋事在人,成事在天”的古语,因此就把它作为这篇序言的副标题了。与克亮博士论文的原稿相比,出版稿做了系统的扩充,已构成一部专著的规模,按照前两篇序言的惯例,下文将以专著称之。

专著首先概述了机器翻译的三次热潮,接着在“机器翻译热的冷思考”中提出了理论误区、技术崇拜和市场化迷失三大论题,这里,既体现了克亮的学术勇气,又展现了他的学术冷静。字面上,专著没有对三大论题的未来之路给出直接的回应,但实际上已经蕴涵在专著的正文里了,专著的这种春秋笔法也许是最值得读者去体会的。

机器翻译能够超越专著所指出的雪线现象吗?对这个关键问题作者也同样采取了春秋笔法。但细心的读者不难觉察到,答案就在以扩展句类分析为核心的语言理解处理里,在以句类转换和句式转换为核心的6项过渡处理里,在以有指导机器学习为核心的语言生成处理里。这三项处理构成一项巨大的科学工程。不同于通常意义下的软硬件工程,决定科学工程成败的主要是它的理论和知识侧面,而不是技术侧面,机器翻译科学工程尤其如此。专著清晰地论述了这一重要的科学工程观,并在结束语中对这项科学工程的艰巨性给出了十分清醒的描述。

专著所探讨的句类转换和句式转换问题,请允许我借用围棋的术语,乃是汉英机器翻译这一科学工程的的大场和急所。作者是探索这一重大科学问题的第一人吗?作者取得了堪称突破性的进展吗?如果读者对此能做出自己的正确判断,那就没有虚读此书了。

作者与我共事期间,我正在集中精力从事扩展句类分析的理论探索,失去了与作者深入研究机器翻译的难逢机遇,几年来常感愧悔。下面的话也许不该写在序言里,请把它当做一份补偿之情吧。

机器翻译不可能脱离源语言的理解处理,但机器翻译的研究则可以而且必须脱离源语言的理解处理而独立进行。其研究资源不能是那泛指的平衡语料,也不能只是那经过机器分析处理以后的语料,而必须主要是那经过适度人工标注的语料。就专著所确定的研究思路来说,就必须是适度标注的HNC句群语料。机器翻译的理解(分析)、转换、生成三环节必须走“先分后合”之路,说白了就是必须走“转换先行、生成公关、理解逆推”之路。这确实是一条“曲线救国”之路,然而是唯一可行之路。按照这一思路,那专著所展现的万里征途就可以起步于一个精干的研究小团队了。

简单地说 “语义块”这个术语或概念是“短语”的扩充,但这一扩充对于雪线攀登和汉英质异的研究不是可有可无,而是绝对必要。英语拥有构造从句和非限定形态动词短语的完备语法手段,而汉语完全不具备这些手段。那么 汉语采用什么语法手段以达到同样的语言表达功能呢?我们是否需要引入一种超越于不同自然语言个性之上的术语或概念以统摄语言分析或语言表达的描述方式呢?本书提供了答案,那就是本书名称的关键词——“语义块构成变换”。

HNC标注语料的适度性首先是指语境信息的适度性,其次是指标注自身的适度不确定性(这需要精心设计)。在HNC的专业术语里,语境信息叫做领域句类的先验知识,其适度性集中体现在领域句类框架知识的完备性里,后者是自然语言理解处理的关键性知识。HNC的训诂觉渊源就在于它以语境统摄了语法、语义和语用的三维度说,并据此构成了数学物理表示式,如此而已。

谋事在人,成事在天。莫疑无路,总有明村。

仅以此与克亮共勉。

 

                                                                                                            黄曾阳 

                                                      2006年8月