面向机器翻译的汉英句类及句式转换研究

摘 要




  50多年来,世界范围的机器翻译事业走过了一条曲折的发展道路,取得了许多令人瞩目的成绩。但是,尽管研究人员尝试了形形色色的语言学理论,使用了各种各样的翻译技术,但开发出来的机译系统却始终无法突破70%的正确率,形成了机器翻译领域的雪线现象。对于汉英机器翻译来说尤其如此,由于理论上缺少一种对路的分析和理解汉语的语言学理论的指导,开发的众多汉英机器翻译系统始终不能取得突破性的进展,距达到用户满意的实用化水平还相差甚远。
  概念层次网络(HNC)理论是关于人类语言认知机制的学说,也是面向计算机的自然语言理解的学说。基于HNC理论的汉英句类及句式转换研究具有两方面的重大意义:(1)以英语为试点和突破口,检验HNC理论的普适性,从而进一步发展这一创新的自然语言理解理论,加速HNC立足汉语、走向世界的进程;(2)以机器翻译为目标,探索源语-译语转换的规律和机制,从而推动基于HNC理论的机器翻译引擎的研究,为研制HNC机器翻译系统创造必需的条件。
  本文研究主要采取两种方法:一是对比研究的方法,即将HNC理论基于现代汉语归纳和演绎出的句类及句式试用于英语,分析两种语言的句类和句式在数量、结构、分布等方面的异同;二是归纳概括的方法,即通过对汉英/英汉句级对齐语料的标注和分析,揭示汉英两种语言句类及句式转换的一般规律。
  本文研究的目标是:在HNC理论有关句类、句式以及机器翻译的思想的指导下,探索汉英句类及句式转换的一般规律。内容主要包括以下几个方面:
(1) 分析基于HNC理论的汉英机器翻译系统的原理和结构,制定HNC机器翻译应该采取的策略和方法;
(2) 从理论上界定句类转换的类型,并定义一种形式化的句类转换描述框架—TransFrame;
(3) 针对英语的语种个性,定义!2/1J、!24/1J、!212/1J等新的语句格式表示式,并详细分析汉英两种语言在句式表达方面的异同,研究汉英句式转换的一般规律;
(4) 从HNC57组基本句类中选定是否判断句、承受句(包括一般、主动、被动、特殊四个一级子类)、块扩作用句、简明状态句等重要句类以及效应句、存在判断句、比较判断句等典型句类,对它们的句类和句式转换规律进行深入的研究;
(5) 收集、整理汉英/英汉对照语料,建立汉英/英汉句级对齐语料库,对语料进行标注和分析。


关键词:机器翻译;概念层次网络(HNC)理论;句类;语句格式;汉英转换