一、句类分析难点20

1.20 分词难点(20难点,标记:… …)

应该在本节说的话前面已重复了多次,所以这里可以从简。

汉语的分词难点在形式上可以分为三字段和四字段两类,无多字词的五字以上的语段非常罕见,当然这是就文字文本来说的。对于语音文本,五字以上的音段经常出现,语音文本的理解处理之所以大大难于文字文本,主要是语段长度的这一差异造成的。

四字段(如“南方才子”)一般仅考虑2-2选择,不考虑1-2-1情况。三字段(如“才能够、美国会”)要考虑1-2、2-1的双选模糊。

但是,如果三字段里出现了QE hv qv类概念,则可优先选择。下面给出一些简单规则示例:

如果 前单为hv,而前面的语段为动词

则 选择1-2

如果 前单为QE,前双、后双都是动词,后单不是hv

则 选择1-2

如果 前单为QE,前双、后双都是动词,后单也是hv

则 应作两种句类假设

如果 前双为动词,前单不是QE,后单为hv

则 选择2-1

如果 后单为QE,后面的语段为动词,且动词无hv

则 选择2-1

如果 前单为QE,后双为u类概念

则 优先选择1-2

分词难点就是三字段段接处理的难点,当然不可能通过几条简单的规则就能得到完善的解决方案。但可以肯定的是,对1.15节清单中的局部处理,对有关QE hv qv h$u h$uu h$(g;v) h$w h$p q$p…等类概念的局部处理,在句类知识和基本语境知识的引导下,是可以形成一套有效规则的。这套规则能够解决绝大部分分词难点,条件仅在于语料的积累。