对语义块边界标注符号的建议

张运良

 (中国科学院声学研究所,北京 100080

HNC的语义块边界的标注非常重要,而且也经历了越来越完备的发展过程。HNC的语义块边界标注符号的第一个重大的进步是区分了全局与局部语义块边界,分别以“||”和“|”表示。第二个重大进步就是对主块和辅块边界进行了区分,如果一个全局语义块的两边界标注符号中含有一个“||~”,“~||”这样的符号,则该语义块为全局辅块,否则为全局主块。后来对此又做了改进:任何一个边界符号就可以表示边界左右的情况,如“||~”表示边界左侧为全局主块,右侧为全局辅块。

现有的边界标注符号仍然有改进之处。在“~||”思想的启发下,我设计了新的边界标注符号,全局语义块边界标记可以改进为 0||1 ”、 0||0 ”、 1||0 ”、 1||1 ”、 1||2”……等系列符号。在这种表示中0侧表示辅块,1侧表示主块,2侧表示块扩内主块,而如果存在多级块扩的话,可以用123……这样的等级表示。

从理论上讲这样的表示具有强大的扩展性,可以使用所有的数字(09)甚至是字母(az)。当然实践应用中用不到这么多层级,也许最多也只能用到三四级。

这种表示方法的优点是可扩展,表现能力强。不仅可以用在边界表示中,而且可以用于不同类型的句蜕表示。

 


作者简介:张运良(1979--),男,吉林九台人。现为中科院声学研究所硕士研究生,主要研究方向为自然语言理解、机器翻译。