专业活动领域句类的设计与知识表示

缪建明



摘 要


  汉语是一种以意合为主的语言,以句群来说,句群是围绕某一特定主题展开的话语,这些话语必然表述这一主题的特征,蕴涵一定的知识,HNC称之为领域知识。领域知识既需要体现主题知识中主要构成部分的语义角色,又需要指出其各个语法成分。这些要求使我们联想到句类表示式这一形式化表述方式,通过句类表示式的方式将这一知识形式化表述出来。
  本文采用句类表示式的形式化方法将领域知识有效地组织起来,形成可供计算机句群处理使用的领域句类知识。以HNC概念符号基元体系为切入点,将概念延伸结构蕴涵的领域知识归纳出来,通过有效组织,以领域句类表示式的方式表示出来,并给出相关的概念关联式。
  在研究方法上,本文重在分析与归纳;分析部分体现在概念节点及其延伸结构的描述上,归纳部分体现在对节点分析的知识的进一步重组。
  针对HNC概念延伸结构的多种设计内容,本文提出了对应的四项领域句类设计原则,将领域句类设计过程进一步细化为四个步骤:概念节点的分析、领域知识的归纳、领域句类表示式的设计和概念关联式的设计。研究结果所形成的领域句类知识库最终可服务于句类分析系统向语境单元萃取的提升。
  本文的创新点表现为:
(1)在HNC概念基元符号体系基础上归纳形成了领域句类的知识表示方法。概念基元符号体系在语义上揭示了概念的基元性和系统性,描述了概念之间的关联性。对于领域概念而言则定义了相对应的概念延伸结构及其概念关联知识;句类表示式则能够有效地体现语句深层的语义结构。本文从概念基元符号体系中的领域概念出发,以句类表示式为纲,形成了领域句类表示式这种新的世界知识形式化表示方法。
(2)在HNC概念基元符号体系基础上形成了领域句类知识设计的一般性方法,提出了设计的具体步骤。以概念基元符号体系中的延伸结构为切入点,通过延伸结构的具体分析,获取高层概念节点的知识设计总体;进一步对底层概念节点进行分析,以作用效应链为中心,归纳下层延伸结构领域知识;以句类知识为指导,为领域知识各语义角色分配语义块内容,确定其句类代码,最终形成领域句类表示式;在领域句类整体框架下,对概念节点本身和语义块内容进行关联性分析,最终获得各概念关联性知识,通过HNC映射符号形式化处理,给出概念关联式。
(3)提出了领域句类表示式的设计原则。共包含四大原则:分级体系设计原则有效地解决了领域概念领域知识归纳浓缩后的知识边界问题;作用效应设计原则保证了领域知识的设计过程中作用效应链准则的总体把握;延伸结构设计原则针对不同的延伸结构的节点设计特点量身定做了对应的表示模式;语句整合原则很好地解决了领域句类知识在句类分析系统中的应用问题。
(4)实现了专业活动领域四大领域概念林的领域知识的归纳及其形式化表示。通过真实新闻语料的统计分析,四大领域概念林(共性、政治、经济、文化)涵盖了约56%的领域空间,我们为其每一个领域概念林的每一个领域概念设计了对应的领域句类表示式,并配置了概念关联式,这些研究成果将成为领域句类知识库的主体内容,为领域句类知识库的最后完成打下坚实的基础。
(5)探索了领域句类知识在句类分析系统中的应用。领域句类知识最终服务于句类分析系统,一方面可以提高句类分析系统的句群处理能力,同时另一方面又可帮助提高句类分析系统对新词、语义切分模糊等处理难点的能力。领域句类知识将服务于最终实现句类分析系统从第一介层到第二介层的跨越。
  综上所述,在HNC理论框架下,本文系统研究了领域句类的设计问题,并提出了相应的设计步骤和设计原则,并在专业活动的四大领域概念林内进行了领域句类的具体设计。本文的研究结果将有助于深化句类分析中有关句群处理的研究。

 

关键词:  HNC理论;句类分析;句群;领域句类;概念关联式