中文人物评论意见挖掘

李娟



摘 要


意见挖掘是近几年来自然语言理解领域中发展起来的一个新课题,也是当前的一个研究热点。它所研究的就是如何从主观性文本中自动提取出评论性信息(即意见或观点)。意见挖掘在电子商务、舆情监测等社会生活中有重要的意义,具有较高的研究价值。

本文在词语和语句两个层次上对中文人物评论意见挖掘进行了研究。研究的目的是:自动提取出人物评论语句中的意见信息。对于词语,利用词典和统计方法相结合实现了极性词语的识别和极性判定。对于语句,分别使用了基于模板的意见挖掘方法和基于句类分析的意见挖掘方法,实现了相应的系统。本文的主要研究内容如下:

1.使用基于极性词典、同义词词典和二元语法相结合的方法实现中文词语倾向性识别。该方法使用极性词典来判定单倾向性词语的情感倾向,使用同义词典结合二元语法来判定多倾向性词语的情感倾向。能够有效地判定中文词语的情感倾向,准确率达到81%以上。

2实现了基于模板的语句意见挖掘系统。将基于模板的方法应用到语句意见挖掘中,从训练语料中提取和生成意见模板,再使用该模板来实现意见元素的抽取。准确率达到75.3%

3.实现了基于句类分析的语句意见挖掘系统。总结句类倾向性规律,形成句类倾向性规则库,用句类倾向性规则实现意见元素的初步定位,然后使用模板方法提取出意见元素。准确率达到86.57%

4.建立了适用于人物评论意见挖掘的相关资源,如极性词典、同义词词典,人物属性词表等。其中极性词典(6572条)由本文对已有的若干褒贬义词典(7167条)和知网情感分析用词语集(6846条)进行汇集、校对并筛选出适用于人物评论的词语而构成。同义词典、属性词表由本文搜集整理而构成。

通过上述工作,本文实现了对中文人物评价语句的意见提取系统,建立了相关资源。在本文研究结果的基础上可以开发面向人物挖掘的各种具体应用,例如网络舆情监测、政治选举中候选人民意监测系统等,提供对人物的宏观褒贬评价等信息,也可以在本文基础上进一步研究篇章级的意见挖掘。

 

 

关键字:意见挖掘 观点抽取 倾向分析 句类分析 基于模板