面向网络舆情的评论文本情感分析研究_李光敏

更新时间:2023-05-20 20:27:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第33卷第5期2014年5月

情报杂志

JOURNALOFINTELLIGENCE

Vol.33No.5May2014

面向网络舆情的评论文本情感分析研究

李光敏

1

!

张行文

1

张磊

2

杨朋英

1

(1.湖北师范学院计算机科学技术学院2.河南大学数据与知识工程研究所

黄石435000;开封475004)

随着Internet的迅速发展,互联网超越传统媒体成为反映社会舆情的主要载体。如何有效地从其中获取社

情民意以引导社会健康发展是政府等职能部门所关注的重要问题。首先提出对日益增多的网络评论文本进行情感分析研究的必要性。然后从主题识别、主客观性分类、情感极性分类等方面介绍针对网络舆情的情感分析在国内外的研究进展。最后列举出情感分析在网络舆情监控方面的应用和今后需深入研究的问题。关键词

网络舆情

情感分析

主题识别

极性分类

A

文章编号1002-1965(2014)05-0157-04

中图分类号

TP391.1

文献标志码

DOI10.3969/j.issn.1002-1965.2014.05.028

ResearchonTextSentimentAnalysisforOnlineOpinion

LiGuangmin1

ZhangXingwen1

ZhangLei2

YangPengying1

475004)

(1.CollegeofComputerScienceandTechnology,HubeiNormalUniversity,Huangshi435000;

2.InstituteofDataandKnowledgeEngineering,HenanUniversity,Kaifeng

Abstract

WiththerapiddevelopmentofInternettechnology,Internethasexceededtraditionalmediaandbecomethemaincarrierofso-

cialpublicopinion.Itisimportantforgovernmenthowtoextracteffectivelyandsummarizeuseropinionsexpressedinwebtext.Firstly,thispaperpresentsthenecessityofsentimentanalysisonthegrowingwebtext.Thenitintroducestheresearchprogressbothathomeandabroadoftextsentimentanalysisfromtheprospectoftopicidentificationandsubjectivityclassification,etc.Finally,itsummarizesthepublicopinionmonitoringapplicationstatusandexistingproblemsofit.Keywords

onlineopinion

sentimentanalysis

topicidentification

polarityclassification

[1]

析(SentimentAnalysis)研究十分有必要。Kim认为

0引言

情感分析任务主要是确定主题、观点持有者、陈述定界和情感极性以及它们之间的关系。本文依据该定义将情感分析任务从如下方面展开汇总论述:网络舆情主题识别、文本的主客观分类、情感极性分类和网络舆情监控系统应用。

随着互联网的飞速发展,网络媒体被公认为继报纸、电视之后反映社会舆情的主要载体。用户通过网络媒体(论坛、博客、微博)发表自己关心或利益相关的公共事件所持有的情绪、意见、态度等言论。正是这些包含有喜、怒、哀、乐等个人丰富情感的网络评论文本的涌现,可以方便政府等职能部门利用计算机技术及时了解民众对突发事件、社会现象的态度,进行网络舆情监测、分析、预警和应对,从而及早发现危机苗头,促进社会和谐健康发展。由于网络舆情形成迅速、传播快、范围广,因此利用自然语言处理、人工智能等技术及时地对网络舆情进行监控、预警和引导的情感分

收稿日期:2014-02-13

修回日期:2014-03-24

1网络舆情主题识别

主题识别主要识别评价词语所修饰的对象和领域

相关的本体概念,如新闻事件中的某个话题(“单独二)。主题识别任务主要使用如下方法:胎”

a.基于统计方式的词共现图的主题识别,从某种程度上来说词间的共现频率反映了它们之间的语义关

“非结构化文本评论的情感分析模型构建研究”(编号:Q20132503)的研究成果之一。基金项目:湖北省教育厅青年科学技术研究项目

作者简介:李光敏(1979-),硕士,讲师,研究方向:文本挖掘、情感分析;张行文(1965-),硕士,副教授,研究方向:数据库、数据仓库;张(1981-)男,博士研究生,讲师,研究方向:知识表示、数据挖掘;杨朋英(1973-)女,硕士,讲师,研究方向:数据库应用技术。

·158·情

[2]

报杂志第33卷

联。Trivison赵文清

[3]

最早利用词共现来计算文档间相似度。通过体独有的情感表达方式和整体共用的特征知识,协作式在线学习算法完成主客观分类(Emotional和

Non-emotional.)。

国内针对中文文本的主客观分类研究起步较晚。[17]

叶强提出根据连续双词词类组合模式(2-POS)自动判断句子主观性程度的方法,并在阈值设定为0.12时,分类查准率和查全率均达到了76%,接近英文同类研究。张博

[18]

等人考虑到微博中新闻话题时域性强、影响

力大的特点综合相对词频和词频增加率两个因素抽取主题词,根据共现率构建词共现图,完成新闻话题识

[4]

别。同时Popescu提出的点互信息(Point-wiseMu-tualInformation,PMI)观点也与此思路一致。Liu[5]通过句法分析抽取主题,然后结合PMI算法和名词剪枝算法对抽取的主题进行筛选。Cai和词频分布方法完成主题发现。

b.基于序列标注(SequentialLabeling)的监督学该算法主要包括隐马尔可夫模型(Hidden习算法,

MarkovModel,HMM)和条件随机场(ConditionalRan-domField,CRF)。林琛[7]通过引入字级特征、特征词及线索词特征,无需引入任何外部领域知识的情况下,利用条件随机场求解指定观察序列下的最大概率的状态序列来完成网络舆情的主题识别。翟东海

[8]

[6]

采用逐点互信息将句法结构、依存关系抽取和SVM

[19]

分类方法三者结合,采用模板匹配的方式完成中文观点句抽取工作,并取得不错效果。杨武

等人针对微

2-博文本特点将特征词和主客观线索做语义特征,

POS模式做语法特征,采用贝叶斯算法完成中文微博的主客观句分类,其中F值达到81.2%的实验效果。

从国内外研究现状来看,通过分类器和特征项选取是完成文本主客观分类的主要方法,那么今后采用更具针对性的特征项更能提高分类效果。更深层、

等人将

待测文本作为CRFs的观察序列和状态序列来计算其相关性概率值并反复迭代完成敏感话题的识别,实验结果表明宏平均F值达到0.8235。

c.采用无监督学习算法。其中的主题模型(TopicModel)是将高维度的“文档-词语”向量空间映射到低

“文档-主题”和“主题-词语”空间,有效提高维度的

了文本信息处理的性能。主题模型主要有两类:Hof-mann[9]通过引入概率统计的思想来求解文档、潜在语义空间和词之间的概率分布,从而提出的概率潜在语义分析(ProbabilisticLatentSemantic和Blei

[10]

3情感极性分类研究

情感极性分类是指对主观性文本进行情感极性的

识别,并分别标注为正面(Positive)、负面(Negative)和中性(Neutral),这对政府及时了解大众的真实想法和潜在意见提供重要的数据支撑。该分类目前主要有两种研究思路:基于情感知识的情感分值计算于机器学习的特征选取。3.1

基于情感知识

21]

Turney[20,通过语义倾向性

[20,21]

和基

Analysis)模型(SemanticOrientation)SO(w)=PMI(w,“excel-

提出的潜在狄利克雷分配(LatentDirichletlent”)-PMI(w,“poor”)计算所抽取短语的情感极性,其中用逐点互信息量(PointwiseMutualInformation)PMI来计算所抽取短语与excellent和poor之间的语义相关性。最后计算文本评论中所有情感短语的平均SO值是否大于零来决定文本评论分类(asRecommen-dednotRecommended),对来自四个不同领域的金融投资机构评论的实验结果证明能达到平均74%的准确率,最高达84%。宋双永

[22]

Allocation),它把模型的参数也看作随机变量,从而可。实现彻底的“概率化”以引入控制参数的参数,

Lin[11]提出的基于潜在狄利克雷分配(LDA)的联合情感主题模型能够同时实现主题抽取和情感极性识别。

2文本主客观分类

文本的主客观分类也称陈述界定。该阶段主要分

等人基于两种情感词典

为训练和分类两个过程,通过预处理将半结构化或非结构化的文本表示成计算机能够识别的模型,完成将表达意见情感的主观性文本从描述事实的客观性文本中分离的工作。

Riloff[12,13]等人认为客观性文本会对情感极性分类工作带来噪声干扰,因此需要先进行文本的主客观性分类。Yu

[14]

结合使用,实现了面向微博的热点事件中情感极性判断和趋势分析的系统原型。

通过情感知识进行文本极性分类主要存在问题:出现在字典中的情感词其情感特征通常比较明显,但出现在特定社会事件中的网络新词一般也表达公众的“二胎政策今天放开,正负情感倾向,如喜大普奔啊!”“喜大普奔”中的暗示积极的情感,这类网络新词的出

[23]

现增加了情感词典建立的难度。最近Mikolov基于连续的词袋(bagofwords)和skip-gram模型实现的

等人将词语作为特征项,使用朴素贝叶

斯(NaiveBayes)分类器实现篇章级文本的主客观分

[15]

类并使查准率和查全率达到了80%~90%。Jiang

通过比较针对内容特征、情感词典特征及面向主题特征的三种Tweets文本主客观分类实验发现采用面向主题特征的分类效果最好。Li

[16]

word2vec工具可以将文本语料库转换成词向量,再利用distance工具计算词向量间的相似度,用来表示文本语义上的相似度,这种思路很大程度上丰富情感词

考虑到Tweets中个

的覆盖面。3.2

基于机器学习算法

基于机器学习算法方式

最后用训练好主要使用训练集对统计模型进行训练,的分类器预测新输入文本中的情感极性。

Anjaria[24]等人通过支持向量机(SupportVectorMachines)、朴素贝叶斯(NaiveBayes)、最大熵(Maxi-mumEntropy)、人工神经网络(ArtificialNeuralNet-works)等监督学习算法,同时考虑转发数(retweet)影响因素对2012年的美国大选和2013年印度的卡纳塔克邦议会选举的twitter数据进行比较分析,实验结果其中对证明支持向量机算法获得较高的预测准确率,前者准确率达到88%,后者达到68%。Socher

[25]

献基础上,从技术实现角度综述了国内外文本情感分析的发展历程。近几年来网络舆情中的情感分析工作除了取得较为成熟的研究成果外,尚有如下的问题需要深入研究:

a.在文本的主客观分类中,虽是客观性陈述但也表达了民众明显的情感倾向性,需划入后续的情感极表达对滥用权利这性分类任务中。如“我爸是李刚”

,“没有强拆就没有新中国”一社会现象的蔑视表达对畸形强拆的愤懑。

b.由于舆情的不确定性和多样性,在主题识别过容易发生“主题漂移”现象,在先验知识不多的程中,

情况下,需提高主题内容相关性。

c.微博类社交方式导致文本表述形式多样化,如:简写、拼写错误、标点符号错用、口语等现象,这给文本情感分类任务带来困难。

d.对于社交媒体中关于突发事件(如“马航NH370”)的评论,如何即时发现与挖掘多源异构的井喷式舆情数据中蕴含的潜在信息以了解民众关注的焦点和表达的意见。

参考文献

[1]

KimS-M,HovyE.DeterminingtheSentimentofOpinions[C].Proceedingsofthe20thInternationalConferenceonCom-AssociationforComputationalLinguis-putationalLinguistics,tics,2004:1367.

[2]TrivisonD.TermCo-occurrenceinCited/citingJournalArticles

asaMeasureofDocumentSimilarity[J].Informationprocess-1987,23(3):183-194.ing&management,

[3]赵文清,侯小可.基于词共现图的中文微博新闻话题识别

[J].智能系统学报,2012,7(5):444-449.

[4]PopescuA-M,EtzioniO.ExtractingProductFeaturesandOpin-ionsfromReviews[M].NaturalLanguageProcessingandText2007:9-28.Mining.Springer,

[5]LiuH,ZhaoY,QinB,LiuT.CommenttargetExtractionand

SentimentClassification[J].JournalofChineseinformationprocessing,2010,24(1):84-89.

[6]CaiK,SpanglerS,ChenY,ZhangL.LeveragingSentimentA-nalysisforTopicDetection[J].WebIntelligenceandAgent2010,8(3):291-302.Systems,

[7]林

琛,王兰成.基于条件随机场的网民评论对象识别研究[J].现代图书情报技术,2013,6(63-67.

[8]翟东海,聂洪玉,崔静静,等.基于CRFs模型的敏感话题识别

2014,31(4):993-996.研究[J].计算机应用研究,

[9]HofmannT.ProbabilisticLatentSemanticIndexing[C].Pro-ceedingsofthe22ndAnnualInternationalACMSIGIRConfer-enceonResearchandDevelopmentinInformationRetrieval,ACM,1999:50-57.

[10]BleiDM,NgAY,JordanMI.LatentDirichletAllocation[J].

theJournalofMachineLearningResearch,2003(3):993-1022.

[11]LinC,HeY,EversonR,RugerS.WeaklySupervisedjointSen-timent-topicDetectionfromText[J].KnowledgeandData

提出

的深度学习新算法(NeuralAnalysisofSentiment),通过从影评网站RottenTomatoes抽取出11855条句子中的215154个词组进行情感极性(褒义、贬义)标注,RecursiveNeuralTensorNetwork模型训练后的准确率达到85.4%的理想效果。Xia等人将领域依赖和无

领域约束的词性标记(part-of-speechtags)作为特征使用随机梯度下降法训练权重,通过朴素贝叶斯实项,

现了跨领域文本的情感极性分类。

从前人的研究不难看出,使用机器学习算法对于主观性文本进行情感极性分类的关键在于领域训练集特征项选取及分类算法的选对情感特征项的覆盖率、择。

[26]

4网络舆情监控系统应用

网络舆情监控系统是针对网络舆情进行信息采

话题发现、跟踪预警和分析处理的信息系统。由于集、

网络舆情表达方式多样化、方便快捷、互动灵活等特点,近年来面向网络舆情的监控系统应用也深受欢迎。Cheng[27]基于语义内容识别思路构建的网络舆情监控与分析框架主要分为资源发现、信息筛选、模式发现、信息抽取和舆情处理五个子模块来挖掘热点话题,从而正确引导社会舆论。Wang

[28]

等人利用Twitter数据

对2012年的美国总统大选中选民的支持意向进行挖掘而实现的实时舆情系统,并通过监测数据和实际结果证明了系统的可靠性。丁菊玲

[29]

等人通过采集自

人民网强国论坛的舆情数据采用统一挖掘算法,实现了多粒度的观点柔性挖掘模型,达到网络舆情危机预警的目的。陈彦舟

[30]

等人设计的基于Hadoop微博舆

分析,实现对舆情热情监控系统对采集数据进行挖掘、

点话题的发现及追踪、对微博的社会网络进行分析并可视化显示。

5结束语

本文在研究针对网络舆情的评论文本情感分析文

Engineering,IEEETransactionson,2012,24(6):1134-1145.

[12]RiloffE,WiebeJ.LearningExtractionPatternsforSubjective

.Proceedingsofthe2003ConferenceonEmpir-Expressions[C]

icalMethodsinNaturalLanguageProcessing,AssociationforComputationalLinguistics,2003:105-112.

[13]PangB,LeeL.ASentimentalEducation:SentimentAnalysisU-singSubjectivitySummarizationBasedonMinimumCuts[C].Proceedingsofthe42ndannualmeetingonAssociationforCom-AssociationforComputationalLinguis-putationalLinguistics,2004:271.tics,

[14]YuH,HatzivassiloglouV.TowardsAnsweringOpinionQues-tions:SeparatingFactsfromOpinionsandIdentifyingthePolari-tyofOpinionSentences[C].Proceedingsofthe2003confer-enceonEmpiricalMethodsinNaturalLanguageProcessing,As-2003:129-136.sociationforComputationalLinguistics,

[15]JiangL,YuM,ZhouM,LiuX,ZhaoT.Target-dependentTwit-terSentimentClassification[C].ACL,2011:151-160.

[16]LiG,HoiSC,ChangK,JainR.Micro-bloggingSentimentDe-tectionbyCollaborativeOnlineLearning[C].DataMining(ICDM),2010IEEE10thInternationalConferenceon,IEEE,2010:893-898.

[17]叶

强,张紫琼,罗振雄.面向互联网评论情感分析的中文主.信息系统学报,2007,07(01):观性自动判别方法研究[J]79-91.

[18]张[19]杨

;北京:北京邮电博.基于SVM的中文观点句抽取[D]

武,宋静静,唐继强.中文微博情感分析中主客观句分类2011.大学,

J].重庆理工大学学报(自然科学版),2013,27(1):方法[

20]TurneyPD.ThumbsUporThumbsDown?:SemanticOrienta-[

tionAppliedtoUnsupervisedClassificationofReviews[C].Proceedingsofthe40thAnnualMeetingonAssociationforComputationalLinguistics,AssociationforComputationalLin-2002:417-424.guistics,

[21]DaveK,LawrenceS,PennockDM.MiningthePeanutGallery:

OpinionExtractionandSemanticClassificationofProductRe-C].Proceedingsofthe12thInternationalConferenceonviews[

WorldWideWeb,ACM,2003:519-528.

[22]宋双永,李秋丹,路冬媛.面向微博客的热点事件情感分析方

J].计算机科学,2012,39(B06):226-228.法[

[23]MikolovT,ChenK,CorradoG,DeanJ.EfficientEstimationof

WordRepresentationsinVectorSpace[J].arXivPreprintarX-iv:13013781,2013,

24]AnjariaM,GuddetiRMR.ANovelSentimentAnalysisofSo-[

cialNetworksUsingSupervisedLearning[J].SocialNetworkAnalysisandMining,2014,4(1):1-15.

[25]SocherR,PerelyginA,WuJY,ChuangJ,ManningCD,NgA

Y,PottsC.RecursiveDeepModelsforSemanticCompositional-.ConferenceonEmpiricalityOveraSentimentTreebank[C]

MethodsinNaturalLanguageProcessing.EMNLP,2013:1631-1642.

[26]XiaR,ZongC.APOS-basedEnsembleModelforCross-do-2011:614-622.mainSentimentClassification[C].IJCNLP,

[27]Xian-YilC,Ling-lingZ,QianZ,JinW.TheFrameworkof

NetworkPublicOpinionMonitoringandAnalyzingSystem.JournalofCon-BasedonSemanticContentIdentification[J]2010,5(10):vergenceInformationTechnology,

28]WangH,CanD,KazemzadehA,BarF,NarayananS.ASystem[

forReal-timeTwitterSentimentAnalysisof2012USPresiden-tialElectionCycle[C].ProceedingsoftheACL2012SystemDemonstrations,AssociationforComputationalLinguistics,2012:115-120.

[29]丁菊玲,勒中坚,王根生,等.一种面向网络舆情危机预警的观

.情报杂志,2009(10):152-154.点柔性挖掘模型[J]

[30]陈彦舟,.计曹金璇.基于Hadoop的微博舆情监控系统[J]

2013(4):18-22.算机系统应用,

(责编:贺小利)

J].情报理论与实践,2013,36(3):62-67.研究[[5]张

J].制造业自动化,晶.基于决策树的知识获取方法研究[2011,33(4):154-156.

[6]文庭孝,刘晓英.基于引文分析的我国研究者信息获取能力评

2011(6):21-25,32.价研究[J].图书与情报,[7]王[8]孙

伟,林龙福,崔宏光,等.大气探测系统信息获取能力评估挺,徐长林.基于AHP的原始文献获取评价—以新疆农J].计算机仿真,2011,28(9):234-237.研究[

J].农业图书情报学刊,2012,24(7):58-61.业大学为例[

[9]张建华,J].同济大学刘仲英.知识获取与求精RS-GA策略[

2004,32(6):822-826.学报:自然科学版,

[10]张建华.企业知识管理的知识获取策略[J].科技与管理.

2006,8(3):33-36.

[11]张建华.电子政务知识管理[M].北京:科学出版社,2010.[12]郭璐芸,刘蓓蕾.基于变异系数法的上市公司经营业绩灰色关

2005(2):18-19.联评价[J].统计与决策,

[13]徐小贤,陆俞实,艾唐伟等.基于模糊综合评价方法的企业安

J].安全与环境工程,2009,16(1):69-71.全状况研究[

(责编:刘影梅)

檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪

(上接第197页)

的前端节点;对知识获取绩效进行有效测度,对知识管有效提升知识获取绩效意义重大。理主体准确把握、

鉴于此,本文对知识获取绩效测度进行了完备而深入分析、设计了完备的知识获取综合绩效的研究。首先,

测度指标体系;详细探讨了指标评分策略、测度主体与客体的权重配置方法;接着,通过模糊综合评价实现了对知识获取综合绩效的整合计算;最后,通过算例验证了评价方案的适宜性和可操作性。希冀本文成果对组织提升与改善其知识获取效果有所裨益。

参考文献

[1]张晓棠,荆

心.关系型社会资本与企业知识获取绩效研究

[J].商业时代,2012(18):90-91.

[2]韦于莉.知识获取研究[J].情报杂志,2004,23(4):41-43.[3]兰美辉,毛雁明,周[4]陈

粉,等.知识获取研究[J].人工智能与识

2008(3):2056-2057.别技术,

伟,付振通.复杂产品系统创新中知识获取关键影响因素

本文来源:https://www.bwwdw.com/article/et44.html

Top