人人书

杂志

保存到桌面 | 繁体人人书 | 手机版
传记回忆文学理论侦探推理惊悚悬疑诗歌戏曲杂文随笔小故事书评杂志
人人书 > 杂志 > 推特上中国形象的主题与情感分析

推特上中国形象的主题与情感分析

时间:2024-11-06 09:40:29

国家形象是一个国家的综合实力(即硬实力和软实力的总和)和核心价值观的体现,是一个国家在国际社会中所展示的整体面貌,以及国际社会对其综合实力、核心价值观和整体面貌的感受和评价。

传统的国家形象研究有两种途径,一是对媒体上特别是主流报纸上有关中国的报道进行内容分析,二是针对民众进行调查,来了解外国民众对中国的评价。

自2006年推特(Twitter)诞生以来,自媒体或称社交媒体成了传统媒介机构与公众发表意见的新平台。本研究中,我们采用文本挖掘技术,对推特上涉及中国的英文热门推文进行了分析。研究目的是了解和描述推特英语用户在发布的热门推文中,涉及中国时关注的是哪些主题,呈现出来的态度及情感又是怎样的,以期对对外传播工作有所启示。

一、研究方法

推特平台上共有超过30种的语言版本,但主要语言为英语,本研究以英文版本为研究范围,研究对象是海外媒体及公众所发布的涉及中国、中国人的热门推文。采用新兴的文本挖掘方法,对非结构化的推文文本进行挖掘和处理,工作流程包括了文本的获取、分词与过滤、主题建模、情感分析四个步骤。

1.文本数据的获取

在获取文本数据过程中,我们不区分大小写,以“China”或者“Chinese”为关键词对热门推文进行了检索。热门推文是被转推或被收藏过的推文。搜索热门推文而不是全部推文,主要是考虑到了热门推文的影响力以及工作量问题。所搜索语言为英语,这主要是考虑到推特用户的主要语言为英语,用户所发布的推文也多为英文。推特是在2006年3月开始运营的,本研究的数据收集时间是在2014年初,所以搜索的时间周期为2006年3月到2013年12月。

利用爬虫软件GooSeeker对检索出来的热门推文进行了抓取。GooSeeker是火狐浏览器的插件,包括两个部分:定义提取规则的MetaStudio和用于信息采集DataScraper。利用爬虫技术获得的原始数据包括四个字段,分别是“用户名”“昵称”“推文发布日期”,以及“推文文本”。其中“用户名”和“昵称”是用户属性数据;“推文发布日期”是推文属性数据;“推文文本”属于内容数据,是文本形式的,“推文发布日期”是我们要进行分析的非结构化数据。

第一条含关键词“China”或“Chinese”的热门推文发布于2006年4月30日,推文内容如下:

pickinguptwoout-of-statetwitterers,headingoutforthebestChineseinSF-Eliza's.

因为本研究所关心的是外国人如何呈现中国形象,所以去除了中国人或中国机构所发布的推文。首先,我们认定“昵称”中含中文字符的用户是中国人,删除他们所发的推文,共计26,318条。其次,我们认定用户名或昵称中含“China”或“Chinese”的用户也与中国有关,去除他们所发的推文,共计53,212条。最终获得有效的热门推文一共是842,917条。

2.文本预处理

对推文的预处理包括了分词和过滤,主要运用自然语言处理技术(NLP),利用Python的nltk包进行了操作。

我们的研究对象是推特上的英文的涉华推文,分词方法就是简单的基于空格和标点符号的英文分词法。

过滤是指过滤掉文本中的html链接、@人名、标点符号,以及不必要的空格。同时过滤掉非英文字母、数字、小于或等于三个字符的词(这些词,如the、or、and等绝大多数为无意义的虚词),同时在停用词(StopWords)表的基础上,过滤掉停用词。最后将所有英文字母转换为小写。3.主题建模及主题命名

主题建模(topicmodeling)是本研究中最为关键的一步,利用StanfordTMT0.4.0软件对涉华推文的主题进行LDA(狄利克雷分配模型)建模。StanfordTMT由斯坦福自然语言处理小组(TheStanfordNaturalLanguageProcessingGroup)开发,基于JAVA,用Scala编写,有完整的API文档。LDA建模方法是基于无监督的机器学习技术,不采用任何的主观方法去标识推文,能够更为客观地发现文本中是否存在着潜在主题。

经过了反复的测试,本研究最终选择最大迭代次数为1000,常见词过滤数量为20的结果,最终从80多万条推文中提取了30个主题。

对于所提取的30个主题,软件输出结果中会给出每个主题所对应的前20个关键词以及每个关键词的贡献度。根据各个主题所包含的关键词的特点,经过反复讨论,最终对各个主题进行了命名。

4.情感分析

本研究的情感分析(sentimentanalysis)应用机器学习技术,采用朴素贝叶斯(NaiveBayes)算法,对每一条推文的极性与情感进行识别。具体的操作采用了R语言中的sentiment包。

R语言中的sentiment包在识别极性(polarity)时,会先为每条推文的每种可能极性打分。即每条推文都有两种可能性negative(消极、负向、否定)和positive(积极、正向、肯定)的得分。当两种极性得分相差较大时,则极性拟合为得分较高的极性类别。当两种极性得分相差不大时,则拟合一种新的极性类别,即neutral(中立)。

R语言中的sentiment包在识别情感时,共有六种情感:anger(愤怒)、disgust(厌恶)、fear(恐惧)、joy(喜悦)、sadness(悲伤)和surprise(惊奇)。在分析时会先为每条推文的每种可能情感打分。当六种情感可能性中有一种可能性的得分特别突出,那么该推文的实际情感就拟合为该类别。如果六种情感可能性得分相差不大时,则情感类别拟合为unknow(未知)。如此可知,如果某条推文被拟合得到某一类情感,则该情感一定是强烈的情感。

二、研究结果

1.涉华推文的主题分布

本研究采用LDA主题建模方法把80多万条涉华热门英文推文凝聚为30个主题,各个主题的名称及其占所有主题的百分比如表1所示。

可以看到,涉华热门推文中有关饮食的主题有三个,根据场景的不同分别为“饮食与家庭生活”“饮食与娱乐”,以及“饮食与学校生活”,三个主题合计为10.98%。即有关中华饮食的推文所占比例最高,推特用户中最关心的中国议题是饮食。

在饮食主题之后的占比数量多的五个主题依次是:“亚洲局势”“美国总统选举”“金融市场”“社会化媒体”,以及“经济增长”,这五个主题累计百分比为26%,超过了四分之一。

在国家形象研究中,常见的主题分类是政治、经济、社会及文化的四分法,这也是传统调查法和内容分析方法比较经常采用的分类法。

按照政治、经济、社会及文化的四分法,本研究中利用主题模型生成的“亚洲局势”“美国总统选举”“地区争端”“西藏话题”“媒介审查”“人权话题”“港台话题”“政治丑闻”,以及“计划生育”等九个主题属于政治范畴,所占比例为32.6%。

属于经济类的主题包括“金融市场”“经济增长”“奢侈品市场”“苹果产品”“污染与健康”,以及“航天与探月工程”,共六项,所占比例为20%。

属于文化类的包括“大熊猫与长城”“阅读与谚语”“好莱坞电影”“学校学习”“语言学习”“韩流”,以及“传统医学”,共七个主题,所占比例为21%。

属于社会类的主题包括“社会化媒体”“饮食与家庭生活”“自然灾害与治安”“饮食与娱乐”“饮食与学校生活”“奥运会”“城市生活”,以及“篮球与足球”,共计八个,所占比例为26.4%。2.不同年份及不同议题的极性分析

通过极性分析,我们发现所分析的80多万条英文涉华热门推文中,有54.81%的推文极性为积极正向的;消极负向的推文占31.99%;中立推文比例为13.20%。

历时来看,2006年的数据因为数量很少,忽略不记。从2007年到2013年各年度的极性变化是不大的。负面评价的标准差为1.87%,正面评价的标准差为1.32%,中性评价的变化范围最小,标准差不到1%。

从变化的情况来看,2008年的推文积极正面的评价比例最低,为52%;消极负面评价的比例为35.65%,是历年来最高的。2008年中国发生的重大事件包括北京奥运会、汶川地震、毒奶粉事件,以及全球性的金融危机。

按照政治、经济、文化、社会四个大类别来看,在政治类议题中,积极正面的评价为54.73%,略低于经济、社会及文化议题中正面评价的比例。

3.不同年份及不同议题的情感分析

总体来看,只有25.54%的推文表现出了强烈的情感。近四分之三的推文都没有表现出强烈的情感,情感拟合为unknown。

历时来看,随着时间的推移,涉华热门推文表现出强烈情感的比例越来越多。在2007年,只有20.1%表达出了强烈的情感,而2013年,这个比例已经提升到26.5%。这表明,就中国议题而言,推特用户越来越倾向于表达出强烈的情感。

从所表达出来的情感来看,比例最高的情感是喜悦,占比14.19%;其次为愤怒,占3.49%;排在第三位的情感是难过,比例为3.07%。

从居前两位的情感joy和anger的变化来看,joy呈现出逐年提高的趋势,这说明涉华热门推文中,含有喜悦情感的比例越来越多;而anger呈现出小幅上下波动的态势。

从议题来看,社会类和文化类议题中表现出强烈情感的比例都在27%上下;而经济、政治类议题中具有强烈情感的比例都不足25%。

图1六类情感的分布情况三、结论

本研究着眼于推特上英文用户对有关中国议题的呈现,采用爬虫程序获取数据,利用NLP技术对数据进行预处理,采用主题建模和情感分析两种技术对数据进行处理,得到以下结论:

1.从数量上看,英文涉华热门推文的数量在逐年增加。表明世界对中国及中国相关事物的关注度在持续提高。

2.“饮食”成为英文涉华热门推文中关注度最高的主题,超过十分之一的推文都与中国饮食有关。

3.从政治、经济、文化和社会四大类议题来看,英文涉华热门推文中政治类主题所占比例最高。

4.英文涉华热门推文总体上的极性以积极正向为主。总的来看,推文中只有四分之一表现出了明显的情感,从表现出来的情感的情况来看,喜悦高居第一位,然后依次是生气和难过。从各年度历时来看,表现出喜悦情感的比例有上升的趋势。

(本研究为中国传媒大学亚洲传媒中心资助项目“西方自媒体中的中国形象研究”的阶段性成果)

「参考文献」

1.张培晶、宋蕾:《基于LDA的微博文本主题建模方法研究述评》,《图书情报工作》,2012年第12期。

2.赵妍妍等:《文本情感分析》,《软件学报》,2010年第8期。

3.HofmannT.(2001).Unsupervisedlearningbyprobabilisticlatentsemanticanalysis[J].MachineLearning,42(1):177-196.

4.BleiD,NgA,JordanM.(2003).LatentDirichletallocation[J].JournalofMachineLearningResearch,2003(3):993-1022.

5.O'Connor,Brendan;Balasubramanyan,Ramnath;RoutledgeBryanR.;andSmith,NoahA..‘FromTweetstoPolls:LinkingTextSentimenttoPublicOpinionTimeSeries’(2010).TepperSchoolofBusiness.Paper559.

责编:谭震
   

热门书籍

热门文章