网络舆情演化模式分析
2022-11-11
来源:汇智旅游网
第13卷第3期 2012年6月 V0l_13 NO.3 Jun.2012 DOI:10.3969/j.issn.1671—0673.2012.03.016 网络舆情演化模式分析 周耀明,张慧成,王 波 (信息工程大学信息工程学院,河南郑州450002) 摘要:网络舆情演化分析已成为网络舆情研究的热点内容。文章使用描述网民发帖过程的时 间序列来表征网络舆情的演化过程,使用时间序列的分析方法来探索网络舆情的演化规律,构 建了6个网络舆情演化模式,包括分布模式、平稳模式、相关模式、自相似模式、周期模式和趋 势模式,并给出了相应的模式分析方法。实验表明,构建的网络舆情演化模式能够有效地表征 网络舆情演化过程,有助于更深层次地分析网络舆情演化规律,为后续演化建模提供理论基 础。 关键词:网络舆情;演化模式;时间序列 中图分类号:TP391 文献标识码:A 文章编号:1671—0673(2012)03—0334—08 Pattern Analysis of Internet Public Opinions Evolution ZHOU Yao—ming,ZHANG Hui—cheng,WANG Bo (Institute of Information Engineering,Information Engineering University,Zhengzhou 450002,China) Abstract:Analysis of Internet public opinions evolution has become a hot topic in recent years. Time series which describe the process of the netizen’S posting can be utilized to represent the evo— lution of Internet public opinions.With the analysis methods of time series to explore the evolution patterns of Internet public opinions,this paper constructs 6 patterns,including distributional pat— tern,stationary pattern,correlative pattern,self—similar pattern,periodic pattern and trend pattern. Techniques to realize these patterns are also discussed.The experimental results show that the pat— terns in this paper can express the evolution of Internet public opinions effectively,and provide theo— retical basis for evolution modeling. Key words:internet public opinions;evolution pattern;time series 网络舆情是指由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情 感和行为倾向的集合¨ 。网民对某一事件所持有的认知、态度、情感和行为倾向的变化过程,实际上就是 网络舆情的演化过程。分析网络舆情的演化规律,掌握网民情感和行为倾向的变化规律,为有关部门制定 网络舆情应对策略提供技术支持,对于国家安全和社会和谐稳定具有十分重要的意义。 目前,网络舆情演化的研究主要集中在3个方面:基于话题演化的研究 ;基于网络信息传播的研 究 ;基于粒子交互模型的研究 。 话题演化是指某一个话题在传播中的变化过程,主要包括旧话题消亡、新话题产生、一个话题向另一 个话题转移等。文献[2]提出一种动态话题模型,通过将时间划分成若干个区间,对每个区间的文档使用 收稿日期:2011—11—28;修回日期:2011-12-20 基金项目:国家社会科学基金资助项目(09&ZD014);国家863计划资助项目(2007AA01Z439) 作者简介:周耀明(1985一),男,硕士生,主要研究方向为智能信息处理、网络舆情理论研究。 第3期 周耀明等:网络舆情演化模式分析 335 LDA模型进行演化分析。文献[3]提出一种连续时间话题演化模型,通过将时间因素引入到LDA话题模 型,进而分析话题结构随时间的变化规律。 网络信息传播方面,相关研究者认为网络信息传播是舆情演化的基础,相关的研究包括信息在网站间 以及网站内部的传播行为。文献[4]将一个新闻事件的所有文档都获取下来,进而分析一个新闻事件通 过各个网站间的传播状况。文献[5]主要分析了博客之间的信息交互行为特征。 粒子交互模型方面,研究者主要借用物理学中的粒子交互作用对舆情演化中的主体(人)以及主体间 的关系进行建模。文献[6]首次提出基于Ising模型的舆论演化模型,在封闭社区内,由微观粒子间的简 单交互规则导出该社区的复杂现象。文献[7.8]将多数原则MR(Majority Rule)首次应用在舆论演化研究 中,并提出了MR舆论演化模型,用于解释公众争论话题演变、谣言传播和恐慌传播等现象。文献[9]根 据网民表达观点的倾向度和坚持己见的自信度,提出一种迁移元胞自动机的网络舆情演化模型,并用于拟 合网络舆情演化规律。 网络舆情是网民的认知、态度、情感和行为倾向的集合,上述研究将话题演化过程和网络信息传播过 程作为舆情的演化过程进行研究,并没有考虑网民在话题演化过程和信息传播过程中的反应变化情况,从 本质上讲并不是网络舆情。基于粒子交互模型的研究虽然考虑了网民在舆情演化过程中的主体作用,但 由于在建模分析时并没有结合实际的舆情数据,存在理论与实际脱节的现象。 通常而言,网民对某一事件所持有的认知、态度、情感和行为倾向主要是通过网民在论坛、新闻评论、 博客、微博等网络媒体上的发帖行为反映出来。因此,在获取网络舆情数据的基础上,通过提取数据中的 源帖发表时刻、回复评论时刻、发帖用户ID等行为特征信息,并按适当的时间尺度采样,可以形成表征网 民发帖过程的源帖数、回复数、用户数及源帖率、回复率、用户率等6个时间序列。这样,网络舆情的演化 过程就可以用描述网民发帖过程的6个时间序列来表征,进而通过引入时间序列的分析方法来探索网络 舆情的演化规律。 1 网络舆情演化分析原理 网络舆情存在于各类网络媒体中,包括论坛、新闻网站、博客、微博等。上述不同网络媒体中的网络舆 情数据具有同构性,在组织形式上是由源帖和回复评论构成,在表现形式上可分为文本内容信息和行为特 征信息。以论坛为例,论坛是由源帖和回帖组成,其文本内容信息为标题、源帖内容、回帖内容等;行为特 征信息为源帖发表时刻、回帖时刻、发帖用户ID等。其中,内容信息是网民情绪、态度和意见的直接反映; 行为特征信息是网民情绪、态度和意见的间接反映,二者均能有效表征网络舆情。内容信息往往涉及语义 理解,需要借助人的综合判断,用计算机实现往往误差较大;而行为特征信息是网民发帖行为的真实记录, 是适合计算机自动化处理的客观物理量。 在所获取的网络舆情数据中提取行为特征信息,并按适当的时间尺度采样,可以形成源帖数、回复数、 用户数及源帖率、回复率、用户率等6个时间序列。其中,源帖数、回复数和用户数分别表示到目前为止针 对某一事件所发表的源帖总量、回复评论总量和参与讨论的用户总量,反映了该事件的发展状态。上述时 间序列的数值越大,说明受影响的网民数量越多,该事件的影响力越强。源帖率、回复率和用户率分别表 示当前时刻针对某一事件的源帖发表速率、回复评论速率和新用户的出现速率,反映了该事件的传播阶 段。上述时间序列的数值越大,说明受影响的网民数量增速越大,该事件的传播速度越快。通常而言,存 在一个用户发表多条评论的情况,故用户数往往小于源帖数与回复数的总和,通过统计用户数和用户率可 以避免网络灌水现象对网络舆情发展状态及传播阶段的影响。 时间序列是指按时间顺序排列的一系列被观测的数据,其观测值按固定的时间间隔采样,时间序列一 般用数据的顺序和数值的大小来描述客观世界的动态变化过程¨ 。时间序列分析通过提取时间序列的 有关信息,分析数值上的统计关系,来揭示时间序列本身的结构和规律,从而为后续建模提供理论依据。 本文针对网络舆情的特点,结合时间序列的分析原理,构建了分布模式、平稳模式、相关模式、自相似模式、 周期模式和趋势模式等6个网络舆情演化模式。 336 信息工程大学学报 2 网络舆情演化模式及分析方法 2.1分布模式 分布模式用来考察网络舆情演化过程的分布情况以及网民的情绪和行为倾向的分布情况,进而为使 用何种分布理论来分析网络舆情演化过程提供理论依据。分布模式的分析方法是分析源帖率、回复率和 用户率序列的频率分布和经验累计分布。分析方法为用。和b分别表示时间序列 (t)的最小值和最大 值,再把区间[0,b]分成k个等间隔的子区间,其中,k可以用Sturges公式k=1+lgn/lg2来确定,/7,为序列 的长度。这样k个区间把/t'个数据分成k组,可以统计各组¨ 的频数n 、频率分布 :ni/n、以及经验累 计分布F = + +…+ , =1,2,…,k。在得到X(t)的频率分布和经验累计分布之后,还需要判断该分 布是否与熟知的分布相一致,常用的方法为拟合优度检验 。本文选用拟合优度检验方法中的 —s检验 法,其基本思想为将选定的理论累积分布同观测样本的经验累积分布加以比较,求出它们最大的偏离值, 然后在给定的显著性水平上检验这种偏离值是否是偶然出现的。其检验步骤如下: ①计算分布函数 计算长度为/'t的序列 (£),t=1,2,…,n的经验分布函数F (X); ②构造统计量 假定 (t)服从某一分布,计算该分布的理论分布函数G( ),构造统计量D=maxl F ^ ( (t))一G( (t))I,t=1,2,…,n; ③检验统计量 在显著性水平为0.05下,查表得到统计量D的临界值c 。若D>c ,则样本不服从 假定分布;若D<c ,则样本服从假定分布。 2.2平稳模式 平稳模式用来考察网络舆情演化过程是否平稳以及网民的情绪和行为倾向是否平稳,进而为国家有 关部门是否需要注意网民动向、是否需要采取一定的措施提供依据,为后续演化建模是否采用平稳模型提 供理论基础。平稳模式的分析方法是分析源帖数、回复数、用户数及源帖率、回复率、用户率序列的宽平稳 特性。本文使用ADF(Augmented Dickey Fuller)检验法来检验序列的平稳性 t3 3。ADF检验法有3个检验 模型,其表达式如下: k 模型1 AX( ):SX(t一1)+∑p AX(t—i)+占 0=l (1) (2) (3) k 模型2 AX(t)= +SX(t一1)+∑p AX(t—i)+ I=l k 模型3 △ (t)= +卢 +8x(t一1)+∑P AX(t— )+占 其中,X(t)为当前序列;△为差分运算,即AX(t)=X(t)一X(t一1);艿与P 为待估参数,一般由OLS(Ordi- nary Least Square)估计法计算得到; 为高斯白噪声;k为滞后项数,k值可以用[12(n/100)“ ]计算得 到,这里n为序列的长度,[・】为取整运算;模型2在模型1的基础上增加了截距项 ;模型3在模型2的 基础上增加了趋势项 。给定零假设和备择假设如下: 风:6=0(X(t)含单位根,序列非平稳) :6<0(X(t)不含单位根,序列平稳) 于是可以通过检验参数6是否小于零来实现序列的平稳性检验。ADF检验法的具体流程如下: (4) (5) ①检验模型3 计算模型3中参数6的t统计量r =岛/S( ),其中63为模型3中参数艿的OLS法估 计值,S(6 )为6 的标准差。在显著性水平0.05下,若 小于模型3的ADF临界值c ,,则拒绝零假设,说 明序列平稳;若 >c ,,进行②; ②检验模型2计算模型2中参数6的t统计量r 在显著性水平0.05下,若 如小于模型2的ADF 临界值 :,则拒绝零假设,说明序列平稳;若 > ,进行③; ③检验模型1 计算模型1中参数 的t统计量r .。在显著性水平0.05下,若.r 小于模型1的ADF 临界值 ,则拒绝零假设,说明序列平稳;若|r ,> 。,则接受零假设,说明序列不平稳。 2.3 相关模式 相关模式用来考察网络舆情演化过程前后的相关性以及前面网民的评论对后续网民产生的影响程 第3期 周耀明等:网络舆情演化模式分析 337 度,进而考察该事件所具有的纵向影响力。相关模式的分析方法是分析源帖数、回复数、用户数及源帖率、 回复率、用户率序列的相关性。时间序列按相关性划分,可以分为长相关与短相关。长相关性指在大时滞 的情况下时间序列仍然表现出强相关的性质,短相关性指在大时滞的情况下时间序列表现出弱相关的性 质。本文通过检验自相关系数图来检验序列的相关性,具体做法为计算序列X(t)的自相关函数R(k),若 自相关系数曲线随着时滞的增加而衰减迅速,并呈指数衰减的,则判断该序列具有短相关性;若自相关系 数曲线随着时滞的增加而衰减较慢,并呈双曲函数衰减的,则判断该序列具有长相关性。 2.4 自相似模式 自相似模式用来考察网络舆情演化过程是否具有自相似性。自相似性的典型特征:序列变化剧烈、自 相关函数衰减较慢、时间尺度较大时仍具有较强的突发性¨ 。因此,自相似模式可以考察网民的情绪和 行为倾向是否剧烈变化,是否呈现持久性突发及趋势增强的现象,并为后续演化建模是否采用自相似模型 提供理论基础。自相似模式的分析方法是分析源帖数、回复数、用户数及源帖率、回复率、用户率序列的自 相似特性。 序列 ( )的自相似程度一般用Hurst参数来刻画,若Hurst∈(0.5,1),说明序列具有自相似性,Hurst 越大表明序列的自相似性越强。若Hurst隹(0.5,1),说明序列不具有自相似性;若Hurst>1,说明序列具有 正向持久性;若Hurst<0,说明序列具有反向持久性 。本文使用文献[16]开发的基于小波法的Hurst参数 分析工具来估计序列的Hurst参数,该方法具有复杂度较低、对序列是否平稳不敏感、结果可靠等优点。 2.5周期模式 周期模式用来考察网络舆情演化过程是否具有周期性,以及网民的情绪和行为倾向是否呈周期性变 化,进而考察该事件所具有的周期性影响力,并为后续演化建模是否采用周期模型提供理论基础。周期模 式的分析方法是分析源帖数、回复数、用户数及源帖率、回复率、用户率序列的周期性。本文使用方差分析 法来判断序列的周期性并提取周期值 Ⅲ ,具体算法如下: ①设定周期范围 若序列X(t)的长度为n,则周期 可能的取值为 = .2 3 n/2 凡I,,…, ,凡为偶数 ,‘一,(n-1奇数 ㈩ ②计算组间、组内离差平方和 将序列X(t)以 为间隔进行分组,计算组间离差平方和为 S =∑m( ( )一X) ,X= ∑X( ) (7) 计算组内离差平方和为 S:=∑∑(X(ii)一X(j)) ,x(j)= ∑X( ) (8) 其中,m为组内的项数, ( )为第 组中的第i个数值。 ③计算统计量 令自由度 =T一1 =n—T,计算统计量F为 F= (9)() ④检验统计量 在显著性水平为 =0.05下,查表得临界值F ( 的周期;若F<F ( 2.6趋势模式 ),若F>F ( ),则 为序列 ),则T不是序列的周期,根据(6)式取另一 值,并重新进行②到④。 趋势模式用来考察网络舆情演化过程的逐渐增加或减少的长期变化趋势,以及网民的情绪和行为倾 向的一般变化方向,为总体把握舆情走向提供依据。趋势模式的分析方法是分析源帖率、回复率、用户率 序列的趋势性。本文使用小波分析法提取时间序列的趋势项,进而分析序列的趋势性。 离散小波变换能够将时间序列X(t)分解为反映序列趋势成分的低频项A和反映细节成分的高频项 D。对 (f)进行‘,次分解,则由小波变换的Mallat多尺度分析式可得¨ X(t)=A,(t)+∑D (t) 其中, A,(t)= a (J,k)咖卅(t) (11) (10) 338 信息工程大学学报 D (t)= d (i, ) (t), 1,2,…,., (12) (11)式和(12)式中,o (J,.j})为第‘,级分辨率下 ( )的低频项A,的尺度系数,可由(13)式计算得 到; (i,j}), =1,2,…,.,为第i级分辨率下X(f)的高频项D 的小波系数,可由(14)式计算得到。币M ( )为第.,级分辨率下的尺度函数基,可由给定的尺度函数 。( )通过(15)式得到; m( )为第i级分辨率 下的小波函数基,可由给定的小波函数 。( )通过(16)式得到。这里 为位移,且 ∈Z。 n (J, )=<X( ), ¨(t)> d (i, )=< (f), ( )>,i=1,2,…,l, ¨(13) (14) (15) (16) ( )=2J/2币0(2it一 ) . ( )=2i/2 0(2‘ 一 ),i=1,2,…,J 通过小波变换,可以将时间序列分解为反映序列趋势成分的低频项和反映细节成分的高频项,进而通 过分析低频项得到时间序列的趋势性。 3实验结果与性能分析 网络舆情存在于各类网络媒体中,包括论坛、新闻网站、博客和微博等。其中,论坛是最活跃、最容易 反映舆情的网络媒体,凡是重大事件的发生均会立即成为论坛讨论的焦点,论坛中讨论的话题也通常是与 老百姓密切相关的。由于论坛互动性强,允许多人在线讨论,各种思想很容易碰撞进而影响舆论走向,因 此论坛已经成为反映网络舆情的一面“镜子”。本文使用网络论坛数据作为网络舆情的数据源来验证6 个网络舆情演化模式的有效性。需要说明,由于上述不同网络媒体中的舆情数据具有同构性,因此本文所 提出的网络舆情演化模式同样适用于其它网络媒体。 本文以El本核泄漏引发中国各地抢盐事件作为网络舆情的源事件,选择天涯社区中的论坛数据作为 网络舆情的数据源。其中,天涯社区是凤凰网和艾瑞咨询集团共同发布的《全球中文论坛100强》中排名 第1的论坛,在知名度和影响力上具有优势,其数据具有代表性¨ 。从2011年3月16日16时天涯社区 出现第1个关于“抢盐”事件的源帖开始到2011年3月21日15时为止,共采集120小时关于“抢盐”事件 的帖子。分别抽取源帖发表时刻、回帖时刻、发帖用户ID等行为特征信息,并以小时为时间尺度,形成序 列长度为120的源帖数、回帖数、用户数及源帖率、回帖率、用户率等6个时间序列。下面按照第2节的分 析方法,依次分析“抢盐”事件的6个网络舆情演化模式,进而得到网络舆情的演化规律。 3.1 分布模式分析 图1分别为源帖率、回帖率和用户率序列的频率分布直方图,图2分别为源帖率、回帖率和用户率序 列的经验累积分布曲线。 篓0囊.8 婺蓦 篓誉 图2源帖率、回帖率和用户率序列的经验累积分布曲线 第3期 周耀明等:网络舆情演化模式分析 339 从图i和图2可以看出,源帖率、回帖率和用户率序列的分布特性与泊松分布类似。下面使用K—s检 验法从定量的角度来判断上述3个序列是否服从泊松分布,其K.s统计量如表1所示。从表1可以得出, 上述3个序列的K.s统计量均大于临界值 ,说明源帖率、回帖率和用户率序列均不服从泊松分布。 分布模式实验结果表明,网民在单位时间内对于“抢 表i 源帖率、回帖率、用户率序列的K.s统计量 盐”事件的发帖数并不服从泊松分布,因此以泊松过程作 为基础的排队理论无法应用于网络舆情的演化过程。因此 本文使用时间序列来刻画网络舆情的演化过程,并用时间 序列的分析方法来探究网络舆情的演化规律。 3.2平稳模式分析 表2分别为源帖数、回帖数、用户数及源帖率、回帖率、用户率序列的平稳性检验结果。从表2可以得 出,上述6个序列均有 >c , 1,2,3,从而说明上述6个序列均不平稳。 平稳模式实验结果表明,网络舆情演化 过程不平稳,要么存在特定的趋势性和周期 性,要么呈现突发性,说明网民对于“抢盐” 序列 源帖数 回帖数 7"81 0.4 O.1 一表2平稳性检验结果 f62 r幻 —平稳性 —1.9 1.9 —2.1 1.8 2.8 一1.6 O.6 3.4 3.4 3.4 3.4 3.4 ——事件的情绪和行为倾向是不平稳的,进而提 醒国家有关部门要注意网民动向,采取一定 措施来积极应对。此外,在后续建模时应充 分考虑演化过程的非平稳性,使用非平稳模 型进行建模。 3.3相关模式分析 2.8 2.8 2.8 2.8 一—用户数 源帖率 回帖率 用户率 —O.1 1.3 1.3 —1.9 1.9 1.9 —1.8 2.2 2.4 —一O.9 3.2 2.8 2.8 ————————————1.3 —1.9 —2.4 —2.8 ——3.5 图3分别为源帖数、回帖数和用户数序列的自相关系数图,图4分别为源帖率、回帖率和用户率序列 的自相关系数图。根据相关模式分析方法,结合图3和图4可以看出,源帖数、回帖数和用户数序列呈现 较强的长相关性,源帖率、回帖率和用户率序列呈现相对较弱的长相关性。这是因为源帖数、回帖数和用 户数序列分别表示到目前为止针对“抢盐”事件所发表的源帖总量、回复评论总量和参与讨论的用户总 量,是源帖率、回帖率和用户率序列的累加序列,相邻数值间具有线性关系。源帖率、回帖率和用户率序列 反映的是网民在当前时刻的发帖行为,相邻数值间不具有直接的线性关系,但受到事件发展过程和前面网 民发帖的影响,具有相对较弱的长相关性。 ●●I-●●-●II 。。 崔。 皿0 『1『¨1 1琵O。 。『『『1 嚣'血o0。 ●I--I-●l-.。 『『f1I『1 I’●●I 1I●●Il●● 皿0 u , lu l3 20 u Ju I3 u 0 5 10 15 20 时滞 时滞 时滞 图3 源帖数、回帖数和用户数序列的自相关系数图 相关模式实验结果表明,网络舆情的演化过程在时滞较大的情况下仍表现出较强的相关性,说明“抢 盐”事件或者前面网民的评论对后续网民产生的影响较长远,引发了后续网民的持续回复与评论,进而反 映了该事件具有较强的纵向影响力。 1 0 嚣。 詈。 0 图4源帖率、回帖率和用户率序列的自相关系数图 340 信息工程大学学报 3.4自相似模式分析 表3分别为源帖数、回帖数、用户数及源帖率、回帖率、用户率序列的Hurst参数估计结果。从表3可 以得出,源帖率序列的Hurst值小于1且接近于1,表明其具有较强的自相似性及突发性;其余5个序列的 Hurst值均大于1,表明其具有非平稳性及正向持久性。 自相似模式实验结果表明,“抢盐”事件的源帖率呈现自相似性,说明相关子事件或子话题的产生呈 突发性,事件发展具有“一波未平一波又起”的特点,一般预示着网民热议沸点的来临。其它5个序列呈 现非平稳性及正向持久性,说明网民的情绪和行为倾向不平稳且正向持久。此外,在后续建模时应充分考 虑源帖率序列的自相似性,使用自相似模型进行建模。 3.5周期模式分析 表4分别为源帖数、回帖数、用户数及源帖率、回帖率、用户率序列的周期性检验结果。从表4可以得 出,源帖数、回帖数和用户数序列均不具有周期性,源帖率、回帖率和用户率序列的周期值为24。 表3 Hurst参数估计结果 表4周期性检验结果 序列 源帖数Hurst 1.23 回帖数2.58 用户数2.58 源帖率 回帖率0.89 2.24 用户率 2.00 壁型 周期茎旦 鏊旦 鳖塑些兰旦些垩旦 垩 0 0 0 24 24 24 周期模式实验结果表明,源帖率、回帖率和用户率序列具有周期性,说明网民的情绪和行为倾向呈周 期性变化。周期值为24,正好为一天的小时数,说明引起网民行为变化的主要因素是网民的上网习惯和 作息规律。此外,在后续建模时应充分考虑演化过程的周期性,使用周期性模型进行建模。 3.6趋势模式分析 本文对源帖率序列进行3次Haar小波分解,对回帖率和用户率序列分别进行1次Haar小波分解,并 提取其低频项得到趋势成分,如图5所示。从图5可以得出,源帖率、回帖率和用户率序列均呈现从数值 较低到迅速上升到反复震荡再到逐渐衰落的变化趋势,同时在震荡中呈现周期值为24的周期性。在回帖 率和用户率的一个周期内存在两个峰值和一个谷值,峰值时段分别对应为10、11时和21、22时,谷值时段 为4、5时。 4(】 35 1000 800 30 Jj{L 25 20 姆600 馨 亘400 氍l5 1O 5 200 0 0 20 40 60 80 100 小时 图5 源帖率、回帖率和用户率序列的趋势图 趋势模式实验结果表明,网民对“抢盐”事件的情绪和行为倾向呈现“潜伏一爆发一反复一缓解”的变 化趋势。网民主要集中在10、11时和21、22时这两个时段进行发帖讨论,此时网民的参与度最高,网民在 4、5时的参与度最低。趋势模式反映了“抢盐”事件的整体趋势状况,有助于把握舆情演化的走向。 4结束语 近年来,网络舆情演化分析已成为网络舆情研究的热点。由于网络舆情的演化过程从本质上讲就是 网民对某一网络舆情事件所持有的认知、态度、情感和行为倾向的变化过程,并主要通过网民在论坛、新闻 评论、博客、微博等网络媒体上的发帖行为而反映出来。因此,本文创造性地使用描述网民发帖过程的时 间序列来表征网络舆情的演化过程,使用时间序列的分析方法来探索网络舆情的演化规律,并在此基础上 构建了适合计算机定量分析的6个网络舆情演化模式,包括分布模式、平稳模式、相关模式、自相似模式、 周期模式和趋势模式,并给出了相应的模式分析方法。实验结果表明,本文构建的网络舆情演化模式能够 有效地表征网络舆情的演化过程,有助于更深层次地分析网络舆情的演化规律,为后续的演化建模提供理 第3期 周耀明等:网络舆情演化模式分析 34l 论基础。下一步的工作是在得到网络舆情演化规律的基础上进行网络舆情演化建模和趋势预测。 参考文献: [1]曾润喜.网络舆情信息资源共享研究[J].情报杂志,2009,28(8):187—191. [2]David M,Blei John D,Laffetry.Dynamic Topic Models[C]//Proceedings of the 23 rd International Conference on Machine Learning.2006:1 13—120. [3]Wang Xuerui,Andrew McCallum.Topics over Time:A Non—Markov Continuous—Time Model of Topical Trends[c]//Pro— ceedings of International Conference on Knowledge Discovery and Data Mining.2006:424433. [4] Wan Xiaojun,Yang Jianwu.Learning Information Diffusion Process on the Web[C]//Proceedings of World Wide Web con.  ̄renee series.2007:1 173—1 174. ewart,Ling Chen,Raluca Paiu,et a1.Discovering Information Diffusion Paths from Blogosphere for Online Advertis— [5] Avare Sting[C]//Proceedings of the l st International Workshop on Data Mining and Audience Intelligence orf Advertising(ADKDD’ O7).2007:46—53. [6] Sznajd Weron K,Szn ̄d J.Opinion evolution in closed community[J].International Journal of Modern Physics C,2000,1 1 (6):1157—1165. [7] Galam S.Minority opinion spreading in random geometry[J].The European Physical Journal B,2002,25(4):403-406. [8] Galam S.Contrarian deterministic effects OD opinion dynamics:“the hung elections scenario”[J].Physica A,2006,333: 453-460. 9] 王根生,勒中坚,陆旭,等.迁移元胞自动机网络舆情演化模型(M CA)[J].情报学报,2011,30(6):570.576. 1O 11 12 杨叔子,吴雅,轩建平.时间序列分析的工程应用[M].第2版.武汉:华中科技大学出版社,2007. 吴国富,安万福,刘景海.实用数据分析方法[M].北京:中国统计出版社,1992. 杨振海,程维虎,张军舰.拟合优度检验[M].北京:科学出版社,2011. 13 Halim S,Bisono I N,Melissa,et a1.Automatic seasonal auto regressive moving average models and unit root test detection [C]//Proceedings of IEEE International Conference on Industrial Engineering and Engineering Management.2007:1 129— 1133. ymash M,Lavriv O,Bugil B.Muhiservice trafic wifth self・similarity distribution systemg parameters modeling and research [14] Kl[c]//Proceedings of the 1 l th International Conference the Experience of Designing and Application of CAD Systems in Mi— croelectronies(CADSM).201 l:149. [15] Ledesma S,Ruiz J,Garcia G,et a1.Analysis of self-similar data by artiifcial neural networks Networking[C]//Proceed— ings of IEEE—ICNSC International Conference on Networking Sensing and Contro1.201 1:480-485. [16] Veitch D,Abry P.Code for the estimation of Scaling Exponents[EB/OL].[2007-05-04].http://www.cubinlab.ee. unimelb.edu.au/一darryl/secondordercode.htm1. _[17] 程光,龚俭,丁伟.网络流量宏观行为分析的一种时序分解模型[J].电子学报,2002,30(11):1-5. [18] 洪飞,吴志美.基于小波的多尺度网络流量预测模型[J].计算机学报,2006,29(1):166.170. [19] 凤凰网,艾瑞咨询集团.全球最具影响力中文论坛100强[EB/OL].[2009-09—20].http://bbs.ifeng.com/zhuanti/ bbstopl00/index.htm1. (上接第305页) [6] 张春海,朱江,张尔扬.基于子空间跟踪的DSSS通信系统抗窄带干扰研究[J].电子与信息学报,2008,29(5):1159.1162. [7]Wax M,Kailath T.Detection of signals by information theoretic criteria[J].IEEE Trans on Acoustics Speech,Signal Processing,1985,33 (2):387-392. [8]Williams D B.Comparison of AIC and MDL to the minimum probability of error criterion[J].IEEE Sixth SP Workshop on Statistical Signal and Array Processing,1992,32(6):114-117. [9]John G Proakis,Dimitris G,Manolakis.Digital Signal Processing:Principles,Algorithms and Applications[M].3rd ed.Beijing:Publishing House of Electronics Indust ̄,2004.