网络舆情演化模式分析
摘要: 网络舆情演化分析已成为网络舆情研究的热点内容。文章使用描述网民发帖过程的时
间序列来表征网络舆情的演化过程,使用时间序列的分析方法来探索网络舆情的演化规律,构
建了6 个网络舆情演化模式,包括分布模式、平稳模式、相关模式、自相似模式、周期模式和趋
势模式,并给出了相应的模式分析方法。实验表明,构建的网络舆情演化模式能够有效地表征
网络舆情演化过程,有助于更深层次地分析网络舆情演化规律,为后续演化建模提供理论基
础。
关键词: 网络舆情; 演化模式; 时间序列
Pattern Analysis of Internet Public Opinions Evolution
ZHOU Yao-ming,ZHANG Hui-cheng,WANG Bo
( Institute of Information Engineering,Information Engineering University,Zhengzhou 450002,China)
Abstract: Analysis of Internet public opinions evolution has become a hot topic in recent years.
Time series which describe the process of the netizen’s posting can be utilized to represent the evolution
of Internet public opinions. With the analysis methods of time series to explore the evolution
patterns of Internet public opinions,this paper constructs 6 patterns,including distributional pattern,
stationary pattern,correlative pattern,self-similar pattern,periodic pattern and trend pattern.
Techniques to realize these patterns are also discussed. The experimental results show that the patterns
in this paper can express the evolution of Internet public opinions effectively,and provide theoretical
basis for evolution modeling.
Key words: internet public opinions; evolution pattern; time series
网络舆情是指由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情
感和行为倾向的集合[1]。网民对某一事件所持有的认知、态度、情感和行为倾向的变化过程,实际上就是
网络舆情的演化过程。分析网络舆情的演化规律,掌握网民情感和行为倾向的变化规律,为有关部门制定
网络舆情应对策略提供技术支持,对于国家安全和社会和谐稳定具有十分重要的意义。
目前,网络舆情演化的研究主要集中在3 个方面: 基于话题演化的研究[2-3]; 基于网络信息传播的研
究[4-5]; 基于粒子交互模型的研究[6-9]。
话题演化是指某一个话题在传播中的变化过程,主要包括旧话题消亡、新话题产生、一个话题向另一
个话题转移等。文献[2]提出一种动态话题模型,通过将时间划分成若干个区间,对每个区间的文档使用
第3 期周耀明等: 网络舆情演化模式分析335
LDA 模型进行演化分析。文献[3]提出一种连续时间话题演化模型,通过将时间因素引入到LDA 话题模
型,进而分析话题结构随时间的变化规律。
网络信息传播方面,相关研究者认为网络信息传播是舆情演化的基础,相关的研究包括信息在网站间
以及网站内部的传播行为。文献[4]将一个新闻事件的所有文档都获取下来,进而分析一个新闻事件通
过各个网站间的传播状况。文献[5]主要分析了博客之间的信息交互行为特征。
粒子交互模型方面,研究者主要借用物理学中的粒子交互作用对舆情演化中的主体( 人) 以及主体间
的关系进行建模。文献[6]首次提出基于Ising 模型的舆论演化模型,在封闭社区内,由微观粒子间的简
单交互规则导出该社区的复杂现象。文献[7-8]将多数原则MR( Majority Rule) 首次应用在舆论演化研究
中,并提出了MR 舆论演化模型,用于解释公众争论话题演变、谣言传播和恐慌传播等现象。文献[9]根
据网民表达观点的倾向度和坚持己见的自信度,提出一种迁移元胞自动机的网络舆情
演化模型,并用于拟
合网络舆情演化规律。
网络舆情是网民的认知、态度、情感和行为倾向的集合,上述研究将话题演化过程和网络信息传播过
程作为舆情的演化过程进行研究,并没有考虑网民在话题演化过程和信息传播过程中的反应变化情况,从
本质上讲并不是网络舆情。基于粒子交互模型的研究虽然考虑了网民在舆情演化过程中的主体作用,但
由于在建模分析时并没有结合实际的舆情数据,存在理论与实际脱节的现象。
通常而言,网民对某一事件所持有的认知、态度、情感和行为倾向主要是通过网民在论坛、新闻评论、
博客、微博等网络媒体上的发帖行为反映出来。因此,在获取网络舆情数据的基础上,通过提取数据中的
源帖发表时刻、回复评论时刻、发帖用户ID 等行为特征信息,并按适当的时间尺度采样,可以形成表征网
民发帖过程的源帖数、回复数、用户数及源帖率、回复率、用户率等6 个时间序列。这样,网络舆情的演化
过程就可以用描述网民发帖过程的6 个时间序列来表征,进而通过引入时间序列的分析方法来探索网络
舆情的演化规律。
1 网络舆情演化分析原理
网络舆情存在于各类网络媒体中,包括论坛、新闻网站、博客、微博等。上述不同网络媒体中的网络舆
情数据具有同构性,在组织形式上是由源帖和回复评论构成,在表现形式上可分为文本内容信息和行为特
征信息。以论坛为例,论坛是由源帖和回帖组成,其文本内容信息为标题、源帖内容、回帖内容等; 行为特
征信息为源帖发表时刻、回帖时刻、发帖用户ID 等。其中,内容信息是网民情绪、态度和意见的直接反映;
行为特征信息是网民情绪、态度和意见的间接反映,二者均能有效表征网络舆情。内容信息往往涉及语义
理解,需要借助人的综合判断,用计算机实现往往误差较大; 而行为特征信息是网民发帖行为的真实记录,
是适合计算机自动化处理的客观物理量。
在所获取的网络舆情数据中提取行为特征信息,并按适当的时间尺度采样,可以形成源帖数、回复数、
用户数及源帖率、回复率、用户率等6 个时间序列。其中,源帖数、回复数和用户数分别表示到目前为止针
对某一事件所发表的源帖总量、回复评论总量和参与讨论的用户总量,反映了该事件的发展状态。上述时
间序列的数值越大,说明受影响的网民数量越多,该事件的影响力越强。源帖率、回复率和用户率分别表
示当前时刻针对某一事件的源帖发表速率、回复评论速率和新用户的出现速率,反映了该事件的传播阶
段。上述时间序列的数值越大,说明受影响的网民数量增速越大,该事件的传播速度越快。通常而言,存
在一个用户发表多条评论的情况,故用户数往往小于源帖数与回复数的总和,通过统计用户数和用户率可
以避免网络灌水现象对网络舆情发展状态及传播阶段的影响。
时间序列是指按时间顺序排列的一系列被观测的数据,其观测值按固定的时间间隔采样,时间序列一
般用数据的顺序和数值的大小来描述客观世界的动态变化过程[10]。时间序列分析通过提取时间序列的
有关信息,分析数值上的统计关系,来揭示时间序列本身的结构和规律,从而为后续建模提供理论依据。
本文针对网络舆情的特点,结合时间序列的分析原理,构建了分布模式、平稳模式、相关模式、自相似模式、
周期模式和趋势模式等6 个网络舆情演化模式。
336 信息工程大学学报2012 年
2 网络舆情演化模式及分析方法
2. 1 分布模式
分布模式用来考察网络舆情演化过程的分布情况以及网民的情绪和行为倾向的分布情况,进而为使
用何种分布理论来分析网络舆情演化过程提供理论依据。分布模式的分析方法是分析源帖率、回复率和
用户率序列的频率分布和经验累计分布。分析方法为用a 和b 分别表示时间序列X( t) 的最小值和最大
值,再把区间[a,b]分成k 个等间隔的子区间,其中,k 可以用Sturges 公式k = 1 + lgn /lg2 来确定,n 为序列
的长度。这样k 个区间把n 个数据分成k 组,可以统计各组[11]的频数ni、频率分布fi = ni /n、以及经验累
计分布Fi = f1 + f2 +… + fi
,i
= 1,2
,…,k。在得到X( t) 的频率分布和经验累计分布之后,还需要判断该分
布是否与熟知的分布相一致,常用的方法为拟合优度检验[12]。本文选用拟合优度检验方法中的K-S 检验
法,其基本思想为将选定的理论累积分布同观测样本的经验累积分布加以比较,求出它们最大的偏离值,
然后在给定的显著性水平上检验这种偏离值是否是偶然出现的。其检验步骤如下:
①计算分布函数计算长度为n 的序列X( t) ,t = 1,2
,…,n 的经验分布函数Fn
( X) ;
②构造统计量假定X( t) 服从某一分布,计算该分布的理论分布函数G( X) ,构造统计量D = max X | Fn
( X( t) ) - G( X( t) ) |,t = 1,2
,…,n;
③检验统计量在显著性水平为0. 05 下,查表得到统计量D 的临界值cv。若D > cv,则样本不服从
假定分布; 若D < cv,则样本服从假定分布。
2. 2 平稳模式
平稳模式用来考察网络舆情演化过程是否平稳以及网民的情绪和行为倾向是否平稳,进而为国家有
关部门是否需要注意网民动向、是否需要采取一定的措施提供依据,为后续演化建模是否采用平稳模型提
供理论基础。平稳模式的分析方法是分析源帖数、回复数、用户数及源帖率、回复率、用户率序列的宽平稳
特性。本文使用ADF( Augmented Dickey Fuller) 检验法来检验序列的平稳性[13]。
ADF 检验法有3 个检验
模型,其表达式如下:
模型1 ΔX( t) = δX( t - 1) +Σ
k
i = 1ρiΔX( t - i) + εt
( 1)
模型2 ΔX( t) = α + δX( t - 1) +Σ
k
i = 1ρiΔX( t - i) + εt
( 2)
模型3 ΔX( t) = α + βt + δX( t - 1) +Σ
k
i = 1ρiΔX( t - i) + εt
( 3)
其中,X( t) 为当前序列; Δ 为差分运算,即ΔX( t) = X( t) - X( t - 1) ; δ 与ρi
为待估参数,一般由OLS( Ordinary
Least Square) 估计法计算得到; εt
为高斯白噪声; k 为滞后项数,k 值可以用[12 ( n /100) 1 /4]计算得
到,这里n 为序列的长度,·为取整运算; 模型2 在模型1 的基础上增加了截距项α; 模型3 在模型2 的
基础上增加了趋势项βt。给定零假设和备择假设如下:
H0
: δ = 0( X( t) 含单位根,序列非平稳) ( 4)
H1
: δ < 0( X( t) 不含单位根,序列平稳) ( 5)
于是可以通过检验参数δ 是否小于零来实现序列的平稳性检验。ADF 检验法的具体流程如下:
①检验模型3 计算模型3 中参数δ 的t 统计量τδ3 =δ^
3 /S(δ^
3
) ,其中δ^
3
为模型3 中参数δ 的OLS 法估
计值,S(δ^
3
) 为δ^
3
的标准差。在显著性水平0. 05 下,若τδ3
小于模型3 的ADF 临界值cv3
,则拒绝零假设,说
明序列平稳; 若τδ3 > cv3
,进行②;
②检验模型2 计算模型2 中参数δ 的t 统计量τδ2。在显著性水平0. 05 下,若τδ2
小于模型2 的ADF
临界值cv2
,则拒绝零假设,说明序列平稳; 若τδ2 > cv2
,进行③;
③检验模型1 计算模型1 中参数δ 的t 统计量τδ1。在显著性水平0.小于模型1 的ADF
临界值cv1
,则拒绝零假设,说明序列平稳; 若τδ1 > cv1
,则接受零假设,说明序列不平稳。
2. 3 相关模式
05 下,若τδ1
相关模式用来考察网络舆情演化过程前后的相关性以及前面网民的评论对后续网民产生的影响程
第3 期周耀明等: 网络舆情演化模式分析337
度,进而考察该事件所具有的纵向影响力。相关模式的分析方法是分析源帖数、回复数、用户数及源帖率、
回复率、用户率序列的相关性。时间序列按相关性划分,可以分为长相关与短相关。长相关性指在大时滞
的情况下时间序列仍然表现出强相关的性质,短相关性指在大时滞的情况下时间序列表现出弱相关的性
质。本文通过检验自相关系数图来检验序列的相关性,具体做法为计算序列X( t) 的自相关函数R( k) ,若
自相关系数曲线随着时滞的增加而衰减迅速,并呈指数衰减的,则判断该序列具有短相关性; 若自相关系
数曲线随着时滞的增加而衰减较慢,并呈双曲函数衰减的,则判断该序列具有长相关性。
2. 4 自相似模式
自相似模式用来考察网络舆情演化过程是否具有自相似性。自相似性的典型特征: 序
列变化剧烈、自
相关函数衰减较慢、时间尺度较大时仍具有较强的突发性[14]。因此,自相似模式可以考察网民的情绪和
行为倾向是否剧烈变化,是否呈现持久性突发及趋势增强的现象,并为后续演化建模是否采用自相似模型
提供理论基础。自相似模式的分析方法是分析源帖数、回复数、用户数及源帖率、回复率、用户率序列的自
相似特性。
序列X( t) 的自相似程度一般用Hurst 参数来刻画,若Hurst∈( 0. 5,1
) ,说明序列具有自相似性,Hurst
越大表明序列的自相似性越强。若Hurst( 0. 5,1
) ,说明序列不具有自相似性; 若Hurst > 1,说明序列具有
正向持久性; 若Hurst <0,说明序列具有反向持久性[15]。本文使用文献[16]开发的基于小波法的Hurst 参数
分析工具来估计序列的Hurst 参数,该方法具有复杂度较低、对序列是否平稳不敏感、结果可靠等优点。
2. 5 周期模式
周期模式用来考察网络舆情演化过程是否具有周期性,以及网民的情绪和行为倾向是否呈周期性变
化,进而考察该事件所具有的周期性影响力,并为后续演化建模是否采用周期模型提供理论基础。周期模
式的分析方法是分析源帖数、回复数、用户数及源帖率、回复率、用户率序列的周期性。本文使用方差分析
法来判断序列的周期性并提取周期值T[17],具体算法如下:
①设定周期范围若序列X( t) 的长度为n,则周期T 可能的取值为
T =
2,3
,…,( n - 1) /2,n 为奇数
2,3
,…,n /2,n 为偶数( 6)
②计算组间、组内离差平方和将序列X( t) 以T 为间隔进行分组,计算组间离差平方和
为
S1 =Σ
T
j = 1m (X
- ( j) -X
- ) 2,X
-
= 1m
Σ m
i = 1X
- ( i) ( 7)
计算组内离差平方和为
S2 =Σ
T
j = 1Σ
m
i = 1
( X( ij) -X
- ( j) ) 2,X
- ( j) = 1m
Σ m
i = 1X( ij) ( 8)
其中,m 为组内的项数,X( ij) 为第j 组中的第i 个数值。
③计算统计量令自由度f1 = T - 1,f2 = n - T,计算统计量F 为
F = S1 /f1
S2 /f2
( 9)
④检验统计量在显著性水平为α = 0. 05 下,查表得临界值Fα
( f1
,f
2
) ,若F > Fα
( f1
,f
2
) ,则T 为序列
的周期; 若F < Fα
( f1
,f
2
) ,则T 不是序列的周期,根据( 6) 式取另一T 值,并重新进行②到④。
2. 6 趋势模式
趋势模式用来考察网络舆情演化过程的逐渐增加或减少的长期变化趋势,以及网民的情绪和行为倾
向的一般变化方向,为总体把握舆情走向提供依据。趋势模式的分析方法是分析源帖率、回复率、用户率
序列的趋势性。本文使用小波分析法提取时间序列的趋势项,进而分析序列的趋势性。
离散小波变换能够将时间序列X( t) 分解为反映序列趋势成分的低频项A 和反映细节成分的高频项
D。对X( t) 进行J 次分解,则由小波变换的Mallat 多尺度分析式可得[18]
X( t) = AJ
( t) +Σ
J
i = 1Di
( t) ( 10)
其中,
AJ
( t) =Σk
aX
( J,k) J,k
( t) ( 11)
338 信息工程大学学报2012 年
Di
( t) =Σk
dX
( i,k) φi,k
( t) ,i = 1,2
,…,J ( 12)
( 11) 式和( 12) 式中,aX
( J,k) 为第J 级分辨率下X( t) 的低频项AJ
的尺度系数,可由( 13) 式计算得
到; dX
( i,k ) ,i = 1,2
,…,J 为第i 级分辨率下X( t) 的高频项Di
的小波系数,可由( 14) 式计算得到。J,k
( t) 为第J 级分辨率下的尺度函数基,可由给定的尺度函数( t) 通过( 15) 式得到; φi,k
( t) 为第i 级分辨率
下的小波函数基,可由给定的小波函数φ0
( t) 通过( 16) 式得到。这里k 为位移,且k∈Z。
0
aX
( J,k) = < X( t) ,J,k
( t) > ( 13)
dX
( i,k ) = < X( t) ,φi,k
( t) >,i = 1,2
,…,J ( 14)
J,k
( t) = 2J /20
( 2J t - k) ( 15)
φi,k
( t) = 2i /2φ0
( 2i t - k) ,i = 1,2
,…,J ( 16)
通过小波变换,可以将时间序列分解为反映序列趋势成分的低频项和反映细节成分的高频项,进而通
过分析低频项得到时间序列的趋势性。
3 实验结果与性能分析
网络舆情存在于各类网络媒体中,包括论坛、新闻网站、博客和微博等。其中,论坛是最活跃、最容易
反映舆情的网络媒体,凡是重大事件的发生均会立即成为论坛讨论的焦点,论坛中讨论的话题也通常是与
老百姓密切相关的。由于论坛互动性强,允许多人在线讨论,各种思想很容易碰撞进而影响舆论走向,因
此论坛已经成为反映网络舆情的一面“镜子”。本文使用网络论坛数据作为网络舆情的数据源来验证6
个网络舆情演化模式的有效性。需要说明,由于上述不同网络媒体中的舆情数据具有同构性,因此本文所
提出的网络舆情演化模式同样适用于其它网络媒体。
本文以日本核泄漏引发中国各地抢盐事件作为网络舆情的源事件,选择天涯社区中的论坛数据作为
网络舆情的数据源。其中,天涯社区是凤凰网和艾瑞咨询集团共同发布的《全球中文论坛100 强》中排名
第1 的论坛,在知名度和影响力上具有优势,其数据具有代表性[19]。从2011 年3 月16 日16 时天涯社区
出现第1 个关于“抢盐”事件的源帖开始到2011 年3 月21 日15 时为止,共采集120 小时关于“抢盐”事件
的帖子。分别抽取源帖发表时刻、回帖时刻、发帖用户ID 等行为特征信息,并以小时为时间尺度,形成序
列长度为120 的源帖数、回帖数、用户数及源帖率、回帖率、用户率等6 个时间序列。下面按照第2 节的分
析方法,依次分析“抢盐”事件的6 个网络舆情演化模式,进而得到网络舆情的演化规律。
3. 1 分布模式分析
图1 分别为源帖率、回帖率和用户率序列的频率分布直方图,图2 分别为源帖率、回帖率和用户率序
列的经验累积分布曲线。
第3 期周耀明等: 网络舆情演化模式分析339
从图1 和图2 可以看出,源帖率、回帖率和用户率序列的分布特性与泊松分布类似。下面使用K-S 检
验法从定量的角度来判断上述3 个序列是否服从泊松分布,其K-S 统计量如表1 所示。从表1 可以得出,
上述3 个序列的K-S 统计量均大于临界值cv,说明源帖率、回帖率和用户率序列均不服从泊松分布。
表1 源帖率、回帖率、用户率序列的K-S 统计量
K-S 统计量D 源帖率回帖率用户率
泊松分布0. 3479 0. 6065 0. 5974
cv 0. 1118 0. 1242 0. 1268
分布模式实验结果表明,网民在单位时间内对于“抢
盐”事件的发帖数并不服从泊松分布,因此以泊松过程作
为基础的排队理论无法应用于网络舆情的演化过程。因此
本文使用时间序列来刻画网络舆情的演化过程,并用时间
序列的分析方法来探究网络舆情的演化规律。
3. 2 平稳模式分析
表2 分别为源帖数、回帖数、用户数及源帖率、回帖率、用户率序列的平稳性检验结果。从表2 可以得
出,上述6 个序列均有τδi > cvi
,i
= 1,2
,3
,从而说明上述6 个序列均不平稳。
表2 平稳性检验结果
序列τδ1 cv1 τδ2 cv2 τδ3 cv3 平稳性
源帖数0. 4 - 1. 9 - 2. 1 - 2. 8 - 1. 6 - 3. 4 N
回帖数0. 1 - 1. 9 - 1. 8 - 2. 8 - 0. 6 - 3. 4 N
用户数0. 1 - 1. 9 - 1. 8 - 2. 8 - 0. 9 - 3. 4 N
源帖率- 1. 3 - 1. 9 - 2. 2 - 2. 8 - 3. 2 - 3. 4 N
回帖率- 1. 3 - 1. 9 - 2. 4 - 2. 8 - 2. 8 - 3. 4 N
用户率- 1. 3 - 1. 9 - 2. 4 - 2.平稳模式实验结果表明,网络舆情演化
过程不平稳,要么存在特定的趋势性和周期
性,要么呈现突发性,说明网民对于“抢盐”事件的情绪和行为倾向是不平稳的,进而提
醒国家有关部门要注意网民动向,采取一定
措施来积极应对。此外,在后续建模时应充
分考虑演化过程的非平稳性,使用非平稳模
型进行建模。
3. 3 相关模式分析
8 - 2.8 - 3.5 N
图3 分别为源帖数、回帖数和用户数序列的自相关系数图,图4 分别为源帖率、回帖率和用户率序列
的自相关系数图。根据相关模式分析方法,结合图3 和图4 可以看出,源帖数、回帖数和用户数序列呈现
较强的长相关性,源帖率、回帖率和用户率序列呈现相对较弱的长相关性。这是因为源帖数、回帖数和用
户数序列分别表示到目前为止针对“抢盐”事件所发表的源帖总量、回复评论总量和参与讨论的用户总
量,是源帖率、回帖率和用户率序列的累加序列,相邻数值间具有线性关系。源帖率、回帖率和用户率序列
反映的是网民在当前时刻的发帖行为,相邻数值间不具有直接的线性关系,但受到事件发展过程和前面网
民发帖的影响,具有相对较弱的长相关性。
图3 源帖数、回帖数和用户数序列的自相关系数图
相关模式实验结果表明,网络舆情的演化过程在时滞较大的情况下仍表现出较强的相关性,说明“抢
盐”事件或者前面网民的评论对后续网民产生的影响较长远,引发了后续网民的持续
回复与评论,进而反
映了该事件具有较强的纵向影响力。
图4 源帖率、回帖率和用户率序列的自相关系数图
340 信息工程大学学报2012 年
3. 4 自相似模式分析
表3 分别为源帖数、回帖数、用户数及源帖率、回帖率、用户率序列的Hurst 参数估计结果。从表3 可
以得出,源帖率序列的Hurst 值小于1 且接近于1,表明其具有较强的自相似性及突发性; 其余5 个序列的
Hurst 值均大于1,表明其具有非平稳性及正向持久性。
自相似模式实验结果表明,“抢盐”事件的源帖率呈现自相似性,说明相关子事件或子话题的产生呈
突发性,事件发展具有“一波未平一波又起”的特点,一般预示着网民热议沸点的来临。其它5 个序列呈
现非平稳性及正向持久性,说明网民的情绪和行为倾向不平稳且正向持久。此外,在后续建模时应充分考
虑源帖率序列的自相似性,使用自相似模型进行建模。
3. 5 周期模式分析
表4 分别为源帖数、回帖数、用户数及源帖率、回帖率、用户率序列的周期性检验结果。从表4 可以得
出,源帖数、回帖数和用户数序列均不具有周期性,源帖率、回帖率和用户率序列的周期值为24。
表3 Hurst 参数估计结果
序列源帖数回帖数用户数源帖率回帖率用户率
Hurst 1. 23 2. 58 2. 58 0. 89 2. 24 2. 00
表4 周期性检验结果
序列源帖数回帖数用户数源帖率回帖率用户率
周期0 0 0 24 24 24
周期模式实验结果表明,源帖率、回帖率和用户率序列具有周期性,说明网民的情绪和行为倾向呈周
期性变化。周期值为24,正好为一天的小时数,说明引起网民行为变化的主要因素是
网民的上网习惯和
作息规律。此外,在后续建模时应充分考虑演化过程的周期性,使用周期性模型进行建模。
3. 6 趋势模式分析
本文对源帖率序列进行3 次Haar 小波分解,对回帖率和用户率序列分别进行1 次Haar 小波分解,并
提取其低频项得到趋势成分,如图5 所示。从图5 可以得出,源帖率、回帖率和用户率序列均呈现从数值
较低到迅速上升到反复震荡再到逐渐衰落的变化趋势,同时在震荡中呈现周期值为24 的周期性。在回帖
率和用户率的一个周期内存在两个峰值和一个谷值,峰值时段分别对应为10、11 时和21、22 时,谷值时段
为4、5 时。
图5 源帖率、回帖率和用户率序列的趋势图
趋势模式实验结果表明,网民对“抢盐”事件的情绪和行为倾向呈现“潜伏—爆发—反复—缓解”的变
化趋势。网民主要集中在10、11 时和21、22 时这两个时段进行发帖讨论,此时网民的参与度最高,网民在
4、5 时的参与度最低。趋势模式反映了“抢盐”事件的整体趋势状况,有助于把握舆情演化的走向。
4 结束语
近年来,网络舆情演化分析已成为网络舆情研究的热点。由于网络舆情的演化过程从本质上讲就是
网民对某一网络舆情事件所持有的认知、态度、情感和行为倾向的变化过程,并主要通过网民在论坛、新闻
评论、博客、微博等网络媒体上的发帖行为而反映出来。因此,本文创造性地使用描述网民发帖过程的时
间序列来表征网络舆情的演化过程,使用时间序列的分析方法来探索网络舆情的演化规律,并在此基础上
构建了适合计算机定量分析的6 个网络舆情演化模式,包括分布模式、平稳模式、相关模式、自相似模式、
周期模式和趋势模式,并给出了相应的模式分析方法。实验结果表明,本文构建的网络舆情演化模式能够
有效地表征网络舆情的演化过程,有助于更深层次地分析网络舆情的演化规律,为后续的演化建模提供理
第3 期周耀明等: 网络舆情演化模式分析341
论基础。下一步的工作是在得到网络舆情演化规律的基础上进行网络舆情演化建模和趋势预测。
参考文献:
[1] 曾润喜. 网络舆情信息资源共享研究[J]. 情报杂志,2009,28( 8) : 187-191.
[2] David M,Blei John D,Lafferty. Dynamic Topic Models[C]/ / Proceedings of the 23rd International Conference on Machine
Learning. 2006: 113-120.
[3] Wang Xuerui,Andrew McCallum. Topics over Time: A Non-Markov Continuous-Time Model of Topical Trends[C]/ / Proceedings
of International Conference on Knowledge Discovery and Data Mining. 2006: 424-433.
[4] Wan Xiaojun,Yang Jianwu. Learning Information Diffusion Process on the Web[C]/ / Proceedings of World Wide Web conference
series. 2007: 1173-1174.
[5] Avare Stewart,Ling Chen,Raluca Paiu,et al. Discovering Information Diffusion Paths from Blogosphere for Online Advertising
[C]/ / Proceedings of the 1st International Workshop on Data Mining and Audience Intelligence for Advertising( ADKDD’
07) . 2007: 46-53.
[6] Sznajd Weron K,Sznajd J. Opinion evolution in closed community[J]. International Journal of Modern Physics C,2000,11
( 6) : 1157-1165.
[7] Galam S. Minority opinion spreading in random geometry [J]. The European Physical Journal B,2002,25( 4) : 403-406.
[8] Galam S. Contrarian deterministic effects on opinion dynamics: “the hung elections scenario”[J]. Physica A,2006,333:
453-460.
[9] 王根生,勒中坚,陆旭,等. 迁移元胞自动机网络舆情演化模型( M2CA) [J]. 情报学报, 2011, 30( 6) : 570-576.
[10] 杨叔子,吴雅,轩建平. 时间序列分析的工程应用[M]. 第2 版. 武汉: 华中科技大学出版社, 2007.
[11] 吴国富,安万福,刘景海. 实用数据分析方法[M]. 北京: 中国统计出版社, 1992.
[12] 杨振海,程维虎,张军舰. 拟合优度检验[M]. 北京: 科学出版社, 2011.
[13] Halim S,Bisono I N,Melissa,et al. Automatic seasonal auto regressive moving average models and unit root test detection
[C]/ / Proceedings of IEEE International Conference on Industrial Engineering and Engineering Management. 2007: 1129-
1133.
[14] Klymash M,Lavriv O,Bugil B. Multiservice traffic with self-similarity distribution system's parameters modeling and research
[C]/ / Proceedings of the 11th International Conference the Experience of Designing and Application of CAD Systems in Microelectronics
( CADSM) . 2011: 149.
[15] Ledesma S,Ruiz J,Garcia G,et al. Analysis of self-similar data by artificial neural networks Networking [C]/ / Proceedings
of IEEE-ICNSC International Conference on Networking Sensing and Control. 2011: 480-485.
[16] Veitch D,Abry P. Code for the estimation of Scaling Exponents[EB/OL]. [2007-05-04]. http: / /www. cubinlab. ee.
unimelb. edu. au / ~ darryl / secondorder_code. html.
[17] 程光,龚俭,丁伟. 网络流量宏观行为分析的一种时序分解模型[J]. 电子学报, 2002, 30( 11) : 1-5.
[18] 洪飞,吴志美. 基于小波的多尺度网络流量预测模型[J]. 计算机学报, 2006, 29( 1) : 166-170.
[19] 凤凰网,艾瑞咨询集团. 全球最具影响力中文论坛100 强[EB/OL]. [2009-09-20]. http: / /bbs. ifeng. com/zhuanti /
欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍欍
bbstop100 /index. html.
( 上接第305 页)
[6] 张春海,朱江,张尔扬. 基于子空间跟踪的DSSS 通信系统抗窄带干扰研究[J]. 电子与信息学报, 2008,2
9( 5) : 1159-1162.
[7] Wax M,Kailath T. Detection of signals by information theoretic criteria[J]. IEEE Trans on Acoustics Speech,Signal Processing,1985,33
( 2) : 387-392.
[8] Williams D B. Comparison of AIC and MDL to the minimum probability of error criterion [J]. IEEE Sixth SP Workshop on Statistical Signal
and Array Processing, 1992,3
2( 6) : 114-117.
[9] John G Proakis,Dimitris G,Manolakis. Digital Signal Processing: Principles,Algorithms and Applications[M]. 3rd ed. Beijing: Publishing
House of Electronics Industry,2004.__
因篇幅问题不能全部显示,请点此查看更多更全内容