公务员期刊网 论文中心 正文

探究信息的影响和未来研究方向

探究信息的影响和未来研究方向

1基于传播过程的模型

任一用户发表一条博文,只有其粉丝可以看到,用户的粉丝看到后,可能会评论,或者转发,或者发表与该信息话题相关的博文,那用户的粉丝的粉丝就能有机会阅读或者继续传播该条博文。如果原始博主的粉丝对其信息不感兴趣,而没有做出传播的行为,则该条信息就会被逐渐忽略。最早,对于传播动力学的分析是从传染病模型开始的。在典型的传染病模型中,主要是将人群中的个体分成三类,每一类处于一个典型状态。其基本状态包括:S(susceptible)--易染状态(通常为健康状态);I(infected)--感染状态;R(removed)--被移除状态(也成为免疫状态或恢复状态)。研究中主要用到的模型有SI、SIS、SIR以及SIRS,模型中,状态为S的个体会以概率β感染到该疾病,状态为I的个体会以概率γ恢复。在SIS模型中,那些恢复后的个体会自动又变成易感染状态,在SIR模型中,个体会保持在恢复状态,而在SIRS模型中,个体会在恢复之后又以概率α变成易感染状态。这种模型主要是侧重于传播过程的动力学和个体在这几个状态之间的重新分配。通常使用微分方程来表示这几个状态的个体数量的变化。例如在SIR模型中,用下面的方程式来构建模型:=-,=-,=dstditdrtitstitstititdtdtdt其中s(t),i(t)和r(t)是这三个状态在每一时刻所占的比例,且s(t)+i(t)+r(t)=1。这种模型通常只是对信息传播规则的建模,而没有考虑传播网络的拓扑结构对传播行为的影响。随后一些研究分析了在不同类型的网络上,传染病模型所表现出的不同的状态。Moreno等人发展了Daley等人在1964年提出的谣言传播模型。该模型基于SIR模型将人们分为Ignorants(没有听过谣言的人,类似于Susceptible)、Spreaders(谣言传播者)和Stiflers(听到谣言但并不传播谣言的人)三种类型。上述的传染病传播与与信息在中的传播类似。一条博文首先要传播给博文作者的直接粉丝,一部分粉丝会转发该博文并变成转发者,随后影响他们的粉丝,这些转发者在随后看到该博文时,可能会再次转发,也可能不再理会。列举的几种传染病模型与信息传播特征的类比,进一步说明了信息传播与传染病传播机制相一致。Liu等人参考SIR传播模型,使用NetLogo构造了一个基于主体的模型。模型中,将用户分成三类:传播者,未知者和不受影响者,并使用用户出入度的比例代表其的影响力,同时考虑了类似Twitter的网络结构的无标度性,信息传播的特性以及谣言的最大传播时间。许晓东根据社区信息传播网的特性,使用SIR病毒传染模型刻画谣言传播过程,并借助计算机仿真研究传染率和网络的拓扑结构对谣言传播规模的影响,发现降低有效传播率和减小网络度分布熵有利于缩小谣言传播规模。Wang等人提出那些没有关注转发者(Retweetingusers)的用户(Externalusers)也会有可能转发信息,以及转发者会多次地转发相同的信息,并以SIS模型表示的传播为基础,添加了这两种转发行为,来描述信息参与者的动态变化。其他研究者没有直接采用经典的传染病模型,而是根据具体的信息的传播过程及特征来构建传播模型。Xiong等人将Twitter网络中的用户按对信息的接受程度划分为四种类型(Susceptible、Infected、Contacted、Refractory),并提出SCIR模型,探讨了模型仿真过程中随着传播速率改变的整个模型网络的动态变化。Wu等人根据中用户发表、浏览、回复和转发博文的基本行为,将的信息交流分成信息、信息接收、信息加工、信息传播四个阶段,并考虑信息丢失(被用户忽略的信息熵),提出竞争窗口模型,描述了信息的动态传播。上述的基于传播过程的模型,只是描述了网络中用户对信息的接受状态,以及信息传播的动态变化,但却没有考虑用户之间的个体差异和网络的拓扑结构对信息传播的影响。

2经典影响力模型

模型从一组初始的活跃节点开始,沿着离散的时间轴以同步的方式不断地将其他节点转换为活跃态。线性阈值模型(LinearThresholdModel)在LT模型中,在时间t每一个节点v都有一个激活阈值,v所有的处于活跃态的邻居节点都来尝试激活v,如果所有邻居活跃节点的影响度之和超过了v的激活阈值,则v在时间t+1转换为活跃态。且节点v的活跃邻居节点可以多次参与激活v。独立级联模型(IndependentCascadeModel)在IC模型中,在时间t处于活跃态的节点u可以独立地以概率u,vp激活处于非活跃态的邻居节点v,如果v被成功激活,则在时间t+1,转换为活跃态。且不管u在时间t是否激活v,在后续的时间中,u不再激活v。由于这两种模型都是基于离散的时间轴上以同步方式模拟传播过程,并不符合真实的社会网络的传播方式。Gruhl等人[33]对IC模型进行了改进,通过给出一种计算节点间阅读概率和复制概率的算法,给每条边赋予一个传播行为发生概率,使IC模型能够适用于传播可能发生延迟的环境。在此基础上,Saito等人[34]考虑传播中连续时间延迟的影响,进一步提出了CTIC(ContinuousTimeDelayIndependentCascade)和CTLT(ContinuousTimeDelayLinearThreshold)。为了使模型更能适应真实社会网络,Saito[35]考虑传播的异步性将IC和LT模型扩展成AsIC和AsLT模型,模型中使用一个连续的时间轴,并为图中的每条边添加时间延迟的参数。冀进朝等人[36]基于节点间影响不仅存在着衰减,也存在着加强和维持原状的思想,在IC模型的基础上提出完全级联传播模型。

3基于用户影响力的模型

例如权威的用户或处在中心位置的用户都会产生较大的影响力,促进信息的传播。有研究者就从用户对信息的影响力排名来预测信息的传播趋势。Yang等人[40]基于对Twitter网络中的用户行为的大量实证研究提出了一种通过对节点影响力的评估从而预测信息传播趋势的LI模型(LinearInfluenceModel),证明了该模型可以非常准确地评估出节点的影响力并且能可靠地预测出信息在短时间内的传播范围。张闯等人将网络中节点属性分成静态和动态,并提出预测目标的节点影响力,在此基础上提出一种基于节点属性进行信息预测的属性、节点数、倾向(ANV)模型。实验采用BP神经网络预测方法,通过新浪数据预测电影票房,结果表明带有节点属性的方法比没有节点属性的方法的拟合和预测更为准确。Ho等人[42]提出中两种传播关系,Rigid-propagation关系和Loose-propagation关系,并分别以这两种传播关系构建两种影响力树,其中UBI(上限影响力树)的边代表一个从父节点指向子节点的Rigid-propagation关系,LBI(下限影响力树)的边代表一个从父节点指向子节点的Loose-propagation关系。然后使用这两种类型的影响力树模拟的信息传播。

4未来的研究方向

由于具有自己的新特征,其研究角度和方法都有待改进,未来的研究可以考虑以下几个方向。目前绝大部分的信息传播分析都是以静态网络拓扑结构为基础的,但是在现实的中,用户之间的关系网络是随时间动态变化的。下一步的工作需要将网络的动态变化特征添加到信息传播模型中,研究其演化规律。网络中,由于现实的社会关系,共同的地理属性以及相同的兴趣爱好,用户会自发地形成不同的社区。大部分的信息传播都是在社区结构内,因此传播路径都相对较短。目前有些信息传播模型都是在整个网络结构上定义,而忽略了社区结构对信息传播的影响。社区中用户的关系比较紧密,而社区间联系比较稀疏,通常连接各个社区的用户是各社区通信的桥梁。结合社会网络分析方法,研究网络中的社区结构,并分析信息在社区中及社区间的传播规律是一个重要的研究领域。在分析博文内容时,需要注意由于博文的内容简短,口语化,较碎片化,就会导致对一条博文的主题难以准确把握。所以在分析博文内容特征时,为了提高精确度,不但需要研究更准确的特征关键字提取方法,而且要结合上下文情境来分析,这些上下文包括该条博文前后的博文、粉丝的评论等。信息的传播体现在网络中处在各个时间段的结点对信息接受状态的变化,Zeng等人将话题的状态描述成“不被关注”、“出现”、“增长”和“衰减”四个阶段,通过网站结点对话题的不同接受行为分析话题在各个状态之间的转变,进而描述话题在Internet中的动态传播。这类未采用经典传播模型的研究方法也可以具体应用到网络中,通过用户对博文的关注转发程度和概率,描述博文的动态传播过程。基于影响力的信息传播模型中,大部分的参数都是根据经验取值,并没有通过真实的传播数据统计获取,这样势必会影响模型的准确性,而不能很好地预测信息传播的趋势。所以在未来的研究中,获取精确的数据来训练模型参数是构建传播模型的重要方面。

作者:王晶 朱珂 王斌强 单位:武汉大学