公务员期刊网 论文中心 正文

计算机安全审核中大数据技术的应用

计算机安全审核中大数据技术的应用

摘要:笔者以计算机信息安全为研究对象,分析大数据技术在信息安全系统中的具体应用,并尝试将系统优化,结合Apriori算法的应用理念,通过算法的应用流程展现大数据技术在计算机中的具体应用,分析大数据技术维护信息安全的能力,实现网络安全的目标。

关键词:Apriori算法;遗传算法;信息安全

引言

在大数据时代,网络信息安全问题来自多重因素,具体包括网络环境的开放性、人为操作的失误问题、黑客入侵、垃圾信息干扰等。为保障网络信息安全,可以采取的防护措施包括:增强计算机应用人员的安全防护意识、搭建防火墙、提升黑客的防护能力等。在防护措施中,以大数据技术为主导,具有良好的应用效果。

1计算机安全审核系统搭建

安全审核系统中包括多个模块,如图1所示,笔者分别从主机网络、集中式与分布式、智能3个方面建设安全审核系统。由图1可知,主机网络安全审核包括基于主机的安全审核和基于网络的安全审核。集中式安全审核系统和分布式审核系统,包括集中式安全审核和分布式安全审核。基于智能技术的分布式安全审核系统包括AAFID系统结构和AAFID的过滤器。主机视角开展的信息安全审核:依据系统日志识别入侵信息,针对入侵类型开展系统修复。网络安全审核:分析网络传输数据信息,保障数据安全。集中式与分布式开展的安全审核:将多个系统中的数据,实行数据采集与整合方式,加以数据分析,此方式极易引起网络传输容量不足、计算能力不佳等问题;在分布式信息审核系统中,借助网络检测器,融合于系统环节中,实现了采集数据完整传输至主机的技术目标,良好解决了集中计算产生的并发性能不足、传输效率不佳等问题,提升了安全审核的效率。分布式信息审核运行劣势为:引起中心系统单点失效问题、系统扩展能力不佳。由此发现,安全审核功能,在一定程度上保障了数据信息的完整性与安全性,能够为系统运行提供数据保障。

2大数据技术的应用

2.1系统优化

大数据应用系统的模块包括数据收集(采集)、数据保存(存储)、数据分析(挖掘)和数据应用(展示)。安全审核系统如图2所示。由图2可知,大数据计算支持的安全审核系统中,数据收集模块由日志、用户行为等8个部分组成,以此保障数据收集来源,有效获取多种结构的数据,包括结构化、半结构、非结构3种,并且从系统各模块中获取相关数据,包括流量类、行为类、检测类数据信息。当数据收集完成时,应将数据完整保存在分布式层级中。存储数据选择的技术有多种,具体包括MySQL、HDFS等,此类数据库能够有效保存数据。在数据分析模块中,采用的大数据技术为Mahout、遗传算法等计算方式,针对数据异常事件加以分析。

2.2Apriori算法

2.2.1算法理念Apriori算法属于应用较为广泛的数据分析计算方式,此算法理念为:假定数据库中含有n项数据,并用数据集符号S加以表示,即S={S1,S2,...,Sn}。与其相关联的数据T,作为数据库事务中的数据集合。为此,数据库中任意事务F,均作为数据集S的分项子集,存在T∈S的关系式。其中X、Y存在关联关系,并且满足X被包含于I、Y,包含于Y、X与Y的交集结果为空集[1]。在总事务占比中,以D作为符号,X与Y之间的关联支持度数值为P(X合并Y),在X占比置信度的计算中,X与Y关联关系的置信度数值为P(X|Y)。集合处理期间,针对数据集的多重性,有效集成数据,使之形成项集。如果数据集基数为m个,即称为m项集。如果数据集中存在支持度较高的一项,并且其设定的支持度最小阈值以min为表示方式,将此数据集作为频率较高的项集,即将序列全部的高频项集有序整合,形成新的项集,并以Lm为表示方式。Apriori算法开展的数据分析流程为:①以迭代方式,查询数据库中现存的高频数据集,此程序中计算数值的支持度>设定阈值;②依据用户日志中提取的置信度的最小值分析数据价值。

2.2.2算法流程由数据分析可知:在Apriori算法的运行理念中,将每层搜索的数据,配合迭代的计算方式,有效获取了高频数据集,以数据分析技术为基础,获取高频数据集,以此确定数据集之间存在的关联关系。如图3所示,为Apriori算法的信息核算流程。Apriori算法的图解流程:①初始化操作,在数据库中搜索全部数据,并确定高频项集合S1;②将Sn-2(其中n不小于2)以自连接方式获取n阶数据,设定候选项目集合为Cn;③在备选高频项目中,将任意子集作为剔除对象,如果n阶备选项目中存在关系式为Cn-1∈Cn,并且Cn-1∉Sn-1,此种关系说明备选数据中不包含项频数,可将其剔除;④在②、③中执行流程,对于尚未发现高阶层次的项目数据,获取数据分析序列。Apriori算法的应用实例如下,获取了6组数据。序列1的数据集为:1、2、3、4、5、6、7。序列2的数据集为:2、5、6、9。序列3的数据集为:2、4、5。序列4的数据集为:1、3、7。序列5的数据集为:1、2、6。序列6的数据集为:2、3、6、7。结合实例的Apriori算法流程:遍历数据集,获取1阶项目数据集,即S1={1=3,2=5,……,9=1},S2={12,13,14,15,……,46,47,49},令S2自主连接,获取C3项目数据集[2]。

2.2.3遗传算法遗传算法的组成元素包括基因、染色体、适应度等,此类元素通过交叉与变异,逐渐形成算法元素。(1)基因。在遗传学论述中,基因指DN段,基因含有基数较大的遗传信息,基因作为遗传算法中的基础性计算单位。在遗传算法中开展基因计算流程,可选择二进制与整数的计算方式。(2)染色体。染色体包含多组基因,作为信息承载的介质。染色体编码形式包括浮点数与二进制两种方式。浮点数编码形式指:假设种群基数为m,符号表示为xii,表示数据更迭期间,i个数据个体,基因长度设为n,则个体表示为xii属于Rn,以xii作为n维行向量的表示方式,即可表示为xii={xii1,xii2,...,xii3}。在更迭期间,数据种群xii表示方式矩阵为主,即n×m。在种群中的矩阵以X0为表示方式,则有X0={x01,x02,...,x0n},在矩阵中尚未发现两行相同的数据,表示种群存在互异性。在二进制程序中,如若种群基数为m,表示方式为xii,代表数据更迭期间存在第i个数据个体,并且每个数据个体位数表示方式为1。其中,基因基数的计算可表示为L=ml。数据个体xii以ml作为表示方式,获取其行向量数值,即xii={xii1,xii2,...,xii3},最终以二进制编码为计算方式,将编程转化为实际,应采取的计算流程为:11/212)tjljfxiikmkmkvkx−=(,)=+(−)(−)(∑×(1)(3)种群。进化论中的种群概念指多组物种通过排列方式形成的群体结构。此概念融合于遗传算法流程中,以此可知,遗传算法种群表示的是某代染色体数量总和。在计算过程中,设定种群初始数值不小于100[3]。

2.2.4算法改良在进行全局数据搜索时,遗传算法性能良好,得到广泛应用。Apriori算法的应用优势在于计算流程实现过程较为简单,不足在于数据量基数较大时,数据处理能力不佳。为改善Apriori算法的应用性能,采取以遗传算法与Apriori算法相结合的方式。数据中的有限数据集以D为表示方式,即D={d1,d2,...,dn},此类数据集在系统中获取了良好运行,依据Apriori算法的运行理念,开展强项集合的计算分析。在强项结合求解期间,借助遗传算法理念,解决算法读取数据问题,有效增强了算法性能。算法设计应遵循改良思想开展,采取二进制编码思想,将安全关联的相关信息,以二进制行为表示,并关联信息连接。同时,依据计算机安全审核所具有的关联能力,定义染色体的排列状态,采取二进制编码形式测定网络的数据流量。在完成编码的基础上,开展适应度关系式设定。在遗传算法中,针对Apriori算法对数据库读取过程存在效率不足、运行缓慢等问题,应在算法改良期间,予以解决。为此,在适应度关系式中,应包括两个变量,即支持度、置信度。关系式为:f(x)=aS(x)+bB(x)。其中,ab表示常用数值,S(x)代表支持度数值,B(x)指置信度数值。

2.2.5性能分析在试验过程中,运行系统为Windows7,内存为16GB,仿真系统为Python3.7。在试运行期间,数据来源为近阶段安全审核系统中现存的数据。安全审核系统所具有的数据保存容量为500MB。其中,种群基数设定为150,变异率设定为0.13,交叉率设定为0.9。性能分析方式如下。第一,划分次数对分析数据效率产生的影响。经试运行发现,改进算法与经典算法对比时,在划分次数累加时,改进算法所用的运算时间较短,划分次数对数据分析结果产生的影响较小。第二,数据分析基数对分析数据效率产生的影响。经试运行发现,在数据分析时间增加时,数据分析基数提升,改进算法数据分析所需的时间相对较少,由此说明,在调整数据分析基数中,其运算效率不变,尚未对其产生不良影响。

3结语

在物联网背景下,安全技术逐渐成为信息领域的关键性技术。本文以安全审核技术为基础,搭建具有信息安全防护与审核能力的应用型平台,以此完善大数据技术的审核系统,分别从数据收集、数据有效保存、数据信息分析、数据应用4个角度开展审核系统设计,并且借助Apriori算法提升系统安全审核能力,保障信息安全。

参考文献

[1]赵培琨.大数据时代计算机网络信息安全及防护策略[J].计算机产品与流通,2020(5):36,52.

[2]董伟.大数据技术在计算机安全审核中应用研究[J].现代计算机,2020(10):23-29.

[3]侯毅.大数据环境下计算机信息安全技术探讨[J].中国新通信,2020,22(6):135.

作者:古力米热·阿吾旦 单位:新疆财经大学