公务员期刊网 论文中心 正文

云计算短信内容审计研究

云计算短信内容审计研究

1引言

开发完善的垃圾短信过滤系统一直是电信运营商和学术界研究的重点。随着手机用户数量的增长,垃圾短信数量也呈现出爆炸增长的势头,使得广大消费者长时间饱受垃圾短信的骚扰。垃圾短信不仅占用了有限的网络资源,造成运营商投入更多的人力、物力资源对其进行处理,而且以欺诈为目的的短信使很多用户损失大量财产。目前用户投诉总量的30%以上都是针对垃圾短信,因此电信运营商有义不容辞的责任抑制垃圾短信蔓延。中国移动、中国联通和中国电信公司推出了过滤垃圾短信专用客户端。主要做法是根据发送号码特征及语义特征自动过滤垃圾信息,将要过滤的号码加入短信黑名单。而针对号码特征及语义特征过滤受到手机的存储和运算能力的限制,还需要进一步的改善。即使使用传统的服务器来分析并将发送源号码屏蔽,也由于垃圾短信数据量呈现指数级的增长使得分析垃圾短信变得越来越慢,无法实时对发送垃圾短信的号码起到屏蔽的作用。云计算作为一种全新的IT服务模式,将其应用到垃圾短信的过滤中,不仅提供几乎无限的存储空间,使得数据存储和管理能够顺利的完成,而且提供了无限强大的计算能力,使得在超大规模的数据中实时挖掘出有用的数据成为可能。云计算的这些特点正好弥补手机和传统服务器的不足,为过滤垃圾短信提供了必要条件。总之,垃圾短信的泛滥使人们的日常生活受到了严重的影响,已成为一种社会危害,治理垃圾短信势在必行。[1]

2云计算的关键技术

2.1数据存储技术

云计算采用分布式存储来存储数据保证了高可用、高可靠和经济性;为同一份数据存储多个副本的冗余存储方式保证存储数据的可靠性。云计算的数据存储技术必须具有高吞吐量和高传输率的特点,因为云计算系统能够并行地为大量用户提供服务来同时满足超大规模用户的需求。本文所采用的云计算的数据存储技术采用Apache开源组织的一个分布式计算开源框架Hadoop,HDFS(HadoopdistributedFileSystem,Hadoop分布式文件系统)作为Hadoop的核心技术之一,HDFS是分布式计算中数据存储管理的基础。它所具有的高容错高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(LargeDataSet)的应用处理带来了很多便利。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。因此,超大规模的数据存储、数据加密和安全性保证以及提高I/O速率等方面将是云计算的数据存储技术未来的主要发展方向。

2.2编程模型

云计算要求编程模型必须相当简单的原因是让用户能够轻松享受云计算带来的各种服务,特定的功能可以通过用户利用该编程模式编写简单的程序来实现,同时用户和编程人员无需对后台复杂的并行执行和任务调度的细节进行了解,只需了解如何调用相应的接口。Map—Reduce是目前云计算大量采用的编程模式,用于大规模数据集(大于1TB)的并行运算。它极大的方便编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。它的实现是map函数和Reduce函数组成,基于Map—Reduce的编程思想已被大部分的IT厂商采用来实现自己的编程模式。

3系统的设计

网络侧处理垃圾短信力有不逮,以往从客户端限制垃圾短信的方式又存在缺陷,比如黑白名单技术,由于垃圾短信发送号码一直改变而收效甚微;关键字技术让所有用户都能准确到位的表达需求又不现实。因此,必须要有一个技术手段去解决问题,而如果能将“政策+技术”、“云+端”结合的模式来保障手机安全,将会起到事半功倍的效果。在技术层面,以往应对垃圾短信问题往往在于“云”的角度,但实际上垃圾短信最终都体现在手机上,用户的参与至关重要———必须由“端”去识别这些垃圾短信。这就决定了只有通过“云+端”的结合才能在技术层面取得突破,首先用户对垃圾短信进行举报,“云”把大量用户上报的内容,使用HA-DOOP的MAP-REDUCE统计分析,定位问题,然后把它变成策略,最终分发到所有用户的手机上。可以说,在“云+端”的模式中,所有的用户都是系统的一部分,在为系统贡献支持的同时,也分享了解决方案。系统的处理流程为:手机终端用户将自己认为是垃圾的短信和垃圾短信发送的手机号码通过通信接口上报到云端过滤平台,云端利用规则挖掘引擎判断此短信是否为垃圾短信,若是则赋予垃圾短信的发送手机号码一定的阀值。假如垃圾短信发送的手机号码达到了规定的阀值,则将发送垃圾短信的源号码通过接口程序发送到移动侧的短信中心和BOSS系统,移动侧可以直接将垃圾短信发送的手机号码拦截或者通过人工审核再进行拦截,被拦截的手机号码则失去短信发送功能,通过以上流程可以真正的过滤掉垃圾短信。

3.1手机系统设计

手机终端装有过滤垃圾短信软件,首先通过此软件对短信进行分词,分词完成之后与垃圾词库里的词进行比对得出短信的性质(是垃圾短信还是非垃圾短信),如果是垃圾短信,则用户可以将此短信上报到“云”端。手机终端的功能包括:⑴过滤:手机终端可以根据黑名单、省市、号码段、时间段进行过滤。能够下载云端的垃圾词库。⑵实时举报:系统判断为垃圾过后立即上报。通话记录显示来电地区、响铃时间、来电时间等信息,用户可根据此判断是否响一声来电,点击一下按钮即可上报。短信也可以很方便的上报。

3.2云端系统架构

云端主要有规则挖掘引擎,拦截分析系统,管理平台,通信接口群等组成。“云”端首先利用分词算法对短信进行分词处理,然后利用贝叶斯算法判断短信的性质,最后拦截分析系统依据一定规则对上报的数据进行分析和判断,通过FTP的方式将发送垃圾短信的源号码发送到移动侧,由移动相关系统来关闭这批号码的短信功能。同时更新垃圾词库,根据用户的需求来下发相应的垃圾词库到手机终端。云端系统的处理流程为:手机终端用户通过上行接口将垃圾短信暂存到JMS中,上报数据分析器从JMS中提取数据对其进行分析(判断是否为垃圾短信),如果是垃圾短信,则赋予发送垃圾短信的源号码一定的积分,否则不赋予垃圾积分,并将分析结果存到业务数据库中,下行接口定时给手机终端用户发送提醒短信,以防用户上当受骗,数据分析引擎每天定时查看发送垃圾短信源号码的积分,依据某种规则对其号码进行分析判断是否达到被拦截的条件,并将分析结果传送给移动侧,报表模块定时从业务数据库中提取属于某个时间段的垃圾短信并生成报表数据,同时将结果存到报表数据库中,以供报表平台展示,外部数据传输将报表数据库中的数据和业务数据库中的短信内容传到移动侧,由移动侧系统采取下一步措施;管理模板由管理人员定义系统的相关参数(例如JMS队列长度等)及拦截阀值规则。

4结论

本文在基于Apache开源组织的分布式计算开源框架Hadoop的基础已经初步实现从大量的短信数据中分析垃圾短信的内容特征以及垃圾短信发送号码。

4.1亟待完成工作

4.1.1分词算法的效率在垃圾短信过滤系统中非常重要。进一步确认使用动态规划法后效率的提高程度。

4.1.2由于目前下发到手机终端的垃圾词库需要人为的干预,通过贝叶斯算法自动产生垃圾词下发到终端。

4.2法律整治建议

彻底治理垃圾短信除了技术方面外还需要多管齐下:欧美国家在治理垃圾短信方面,已积累了很多成功的经验,值得我们学习和借鉴。

4.2.1在我国,目前与电信行业相关的法律法规有《中华人民共和国电信条例》和《中华人民共和国互联网信息服务管理办法》,而这些法律法规都不是专门性的。所以需要尽快的制定有针对性的法律法规能从根本上治理垃圾短信。

4.2.2要尽快落实SIM卡实名制。SIM卡实名制被认为是解决垃圾、不良短信的一种长效和有效的机制,可以真正的从源头上实现对短信的可管理、可监督。这种机制已在很过国家通过实践证明,利用手机垃圾短信违法犯罪的现象明显比没有实施SIM卡实名制的数量少很多。

4.2.3建立完善的监管机制。相关部门需要建立处理垃圾短信的用户的投诉处理平台,以方便用户快捷的投诉,使运营商能够即时的处理用户的投诉来达到遏制利用垃圾短信违法犯罪目的。

作者:刘云玉 原晋鹏 单位:黔南民族师范学院

相关热门标签