前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的大数据云计算技术主题范文,仅供参考,欢迎阅读并收藏。
云计算技术具有高效、可靠、高可扩展性和易用性的特征,被很多领域广泛的使用。本文讨论的内容是如何将云计算技术应用到就业大数据信息服务平台中,从而高效率、高质量的做好就业服务工作。
Hadoop是由 Apache 开源组织提供的分布式系统基础框架,能够有效的解决海量数据分布存储和分布计算,是云计算技术应用层面很好的解决方案。
一、高校就业大数据信息系统现状
目前,各高校均建设了高校内部的毕业生就业大数据信息平台,一定程度上满足了毕业生就业服务的需要。但是这些系统存在以下几方面问题:第一,系统侧重毕业生和就业信息管理,或者只是学生管理信息系统的一部分,缺乏服务机制,无法实现学生、教师和用人单位的联动。第二,系统资源利用率低,系统运行效率低、安全可靠性和可扩展性差,给学生数据安全带来很大的隐患。第三,系统数据利用率低,多数集中在简单的查询,很难获得有益的知识,提供决策服务。第四,系统缺乏个性化定制,很难适应当前就业工作不断调整的需要。
随着高校、毕业生和企业对就业服务的要求提高,现有的就业信息平台已经不能适应就业工作多元化的增长和发展的需要,影响高校毕业生的就业效果,新型的就业大数据信息平台的建设已成为破解就业工作难题的必要条件之一。
二、构建基于云计算的高校就业大数据信息服务平台
云计算因其强大的计算和数据储存的能力、可靠、安全的共享数据存储中心、客户端的设备配置没有限制等特点已广泛应用各行各业,并日益发展成熟。通过云计算技术建设毕业生就业信息平台,整合和共享就业信息资源,为毕业生就业提供方便、快捷、高效的信息服务平台,破解现有就业信息平台存在的问题。
从研究现状来看,云计算具有以下一特点:
一是强大的计算和数据储存的能力。“云”能赋予用户完成各类应用前所未有的计算能力,为用户储存和管理数据提供几乎无限多的空间。服务器的日常维护也有云服务提供商来进行。
二是最可靠、最安全的共享数据存储中心。通过云存储,数据复制到多台物理机器,避免因硬件崩溃或误操作删除的造成的数据的丢失或损坏。
三是客户端的设备配置没有限制。用户在随时随地方便、快捷、安全的使用位于不同计算机、不同的操作系统的应用服务,从“云”中获取个人的需求。
2.1 构建高校就业云服务平台
根据提供服务资源的类型,云服务被分为三个类别:SaaS(软件即服务)、PaaS(平台即服务)、IaaS(基础设施即服务)。
高校就业大数据信息云服务平台采用 SaaS 模式,通过浏览器和移动终端将软件作为云服务提供给所需用户。用户无需购买软件和维护软件,用户根据业务需求购买相应的云服务,云服务提供商管理相关软件并实施软件的维护。这种方式大大降低用户在软件购买和维护上人力和物力的开支。高校就业信息云服务平台自底向上分别是“云数据层”、“数据服务层”、“业务服务层”、“云服务层”和“应用层”,每层之间采用松耦合,提供相互访问的接口,用户不必关注层内部逻辑。
(1) 数据存储层
高校信息服务平台的数据主要包含学生数据、用人单位数据和高校相关数据,数据是作为平台的基础。为了提供便捷、高效、可靠的数据访问,数据存储层采用云存储技术实现。
(2) 数据服务层
数据服务层建立专门进行云数据层访问的接口程序,用户通过 webservice 或者 API 进行加密数据的访问,数据的具体存储对用户是透明的,这也有效的提高数据安全性,并且为数据的扩展提供基础。
(3) 业务管理层
业务服务层包括高校信息服务平台所有业务,具体包括应聘招聘、就业指导、毕业生困难帮扶、创业等服务内容,这些业务服务于政府、用人单位、高校、学生和社会等不用的用户。由于就业工作随着时间的推移会受到就业形势、政策等很多因素影响,从而导致就业工作业务和用户发生不断变化,所以就业信息服务平台业务服务层要具备高扩展性。基于以上的要求,我们构建了业务服务控制台,业务服务被设计为可插拔式,每项业务可以被挂载在控制台,或者从控制台被卸载,也可以设定业务接口、执行业务升级操作等服务。
(4) 云服务层
云服务层将业务服务层的内容以应用接口的方式提供给应用层,提供的方式是为业务服务层建立 API 接口和webservice 接口。应用层可以通过编程的方式调用业务接口,实现业务访问。
设定中文信息处理和语音识别接口,用户可以通过输入中文关键字或者语音调用业务,在应用层和业务层之间建立更加友好的数据传送,也为移动终端用户提供更加便捷的操作方式。
(5) 应用层
应用层直接面向实际用户,实现就业信息云服务平台不同类型的用户图形界面,从而能够适应不同用户的不同需求。用户既可以通过个人电脑上的浏览器访问获得云服务、也可以使用智能移动终端的应用程序或者微问云服务。
2.2 建立基于 Hadoop 的云数据存储
高校就业大数据信息服务平台需要大量的数据进行支持,而且数据逐年增加。利用云存储技术主要解决快速、高效的处理海量数据,从而达到易扩展、低成本、易管理、高效和安全的设计原则。 Hadoop 软件框架的HDFS(分布式文件系统)提供了具备高扩展性、高容错性、高可靠性、高效等特点,并且可以部署在低廉的硬件上,从而降低成本。基于以上内容,高校就业服务平台的数据存储通过 HDFS 分布式存储技术实现云存储,Hadoop 的具体部署
2.3 建立基于 Hadoop 的数据服务
数据服务是就业大数据信息云服务平台重要的业务,用户需要了解学生年龄、学历等数据分布,需要了解就业数据分布,需要了解用人单位人才需求分布,需要了解就业数据内部和外部存在的各种联系。数据服务从海量数据的计算中获得,利用云计算技术能够高效、低成本的解决计算问题,Hadoop 为云计算提供了有效的解决方案,它提供了MapReduce 模型,这个模型解决了传统并行计算在易编程性上的瓶颈,程序员可以更容易的开发分布式并行计算程序。MapReduce 同 HDFS 一样采用一个主控节点和多个计算节点的架构。
将大规模数据集分成多个小数据集,然后这些数据集分o多个 map 节点进行并行处理产生中间结果,最后在 reduce阶段对这些结果汇总,得到最终结果。
关键词:大数据时代;计算机技术;运用研究
计算机的出现极大地方便了人们的工作和生活,改变了人们生活和工作的状态。同时通过计算机技术的使用还可以帮助企业、政府等商业组织的工作更加高效便捷。除此之外,通过计算机技术的使用,使相关人员研发出APP,其出现,为人们创造了更多的商业价值。为了使计算机的使用功能得到进一步发展,就需要对计算机的运用做出研究。
1计算机技术在大数据时代背景下的发展现状
大数据是时代快速发展的产物,具有高速度、便捷的特点,为人们的生活和工作带来帮助。具体来说,数据的标准范围是10TB~1PB,超出这个范围即大数据,通过计算机技术的支持,实现数据的快速分析、处理。目前,随着数据的不断增加,传统的计算技术可能已经不能满足人们的需求,对此,为了使得计算机技术得到进一步优化,就需要不断地进行分析研究,才能推动计算机技术在大数据背景下的进一步发展,同时,随着计算机的运用,人们也意识到了计算机的重要性。计算机在技术发展中,各行各业也认识到了计算机软件的重要性,受到了人们的广泛关注,也使得相关学者加大了数据研究,旨在进一步帮助人们优化工作流程,提高工作效率,更加高质量地为人们做出更科学的决策。随着计算机的普及,互联网已融入人们的工作和生活,推动了整个社会的发展,使得信息的存储和处理变得更加高效方便,同时安全性也更高。具体来说,目前大数据数量规模已超过10亿TB,且具有不断增长的趋势,同时也渗透到来各个领域中,例如电子商务、物流、云计算等科学技术,对工作的处理和保存有着很大的帮助。因此,为了使大数据背景下计算机的优势得到进一步提高,就需要继续加强对大数据和计算机技术的研究,从而促进大数据的优势得到进一步开发。
2大数据时代背景下我国计算机软件技术的具体应用
大数据时代背景下,计算机的具体应用主要是根据设定要求,从海量数据中,提炼分析客户所需要的相关数据,再根据所提取的数据进行详细分析,以此为基础找出各项工作的发展方向和具体的工作内容。具体来说,主要是依赖于以下3种技术的运行。
2.1云储存技术
云储存技术又被称为Cloudstorage技术,是基于云储存基础上衍生出的新型技术。具体来说,在大数据背景下,云存储的应用范围十分广泛,应用前景也非常客观。与以往的技术特性相比,云技术不仅可以改善传统技术的中的不足,同时还能高效地提高使用效率,使得人们的操作更加便捷,尤其是在进行数据保存和文件时,用户的操作更加简单便捷,只需要登录有关账户,将数据录入进去,就可以将其提交至云技术总服务器中,就是实现数据的查看、下载、保存等工作。相比传统计算机中通过固态硬盘、存储卡等硬件进行存储而容易丢失,云储存技术的便捷性更高。
2.2虚拟化技术
虚拟化技术又称为Virtualization技术,主要是资源管理类的一种计算机技术,其工作内容主要是对数据库的内部数据资源进行管理,优化资源配置。除此之外,通过虚拟化技术的应用,还可以使得客户端的适应性和便捷性及分析数据的效率得到有效提高。这是虚拟化技术的一大优势。具体来说,目前虚拟化技术在各个领域中广泛使用,例如政府部门、大型组织机构等,使得信息保存、管理更加高效高质。
2.3信息保护技术
大数据时代背景下,极大地帮助了人们的信息存储和人们的交流,使得存储变得更加便捷,交流也不再受时间和地点的限制。但同时也让部分居心叵测的犯罪分子有机可乘,导致人们的隐私和数据等各项保存工作的安全度大大降低。针对这些问题,就需要有关人员重视起来,加强计算机网络数据的保护工作,提高信息技术中的各项保护工作,从而保证信息技术的整体性能。除此之外,计算机网络技术还具有开放性、互通性等特征,因此,就很容易受到互联网信息技术中各类病毒的入侵危害,因此,还需要做好信息数据的防入侵工作,以免黑客、木马等的危害,以免信息数据遭到丢失和窃取。所以,信息数据的安全保护工作至关重要。但由于我国计算机发展较晚,导致计算机技术存在一定的落后,基础发展薄弱,不能跟上发达国家的技术水平。但在近几年科学的发展下,计算机技术的发展已取得了良好的成就。同时,在近几年的发展中,大数据信息技术得到了有效的推广和普及,但同时在新时代的发展中,对计算机技术的要求也越来越高。因此,这就需要相关人员重视信息保护技术的深入研发工作,只有这样才能不断地提高技术的应用效果,有效地保障人们的生活和生活中的使用。
3大数据时代下计算机软件技术中的实际运用
大数据时代下计算机软件技术被应用到各种领域中,但在实际的应用中还需要尤其注意,只有这样才能发挥计算机技术在企业中的生产效率,从而提高企业的核心竞争力。
3.1商业运营活动
大数据应用到各种商业领域中,可以提高工作人员的工作效率和工作质量。以某大型连锁超市为例,通过计算机软件技术中的应用,可以满足导购人员借助超市导购平台解决用户的个性需求,解决实际工作中的各类问题,从而提高超市整体的工作效率和工作质量。因此,将其应用到商业领域中,不仅可以使得企业的生产效率和工作效率得到有效提高,还能通过各种信息的获取为企业决策者提供决策依据,从而为企业的良好发展夯实基础。
3.2企业管理软件信息解决方案
企业管理软件在实际的应用过程中,管理效率相对来说不太理想。而通过企业管理软件可以解决这一问题,具体分为以下两点:(1)数据抽样工作。数据抽样即将所有同类产品进行随机抽取,检测产品的实际质量和性能。在商业活动中也是数据,随机抽取一定数量的数据样本,抽取的数据样本通常具有代表性。通过对样品抽样的测量、统计工作,从而制订相应产品的开发及推广方案,有助于生产和销售效率的提高。除此之外,还能保证样品工作的工作效率。(2)开发探索工作。数据的开发探索主要是工作人员通过采集数据记过对异常数据、数据之间的关联指数方式进行的分析工作,以此提高企业以及使用用户对于数据的直观感受和认知程度。在此工作环节的实际过程中,通过计算机软件技术,可以切实提高数据信息开发的探索工作的效率和质量。
【关键词】云计算 大数据 云数据中心 安全体系
一、引言
大数据时代,原有的信息资源处理手段已经不适应迅速增大的数据量级。大数据依托网络技术,采用数据挖掘、关联分析等技术手段对分布式存储的异构海量数据进行处理。无论是网络环境、计算平台、还是存储载体,都分属不同的信息系统。大数据进一步加剧了网络空间中防御与攻击的不对称性,大数据信息安全主要体现在处理系统、过程的安全,而传统的信息安全防护措施多集中在“封堵查杀”层面,难以应对大数据时代的信息安全挑战。因此应加快构建多层次、高质量的大数据纵深防御体系结构。加强大数据信息安全保障能力,是解决大数据安全的唯一出路。
二、大数据安全挑战
基于大数据环境下所带来的安全挑战包括:
1、应用安全防护:大数据环境下的应用防护风险,包括资源滥用、拒绝服务攻击、不安全集成模块或API接口及WEB安全;2、虚拟化环境安全:基于云计算和虚拟化技术的云计算数据中心为大数据提供了一个开放的环境,分布在不同地区的资源可以快速整合,动态配置,实现数据集合的共建共享。网络访问便捷化和数据流的形成,为实现资源的快速弹性推送和个性化服务提供基础。然而平台的暴露,使得蕴含着海量数据和潜在价值的大数据更容易吸引黑客的攻击。虚拟化环境安全成为大数据安全的重要威胁。3、移动接入安全:BYOD-移动接入安全,包括身份假冒和信息劫持等。4、安全与大数据融合:恶意的内部员工和数据隐私保护面临威胁。
本文分别从上面四个方面来分析大数据安全技术体系的建设办法,构建大数据纵深防御体系结构。
三、大数据安全技术体系
大数据应用安全防护主要在应用防护区部署虚拟化综合安全设备,包括DDOS、防火墙、IPS和WEB防火墙(WAF)等,同时部署漏洞分析系统,进行安全评估和渗透测试。
大数据虚拟化环境安全主要通过虚拟化防火墙TopVSP(Vgate、TAE、TD)和虚拟机管理器安全,即外部防火墙。实现虚拟化环境的性能优化和安全策略迁移等。
移动接入安全从下到上分为统一接入控制、数据安全及威胁防护和全生命周期设备管理三层。其中统一接入控制层在终端接入区使用身份认证及授权和虚拟应用及虚拟桌面,在网络接入区使用VPN加密,在业务服务区使用远程锁定、数据擦除、备份与恢复、GPS定位和自动报警灯管理器后动来实现。全生命周期设备管理包括资产接入、部署、运行和销毁全流程管理,资产接入包括资产的发现、注册和初始化;资产部署主要包括安全基线制定和配置及策略执行;资产运行包括资产的挂失、锁定、密码重置、定位、备份与恢复、报警等;数据销毁采用远程应用卸载和数据擦除等技术。
基于大数据融合下的安全云,主要实现方式是通过安全检测与大数据技术相融合,利用云计算能力及大数据处理机制实现信息访问的审计、安全威胁智能的发现、隐私数据的保护。主要包括安全监测与预警和安全审计及隐私保护两方面内容。安全检测与预警主要是通过7×24监控和运维,对事件进行收集、处理和存储,继而进行关联分析、威胁检测、风险计算和风险分析,将分析的结果通过短信或者邮件通告,并形成相应的工单、知识库和相应的报表进行派发、流转和处置。安全审计及隐私保护主要是为了避免内部恶意员工导致的云数据中心信息泄露,主要通过云安全设计平台实现大数据的审计和取证,主要的审计技术包括业务访问审计、数据库审计、安全运维审计和数据隐私保护审计等。
关键词: 云计算;分布式并行数据挖掘;海量数据
Abstract: In this paper, we develop a parallel and distributed data mining toolkit platform called PDMiner. This platform is based on cloud computing. PDMiner is used to preprocess data, analyze association rules, and parallel classification and clustering. Our experimental results show that the parallel algorithms in PDMiner can tackle data sets up to one terabyte. They are very efficient because they have good speedup, and they are easily extended so that they can be executed in a cluster of commodity machines. This means that full use is made of computing resources. The algorithms are also efficient for practical data mining. We also develop a knowledge flow subsystem that helps the user define a data mining task in PDMiner.
Key words: cloud computing; parallel and distributed data mining; big data
中图分类号:TN915.03; TP393.03 文献标志码:A 文章编号:1009-6868 (2013) 04-0032-007
随着物联网、移动通信、移动互联网和数据自动采集技术的飞速发展以及在各行各业的广泛应用,人类社会所拥有的数据面临着前所未有的爆炸式增长。美国互联网数据中心指出,互联网上的数据每年以50%的速度增长,每两年翻一番,而目前世界上90%以上的数据是最近几年才产生的,人类社会进入了“大数据”时代。因此,信息的获取非常重要,一定程度上,信息的拥有量已经成为决定和制约社会发展的重要因素。
数据挖掘作为信息获取的一门重要技术,得到了广泛的研究。数据挖掘[1]从大量的数据中挖掘出有用的信息,提供给决策者做决策支持,有着广阔的应用前景。由于要挖掘的信息源中的数据都是海量的,而且以指数级增长,传统的集中式串行数据挖掘方法不再是一种适当的信息获取方式。因此扩展数据挖掘算法处理大规模数据的能力,并提高运行速度和执行效率,已经成了一个不可忽视的问题。
为了解决海量数据的挖掘问题,一种简单的方式就是把所有的数据划分成若干份,也就是切分成若干个子任务,然后分布到各个计算资源上去进行计算,每个节点完成一个子任务,最后进行集成。分布式计算就是把一个计算问题分解成多个子问题并同时处理的计算模型。基于分布式计算模型,Luo等人[2-4]集成了很多数据挖掘算法到多主体系统。另外一种提高计算效率的方式是并行计算,并行计算也是把一个大的计算问题分割成小任务的形式。近年来,并行计算的体系结构和模型也引起了广泛的兴趣和研究[5-6]。
尽管分布式计算和并行计算有很相似的特点,但是它们之间各有侧重,分布式计算强调在所有异构计算资源上同时求解问题,而并行计算则更加强调同一台计算资源内部多线程并行。这两种计算方式可以对应到算法之间的并行以及算法内部并行这两种计算模式。文献[2-4]提出基于主体技术的算法之间并行的计算模式,他们利用主体技术中主体本身的自主性、智能性等特点,实现不同算法主体之间的并行计算,以消息传递的方式实现同步,大大提高了算法的执行效率,减少了运行时间。第二种计算模式,是粒度比较小的并行方式,主要研究的是算法内部的并行。通过把算法分解,尽可能地找出算法中可并行的部分进行并行计算。这种计算模型的最终效率取决于算法本身的可并行程度,如果并行程度非常高,那么就可以大大提高算法的运行效率。由于在很多应用中,只需要执行一种应用(算法),所以研究算法内部的并行实现非常重要。文献[7]实现了多种机器学习算法在多核计算机上的并行,本文主要针对第二种并行计算模式进行研究,而且可以在大规模计算机集群上运行。
近年来,云计算得到了学术界和业界的广泛关注,它是一种基于互联网的、大众参与的计算模式,其计算资源,包括计算能力、存储能力、交互能力,是动态、可伸缩、且被虚拟化的,以服务的方式提供给用户。基于大规模数据处理平台——Hadoop,我们研究开发了并行分布式数据挖掘平台——PDMiner,其目的是设计实现并行数据挖掘算法处理大数据集,且提高执行效率。在PDMiner中包含4个子系统,工作流子系统、用户接口子系统、数据预处理子系统和数据挖掘子系统。整个数据挖掘平台提供了一个从海量数据中挖掘有用知识的完整解决方案,而且提供了可扩展的灵活接口。
1 大规模数据处理平台
——Hadoop
Hadoop是一个软件计算平台,可以让程序员很容易地开发和运行处理海量数据的应用程序。其核心部分包括HDFS[8]和基于MapReduce[9-10]机制的并行算法实现。
1.1 HDFS
Hadoop分布式文件系统HDFS是受Google文件系统启发,建立在大型集群上可靠存储大数据集的文件系统。它和现有的分布式文件系统有着很多的相似性,然而和其他的分布式文件系统的区别也是很明显的。HDFS具有高容错性,可以部署在低成本的硬件之上。此外,HDFS提供高吞吐量地对应用程序数据的访问,适合大数据集的应用程序。
HDFS结构包含一个名字节点作为控制主节点,其他的服务器作为数据节点,存储数据。具体地说,HDFS具有如下几大特点:
(1)强容错性
HDFS通过在名字节点和数据节点之间维持心跳检测、检测文件块的完整性、保持集群负载均衡等手段使得系统具有高容错性,集群里个别机器故障将不会影响到数据的使用。
(2)流式数据访问与大数据集
运行在HDFS之上的应用程序必须流式地访问它们的数据集。HDFS适合批量处理数据,典型的HDFS文件是吉字节到太字节的大小,典型的块大小是64 MB。
(3)硬件和操作系统的异构性
HDFS的跨平台能力毋庸置疑,得益于Java平台已经封装好的文件IO系统,HDFS可以在不同的操作系统和计算机上实现同样的客户端和服务端程序。
1.2 MapReduce
MapReduce是Google实验室提出的一种简化的分布式程序设计模型,用于处理和生成大量数据集。通过该模型,程序自动分布到一个由普通机器组成的超大机群上并发执行。
Map和Reduce是该模型中的两大基本操作。其中,Map是把一组数据一对一的映射为另外的一组数据,Reduce是对数据进行规约,映射规则与规约规则可由用户通过函数来分别指定。现实生活中很多任务的实现都是可以基于类似这样的映射规约模式。
MapReduce通过把对数据集的大规模操作分发给网络上的每个节点来实现可靠性,每个节点会周期性地把完成的工作和状态信息返回给主节点。如果一个节点保持沉默超过一个预设的时间间隔,主节点就认为该节点失效了,并把分配给这个节点的数据发到别的节点,并且因此可以被其他节点所调度执行。
由于MapReduce运行系统已考虑到了输入数据划分、节点失效处理、节点之间所需通信等各个细节,使得程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大规模的分布式系统资源。
2 并行分布式大数据挖掘
平台体系架构
Hadoop提供了让程序员易于开发和运行处理海量数据应用程序的平台,其分布式文件系统HDFS是建立在大型集群上可靠存储大数据集的文件系统,具有可靠性,强容错性等特点;MapReduce提供了一种高效编写并行程序的编程模式。基于此,我们开发了并行数据挖掘平台——PDMiner,大规模数据存储在HDFS上,且通过MapReduce实现各种并行数据预处理和数据挖掘算法。
PDMiner是一个集成各种并行算法的数据挖掘平台,其中的并行计算模式不仅包括算法之间的并行,而且包括算法内部的并行。图1给出了并行数据挖掘平台PDMiner的总体系统架构,其中主要包括4个子系统:工作流子系统、用户接口子系统、并行抽取转换装载(ETL)子系统以及并行数据挖掘子系统。工作流子系统提供了友好的界面方便用户定义各种数据挖掘任务;用户接口可以对算法的参数进行设置以及通过结果展示模块分析挖掘结果并做出相应的决策;并行ETL算法子系统和并行数据挖掘算法子系统是PDMiner的核心部分,它们可以直接对存储在HDFS系统上的数据进行处理,ETL算法处理后的结果也可以作为数据挖掘算法的输入。
2.1 工作流子系统
工作流子系统提供了友好和统一的用户接口(UI),使得用户可以方便地建立数据挖掘任务。在创建挖掘任务过程中,可以选择ETL数据预处理算法、分类算法、聚类算法、以及关联规则算法等,右边下拉框可以选择服务单元的具体算法。工作流子系统通过图形化UI界面为用户提供服务,灵活建立符合业务应用工作流程的自定制挖掘任务。通过工作流界面,可以建立多个工作流任务,不仅每个挖掘任务内部并行,而且不同数据挖掘任务之间也并行。
2.2 用户接口子系统
用户接口子系统由2个模块组成:用户输入模块、结果展示模块。用户接口子系统负责与用户交互,读写参数设置,接受用户操作请求,根据接口实现结果展示。比如并行分类算法中并行朴素贝叶斯算法的参数设置界面如图2所示,从图中看到可以方便地设置算法的参数。这些参数包括训练数据、测试数据、输出结果以及模型文件的存储路径,而且还包括Map和Reduce任务个数的设置。结果展示部分实现了结果可视化理解,比如生成直方图、饼图等。
2.3 并行ETL算法子系统
数据预处理算法在数据挖掘中起着非常重要的作用,其输出通常是数据挖掘算法的输入。由于数据量的剧增,串行数据预处理过程需要消耗大量的时间来完成操作过程,因此为了提高预处理算法的执行效率,在并行ETL算法子系统中设计开发了19种预处理算法[11],如图3所示,包括并行采样Sampling、并行数据预览PDPreview、并行数据添加标签PDAddLabel、并行离散化Discretize、并行增加样本ID、并行属换AttributeExchange、并行布尔型数据到系列数据的转换BoolToSerialNum、并行数据归一化Normalize、并行属性约简PCA、并行数据集成DataIntegration、并行统计Statistic、并行属性约简AttributeReduction、并行数据区间化Intervalize、并行冗余数据删除RedundancyRemove、并行属性添加AttributeAdd、并行属性修改AttributeModify、并行数据缺失值替换ReplaceMissingValues、并行属性删除AttributeDel,以及并行属性选择AttributeSelection等。
通常ETL操作都具有很高的并行化程度,比如属性的删除,可以把数据划分成很多块,算法对每个数据块的处理都是相对独立的,因此并行ETL子系统中实现的并行ETL算法具有很好的加速比,大大提高了算法的运行速度和执行效率。
2.4 并行数据挖掘子系统
并行数据挖掘子系统是并行数据挖掘平台PDMiner的核心部分,主要包括了三大类算法:并行关联规则算法、并行分类算法[12]以及并行聚类算法等。
目前该并行数据挖掘子系统中已经开发了很多经典的数据挖掘算法,各类并行算法模块包含的算法如图4、图5、图6所示,其中并行关联规则算法包括并行Apriori算法[13],并行FP树FPgrowth以及并行Awfits算法;并行分类算法包括并行超曲面分类算法HSC、并行k近邻算法Knn、并行朴素贝叶斯算法NaiveBayes,并行决策树算法C4.5、并行基于范例推理算法CBR、并行基于类中心算法CBC以及并行极限向量机ESVM等;并行聚类算法包括并行DBScan算法,并行Clara算法[14]、并行k均值算法Kmeans[15-16]以及并行EM算法等。
执行数据挖掘算法的一般流程如图7所示。从算法流程来看,PDMiner是一个用户友好的系统,用户不用了解底层算法的设计和实现,就可以很容易使用系统。另外对于并行ETL子系统和并行数据挖掘子系统,还提供灵活的接口方便用户集成新的算法。
2.5 基于MapReduce实现的算法实例
下面以决策树为例描述基于MapReduce的并行算法的实现过程。决策树算法是利用已标记训练集建立决策树模型,然后利用生成的决策树对输入测试数据进行分类。在以前的很多工作,主要是把数据划分到多个计算节点上,然后各自建立决策树模型,最后采用集成的方式得到最终模型[17]。采用MapReduce机制可以很好地解决决策树算法内部的并行问题,提高算法的执行效率以及处理数据的规模。
图8给出了并行决策树算法的流程图。在该并行算法中,实现了同一层内节点之间、节点内的并行计算,提高算法的执行效率。更重要的是,实现的并行决策树算法以循环代替了递归,使得运行完程序所需要的最大作业(Job)个数可预测(最大数目为样本集中条件属性的数目 ),从而有利于控制程序的执行状态。而在递归中,无法预测还有多少节点要运算,这样就无法预测程序何时结束。由于层与层之间的运算是串行的,因此在基于MapReduce机制的并行决策树实现中,上一层都会传递前缀信息给下一层节点,这些前缀包括从根节点到当前分支的分裂属性信息等。
从流程图可以看到每一层只需要一个Job,而不关心有多少个节点。程序需要运行的最大层数由条件属性的个数决定,因此是可控制的。由于在并行的过程中主要是统计频率,因此的设计非常重要,设置如下:在训练过程中,训练数据被划分到各个节点中进行运算,Map函数输入的分别设计为样本ID和样本本身;输出的,key设计为训练样本对应的类别+条件属性的名字+条件属性的值,value为key出现的次数。Reduce函数的输入和输出的的设计均为Map函数输出的。
当还有前缀的情况下,需要删除训练集中包含生成决策规则的样本,该过程是一个读写的过程。对于包含新得到的决策规则的样本,不再写入训练集,这样在下一次迭代中就只计算那些没有包含生成决策规则的样本。
测试过程则非常简单,每个Map利用已生成的决策树模型对样本进行预测,直接样本的预测标记,不需要Reduce过程。
3 PDMiner的特点
3.1 可扩展性
PDMiner是一个可扩展的并行分布式数据挖掘平台,我们为系统提供了灵活的接口来扩展集成新的并行算法。通过工作流子系统可以很方便地添加一个新的算法,比如在并行ETL子系统中添加新的算法PDAlgorithm1,则只要添加如下代码:
通过加入最后一行代码以后就可以在选项卡PD-Filters下面加入一项PDAlgorithm1。生成空类PDAlgorithm1的代码如下:
其中在函数listOptions( )、getOptions( )、setOptions( )中编写配置算法参数的代码,在run( )函数中编写调用Map函数和Reduce函数的代码,用户可以根据具体的算法编写相应的Map函数和Reduce函数。并行数据挖掘算法的添加与ETL算法的添加类似。
3.2 支持多挖掘任务
在PDMiner中,不仅支持单个任务的创建和执行,而且支持同时创建和运行多个数据挖掘任务。这些任务可以是不同类别的挖掘任务,比如并行关联规则任务、并行分类和聚类任务等,当配置完参数,这些任务可以同时在并行分布式系统PDMiner中执行。
支持多挖掘任务功能,具有非常重要的作用。比如要对所有的分类算法进行比较,从而选择对已有数据集表现最佳的算法。一般的做法是串行测试完所有的算法,然后根据算法的效果进行选择。而在PDMiner中可以并行地解决该问题,所有的算法都面向同一个数据集(读取同一个头文件信息),最后结果通过系统进行展示,从而选择最合适的算法。从这个比较机制看到,所有的并行算法都是在并行系统中执行,因此可以处理大规模数据;另外,这些算法的执行过程是并行的,评价过程是自动的,因此可以减少算法执行时间和用户的干预。
3.3 创建复杂挖掘过程
通过工作流子系统,系统还支持创建复杂挖掘任务,可以把并行数据预处理操作和并行数据挖掘算法串联起来。系统提供并行属性删除操作、并行数据归一化以及并行分类算法朴素贝叶斯的串联。当配置完所有算法参数后,其执行过程如下:
·执行属性删除操作,对数据集进行属性删除操作,并且修改头文件,生成新的头文件信息。
·接收属性删除后更新后的头文件,进行数据归一化操作。
·进行分类算法任务。接收从第二步传递过来的头文件信息,然后启动分类算法任务。当任务执行完后,对分类结果进行展示。
4 实验分析
并行分布式数据挖掘平台PDMiner是一个高效的数据处理与分析工具,主要面向海量数据集的处理。在保证算法正确性的情况下,构造大数据集来考察算法的性能。系统中开发的并行算法已经在通信领域的实际数据挖掘中应用,以下给出了一些算法在构造的大数据集上的性能测试结果。鉴于隐私性等原因,这里没有给出具体的并行算法名称。
图9、图10、图11、图12、图13给出了2个并行ETL算法和3个并行数据挖掘算法的时间性能。ETL测试的数据规模达到太字节级,而关联规则、分类算法、聚类算法的数据规模分别是30 GB级别、400 GB级别、12 GB级别。我们分别记录了32个节点,64个节点,128个节点的运行时间。若假设32节点执行的时间是标准的理想状态下的时间,图中红线部分给出了理想情况下64节点和128节点的时间性能。从这些图中,可以看到:
·通过增加节点,都可以提高算法的运算速度,较少执行时间。
·算法本身越简单,即并行成分也大,效果越明显,ETL算法显然具有较高的加速比,执行效率也比较高;这说明算法的并行效率与自身可并行化的程度有关。
·如图11所示,算法有时候可以得到线性加速比,说明该并行数据挖掘系统可以有效地利用计算资源。但我们也应该看到这种并行计算模型也不是万能的,增加节点并不能总是能很好地提高效果(如图13所示),有时甚至会由于并行通信而使效果变差。
5 结束语
针对大数据的处理和挖掘,本文开发设计了并行分布式数据挖掘平台——PDMiner。基于Hadoop平台和MapReduce的编程模式,开发实现了各种并行数据预处理操作以及并行数据挖掘算法,包括关联规则算法,分类算法以及聚类算法等。另外,PDMiner还开放了灵活的接口,方便集成新的ETL算法和数据挖掘算法。实验测试表明,开发的并行算法可以处理海量数据,且具有很好的加速比性能。
参考文献
[1] HAN J W, KAMBER M, PEI J. Data mining: Concepts and techniques [M]. 3rd ed. San Francisco, CA,USA: Morgan Kaufmann Publishers, 2011.
[2] LUO P, LU K, SHI Z Z, et al. Distributed data mining in grid computing environments [J]. Future Generation Computer Systems, 2007,23(1):84-91.
[3] LUO P, LU K, HUANG R, et al. A heterogeneous computing system for data mining workflows in multi-agent environments [J]. Expert Systems, 2006,23(5):258-272.
[4] ZHUANG F Z, HE Q, SHI Z Z. Multi-agent based on automatic evaluation system for classification algorithm [C]//Proceedings of the International Conference on Information and Automation(ICIA’08),Jun 20-23,2008, Zhangjiajie, China. Piscataway, NJ, USA:IEEE, 2008: 264-269.
[5] HAMEENANTTILA T, GUAN X L, CAROTHERS J D, et al. The flexible hypercube: A new fault-tolerant architecture for parallel computing [J]. Journal of Parallel and Distributed Computing, 1996,37(2):213-220.
[6] GOUDREAU M W, LANG K, RAO S B, et al. Portable and efficient parallel computing using the BSP model [J]. IEEE Transactions on Computers, 1999,48(7):670-689 .
[7] CHU C T, KIM S K, LIN Y A, et al. Map-reduce for machine learning on multicore [C]//Proceedings of the 21st Annual Conference on Neural Information Processing Systems (NIPS’07), Dec 3-6,2007, Vancouver, Canada. Berlin, Germany: Springer-Verlag, 2007:281-288.
[8] BORTHAKUR D. The hadoop distributed file system: Architecture and design [R]. The Apache Software Foundation, 2007.
[9] DEAN J, GHEMAWAT S. MapReduce: Simplified data processing on large clusters [J]. Communications of the ACM, 2008,51(1):107-113.
[10] 万至臻. 基于MapReduce模型的并行计算平台的设计与实现 [D]. 杭州: 浙江大学, 2008.
[11] HE Q, TAN Q, MA X D, et al. The High-activity parallel implementation of data preprocessing based on MapReduce [C]//Proceedings of the 5th International Conference on Rough Set and Knowledge Technology(RSKT’10), Oct 15-17, 2010,Beijing, China. LNCS 6401. Berlin, Germany: Springer-Verlag, 2010:646-654.
[12] HE Q, ZHUANG F Z, LI J C, et al. Parallel implementation of classification algorithms based on MapReduce [C]//Proceedings of the 5th International Conference on Rough Set and Knowledge Technology(RSKT’10), Oct 15-17, 2010, Beijing, China. LNCS 6401. Berlin, Germany: Springer-Verlag, 2010:655-662.
[13] LI N, ZENG L, HE Q, et al. Parallel implementation of apriori algorithm based on MapReduce [C]//Proceedings of the 13th ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel Distributed Computing (SNPD’12), Aug 8-12,2012, Kyoto, Japan. Piscataway, NJ,USA: IEEE, 2012:236-241.
[14] ZHAO W Z, MA H F, HE Q. Parallel K-means clustering based on MapReduce [C]//Proceedings of the1st International Conference on Cloud Computing(CloudCom’09), Dec 1-4, 2009, Beijing, China. LNCS 5931. Berlin, Germany: Springer-Verlag, 2009:674-679.
[15] HE Q, WANG Q, ZHUANG F Z, et al. Parallel CLARANS clustering based on MapReduce [C]//Proceedings of the 3rd International Conference on Machine Learning and Computing (ICMLC’11):Vol 6, Feb 26-28,2011,Singapore. Piscataway, NJ,USA: IEEE,2011: 236-240.
[16] HALL M, FRANK E, HOLMES G, et al. The WEKA data mining software: An update [J]. ACM SIGKDD Explorations Newsletter,2009,11(1):10-18.
[17] 宋晓云, 苏宏升. 一种并行决策树学习算法研究 [J]. 现代电子技术, 2007,30(2): 141-144.
作者简介
关键词:大数据;云计算;数据分析;商业模式
DOI:10.16640/ki.37-1222/t.2015.21.099
1 绪论
随着网络科技的发展,数据的存储变得简单可靠,通过积累,我们获得了海量的数据。这些数据还在以爆发式的速度激增,是我们不得不面对两个变化:一个方面,我们享受着数据带来的便利,以往因为没有数据积累而无法实现的应用 现在可以实现了;另一个方面,巨量数据的骤然涌现,给数据的存储和利用带来巨大挑战:企业的大数据需求模糊导致大数据这一无形资产渐渐流失;企业的自有数据是相对对立的,导致大数据的价值得不到充分的利用;数据不准确,很多数据无法使用;许多企业的数据存储存在安全隐患,在线的数据使得一些不法分子蠢蠢欲动, 盗取用户资料等个人重要信息的事件频发,大数据安全技术亟待提高;开放的大数据才会带来价值,数据开放和隐私保护兼顾,尺度问题和立法成为燃眉之急。
1.1 大数据面临的问题
很显然,大数据面临的主要问题有两个:一、如何存储如此海量的数据。大数据不仅数量巨大,实时性也是它的一个特点,RFID,移动设备,网络和不断发展的的自动化感知技术源源不断的为我们提供实时的数据,这些数据的增长往往是没有止境的。除此之外,大部分数据都是非结构化的,没有关联的,比如一些网络通信记录;视频和音频资料;购物网站的点击量等。我们希望可以从这些非关联的数据中获取可用的信息。二、如何对大数据进行分解分析。显然数据本身并不产生价值,我们需要对其进行分析,才能对企业或单位产生帮助,把分析结果转化为生产力,这才能产生核心竞争力和高利润。
1.2 云的出现
随着科技的迅猛发展,一些重大的革新性技术相继出现:云计算开源软件hadoop、 NoSQL数据库技术、虚拟技术等,它们共同推动者大数据的改革和发展。NoSQL数据库用作存储数据,存储量和性能较传统数据库明显提高了很多。亚马逊的虚拟Amazon云服务更大大提升了数据存储的空间,其他许多IT巨头像谷歌、微软、雅虎都在建设自己的云。我们把资料存到云上,即便我们的PC或者其他存储工具坏了,我们依然可以通过其他电脑、手机迅速的获取这些资料,不需要再担心资料丢失。
什么是“云”?在网络如此发达的今天,我们把如果把整个因特网比作碧蓝的天空,那么散布在网络上各种各样的难以数计的资源就是“云”, 大数据就是“云”,云计算,就是对“云”这种大数据计算的方法,说云计算是工具,大数据是原料。
2 价值的产生,云计算与大数据紧密结合
有了高速的云计算,需要几天甚至几个月处理的数据,现在几分钟甚至几秒就可以处理完。雷军说过,天下武功,唯快不破。大数据由于巨大,处理速度当然越快越好,快也是网络商业时代获取利润的必需之备,而云计算特点刚好符合快速这个要求。
2.1 云计算原理
在云计算搭建的平台上,大量的计算机、服务器等是分布式排列的,云计算整合了这些计算机资源,把相关计算分解到到这些分布式的的计算机上,当我们实现某个计算时,我们不知道也不用知道到底有哪些、有多少台计算机正在为我们工作,我们只要得到返回的结果就可以了。云计算的第二个关键词就是“拆分”,处理分析大数据的程序由于非常庞大,自然运行起来就比较慢,得到结果就会费时很长。通过网络,把这一庞大的程序自动分拆,形成无数个很小的子程序,再将这些小程序分给每台计算机处理,极大的缩短了结果获取时间。云计算有效的融合了网格计算、分布式计算和并行计算技术,并成功的运用在各个领域。举个云计算简单运用的例子,我们使用百度搜索引擎时,只需要输入关键词,就会有成千上万台电脑为我们返回搜索结果。这种搜索引擎他的的后台就是是云计算,对用户来说,它是透明的。正是有了云计算技术,我们不需要增加投资、不用重新购买软件和不用增添新人手,就可以大幅提高网络的存储容量和计算能力。
2.2 云计算的形式
云计算可提供的服务是多方面的,比如邮件过滤服务,网络云存储服务,软件下载服务,信息搜索服务等。云计算有以下几个形式:
(1)实用计算。整合分布在网络上的大量电脑、服务器及他它们的内存、输入输出设备和计算能力形成一个虚拟的资源池来处理海量数据方面的难题。
(2)SAAS。SAAS是Software-as-a-service 的缩写,通常翻译为软件即服务,也被称为软营模式。在SAAS模式下,企业只需要付出一定的租赁费用,通过网络就可以使用软件、硬件、维护服务,还可以在线升级。客户不需要购买硬件软件、建设机房,增加人手。区别于在自己的电脑上安装软件,他们只需要透过网络,利用SAAS平台提供的软件,选择自己需要的服务,就可以随时随地的使用,省时又省力。
(3)MSP。MSP就是管理服务提供商,是云计算早期运用之一。 程序监控、邮件病毒扫描我们比较熟悉的应用都属于这一范畴,很显然,大部分MSP是面向IT行业的从业人员的,普通客户用得较少。
(4)商业服务平台。联合了MSP和SAAS,可以完成客户与企业的良好互动,比如淘宝的支付宝系统。
(5)互联网整合。云计算可以把网上供给相似服务的公司聚合起来,即物以类聚,这样极大地方便了用户,可以便利的对比和挑选中意的提供商。比如淘宝购物的“找同款”功能。
2.3 云计算的优势
云计算的优势是显而易见的。首先,云计算可以提供是安全可靠的存储服务。云计算整合了海量的硬件资源,客户的资料采用分布式存储模式,对比一台电脑单机作战,云存储可以通过不断地备份保证资料不被丢失,同时,云计算还具备强大的数据恢复技术。其次,云计算使得资源得到最大力度的共享。云平台整合了网络上大量的软硬件资源,比如共享的网络、共享的存储系统、共享的服务器等等,云计算平台对这些资源采取动态调度和统一管理的模式。客户的电脑只要有网卡和安装浏览器,不一定要有处理器、硬盘也可以完成储存文件,制作文件,发邮件的工作。最后,云计算实现了客户综合成本最底,体验最佳的梦想。我们从此就不必亲自操刀软件的安装和升级这种琐事,也不必再为电脑病毒而烦心。在云计算的框架下,客户可以按需付费,实现了近似零维护的使用,真正绿色节能。
云计算有以下几个大的IT企业做的很好:发展最迅速的是微软云计算,它提供多种软件的在线服务;中文服务是IBM云计算的发展重
(下转第118页)
(上接第108页)
心,它的目标是让企业的数据中心像互联网一样运行;亚马逊云计算,通过网络,它提供了计算机处理、信息排队、数据库管理系统接入式服务;谷歌云计算,它的特点是多种方式向客户开放谷歌云,比如说应用托管,以及谷歌擅长的搜索业务,这是动力强劲的一种新的商业模式。
3 结束语
小企业将是云计算的受益者。由于共享,它们可以以极低的成本使用大企业级的技术,这样不仅拉平由于企业规模形成的优劣差距,而且还可以是小企业逆袭成为行业领导者。在云的时代,对于顶尖技术的独自占有依然打破,作为普通人的我们可以用低代价使用顶级的IT技术。
过去四十年IT的改变,全球经济格局的改变带来了非常深刻的变化,一个崭新的科技浪潮正向我们涌来,这个浪潮具有改变、革新、、摧毁一切的能力,被称为“大数据”时代。美国市场研究公司对全球五百强进行一项调查显示,在他们最关心的技术趋势中,在2012年第一次排名第一的是大数据。大数据究竟是什么,英特尔的创始人之一Mr.Gordon Moore曾经预测说,计算机芯片处理信息的能力在每18个月会翻一倍,所以成本每18个月会降一倍。所以不管是传输、存储还是处理,数据的成本,因为科技的变化,在过去四十年年复一年,日复一日,以几何基数的形式大幅度下降。
现在全球一天可以发出去2900亿邮件,相当于美国全国两年纸质邮件总和,一天之内在互联网被传输、使用、观看的图片是2.5个亿,如果把这些打印在纸上,叠起来,我们将会得到80座埃菲尔铁塔的巨大高度。中国拥有世界上最大的互联网用户群,新浪微博每天会产生一亿条微博,数据大爆炸正在涌来。全球范围之内数据也是18个月翻一倍,这个数字大到让人无法想象。很多数据在产生的同时就被遗忘、抛弃。
“随着互联网的发展,特别是社交媒体、电子商务以及智慧终端的快速发展,每天都在产生数量巨大的‘数据碎片’。比如,淘宝每天活跃数据量已经超过50TB,共有4亿条产品讯息和2亿多注册用户在线活动,每天超过4000万人次访问;又比如,新浪微博每天的微博条目已经超过1亿。”好耶集团董事长兼CEO陈恂博士表示,“为什么称之为数据碎片,是因为以前的数据多是结构化的数据,而现在我们面临的是非结构化数据的大爆炸。”
云计算是唯一可行的大数据处理方式
数字营销已经随着互联网进入大数据时代,同样的进入大数据时代。全球各地的网站数量仅仅2011年就新增了3亿个网站,手机网络每天数据流量达到43个petabyte,淘宝每天活跃的数据量超过50个petabyte。在这样的一个背景下,海量碎片化数据的产生,对于数字营销既是挑战也是机遇。要从海量数据中获取洞察,常规技术已经难以应对PetaByte级的大规模数据运算。数字营销不再只是依靠人为的,或者人力的经验与判断,而是需要通过对数据挖掘,建模,大规模的处理,来对数据的内涵进行分析与洞察,通过对用户的数字行为的全程跟踪,利用建模的方式描绘用户的兴趣和关注点,就可以实现时时定量精准的,基于数据的数字营销策略。
这时,云计算技术是唯一选择。云计算通过数据仓库,将分散的海量数据(PC端、手机端、应用端等)统一导入云端平台,在这样的一个行业和时代的背景下,互动网进入了个性化、社交化、开放化和移动化的时代,这些趋势核心的驱动力,在我们看来就是数据化,大数据。
好耶集团是中国领先的全程数字营销方案提供商,在这样的时代背景下,其上月在北京召开云计算战略会。会上,好耶了好耶云计算战略,启用了以云为图形的新好耶Logo,同时基于云计算版本的数字广告管理系统iMedia、云计算版本的数字营销监测和分析系统iDigger、云计算版本的智能展示广告网络平台SMARTmedia和基于云计算的移动应用广告平台A立方。在大规模分布式计算机群上实现数据的整合、管理、挖掘、建模和应用。
“过去传统PC时代,很多数据存在我们的PC端。直到现在,每一个人都有好几台机器时,我们才感觉到云的必要性。每个人有一台IPAD,一台手机,一两台电脑,这样给数据同步就带来了很大的挑战,互联网让云变成了方便且必要的东西。好耶云产品背后有巨大的数据支持,它很大的程度是一个新的平台。”创新工厂的李开复在会上表示。
好耶开展了各种形态的数字营销业务,给互联网各方包括广告主、媒体伙伴提供不同的产品和数据的服务,比如互动创新,社区营销,电子商务。除了之前为媒体提供的iMedia广告系统, iDigger广告监测与分析系统,另外,在会上,好耶还正式推出的A立方移动应用广告网络平台以及精准广告网络平台SMARTmedia。通过所有这些不同形态的业务和产品,好耶目前支持中国互联网上80%的广告监测与,覆盖中国99%的网民,每月支持700亿次的广告展示,拥有中国互联网上最大的受众数据库,月度cookie数超过8亿,和最强大的数字营销和存储能力。
这样强大的技术支持背后是强大的研发团队,好耶设立在美国的硅谷研发中心主要负责基于云的算法研究,上海的研发中心负责产品化,云平台软硬件的技术环境部署,以及日志的收集与数据分析,西安的团队负责商务智能系统的开发。好耶云平台将通过规模、技术和开放性为互联网参与各方带来最大的价值。
云计算是处理海量数据的成本最低效率最高和利用率最高的方式,通过把分散的海量数据、非常碎片化的数据从PC端,手机端、应用端统一存入云平台,通过一个大规模的分布式处理方式来提高计算的效率。在这样的过程中,分析挖掘洞察营销过程中的消费者行为数据,作出动态的营销响应,为广告主和媒体提供精准的服务。好耶基于现在的云平台,推出新产品―iMedia和iDigger的租用服务,也就是SaaS (Soft-as-a-Service),会为客户带来多方面的利益。第一是可以减少软件的授权费用,第二可以由好耶来负责服务器的硬件,网络安全,还有软件升级各方面的维护。广告客户可以以此获得基于好耶云的数字处理、分析功能还有其他的一些相关的应用。
中国数字营销领域的第一片丰沛的云
“首先要有足够量的数据源,否则就是巧妇难为无米之炊。”好耶集团首席技术官,兼斯坦福大学工程学院客座教授的叶军博士介绍到,“好耶定位为全程数字营销方案提供商,目前服务的客户超过九百个。我们提供互动创新、定向广告、社群营销、移动营销、效果营销、搜索优化以及广告效果监测等综合服务。通过全程数字营销服务,我们为广告主收集了数量巨大的用户网络行为数据。目前,好耶每月支持的广告展示超过700亿次,好耶拥有月度超过八亿的cookie数据库,可以覆盖中国互联网超过99%的网民。”
好耶云借助机器学习和数据挖掘的技术,建立了语义点击率模型,根据网页内容语义准确地预测广告点击率,跨越从极低语义相关度,到最高语义相关度几个数量级的区间。该模型已经应用在好耶客户的实战服务中。通过语义定向的技术,好耶为该客户将点击率提高53%。
同时,好耶云里也包含了兴趣点击率模型,根据互联网民的在线行为,浏览历史等准确地预测广告点击率,跨越从无兴趣,到最有兴趣几个数量级的区间。该模型在为好耶客户的实战应用中,为客户准确无误地预测到贡献77%的点击,却只占总流量的23%的高度相关和有效的流量。
在王柏华看来,建设智慧政府是智慧城市的前提,在智慧政府上搭建政府公共服务平台是浪潮智慧城市的建设思路。这需要软件硬件的整合,以及行业服务经验,为此,浪潮集团设计了智慧城市“iCity365” 爱城市公共服务平台,具有三大核心主题:政府梳理办事信息,打造政府百科,聚合政府服务,构建政务淘宝;生活上,整合生活服务,快速捕捉需求,搭建城市生态圈;实现互联网政民互动,一体化的政府和百姓声音。这样可以达到政府开放数据,社会开发应用,百姓享用服务的智慧城市模式。
他还提出建设智慧城市,打造服务型政府的相关建议。第一,建设智慧城市是构筑城市信息化应用,打破部门间信息壁垒,面向法人和自然人两类服务对象,可以提供多种政务服务、便民服务和第三方服务,打造服务型政府;第二,智慧城市建设可以带来增量需求,有效带动各地信息产业发展。
而打造服务型政府首先要了解服务分为三个层次,从标准化服务到个性化服务,再到智慧服务。大数据处理平台可以挖掘应用,为社会治理、公共安全、企业经营提供参考,为智慧服务提供保障。今后无论是政府决策和企业经营,将全面基于数据分析,决策将更加科学、准确。据悉,浪潮已经建立了包括社会民生民意数据分析、电商交易数据分析、制造业原材料价格数据分析、土地交易规则数据分析、企业/法人信用数据分析等行业数据分类分析方法。王柏华认为,信息时代的竞争焦点将是数据的竞争,政府和企业抓紧时间收集数据、应用数据将占领竞争的制高点,促进经济和企业自身发展。
关键词:云计算技术;大型数据仓库平台;现状;优势;对策
中图分类号:TP311.13
现如今,社会科技日益发展,世界大市场逐步开放,企业想要掌握更多的数据,在竞争中立于不败之地,了解运营的基本情况,就一定要坚持数据仓库平台的创建和创新。原有的数据平台在信息查询和处理的时候还存在很大的缺陷,无法对具体数据进行准确分析,在很大程度上阻碍了企业的进一步发展。与此同时,新技术在大型数据仓库平台上的应用也关乎着企业的整体水平,是衡量企业技术能力的重要指标。因此,坚持采用云计算技术构建大型数据仓库平台是企业和运营商所要走的必然道路。
1 大型数据仓库建设的现状
进入21世纪以来,市场经济逐步完善,企业之间的竞争日益加剧,电信运营商想要不被社会所淘汰,就一定要全面掌握企业的生产状况,了解运营成本,对具体数据能够准确给予分析。数年前,数据分析系统还称之为经营分析系统的时候就被应用于电信运营商中,它主要是对企业的业务情况进行综合分析,然后通过一系列的加工处理,再将其制作成数据报表形式。随着近年来经济的飞速发展以及分析数据的多元化,就使得企业所承载的业务功能更加复杂,传统的数据仓库建设已经无法满足精细业务的高要求,如何实现数据的准确分析,将数据收集、加工、处理等工作集合在一起已经成为了企业人员关注的焦点。
2 大型数据仓库平台中云计算技术的引入
由于云计算技术的发展,给很多企业提供了数据准确分析的能力,在电信运营商内部的信息化建设中也相应的引入了新技术,满足了资源的池化要求,形成了私有云平台。在此基础上,根据电信运营商对数据准确性和精细度的要求,引入×86分布式集群的MPP(大规模并行处理)架构,能够很好的解决上述问题,保证企业的进一步发展。
2.1 对比SMP与MPP架构
SMP是比较传统的架构模式,指的是在一台计算机上集聚了一组处理器和多个CPU,且各CPU之间能够实现内存的共享。虽然其中具有多个CPU,但是它们仍然和一台计算机一样,每个处理器都可以对内存进行访问。在许多松耦合处理单元的共同组成下则形成了MPP系统,这种系统中的CPU都有自身的私有总线、硬盘、内存等设备,其中的×86分布式集群就是典型代表。
SMP相对于MPP来说存在着很多不足,其扩展相对有限,并且在扩展的过程中需要大量资金。而MPP系统则不会对资源进行共享,资源总数却相对来说多一些,在处理能力上也比较突出。所以,在具体的应用过程中大多采用MPP系统,它的运行速度和效率都要快一些,在OLAP大数据分析上也具有更高的优势,更加有利于系统性能的充分发挥。
2.2 云计算数据仓库
在上述文章中已经分析得出了MPP系统的优点,所以在技术应用中也要配合与之相适应的技术路线,具体来说主要有两种。第一,软硬化一体化路线。它其中主要有IBM一体机Netezza、Teradata一体机等设施,它具有很高的性能,能够优化硬件,但是研发费用也相对较高;第二,软件数据库管理系统产品。这其中主要有EMC Greenplum、Hadoop以及IBM DB2系统下的HIVE或者HBASE工具设备,它可以采用比较常见的硬件产品来予以组建,没有具体的硬性要求。
2.3 MPP云化数据仓库的基本系统
这种系统主要有三个层面共同构成,其建设方案也相对比较复杂。第一,MPP能力层。它的构成相对复杂,至少有多于2个的高性能×86分布式集群主机构成,主要实施管理职能,能够实现对数据节点的任务调度,并提供计算能力池和存储能力池。另外,它还是多台×86存储服务器组成的数据节点集群,网络通信平台由多台高性能局域网交换机共同构成;第二,云计算数据库管理层面。它不仅具有普遍使用的关系型数据库的管理功能,而且对外支持SQL标准语言,能够对底层数据进行分布式管理,承载调动功能,分担底层节点设备的负载量;第三,应用层面。顾名思义,它是最具有实用功能的层面,能够根据具体情况进行应用分析,具备KPI、多维分析、报表构成等多种基础功能
2.4 比对业务数据加载验证
POC(验证试验)是确保云计算数据方案是否达到标准的主要测量手段,它能够准确分析出时间的消耗情况和运行处理的效率,并且在此基础上与传统的方法进行比对,从而分析出结果,保证硬件配置的最优化。
3 云计算技术构建大型数据仓库平台的优点
3.1 在大型数据仓库中应用云计算技术能够根据固定的对策对每个MPP节点上的业务数据进行公平合理的分布,最大限度的发挥每个部分的功效,使得系统的I/O能力不再受少数主机运行情况的限制,保证它与数据节点的数量成正比发展趋势,解决其所面临的瓶颈。在数据的需求量变大的时候,只要经过对节点的调动,就可以使其进行延展。在系统相对不拥挤的时侯,还能够自动进行节点的分布,保证过程的连续性,实现系统的即刻扩展。
3.2 在大型数据仓库中应用云计算技术能够进一步节省I/O的操作环节,通过列存储技术可以对传统数据库中的行数据进行整合加工,实现聚合存储,大大节约了运算时间,并提高了大数据频繁访问的性能,在为硬件资源带来效益的同时还适应了OLAP的应用功能。
3.3 在大型数据仓库中应用云计算技术,能够保证网络宽带在各节点之间充裕的情况下,实现数据处理能力的提升,具有很高的扩展性能。据准确数据显示,主要的云计算数据库支持下的MPP架构可以达到一千个节点以上的扩展规模,数据的存储能力也超出了50PB,对各类业务数据的加工存储时间都有了提升。另外,这种新技术支持所有的SQL语法,是隐藏在MPP之下的细节内容,在使用者运行的过程中不用转换语言,节省了时间。
3.4 在大型数据仓库中应用云计算技术能够通过各计算节点的同构和互换措施提高服务的稳定性,采取数据多副本容错机制也可以减少错误发生的几率,一旦某个节点出现问题,也不会影响这个系统,只是其性能会有所降低。因此,MPP里面的节点越多,其性能下降的指数就越小,容错能力也就越强。
4 云计算技术的应用未来
从上述内容中,我们已经清晰直观的看到了采用云计算技术构建大型数据仓库平台的巨大作用,随着企业资金投入数量的增多以及基础设施系统能力的提高,其应用范围一定会更加宽广,为云计算平台提供物质前提。参看国外的成功经验和经典例子,也可以发现其中的关键所在。云计算平台很重要的一点优势就在于能够进行快速伸缩,实现弹性化管理,而这一点又恰巧符合大规模节点设备提出的高要求,所以对其进行进一步应用并不断发现新特点、开发新技术也就成为了大势所趋。
参考文献:
[1]马又良.采用云计算技术构建大型数据仓库平台的探讨[J].邮电设计技术,2012(7):271-18.
[2]何华.基于云计算平台的电信经营分析系统中元数据管理的研究与实现[D].2011:93-41.
关键词: 云计算;大数据;数据挖掘;医疗
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)07-0021-03
Research on the Architecture of Medical Big Data System Based on Cloud Computing
WEI Jian-bing
(Gansu Foresty Technological College,Tianshui 741020, China)
Abstract: Introduce Big Data era medical industry data mining challenges, combined with cloud computing is proposed based on the ecological environment to build medical Hadoop cloud data mining platform architecture, detail its layers, including a base layer, the platform layer, the functional layer and the service layer in order for the medical industry, big data analysis and mining to provide new ideas.
Key words: Cloud computing; large data; mining; medical
随着技术的进步,信息产业的发展以及信息供给量的增长,一个遍及全世界的医疗行业大数据的革命即将到来。在已经过去的十年中,医药商开始将他们多年来的研发数据都存储于医疗数据库中,与此同时,医疗机构也在对他们的患者记录进行数字化。美国政府及相关部门已经开放了庞大的医疗信息数据库,这些信息不但涉及临床跟踪数据,还包括病人的医保记录。最新的技术可以汇聚医疗机构、医学实验室、医务办公室以及患者的信息等数据,组成一个庞大的数据集。
医疗信息化的快速发展会令医疗数据的规模不断变大,云计算现已被大量的组织和机构所使用,云计算平台已经形成了多种服务模式,包括为个人、组织、企业或是学术机构等提供云服务的商业模式。云计算所提供的应用和数据服务可以被很多不同的用户广泛应用,同时用户还可以跨平台、跨企业地使用云资源。凭借自身优势,云计算可以令医疗事业的信息化改革和部署更加方便及廉与此同时,云计算还可以大大提高对医疗大数据的挖掘能力,增强医疗信息化系统的可扩展性。近年来,国内企业也开始逐渐以数据作为理论基础,现在已经发展到没有数据基础就无法做出决策,并无法提出完善的建议。不仅如此,事实上,医疗数据是可以“说话”的,但它所表达的语言意义需要使用人类的分析和挖掘。
1 医疗大数据
1.1医疗大数据的产生
随着互联网的迅速发展和不断普及,云计算和物联网等技术也快速兴起,数据正在以一个前所未有的速度累积和扩张,一个属于大数据的时代已经到来,各种研究部门以及机构都已经将目光放在大数据的问题上。大数据通常是指一些庞大的数据集,这些数据集在进行采集、管理或者处理时所消耗的时间超过可容忍时间。大数据的概念在强调数据规模和多样性的同时,也考虑到了产生和变化的速度以及确定性。大数据不单单是一项单纯的新技术,而是将引领信息技术产业的又一项颠覆性的革新技术。据相关预测,中国的大数据市场将在2012-2016年增长5倍,其中,医疗卫生行业将是其中占据份额最多的行业之一。
目前我国的医疗信息化建设进程不断加快,各类医疗卫生机构的信息系统以及数字医疗设备和仪器的广泛应用使医疗数据呈爆炸性增长,这些数据资源是非常有价值的医疗卫生信息,他们对疾病的诊断,治疗,研究有很大的价值,医疗费用控制。医学数据量的快速增长,使医疗卫生行业迎来了属于自己的大数据时代,对这些医疗大数据的创新性管理和应用,将给生命科学和医疗领域带来一场革命。
医疗大数据主要来自于包括临床医学、疾病监控、医学研究、制药企业、费用管理、生物信息、健康管理、社交网络等方面,如何利用这些海量医疗信息来更好地为医疗行业服务已被更多的研究人员和机构所关注。大数据时代的来临无疑会对我国医疗信息化建设起到巨大的推动作用,医疗大数据的相关技术将解决以往无法解决的一些难点和问题,如何利用好大数据技术并且让其充分发挥作用是今后相关科研工作者研究的重点。
1.2医疗大数据的特点
医疗大数据有以下几个主要特征:
1)数据巨量化
每家医疗机构每天的患者都有可能拥有上万人,而每个地区可能包含上百家医疗机构以及上百万人口,这些患者的病历数据都需要至少记录60年。而随着医学的发展,各种先进的医疗仪器不断被发明,这些仪器产生的数据也十分巨大。
2)服务实时性
医疗大数据不同于其他大数据,一般需要进行大量的在线分析和实时处理。
3)存储形式多样化
医疗大数据存储的格式是多种多样的,如一些数据表、化验结构等是结构化的数据,而医生的手写病历、文本、影像等为非结构化数据。
4)高价值性
医疗数据所蕴含的价值巨大,对各国的疾病防控、药物研发以及健康保健都有着十分巨大的作用。
根据相关数据统计显示,目前的医疗行业里,一张CT普通扫描的图像文件大小就超过150MB;―个基因组序列文件包含约750MB的数据;标准病理图包含的数据量就更大,甚至接近5GB。如果将这些数据大小乘以人口基数以及人的平均寿命的话,仅仅是一个社区医院所要累积的数据量,就高达TB甚至PB数量级,而且其中还包含了各种图像、视频等非结构化的数据,而其他大型医疗机构的数据量就更加庞大。
因此,如何能快速地在海量的医疗大数据中提取到有用信息正成为各企业以及研究机构的战略性发展方向,通过大数据挖掘分析,得到有价值的信息,将对未来的疾病管理、控制、治疗以及研究等方面都有着非常重要的意义。
2 云计算
2.1云计算的定义
云计算有很多的定义。下面给出一个由美国国家标准与技术研究所提出的改进定义。云计算是一种模型,它可以实现随时随地、便捷、随需应变地从可配置的计算资源共享池中获取所需的资源,资源能够快速提供并释放,使管理资源的工作量或与服务提供商的交互减小到最低限度。云计算模式有五大主要特征:
1)用户可以利用任何服务提供者的现有计算资源,包括处理能力、储存空间、或是应用程序等等,而不需要人工交互。
2)任何标准的联网设备可以随时随地访问这些计算资源。
3)服务提供者的计算资源可以被合并起来提供服务,而这些合并的资源可能分布在各地的多个数据中心。同时,供应商的计算资源可以被多个用户分享使用。这些计算声]可以按需、动态地分配给用户,通常,用户也无须考虑地理位置,世界上任何地方的用户都可以使用这些计算资源。
4)用户可以弹性利用这些计算资源,一个用户可以在需要时申请更多资源,而不再需要后可以释放它们。从用户角度来看,这些资源是无限的,而用户只需要为他们使用过的资源付费。
5)云计算系统是一个自适应系统,它可以自动平衡负载并且优化资源的利用。用户可以监控资源的使用从而令账单透明化。
2.2云计算的独特特征
2.2.1云计算有五个主要特征:
1)提供者不但要投资建设基础设施,还要进行维护。
2)基础设施供应商提供的服务会被很多用户分享。
3)用户按需获得服务。
4)提供的服务是弹性且可扩展的,换句话说,用户可以按需获得一个无限的服务。
5)用户只为他使用过的资源买单。
6)供应商提供特定的服务质量保证。
2.2.2由于计算的特殊性质,云计算还有五个主要需求:
1)基础设施应该是动态的、虚拟的。即基础设施应该根据使用者不同的应用和特殊的要求采用不同的“化身”。
2)当应用程序作为一项提供的服务时,应用程序的咨询也同时作为服务供应商的一部分工作。这往往不是传统供应商的鲜明特征。
3)一旦应用程序被使用,供应商和用户之间需要建立起一个双向的连接,以便于处理程序中的错误以及提供咨询服务。
4)供应商有义务保证用户数据和程序的安全。
5)由于供应商的计算机以及数据储存位置的国际性,目前没有相关法律适用于处理云计算供应商及用户相关的纠纷。
2.3按服务类型的分类
云计算按照服务类型分类主要有以下三种。
2.3.1基础设施即服务(IasS)
在这类服务中,供应商主要提供数据中心服务,包括计算机服务举、储存服务器、通信基础设施,用户可以在其上层部署和运行任何软件。数据中心包括安全建筑的硬件配置、不间断电力供应、空调以及不间断通信设备,用户也可以部署他们自己的应用软件和操作系统,供应商只负责提供硬件组件。由于不同的用户需要在云端安装不同的操作系统及软件,所以需要供应商根据用户需求分层部署软件,仿照硬件的运行模式,这就是我们所说的虚拟化。又由于多个用户可能同时使用服务器且所使用的操作系统可能不同,这就需要服务器可以提供多个虚拟机以供用户使用,这些都由被称作超级管理程序的软件控制。IasS可以给多个独立的用户提供基础设施的共享使用。普通的IasS公司通过提供应用程序接口给用户,以便于其使用,同时IasS也可以同它的用户签订服务器级协议。最早的IasS供应商是亚马逊的EC2,其他的供应商包括Backspace和IBM等,都向用户提供满足他们需求的虚拟系统。
2.3.2平台即服务(PaaS)
这一项服务是建立在IasS之上,去除掉软硬件的基础设施,这项服务提供了包括操作系统、编程语言、开发环境以及开发工具等。换句话说,这项服务迎合了用户所有关于系统程序开发环境的需求,包括微软的.NET或者UNIX开发环境等等。这类服务供应商包括微软Windows Azure,亚马逊的Web Services,IBM的SmartCloud,以及Google的App Engine。
2.3.3软件即服务(SaaS)
SaaS是一种通过Internet提供软件的模式,供应商将用户需求的应用软件部署在自己的基础设施上,客户可以通过连接互联网设备进行访问,电子邮件就是SaaS服务的早期典范。同时还有一些第三方软件可以在云端运行以管理用户关系、纳税申报、销售管理等等,同时还有其他各种各样的常见软件,包括文字处理、电子表格以及数据库管理等等部署在云端。
2.4 按服务方式分类
按照部署与访问的方式,云平台也被分为如下几类: