公务员期刊网 精选范文 大数据分析方案范文

大数据分析方案精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的大数据分析方案主题范文,仅供参考,欢迎阅读并收藏。

大数据分析方案

第1篇:大数据分析方案范文

关键词:大坝 安全监测 数据 分析

中图分类号:P2 文献标识码:A 文章编号:1672-3791(2012)12(b)-0053-02

1 大坝安全监测的意义

大坝所具有的潜在安全问题既是一个复杂的技术问题,也是一个日益突出的公共安全问题,因此,我国对大坝安全越来越重视。随着坝工理论和技术的不断发展与完善,为了更好地实现水资源的进一步开发利用,我国的大坝建设正向着更高更大方向发展,如三峡重力坝、小湾拱坝(最大坝高294.5 m)、拉西瓦拱坝(最大坝高250 m)、溪洛渡拱坝(最大坝高285.5 m)等,这些工程的建设将为我国的经济发展做出巨大贡献,也将推动我国的坝工理论和技术水平上升到一个新的高度。但是,这些工程一旦失事,将是不可想象的毁灭性灾难,因此,大坝安全问题就显得日益突出和重要。保证大坝安全的措施可分为工程措施和非工程措施两种,两者相互依存,缺一不可。

回顾大坝安全监测的发展历史,最早可追溯到19世纪90年代,1891年德国的挨施巴赫重力坝开展了大坝位移观测,随后于1903年美国新泽西州Boont。n重力坝开展了温度观测,1908年澳大利亚新南威尔士州巴伦杰克溪薄拱坝开展了变形观测,1925年美国爱达荷州亚美尼加一佛尔兹坝开展了扬压力观测,1826年美国垦务局在Stevenson一creek试验拱坝上开展了应力及应变观测,这是最早开展安全监测的几个实例。我国从20世纪50年代开始进行安全监测工作,大坝安全监测的作用是逐渐被人们认识的,赵志仁将大坝安全监测的发展历程划分为以下3个阶段。

(1)1891年至1964年,原型观测阶段,原型观测的主要目的是研究大坝设计计算方法,检验设计,改进坝工理论。(2)1964年至1985年,由原型观测向安全监测的过度阶段,接连发生的大坝失事,让人们逐渐认识到大坝安全的重要性,逐步把保证大坝安全运行作为主要目的。(3)1985年至今,安全监测阶段,此阶段,大坝安全监测已经成为人们的共识,随着监测仪器、监测技术和资料分析方法的不断进步、发展与完善,将逐步实现大坝的安全监控。

2 大坝安全监测数据分析概述

大坝安全监测取得的大量数据为评价大坝运行状态提供了基础,但是,原始观测数据往往不能直观清晰地展示大坝性态,需要对观测数据进行分辨、解析、提炼和概括,从繁多的观测资料中找出关键问题,深刻地揭示规律并作出判断,这就需要进行监测数据分析。

2.1 监测数据分析的意义

大坝监测数据分析可以从原始数据中提取包含的信息,为大坝的建设和运行管理提供有价值的科学依据。大量工程实践表明:大坝监测数据中蕴藏了丰富的反映坝体结构性态的信息,做好观测资料分析工作既有工程应用价值又有科学研究意义。大坝安全监测数据分析的意义表现在如下几方面:(1)原始观测数据本身既包含着大坝实际运行状态的信息,又带有观测误差及外界随机因素所造成的干扰。必须经过误差分析及干扰辨析,才能揭示出真实的信息。(2)观测值是影响坝体状态的多种内外因素交织在一起的综合效应,也必须对测值作分解和剖析,将影响因素加以分解,找出主要因素及各个因素的影响程度。(3)只有将多测点的多测次的多种观测量放在一起综合考察,相互补充和验证,才能全面了解测值在空间分布上和时间发展上的相互联系,了解大坝的变化过程和发展趋势,发现变动特殊的部位和薄弱环节。(4)为了对大坝监测数据作出合理的物理解释,为了预测大坝未来的变化趋势,也都离不开监测数据分析工作。因此,大坝监测资料分析是实现大坝安全监测最终目的的一个重要环节。

2.2 监测数据分析的内容

监测资料分析的内容通常包括:认识规律、查找问题、预测变化、判断安全。

(1)认识规律:分析测值的发展过程以了解其随时间而变化的情况,如周期性、趋势、变化类型、发展速度、变动幅度等;分析测值的空间分布以了解它在不同部位的特点和差异,掌握它的分布特点及代表性测点的位置;分析测值的影响因素以了解各种外界条件及内部因素对所测物理量的作用程度、主次关系。通过这些分析,掌握坝的运行状况,认识坝的各个部位上各种测值的变化规律。(2)查找问题:对监测变量在发展过程和分布关系上发现的特殊或突出测值,联系荷载条件及结构因素进行考查,了解其是否符合正常变化规律或是否在正常变化范围之内,分析原因,找出问题。(3)预测变化:根据所掌握的规律,预测未来一定条件下测值的变化范围或取值;对于发现的问题,估计其发展趋势、变化速度和可能后果。(4)判断安全:基于对测值的分析,判断过去一段时期内坝的运行状态是否安全并对今后可能出现的最不利条件组合下坝的安全作出预先判断。

一般来讲,大坝监测资料分析可分为正分析和反演分析两个方面。正分析是指由实测资料建立原型物理观测量的数学模型,并应用这些模型监控大坝的运行。反演分析是仿效系统识别的思想,以正分析成果为依据,通过相应的理论分析,反求大坝材料的物理力学参数和项源(如坝体混凝土温度、拱坝实际梁荷载等)。吴中如院士提到通过大坝监测资料分析可以实现反馈设计,即“综合原型观测资料正分析和反演分析的成果,通过理论分析计算或归纳总结,从中寻找某些规律和信息,及时反馈到设计、施工和运行中去,从而达到优化设计、施工和运行的目的,并补充和完善现行水工设计和施工规范”。综上所述,大坝监测资料正分析中数学模型的研究与应用是实现大坝安全监测及资料分析的目的和意义的基础与根本。

3 监测数据分析方法

大坝安全监测数据分析涉及到多学科交叉的许多方法和理论,目前,常用的大坝监测数据分析方法主要有如下几种:多元回归分析、时间序列分析、灰色理论分析、频谱分析、Kalman滤波法、有限元法、人工神经网络法、小波分析法、系统论方法等等。(图1)

3.1 多元回归分析

多元回归分析方法是大坝监测数据分析中应用最为广泛的方法之一,最常用的方法就是逐步回归分析方法,基于该方法的回归统计模型广泛应用于各类监测变量的分析建模工作。以大坝变形监测的分析为例,取变形(如各种位移值)为因变量(又称效应量),取环境量(如水压、温度等)为自变量(又称影响因子),根据数理统计理论建立多元线性回归模型,用逐步回归分析方法就可以得到效应量与环境量之间的函数模型,然后就可以进行变形的物理解释和预报。由于它是一种统计分析方法,需要因变量和自变量具有较长且一致性较好的观测值序列。如果回归模型的环境变量之间存在多重共线性,可能会引起回归模型参数估计的不正确;如果观测数据序列长度不足且数据中所含随机噪声偏大,则可能会引起回归模型的过拟合现象,而破坏模型的稳健性。

在回归分析法中,当环境量之间相关性较大时,可采用主成分分析或岭回归分析,为了解决和改善回归模型中因子多重相关性和欠拟合问题,则可采用偏回归模型,该模型具有多元线性回归、相关分析和主成分分析的性能,在某些情况下甚至优于常用的逐步线性回归模型,例如王小军、杨杰、邓念武等在应用偏回归模型进行大坝监测数据分析时,还采用遗传算法进行模型的参数估计,取得了较好的效果。

3.2 时间序列分析

大坝安全监测过程中,各监测变量的实测数据自然组成了一个离散随机时间序列,因此,可以用时间序列分析理论与方法建立模型。一般认为时间序列分析方法是一种动态数据的参数化时域分析方法,它通过对动态数据进行模型阶次和参数估计建立相应的数学模型,以了解这些数据的内在结构和特性,从而对数据变化趋势做出判断和预测,具有良好的短期预测效果。进行时间序列分析时一般要求数据为平稳随机过程,否则,需要进行协整分析,对数据进行差分处理,或者采用误差修正模型。例如,徐培亮利用时间序列分析方法,对大坝变形观测资料进行分析建模得到一个AR(2)模型,并对大坝变形进行了预报,结果表明具有良好的预测精度。涂克楠、张利、郑箫等也利用时间序列对大坝监测数据进行分析,有效地提高了模型对实测数据的拟合能力和预测能力。

3.3 灰色理论分析

当观测数据的样本数不多时,不能满足时间序列分析或者回归分析模型对于数据长度的要求,此时,可采用灰色系统理论建模。该理论于20世纪80年代由邓聚龙首次提出,该方法通过将原始数列利用累加生成法变换为生成数列,从而减弱数据序列的随机性,增强规律性。例如,在大坝变形监测数据分析时,也可以大坝变形的灰微分方程来提取趋势项后建立组合模型。一般时间序列分析都是针对单测点的数据序列,如果考虑各测点之间的相关性而进行多测点的关联分析,有可能会取得更好的效果。1991年,熊支荣等人详述了灰色系统理论在水工观测资料分析中的应用情况,并对其应用时的检验标准等问题进行了探讨。同年,刘观标利用灰色系统模型对某重力坝的实测应力分析证明了灰色模型具有理论合理、严谨、成果精度较高的特点。

3.4 频谱分析

大坝监测数据的处理和分析主要在时域内进行,利用Fourier变换将监测数据序列由时域信号转换为频域信号进行分析,通过计算各谐波频率的振幅,最大振幅所对应的主频可以揭示监测量的变化周期,这样,有时在时域内看不清的数据信息在频域内可以很容易看清楚。例如,将测点的变形量作为输出,相关的环境因子作为输入,通过估计相干函数、频率响应函数和响应谱函数,就可以通过分析输入输出之间的相关性进行变形的物理解释,确定输入的贡献和影响变形的主要因子。将大坝监测数据由时域信号转换到频域信号进行分析的研究应用并不多,主要是由于该方法在应用时要求样本数量要足够多,而且要求数据是平稳的,系统是线性的,频谱分析从整个频域上对信号进行考虑,局部化性能差。

参考文献

第2篇:大数据分析方案范文

关键词:大数据;金融投资;大数据分析技术

大数据分析技术其实就是一种现代化信息处理技术,目前它被应用于各行各业中,并且发挥着无可取代的重要作用,特别是为企业在金融投资活动中提供了保障,很大程度上减少了企业的金融投资风险。总的来说,大数据分析技术催生了新的运营管理模式,提高了企业的收益,增强了企业竞争力。本文将具体从大数据时代背景、金融投资中应用大数据技术的重要性以及金融投资风险管理中大数据分析技术的应用方面进行研究。

一、大数据挖掘与数据分析

(一)大数据时代背景当今社会是信息化时代、大数据时代,尽管与发达国家相比,我国大数据技术发展较晚,还不够十分成熟完善,但是我国目前的大数据技术还是很好地促进了我国各行各业发展,为市场开拓提供了极大的便利,还促进了传统运营管理模式的更新,增加企业盈利。同时,大数据技术的发展使用还给消费者带来了诸多新的体验。比如,大数据技术促进了产品质量的改进提高,为消费者提供了更优质的服务。反过来,利用大数据技术分析数据,可以帮助企业更清楚市场行情、预估市场变化,有利于企业更好地应对市场变化,为企业发展提供保障。

(二)金融投资中应用大数据技术的重要性当今经济环境变幻莫测,经济一体化也加剧了金融危机带来的危害,因此,企业在金融投资者面对的问题也越来越多、越来越复杂。而很多企业都缺乏投资风险管控经验,不具备及时应对金融投资风险的能力。这种情况下,大数据的应用能够很好帮助企业降低金融投资风险,切实提高企业经济效益。相关研究数据表明,互联网、电信和金融行业是使用大数据技术最广泛的行业。具体来说,在金融行业里使用大数据技术预测分析金融投资风险,帮助企业制定科学的应对方法,能够从源头帮助企业提高应对风险的能力。现在很多企业在经营上是相互依赖的关系,这就加剧了金融风险,而大数据技术可以促进信息共享,降低他们之间存在的风险,帮助每个参与的企业提高经济效益。还有很多企业由于在向现代化经营模式改革,面临着众多信息,通过应用大数据技术来分析收集的数据信息可以更加准确地预估企业可能遇到的风险,从而帮助企业实现高质量管理。因此,在金融投资中应用大数据技术很有必要性。

二、金融投资风险管理中大数据分析技术的应用

(一)大数据分析技术在银行行业的应用在信息化时代环境下,大数据的使用可以帮助企业进行风险预估,有利于保障企业发展。笔者将具体从大数据分析技术在银行业的应用来说明金融投资风险管理中大数据分析技术的应用情况。我们要广泛收集风险数据,再通过使用大数据分析技术帮助银行分析、整理各种数据,使银行对风险进行预估,进而研究后续金融投资风险发生概率,这样可以制定专门的应对方案,采取切实有效的解决措施。在贷款业务方面,大数据分析技术可以保障银行的利益。多家银行可以实现合作,共享数据信息,建立数据共享平台,利用大数据分析技术共同建立应对风险的高质量方案,帮助银行对金融投资风险进行实时监测。大数据分析技术还可以使银行对客户数据进行整理和分析,对客户资金到账等有关信息进行系统、合理管理,这样不仅有利于银行相关业务的开展,还可以保障客户资金的安全,既提高了银行在客户心目中的信誉,又能在很大程度上降低客户资金安全风险。因此,在银行行业应用大数据分析技术,对银行自身和客户都有积极意义。在使用大数据分析技术处理客户信息数据时,会涉及云计算的应用,该技术可以提高银行数据平台性能,为银行提供专门的信息拟订方案,可以更加有效地处理数据信息,最大化地发挥大数据分析技术在银行行业的应用。大数据分析技术可以帮助银行在短时间内对银行内的数据进行分类识别,并且准确分析海量数据。面对银行业务信息,大数据分析技术甚至可以具体研究每一笔业务数据,既帮助减少银行金融投资管理,又最大限度地保障个人客户的资金安全。

(二)数据挖掘技术在保险行业的应用大数据分析技术不仅为各行各业工作带来了便利,还为之提供了高质量的保障。数据挖掘技术是大数据分析技术中比较常用的技术,特别是在保险行业,数据挖掘技术应用效果显著,有效降低保险行业的金融投资风险。尽管数据挖掘技术的应用流程相对烦琐,但它被应用于保险行业的诸多业务环节中,并且发挥着重要影响作用。最主要的是数据挖掘技术可以帮助保险公司分析数据,进而挖掘发现具有潜在价值的信息数据,而这些信息数据就是各个保险公司的重要业务来源。因此,保险公司的业务发展很大程度上依赖于数据挖掘技术的应用。在保险行业中使用数据挖掘技术要对明确客户的价值。保险公司得以运营的根本就是客户的存在,而客户的价值就直接影响着保险公司业务的后续进行。利用数据挖掘技术对客户信息进行分析,对其潜在价值进行挖掘,从而对客户的价值进行模型建立,后面保险公司可以根据这个模型为客户制定专门的方案,提高针对客户的服务质量,既保证了保险公司的客户来源,也满足了客户自身的需求。利用数据挖掘技术,保险公司可以全面地收集客户、市场信息,并仔细分析客户数据,并拥有自己的数据库,在数据库的基础上研究客户的需求,既能抓住客户的心,还能避免开展不必要的业务,节约公司资源。总而言之,数据挖掘技术在保险行业的应用既有利于降低保险金融投资风险,还保障了客户的服务体验与质量。

第3篇:大数据分析方案范文

提出“五级”转型战略

尽管当前很多企业都在积极采用大数据分析技术和解决方案来变革业务模式,提升企业的核心竞争力,但是很多企业都对自身的大数据项目并不满意。全球领先的基准研究和咨询机构Ventana Research的研究@示,79%的企业用户不具备运用高级分析技术的必备技能。

姜欣介绍,今年Teradata通过《经济学人》杂志在全球所做的一个调研结果显示,在大数据利用方面,企业主要存在以下三方面问题:第一,数据整合问题,57%的被访企业认为难以获取重要的业务数据;第二,数据应用问题,42%的受访企业认为数据过于繁杂,应用不够友好;第三,数据治理问题,75%的受访企业为因异构数据而浪费时间感到困扰。

“我们目前推出的解决方案和技术,就是为了解决以上三方面问题。”姜欣介绍说,为此Teradata提出了五级转型战略:

其一,坚定地走一体化数据分析平台的道路,不断完善一系列平台产品,其中包括最近推出的Teradata IntelliFlex数据仓库架构和Teradata Aster大数据探索平台

其二,全面向云转型,支持私有云、公有云和托管云等多种部署方式,并在这种云生态下提供咨询和开发部署服务。

其三,打造分析生态系统,将统一数据架构(UDA),以及Unity、QueryGrid和Listener等工具整合起来,形成一个大数据生态,并在这个生态下提供咨询和实施服务。

其四,从完全技术中立的角度为客户提供大数据咨询服务,如大数据战略规划服务、敏捷开发咨询服务、数据建模服务。

其五,坚持客户至上而非产品至上,用多元化的产品全面满足客户需求,帮助客户挖据数据价值。

由此可见,Teradata在大数据领域,除了不断完善产品和技术以外,还不断强化咨询服务能力。

推出无边界分析功能

作为Teradata多年的老客户,瑞典最大的工业企业集团沃尔沃汽车公司从2006年开始建立数据分析平台。一直以来,沃尔沃汽车公司面临的一个问题,就是数据散布在超过30个系统中。公司的整合数据存储库和数据模型中,除了有客户、经销商、车辆与车辆配置信息、质保和故障诊断等数据外,还有很多外部数据。这些数据有结构化数据,也有非结构化数据。

沃尔沃汽车公司亟须一个弹性好、敏捷性高的平台来处理所有这些数据。为此,沃尔沃汽车公司部署了Teradata统一数据架构,将所有需要处理的数据全部整合起来进行处理,从而解决数据孤岛和数据治理混乱问题。在部署了Teradata统一数据架构后,沃尔沃汽车公司构建了全球统一的敏捷的数据驱动环境,从而可以借助可靠的数据分析结果降低运营成本,提高盈利能力和客户满意度;形成基于事实的决策机制和文化,使得公司更加开放和透明;有效支撑“数据创客”活动,员工和合作伙伴可以基于数据平台开发数据产品。

沃尔沃汽车公司成功应用Teradata统一数据架构的案例,是Teradata新推出的无边界分析功能的一个应用典范。据悉,Teradata无边界分析打破了过去在进行数据分析时单一系统、单一技术分析的界限,突破时间、地点,以及所需数据和平台的限制,帮助企业高效完成数据分析工作。

Teradata无边界分析功能通过最新版本的Teradata QueryGrid软件和可以自动协调多系统Teradata环境的Teradata Unity软件来实现。其中,Teradata Unity软件具有高可用性特点和工作负载分配功能,从而确保用户在权限范围内可随时访问相关数据和分析。全新升级的Teradata Unity具有强大的跨系统功能,可进一步消除分析环境界限。

电子专业制造服务公司伟创力公司数据与分析团队主管森迪尔(Sendil Thangavelu)认为,采用多个分析引擎来分析来自多个数据存储库的数据以获得更全面、可视化的分析结果,将成为企业强化竞争优势的重要因素。“我们的Teradata数据管理环境已经非常卓越,但我们一直还在寻找解决方案来提高我们的能力。Teradata的无边界分析概念与我们的企业发展方向不谋而合。”森迪尔补充说。

推出快速分析咨询服务

姜欣告诉记者,2015年年底,Teradata总结出了在新形势下具有较强竞争力的新型企业――技术感知型企业。技术感知型企业应具有敏捷平台、行为分析、协同思维、自助应用和自动决策五大核心能力。

姜欣表示,技术感知型企业对内能够提供数据洞察能力,实现数据驱动流程,提升运营的ROI;对外可以整合数据价值,创新数据盈利模式,实现信息运营。

但是,成为技术感知型企业并不容易。为了帮助客户更加顺利、快速地成为技术感知型企业,Teradata还推出了Teradata RACE(快速分析咨询服务)和Teradata业务价值框架。据介绍,RACE是一套敏捷、技术中立的方法论,能够帮助客户在正式投资前了解分析解决方案的潜在业务价值。不仅如此,借助丰富的行业经验和专业的数据分析技术,Teradata还可以帮助客户将项目实施所需时间从数月缩短至6~10周。

据悉,作为Teradata RACE服务的核心,Teradata业务价值框架是Teradata从数千次与客户成功合作中积累的丰富经验的结晶。该框架通过发现切实有用的分析解决方案,帮助客户更快地从分析和数据技术投资中获取回报。

值得一提的是,随着物联网传感器数据等新型数据源的不断出现,新分析技术的不断涌现,用户部署和应用分析解决方案的难度越来越大。但依托适用Teradata业务价值框架详尽的可视化信息,接受RACE服务的客户可以在实施分析解决方案时,掌握清晰的路线图,了解该项目在何时、以怎样的方式带来投资回报。

姜欣介绍,RACE方法包含三个主要阶段:

第一阶段,沟通(Align)。Teradata的分析业务咨询顾问以业务价值框架作为出发点,帮助客户发现最具潜在价值的业务案例,并对准该业务案例开展工作,确认支持该使用案例关键数据资产的可用性。

第二阶段,创建(Create)。Teradata的数据科学家为选中的业务案例载入并准备数据,开发新分析模型或调整既有模型。本阶段数据科学家会与业务发起人对方案进行多次快速迭代,以确保分析结果能带来预期业务效果。

第三阶段,评估(Evaluate)。Teradata的分析业务咨询顾问分析结果,评估部署分析使用案例的潜在投资回报率,并为客户设计、部署方案。

Ventana Research高级副总裁兼研究主管大卫(David Menninger)指出,企业对数据分析项目不满的主要原因是相关技能短缺,而Teradata的业务价值框架将为企业提供所需技能和最佳实践案例,帮助企业获得丰硕的成果和可观的投资回报。

第4篇:大数据分析方案范文

①大数据分析

②大数据可视化

③BI商业智能分析

④大数据检索

⑤产品大数据分析

⑥大数据预测、咨询

⑦大数据服务支撑平台

⑧机器学习技术

“大数据分析、可视化及BI领域——

虽然这三个领域在功能及应用范围上各有千秋,但实质上可以说是相辅相成:通过大数据的基础分析工具,研究人员可以获得数据内部的逻辑及结果表现,但通常这些结果过于复杂并缺乏合理的表达形式,使数据科学家及企业的管理者无法快速领会并对经营活动进行调整。

因此大数据的可视化方案应运而生,多数可视化方案都作为数据分析工具的延伸而存在,但也有少部分公司另辟蹊径,采用非传统方式将数据的可视化更加贴近需求。BI则是大数据分析和可视化与业务场景的结合,作为企业内部管理工具,使企业的价值有了极大的增长,成为了大数据应用领域重要的一环。

{ 1 }大数据分析领域,在朝向易用、简单化发展

大部分大数据分析企业的现状,可以说是将数据的分析、可视化及数据的采集、治理、集成进行了一体化,以大数据的分析平台形式存在。例如Fractal Analytics除了具备数据分析功能外,还提供自动化数据清理及验证服务,能够返回标准化的结构化数据;Voyager Labs则能够实时采集、分析遍布世界各地的数十亿个数据点,帮助用户进行预测。

上述典型公司主要面向大型企业进行定制化全流程服务,客单价有时高达千万美元级别,例如Fractal Analytics的客户就包括飞利浦、金佰利等大型公司,其高昂的价格及服务令小型企业望尘莫及。

但随着大数据技术的逐渐普及,SaaS化的大数据分析服务将是一个明确的发展方向,而其使用门槛也将大幅降低,从而将大数据分析的能力逐步赋予给中小企业,以真正的实现其基础资源的价值。同时确保企业数据安全的数据脱敏、数据保护市场也会随着SaaS化的到来而逐步拓展出新的市场空间。

目前大数据技术简化、低成本、易用的趋势已经在部分公司的产品策略上有所体现,例如大数据分析公司Domino的产品让数据科学家只需专注于自己的分析工作,而不用关注软硬件基础设施的建立及维护,Datameer更进一步开发出的产品屏蔽了复杂的大数据分析底层技术,通过类似电子表格的可视化数据分析用户界面,让企业的员工能够快速上手使用,RapidMiner Studio可零代码操作客户端,实现机器学习、数据挖掘、文本挖掘、预测性分析等功能。

在大数据分析能力普及的同时,提升数据分析性能、优化数据分析结果的技术研发也在快速进展中。例如SigOpt通过自主开发的贝叶斯优化(Bayesian Optimization)算法来调整模型的参数,获得了比常见的网格搜索(grid searching technique)解决方案更快、更稳定、更易于使用的结果,目前SigOpt的产品不仅可以让用户测试不同变量,还能够提供下一步的测试建议,以帮助用户持续优化改善数据分析结果。

令人感到欣喜的是,在大数据分析领域还存在着一些颠覆了传统数据分析理论,采用独特方式方法进行数据分析的公司。这类公司的技术对传统数据分析方法进行了很好的补充,在特定领域有着成功的应用。

这类公司中的典型之一是由三位全球顶尖的数学家创立的Ayasdi,它利用拓扑数据分析技术和上百种机器学习的算法来处理复杂的数据集,不仅可以有效地捕捉高维数据空间的拓扑信息,而且擅长发现一些用传统方法无法发现的小分类,这种方法目前在基因与癌症研究领域大显身手,例如一位医生利用Ayasdi的数据分析技术发现了乳腺癌的14个变种,如今Ayasdi已经在金融服务和医疗保健行业中获得了相当数量的客户。

{ 2 }可视化技术,逐步实现了自动化、智能化

大数据可视化是连接数据分析结果与人脑的最好途径,因此可视化技术的高低也成为了左右大数据企业获客能力的重要因素。目前可视化的发展方向同大数据分析一致,都是朝着简单、自动化、智能的方向在努力。

典型企业如Alteryx是一个提供一站式数据分析平台的初创公司,旨在让用户在同一个平台上完成数据输入、建模以及数据图形化等操作,将数据运算与精美的图像完美地嫁接在一起,并能够和SAS和R语言一样进行数据的统计和分析。

通过可视化帮助用户实现真正的管理能力提升也是重要的功能之一,德国大数据公司Celonis通过流程挖掘技术,从日常记录中提取数据、发现关键因素,并最终揭示公司在业务中的执行情况,能够帮助客户公司提高30%的工作效率。

发展到如今,可视化技术已经不局限于传统的分析结果展示,而是能够直接转换文本、图片等非结构化的数据并直观展现,例如Quid利用机器智能读取大量文本,然后将该数据转换为交互式视觉地图,以节约过去通常会耗费在阅读检索中的大量时间。Origami帮助营销人员将CRM、社交媒体、邮件营销和调查报告等跨平台的数据整合并进行有效分析,使其简单化、直观化、视觉化,人人都能够高效实用。

同时数据分析及可视化对硬件应用的革新也在进行中,开发GPU关系数据库服务的Kinetica获得了5000万美元A轮融资,采用同一技术路线的MapD也已经能够做到比传统计算内核快100倍的速度对大数据进行查询与可视化。

{ 3 }BI技术摆脱"鸡肋",实时便捷普惠政企效率提升

BI技术的发展已经有了较长的历史,但由于技术因素此前一直被限制于企业内部采集与应用,实际发挥的效果有限并且使用率不高。如今在数据采集与应用范围普及与大数据分析、可视化技术的推动下,通过数据仪表板、智能决策等方式提升企业运营效率利器的BI再次获得了资本市场的青睐,Tableau作为BI的代表性企业已经顺利IPO目前市值超过48亿美元,另一家代表性企业DOMO估值也达到20亿美元,成长速度远超传统商业软件公司。

相比于可视化技术,BI更偏重于实际的应用,通过模板化、SaaS化及去代码等方式,BI应用范围不再局限于数据科学家及企业高管,可预见未来企业内部每个员工都可以通过BI工具获知自己及所处部门的各项数据,并能够有针对性的改进工作方式与方向。

已经累计融资1.77亿美元的Looker令用户能够使用自然语言进行查询,降低了查询大型数据集的门槛;GoodData为企业提供大数据分析SaaS服务,其所有的数据分析服务实现了100%云化,企业可以将公司已有数据导入GoodData的云平台,再对数据做跟踪、切分、可视化、分析等处理。

BI领域一个有意思的应用案例是Qlik公司的产品受到了中国海关总署的高度赞扬。海关总署每天都需要进行庞大的数据分析,Qlik则通过图形化数据展示,使海关管理人员不再受平台和时间的限制,能够多视角长跨度的分析,实现了对于现有海量数据的业务的快速展示,极大地促进了稽查效果。

“企业大数据检索、产品大数据分析、大数据咨询预测、大数据平台及机器学习领域——

企业大数据检索能够充分挖掘并释放企业数据的潜力;产品的大数据分析使用户行为成为了产品设计与运营环节的重要参考因素;大数据技术与咨询业务的结合则对咨询行业形成了很大的影响,数据技术导向的咨询业务将极有可能成为未来行业的主流选择;大数据服务支撑平台类企业则为大数据技术的普及和实用化做了很大的贡献,是大数据技术生态中不可或缺的一环;最后是机器学习,作为大数据分析的底层技术方法也逐渐开始得到广泛应用。

首先将企业大数据检索、产品大数据分析、大数据咨询预测、大数据平台和机器学习这五个领域的典型企业列举如下,接下来将分版块进行详细介绍。

{ 4 }企业大数据检索

移动互联网的普及与SaaS服务的兴起令企业沉淀的数据量呈指数级上升,但目前对企业数据价值的挖掘仅仅停留在较浅层面,真正的大数据分析能力还尚未应用。因此如何做好企业内部数据信息价值的发掘成为了关键的第一步。

提升企业数据挖掘检索能力,并将检索的技术门槛降低的典型企业有Algolia,目前其产品具备关键字输入智能容错功能,并提供搜索排名配置,能够让普通员工也能按需要找到自己所需的数据信息。同时Algolia还为移动设备提供了离线搜索引擎,其C++ SDK可以嵌入到应用服务器端,这样即便没有网络连接应用也能提供搜索功能,适用范围很广。

而在SaaS化服务兴起的同时,企业采用多种软件导致内部数据不联通而形成了数据孤岛。根据互联网女皇Mary Meeker的分析,不同行业的公司平均使用SaaS服务的数量从最低25个至高达91个,需要跨平台数据检索分析服务。Maana开发的数据搜索和发现平台Maana Knowledge Graph,其长处便是收集来自多个系统或者"孤岛"的数据,并将其转换为运营建议,可广泛应用于多个行业。

{ 5 }产品大数据分析

产品大数据分析相对其他应用来说关注度稍低,但其能够发挥的功能并不少。通过收集用户的浏览、点击、购买等行为,不单从宏观上能够察觉用户群体的喜好变化提前应对,微观上还能够构建用户画像,从而做到定制的产品推荐与营销,能够有效的提升用户的消费水平与满意程度。

Mixpanel便是一家提供类似产品的公司,其让企业用户跟踪用户的使用习惯提供实时分析,其产品有用户动态分析(Trends)、行为漏斗模型(Funnels)、用户活跃度(Cohorts)及单用户行为分析(People)等几个模块,全面的覆盖了可能发生的用户行为与场景。

{ 6 }大数据咨询预测

如今大数据技术的发展为事件分析和预测提供了可能,并且准确度和处理速度已经具备了很大竞争力,传统咨询公司的处境类似于现在面对AI威胁的华尔街分析师,或许不久之后就将会被替代。因此随着逐渐出现大数据咨询公司的同时,传统咨询企业也纷纷与大数据技术公司合作,甚至成立了自己的数据业务部门。

Opera Solutions便是一家依托大数据分析的咨询公司,其创始人是咨询行业资深人士,曾创办了商业咨询公司Mitchell Madison和Zeborg。

目前Opera致力于金融领域的数据分析类咨询,通过建模、定量分析给客户提供建议,解决客户的商业问题。例如其计算机系统可以一次性采集数十亿条数据,包含从房产和汽车价格到经纪账户和供应链的实时数据等,通过分析从中获得有关消费者、市场和整个经济体系将如何行动的信号或见解。其客户包含了咨询机构及花旗银行等公司,最近还为摩根士丹利提供了帮助经纪人团队给其客户提供投资建议的业务。

新技术、机器学习与咨询预测行业的结合,相比于仅使用大数据分析技术能够获得更好的效果,也成为了行业内的一个小热点。例如基于社会物理学原理的Endor能够依托少量数据生成统一的人类行为数据集,并比传统海量数据分析方式更早的做出模式识别与判断。在甄别facebook上受ISIS控制的账号的实验中,根据已知少量ISIS账号特性,Endor高效分辨出了新的ISIS疑似账号并且准确度令人满意。

{ 7 }大数据服务支撑平台

目前围绕着大数据技术与大数据产业生态链发展的,还有许多是平台服务型的公司,这类公司具备一定的技术水平,但主要通过服务大数据技术公司及科研人员而存在,是技术生态中不可或缺的一环。

Dataiku创建了一个云平台,旨在使数据科学家和普通员工更容易获得公司收集的大数据,并通过机器学习库缩短了专家以及数据分析师所需要的时间。

Algorithmia的平台上提供包括机器学习、语义分析、文本分析等通用性算法,一旦用户找到想用的算法,只需添加几行简单的算法查询代码到应用中,Algorithmia的服务器就会与应用连接,避免了开发者的重复劳动。

目前部分向开发者社区业务发展过渡的平台型企业,因其资源已经得到行业巨头的青睐,被Google收购的Kaggle便是一例,通过举办数据科学周边的线上竞赛,Kaggle吸引了大量数据科学家、机器学习开发者的参与,为各类现实中的商业难题寻找基于数据的算法解决方案。同时Kaggle为其社区提供了一整套服务,包括知名的招聘服务以及代码分享工具Kernels。

{ 8 }机器学习

机器学习,是模式识别、统计学习、数据挖掘的技术手段,也是计算机视觉、语音识别、自然语言处理等领域的底层技术,在附件的介绍中大家可以看到,微软Azure、Google云平台及AWS都推出了自己的机器学习产品,而众多的机器学习创业公司则通过提供有特色的技术或服务进行差异化竞争。

已累计获得了7900万美元融资的Attivio专注于利用机器学习技术通过文本进行情绪分析,提供有监督的机器学习与无监督机器学习两种技术,帮助企业通过识别企业语料库中的文档进行情绪建模与分析。思科通过Attivio的智能系统令销售人员能够在与客户合作时依据对方的情绪、消费能力等数据推荐合适产品,从而节省了数百万的销售运营费用,同时节约了销售团队15-25%的时间。

第5篇:大数据分析方案范文

【关键词】 “互联网+” 大数据 “三角服务”模型 智能医疗服务系统

在人口快速老龄化、家庭规模日益小型化和机构养老发展不足等多重因素的影响下,发展社区养老逐渐成为一种必然选择。建立起基于“互联网+”和大数据分析的社区老人智能医疗服务系统,在市区大医院、社区医疗站以及社区老年人三者之间建立起信息网络,使社区老年人的健康问题得到更好的保障。

一、系统概述

现如今,大型医院普遍存在床位紧张、人员调配效果不佳、管理体系不健全等问题。建立社区老人智能医疗服务系统是完善现有医疗体系急需解决的主要问题,同时,随着物联网技术的不断发展,将互联网与大数据分析技术用于社区医疗服务系统,已成为该方面的一项新技术。

二、技术分析

根据上述分析,需要开发一套基于“互联网+”和大数据分析的社区老人智能医疗服务系统,此系统可以最优化利用资源,帮助老人方便、快捷的解决突发状况。为满足需求,该方案需要具备以下技术:1)概率统计。收集社区老人的体温、心率等生命体征数据。以河师大社区为例,运用概率统计技术采集社区老人的生命体征数据。2)大数据分析。分析老人生命体征数据。在信息协作平台上,利用大数据分析、数据挖掘和人工智能中不确定性推理技术,对采集到的老年人信息进行分析及推断。3)互联网技术。构建“三角服务”模型。运用互联网技术,构建一个以老人为中心,社区家庭、社区医疗站、市区医院三大子系统相互连接的“三角服务”模型,实现智能管理。

三、设计方案

1、总体流程。整个医疗服务系统可分为线上和线下两种服务方式。线上:系统按照固定方案进行老人身体数据采集;线下:社区医疗站会定期派专业人士到老人家里对其进行全方位检查以及相关医疗知识的普及。

2、数据采集与处理。首先利用智能手环采集社区部分老年人的身体数据,通过社区中建立的互联网网络把数据传输到手机APP以及信息协作平台上。分析老人生命体征数据。在信息协作平台上,利用大数据分析和不确定性推理技术,对采集到的老年人信息进行分析及推断。

3、“三角服务”模型。“互联网+”社区养老中最为核心的就是系统模型的构建,运用互联网技术,构建一个以老人为中心,社区家庭、社区医疗站、市区医院三大系统相互连接的“三角服务”模型(如图1所示)。

若采集到的老人的身体数据发生了变化,则会通过报警系统反馈到社区医疗站,社区医疗站则做出最快的反应,一方面,会到老人家中对老人进行急救,另一方面,会及时将老人的存档发送给医院,并联系医院进行一系列的急救措施,从而节约了救援时间。

4、构建智能医疗服务系统。开发社区老人智能医疗服务系统。即开发一个集智能医疗设备、智能医护终端设备和带有功能模块的智能医护平台为一体的服务系统。将采集到的老人身体数据存于专门的数据库中,在信息协作平台上将社区老人、社区医疗站和市区大医院三者建立成一个相互共享的网络,实现数据信息的共享。手机APP与信息协作平台相联系,能够通过移动设备查看网络平台的信息,市区大医院的医疗系统与社区医疗站的数据库相连接,从而便于实现信息的共享。

结语:本系统是基于“互联网+”和大数据分析的社区老人智能医疗服务系统,是物联网在医疗领域的应用,目的是为社区老人提供更便捷的医疗服务。将大数据分析技术与智能医疗服务系统相结合,在概率统计的基础上,将手机APP与信息协作平台相联系,通过移动设备查看网络平台的信息,便于实现信息的共享与交流,医疗服务更趋于智能化。

参 考 文 献

[1] 赵静. 基于物网发展的智能化社区医疗服务研究[D].燕山大学,2013.

[2]潘峰,宋峰. 互联网+社区养老:智能养老新思维[J]. 学习与实践,2015,09:99-105.

[3]王蔚,邵磊,杨青. 基于大数据体系下的城市住宅区养老模式研究[J]. 住区,2016,01:35-41.

第6篇:大数据分析方案范文

关键词:互联网联网 数据分析师 人才培养

互联网行业在快速发展,“互联网+”概念的提出标志着互联网已叩响“万物互联时代”的大门。在这个时代,大数据渗透于各行各业,掌握数据核心价值成为企业脱颖而出并取得胜利的法宝。越来越多的企业承认竞争优势与大数据有关,由此,数据分析师这一职业逐渐得到认可并受到追捧。世界500强企业中,有90%以上都建立了数据分析部门。在国内,已有超过56%的企业在筹备和发展大数据研究,据有关部门预测未来5年,94%的公司都将需要数据分析专业人才。数据分析师的职位需求随之不断增长,全国数据分析师的职位由2014年初的200多个职位增长到接近3000个职位。正如著名出版公司O’Reilly的创始人Tim O’Reilly断言,大数据就是下一个Intel Inside,未来属于那些能把数据转换为产品的公司和人群。

优秀的数据分析师已经成为促进各行各业发展,推动国家经济进步的重要人物。但我国针对数据分析的研究起步晚,市场巨大,职位空缺现象十分严重。因此,培养数据分析人才的项目活动应引起高度重视。

1互联网环境下的数据分析师

1.1数据分析师的定义

谈起数据分析师,很多人都认为其职位高高在上,不可企及,但实际并非如此。让我们从案例出发来探索其内在含义,数据分析最经典的案例便是“啤酒与尿布”,沃尔玛超市将Aprior算法引入Pos机数据分析发现美国年轻的父亲去超市为婴儿购买尿布的同时,往往会顺便为自己购买啤酒,这样便使尿布和啤酒这两样看似不相干的商品有了某种联系。于是,沃尔玛尝试将两种商品摆放在同一区域,进而取得了意想不到的良好销售收入。可见,数据分析是运用适当的方法对收集来的大量数据进行分析整理,筛选有价值的信息并形成相应的解决方案以帮助人们作出判断,采取适当行动的过程。

1.2数据分析师的层级分类

经对多家招聘网站数据分析师的招聘信息进行分析研究,发现目前数据分析师大体分为三个层级:传统行业的数据分析师、互联网初级数据分析师、互联网高级数据分析师。传统行业的数据分析师的主要工作是整理、处理数据,专业技能只要具备一定的数学和统计学知识储备即可;第二层级是互联网初级数据分析师,职位要求在传统数据分析师的基础上掌握少数的计算机工具譬如SPSS、SQL等,从职人员需具备一定的数据敏感度和逻辑思维能力,能够对数据源进行分析并能制作数据报表;互联网高级数据分析师是一类复合型人才,要熟悉业务环境并能与技术相结合解决企业实际问题,并掌握数据挖掘常用算法和一系列相关的分析软件,他们的工作与企业发展密切相连,拥有一名优秀的数据分析师的企业将拥有与同行业竞争的资本。

1.3数据分析师的能力需求

数据分析师的工作分为采集、存储、筛选、数据挖掘、建模分析、优化、展现、应用等一系列过程。接下来从主要步骤详细分析数据分析师的能力需求。数据挖掘过程即从海量数据中提取潜在的有价值的信息,要求数据分析师掌握一系列相关分析方法譬如聚类分析、关联分析、等并能熟练运用数据挖掘算法和相关工具;建模分析即对数据抽象组织,确定数据及相关性的过程,在此基础上要掌握譬如决策树、神经网络、K-means算法、SVM等至少一种相关算法;展现过程要求具备数据整理、数据可视化、报表制作能力,熟练应用D3、Vega实现数据可视化,并能运用R和DateWangler工具将原始数据转化为实用的格式。

2数据分析师的培养现状

2.1国外数据分析师的培养现状

在国外,无论是学术研究还是企业部门,数据分析已发展到较为成熟的地步。斯坦福大学的研究成员着手开发MEGA(现代动态网络图像分析Modern Graph Analysis for Dynamic Networks)并与多家媒体公司紧密合作,研究社交媒体中的用户行为,建立模型并探究其中的规律;哥伦比亚大学已开设了《数据科学导论》和《应用数据科学》课程,从2013年秋季起开设“数据科学专业成就认证”培训项目,并于2014年设立专业硕士学位和博士学位;华盛顿大学开设《数据科学导论》课程,并对修满数据科学相关课程学分的学生颁发数据科学证书。数据分析师在国外已引起了充分的重视,他们均衡分布在各行各业,运用掌握的专业知识并结合相关思维为自身、企业乃至社会的发展做着不小的贡献。

2.2国内数据分析师的培养现状

近年来,在国内,大数据的概念虽被媒体和行业广泛提及,但数据分析算是刚刚起步,数据分析师的培养课程未得到普及,我国目前将数据分析纳入教学体系的高校寥寥无几,开设相关课程并取得一定成果的有:香港中文大学设立“数据科学商业统计科学”硕士学位;复旦大学开设数据科学讨论班,于2010年开始招收数据科学博士研究生;北京航空航天大学设立大数据工程硕士学位;中国人民大学统计学院开设数据分析方向应用统计硕士。

和国外相比,我国数据分析师的人才培养机制还未成熟,高校教育仍存在各种各样的问题,譬如,大学生虽然从多门课程中接触到与数据分析相关内容,但各门课程的教学资源未能实现有效的整合。互联网环境下,大数据带来的是一场革命性的变化,若想把握机遇,实现国家经济革命性发展,首要任务就是数据分析师的培养。

3如何成为优秀的数据分析师

数据分析师作为新时代新兴起的高薪职业,对人员的能力要求是相当高的,下面将根据数据分析师的定义、能力需求并结合互联网环境的时代背景,对数据分析师的成才途径作出详细的分析。

思维变革,数据分析师成才的前提。首先要在思维方面有所改变,培养自身数据思维、多模式思维、逻辑思维和结构化思维。数据思维即量化思维,对数据具有独特的敏感度,相信一切事物皆可量化;多模式思维即构造多种想法和解决思路,拓宽思维,从多角度出发,以寻求最优的解决问题的方案;逻辑思维,在错综复杂的海量数据中要有缜密的思维和清晰的逻辑推理能力才能按照自己既定的目标有效解决问题;结构化思维即系统性思考问题,深入分析内在原因,能够制定系统可行的解决方案。

技能变革,数据分析师成才的工具。作为一名优秀的数据分析师若想在互联网环境下对海量数据进行有效的管理,就要努力学习相关的专业技能。要掌握多种机器学习方法,不断学习相关软件应用,譬如,Java、Python、SQL、Hadoop、R等等,这将成为数据分析全过程的辅助工具;除此,还要掌握一定的心理学知识,能够很好的分析和解释客户行为;在此基础上,最核心的是要掌握一定的业务能力和管理能力。

素质变革,数据分析师成才的保证。在个人素质方面,互联网时代对数据分析师的要求增多,若想成为优秀的数据分析师就应不断学习完善以下素质能力:对工作的态度严谨认真,对数据的变化时刻保持敏锐的洞察力,对方法的运用保持一定的创新性,对团队保持团结合作之心,能与顾客沟通交流并及时了解他们的需求。

实践,数据分析师成才的推动力。数据分析师的职责是帮助企业挖掘市场价值、发现机遇、准确进行市场定位并从海量数据中找出问题,提出解决方案。因此,在数据分析师的成才道路上,实践是必不可少的。相关人员要在掌握理论的基础上,敢于应用于实践,充分考虑数据中存在的价值和风险。使自我能力在实践中不断改进和完善。

4给我国高校的建议

高校为数据分析师的成长提供指导和途径,肩负着为我国社会培养有用人才的重任,因此高校要努力构建数据分析师的人才培养机制,不断输出数据分析相关人才。

高校的首要任务是,强化师资力量,改进教学方法。各大高校应联合共建优秀师资团队,鼓励教师考取数据分析师资格证,并到实际企业中进行历练。再者,我们要组建专门师资团队到国外开展学习工作,取其精髓,去其槽粕,不断优化我国数据分析师的培养体系。

第二、培养专业化的人才就要有效整合各门课程的教学资源,构建系统性教学结构。鉴于市场对数据分析师的需求的火热程度,高校完全可以开设专门课程,将与数据相关的课程进行有机的整合并开设数据分析导论、基础等课程,制定数据分析系统性课程体系,专门为市场培养数据分析的专业人才。

第三、在具备优秀的师资力量和良好的教学体系的基础上,高校也高度应注重学生兴趣的培养。数据分析师是新时代的复合型人才,一名优秀的数据分析师需掌握包括数学、统计学、运筹学、社会学、管理学以及大量软件应用在内的大量相关知识,学习过程会十分繁琐、复杂,学习周期长,学习难度大,所以建议各大高校在制定教学体系时应合理安排课程,在教学过程中应注重课程的趣味性,寓教于乐,采用案例导入、项目教学等教学方法,逐渐培养学生对数据分析浓厚的兴趣。

第四、随时更新教学数据,培养适应时展的人才。基于大数据的4V特征即大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值化(Value),在培养数据分析人才的期间,高校一方面要注重数据的全面性,另一方面要注重数据的更新,及时更改教学方法和教学案例,与时俱进。高校要充分利用互联网的优势,引入MOOC(Massive Open Online Course,大规模网络开放课程)教学方式,充分发挥大数据在教育领域的作用,克服传统教学方法资源少、反馈慢、综合分析困难等缺点,将数据分析的研究成果应用于数据分析人才的培养,实现数据分析行业的良性循环。

第五、注重理论与实践相结合,努力为学生搭建实践的平台。高校可考虑校企合作的教学理念,边教学边实践,让学生将所学到的理论知识转化为实际应用,一方面在实践中巩固并检验自己的理论知识,另一方面数据来源真正的企业运营中,让学生切实体验数据的作用和风险,有助于塑造真正对企业有用的人才。

5结语

综上所述,互联网带来了全球范围的数据信息大爆炸,这对企业来说是机遇同时也是挑战,能将大数据为自己所用,是企业取胜的关键,因此数据分析师逐渐被各行各业认可。文章从数据分析师的定义出发,结合目前的时代背景,对数据分析师的每一工作步骤所需的能力进行研究,旨在初步探索优秀数据分析师的成才之道,为即将成为数据分析师的学者提供一定的理论参考。最后,针对如何构建数据分析人才培养体系,对我国高校提出了几点建议。高校的培养只是为数据分析师提供成才的途径,如何成为资深的数据分析师还有赖于每个学者的不断探索和研究。

参考文献:

[1]张明元.数据分析师的职业是否高不可及[J].出国与就业,2007(08):56.

[2]郑葵,马涛.经管类专业大学生数据分析能力提升策略探讨[J].商业经济,2013(19):52-53.

[3]冯海超.大数据时代正式到来[J].互联网周刊,2012(24):36-38.

[4]谭立云,李强丽,李慧.大数据时代数据分析人才培养的思考及对策[J].科技论坛,2015.

[5]尹颖尧,李鸿琳.赶紧培养数据分析师[J].大学生,2013(18):78-79.

[6]程征.提升数字阅读质感的数据分析师[J].中国记者,2013(6):46-47.

[7]张文霖.数据分析师那些事[J].统计论坛,2013(7):44-45.

第7篇:大数据分析方案范文

[关键词]数据分析;大数据;智慧校园;决策支持

1国内外研究开发现状和发展趋势

1.1现状与趋势

在当今大数据、云计算、物联网和移动互联网等新思路、新技术快速发展的又一历史时期,高等教育面临着前所未有的发展机遇,在经历了网络化、数字化、信息化管理阶段之后,“智慧校园”将是在“互联网+教育”趋势下最重要的发展思路。随着计算机技术的不断发展,各种系统结构化和非结构化数据以前所未有的惊人速度迅猛增长,“大数据”时代已经到来。大数据是指数据结构比较复杂、数据规模大的数据集合。其数据量已经远远超出了一般数据管理工具可以承受的处理时间以及数据处理及存储管理能力。在当今大数据环境下,高校管理系统的数据结构及数据量发生了巨大的变化。在数据存储、数据管理、数据分析及数据挖掘等方面面临着巨大的机遇和挑战。为了有效地利用大数据为高校决策分析提供更好的服务,必须基于大数据建立相应的数据分析系统。

1.2国内外研究与开发综述

随着大数据的发展和教育信息化的不断深入,基于大数据开展的高校校园数据分析与应用逐步受到重视。对大数据的定义始终没有形成统一的意见。维基百科对大数据(Bigdata)的定义是:所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息。麦肯锡全球研究院将大数据定义为:无法在一定时间内使用传统数据库软件工具对其内容进行获取、管理和处理的数据集合。加特纳(Gartner)于2012年修改了对大数据的定义:大数据是大量、高速、多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与优化处理。而在高校学生数据的分析应用方面,国内外高校均有开展相关的研究。纽约州波基普西市玛丽斯特学院(MaristCollege)与商业数据分析公司Pentaho合作发起开源学术分析计划,旨在一门新课程开始的两周内预测哪些学生可能会无法顺利完成课程,它基于商业分析平台开发了一个分析模型,通过收集分析学生的学习习惯,包括线上阅读材料、论坛发言、完成作业时长等数据信息,来预测学生的学业情况,及时干预帮助问题学生,从而提升毕业率。上海财经大学基于校园信息化数据基础,开发了校务决策支持系统,面向人才培养、内部管理、科学研究和师生服务等方面开展决策分析;华东师范大学利用校园信息化基础数据,开展了校车人数与载客分布分析,提升了校车使用率;利用一卡通数据开展了贫困生的特征确定、潜在贫困生分析、后续跟踪验证,有效提升了帮困扶贫的工作效率。

2需求分析

结合西安欧亚学院信息化建设基础与海量的数据积累,建立“智慧校园”数据分析系统,通过此平台的建设和应用,运用数据挖掘和知识发现,从而在大数据中获取数据之间内在的相互联系,以及其中可能存在的某种规律,从而有效提升校园管理的决策效率,提升教学科研与管理服务的综合水平。通过调查走访各部门,了解教师、学生与行政管理人员的相关需求。主要包括四个方面:一是教学数据分析需求。包括各分院、招生办、教务处等部门对于招生、学生学习行为、教学质量、学科建设与学生就业等方面的分析。二是生活服务数据分析需求。包括图书馆、后勤等部门对于学生的消费行为即图书借阅、网络行为、资源利用等项目的分析。三是财务、人事、宣传等部门对于全校的资产、师资力量、宣传效果等项目的分析。四是研究发展部门对于全校科研项目与成果完成情况的分析(见图1)。

3系统方案设计

3.1框架设计

结合需求情况,开展系统的总体框架设计,初步将系统分为三大板块,包括数据监测、决策支持和查询定制(见图2)。

3.2系统方案

系统总体架构包括四个层次,分别是数据引擎、数据挖掘、数据库解决方案和交互平台。数据引擎部分将集成校园WIFI、固网、一卡通、教务系统等各类信息系统的数据,形成数据源,数据挖掘将通过分布式计算架构和数据分析平台对潜在数据进行分析与建模,通过数据库建立本系统的分析数据库,最终通过PC、手机等客户端向用户进行呈现(见图3)。

3.3典型应用研究内容

3.3.1教学质量评估教学质量评估属于高校定期必须完成的任务,教学评估的主要目的是更好地发掘出教学过程中存在的一些问题,从而及时地对教学方法进行调整,最终实现教学质量的提升。将大数据运用到高校教学评估系统之中,不但能够在很大程度上提高高校教学管理的科学性,同时还可以提高信息化教学的实用性。把基于大数据挖掘的算法运用在教学评估工作之中,找出教学效果、信息技术在教学中的应用、师生之间的沟通互动等因素之间的联系,从而给高校的教学部门带来非常科学的决策信息,同时让教师可以更加有效地开展教学工作,提高教学质量。

3.3.2教师教学能力分析以往的教学缺乏大量数据支撑,教学的质量高低主要靠教师自我度的把握。现在,可以通过在线课堂等技术,搜集大量课堂情况信息,比如学生对知识点的理解程度、教师课堂测试的成绩、学生课堂纪律等。通过这些数据的分析,了解教师熟悉教案的程度、课堂氛围等,改善教学水平。也可以通过深度分析学生在教学过程中教师的课堂表现,从而发现课程的闪光点以及不足,从而让教师能够进一步地对课程教学进行改善,提升教学质量。

3.3.3个性化课程分析个性化学习是高校教学改革的目标,过去的班级制教学中无法很好达到这一点,通过把大数据挖掘技术和学习内容结合起来,指导学习者规划学习发展方向,制订学习规划,实现个性化学习功能。通过评估个人情况,根据分析结果推荐可能取得优秀成绩的课程方案。首先获取学生以往的学习表现,然后从已毕业学生的成绩库中找到与之成绩相似的学生信息,分析前期成绩和待选课程结果之间的相关性,结合专业要求和学生能力进行分析,预测学生选择的课程中可能取得的成绩,最后综合权衡预测学生成绩和各门课程的重要性,为学生推荐一份专业课程清单。

3.3.4学习行为分析通过一卡通门禁信息、网络信息、课程信息、在线教育系统等相关数据,可以把学生到课堂时间、上课表现、作业完成情况、自习情况等学习信息记录下来,进行变量分析。当一些与学习行为有关的因素(如旷课、纪律问题、课堂表现)发生变化时,对学生提示并进行分析。通过这种系统分析,可以很好地规划学生的学习时间,提高学习效率。

4技术创新点

4.1大数据环境下提升数据挖掘范围

相比于传统常规环境下的数据获取渠道,大数据环境下,校园数据的获取更为广泛和准确。常规环境下的数据主要以经费收支、课程建设、问卷、访谈、课堂观察等来源,而在大数据环境下,通过对事件数据、舆情数据、一卡通、日志搜索等数据的抓取与分析,更能够准确地反映实际校情。

4.2可视化技术展现数据分析结果

利用大数据分析的数据挖掘与可视化分析,能够直观地呈现大数据特点,同时能够非常容易被使用者所接受,就如同看图说话一样简单明了。智慧校园中,结合学生学习、生活消费的各类数据,通过系统分析与图表展现,让用户只管了解数据分析的结果。

4.3数据质量管理提供重要支持

本项目结合大数据发展趋势,充分利用数据挖掘、建模与可视化展示技术,系统存储数据主要是从校内外各种数据源中获得最原始数据,并对该部分数据进行整合形成数据层,然后将数据层中的数据经过抽取、清洗、转换、装载进入数据仓库从而形成支撑层,在支撑层的基础上,可以根据需求对数据进行挖掘分析,从而构建决策层。

第8篇:大数据分析方案范文

关键词:大数据 数据安全 安全分析 安全技术 安全防护

1 引言

随着大数据技术日益发展成熟,运营商通过多年的发展积累了庞大的数据资源,基于数据资源方面的显著优势,在确保数据安全使用的前提下,积极开展大数据外部旅游、交通、政府、地产、人力资源、汽车、公共服务等行业的营销实践,可实现大数据经济效益和社会效益的双重提升。

《中华人民共和国国民经济和社会发展第十三个五年规划纲要》明确指出,要“实施国家大数据战略”,“加快推动数据资源共享开放和开发应用”;要“加强数据资源安全保护”,“保障安全高效可信应用”。国务院颁布的《促进大数据发展行动纲要》提出,要深化大数据在各行业的创新应用,同步建立健全大数据安全保障体系,切实保障数据安全。

但是,随着运营商大数据应用需求的快速增加,其面临的安全风险也在不断增大,为贯彻落实国家的相关要求,确保运营商大数据安全风险可管可控,在确保安全的前提下发挥数据价值,开展运营商大数据安全管理策略研究,对实现运营商大数据安全管理具有重要的意义。

2 运营商大数据全生命周期安全管控

运营商建设大数据系统通常分为五个层级:

(1)数据采集层:主要是对移动通信网络、家庭宽带网络、集团专线网络的网络设备及业务平台侧进行数据分光复用、流量镜像等配置操作。

(2)数据处理层:基于服务器资源对传输过来的原始数据进行解析,生产准实时数据,其中包括位置数据、通话数据、漫游数据、上网数据等明细数据。

(3)数据标签层:根据上层应用功能需求,对数据处理层生成的基础明细数据进行建模,生产满足各个应用场景的小时/日/周/月宽表数据和用户画像标签。

(4)功能模块层:为支撑各种不同行业产品的需求,需要提供对外数据推送的OpenAPI接口,实现与外部需求系统的协议适配、准实时推送、定时分发和实时查询等功能。同时对外输出分析报告、数据产品和行业解决方案。

(5)行业应用层:根据行业特征和需求,针对客户、产品、服务等方面进行分析研究,并输出大数据开放接口、大数据分析报告、大数据解决方案及大数据产品,提升客户在各行业进行业务管理、产品运营、精准营销等方面的能力,实现运输商大数据变现。

基于运营商大数据系统建设的五个层级,构建大数据全生命周期安全管控如图1所示。

对于运营商大数据全生命周期安全管控,需要建立数据采集、传输、存储、共享、使用、审计、销毁等七个环节的端到端安全管理体系。

(1) 采集环节

在数据采集过程中,应确保数据采集和处理均在运营商机房内,确保核心数据不出机房。采集所使用的分光器应在建设时做好包括端口、位置等信息在内的记录,并定期开展审计。

(2)传输环节

针对跨安全域传输等存在潜在安全风险的环境,应对敏感信息的传输进行加密保护,并根据数据敏感级别采用相应的加密手段。对于目前已使用的未进行数据加密传输,应令厂家尽快加入加密模块,并在传输两端协商好加解密算法与密钥,密钥应做到定期更换。

(3)存储环节

针对存在潜在安全风险的存储环境,例如hadoop中的数据库、磁盘阵列等,应对大数据中的敏感信息加密存储,确保其保密性,保障数据完整性,做好数据容灾备份。

建立从设备到操作系统、从平台应用到数据库、从业务到数据等多角度的容灾备份方案,大数据安全管理员从应急预案、风险检测、实时预警、风险遏制、问题根除、系统恢复、跟踪总结各环节建立落实大数据安全事件应急响应方案,定期开展演练。

(4 )使用环节

大数据平台的所有设备及平台应用必须全量接入安全审计系统,并实施绕行访问控制,禁止直连访问。对涉及用户身份、位置等敏感信息提取的操作采用“金库模式”管控。对用户敏感信息进行对外查询、展现、统计、导出等操作时,必须首先经过模糊化处理或脱敏处理。

(5 )共享环节

针对跨部门的大数据共享,通过保密协议等方式明确数据共享双方应承担的安全责任、应具备的数据保护手段、限制数据使用范围和场景等。一切离开大数据平台的敏感数据都需要先进行加密,确保未授权的人员无法访问其内容。

(6)审计环节

用户登录大数据平台后的任何操作必须有详细的日志记录,日志log文件中应至少包括“何时、何地、何账号、何操作”,涉及大数据的具体操作,日志中还应该记录关键字段名称。

(7)销毁环节

涉及用户敏感信息的大数据平台下线或分析工作结束后留在系统内部的敏感信息,应采用技术手段删除,确保信息不可还原。对于分析工作结束后留在系统内部的敏感信息,应根据数据需求工单中的数据有效期进行销毁。

3 构建统一客户敏感数据管理

运营商大数据涉及到用户的行为特征,可以分为敏感数据和非敏感数据。敏感数据是不可下载本地系统进行操作,只允许在统一客户敏感数据管理平台中对其进行直接操作,而非敏感数据是可以下载本地进行操作,非敏感数据的下载只允许通过数据提取系统进行下载。统一客户敏感数据管理系统架构如图2所示。

在市鲂枨笕嗽碧岢鲂枨蟮ブ后,数据分析接口管理人员必须能够识别是否为敏感数据和非敏感数据。

3.1 非敏感数保护原则

(1)市场营销人员提出需求单,数据分析接口管理人员把此需求单定义为非敏感数据后,数据分析人员把分析的结果上传到数据上载区的非敏感数据区。

(2)数据分析人员把非敏感数据区的数据上载到数据提取系统中。

(3)审核人员对此需求单的数据进行审核。

(4)市场营销人员通过数据提取系统下载非敏感数据,整个非敏感数据流向都需要日志审计。

(5)数据上载区的非敏感数据区只有数据分析人员有读、写、删等权限,其它人员无任何权限。

3.2 敏感数据保护原则

(1)市场营销人员提出需求单,数据分析接口管理人员把此需求单定义为敏感数据后,数据分析人员把分析的结果上传到数据上载区的敏感数据区。

(2)由数据分析人员把敏感数据区的数据放置审核区。

(3)由审核人员进行审核审核区的数据之后,放置个人工作区。

(4)市场营销人员直接操作个人工作区的数据,也可放置该数据至共享工作区,以便其它市场营销人员访问。

(5)数据上载区的敏感数据区,仅仅只有数据分析人员有读、写、删等完全控制权限,其它人员无任何权限。

(6)审核区仅仅只有审核人员有读、写、删等完全控制权限。

(7)数据操作区的个人工作区,市场营销人员分别对自己的个人工作区有读、写、删等完全控制权限,而审核人员对个人工作区有写权限。

(8)数据操作区的共享工作区,市场营销人员仅仅对该部门或者该单位的共享工作区有读、写、删等完全控制权限,但是无上一级共享工作区的权限。

3.3 敏感数据使用原则

(1)获得授权的用户(数据提取人员、审核人员、市场营销人员),必须在系统安全域中分配相应的账号和密码。

(2)数据提取人员遵循的原则

数据分析人员只能通过专有的无盘瘦客户端登陆到应用交付系统进行正常业务工作,该无盘瘦客户端无硬盘、光驱及USB接口,无法将数据复制到本地。

数据分析人员在数据提取系统接到需求单时,需区分该需求单得出的数据是敏感数据还是非敏感数据。

数据分析人员在后台业务数据取得数据以后,必须把该数据放到数据上载区,建议把敏感数据放到数据上载区的敏感数据区,把非敏感数放到数据上载区的非敏感数据区。

数据分析人员在数据管理服务器上,非敏感数据区的数据只能上传至数据提取系统中,以给审核人员进行审核。

数据分析人员在数据管理服务器上,敏感数据区的数据只能上传至审核区中,以给审核人员进行审核。

(3)审核人员遵循的原则

对于非敏感数据,审核人员登陆数据提取系统,根据数据提取人员上传的数据进行审核,审核通过后,由市场营销人员下载到本地(此本地为市场营销的办公电脑)。

对于敏感数据,审核人员进入数据管理服务器的审计区,对该区的数据进行审核,并根据该数据的需求人把数据上载到个人工作区(需求人工作区)。

(4)市场营销人员遵循的原则

对于非敏感数据,市场营销人员登录数据提取系统后,下载已经审核通过的非敏感数据至本地,然后在本地对非敏感数据进行操作。

对于敏感数据,市场营销人员通过应用交付系统进入数据管理服务器的个人工作区,然后直接对敏感数据进行操作。

敏感数据需要进行共享,则必须由市场营销个人把数据从个人工作区拷贝到共享工作区中,然后其他营销人员进行拷贝或者直接进行操作。

4 大数据安全事件闭环管控

4.1 建立大数据安全事件闭环管控流程

大数据安全从检测、响应、恢复及加固四个环节开展大数据安全事件的全流程管控。

(1)建立大数据系统的安全属性库,考虑系统的可用性、完整性和保密性,针对系统的弱点属性如系统漏洞信息、安全配置信息等,进行完整记录和及时更新机制。

(2)建立必要的大数据安全防御手段,包括防火墙、入侵防御、防病毒、终端管理、上网行为管理、数据防泄漏等。

(3)发生安全事件时触发预警/告警,安全监控人员及时进行数据采集解析、事件识别、实时数据分析、历史数据分析,进行事件溯源,并启动工单系统,生成安全事件工单,派发相应运维人员处理。

(4)安全运维人员开展事件处理、系统加固、安全策略调整,实现大数据安全的闭环管控。

大数据安全事件闭环管控流程如图3所示。

4.2 建立大数据安全事件快速分析能力

大数据安全事件发生后的首要任务是及时开展安全事件的分析,具备完整、及时的安全数据分析能力是缩短安全事件的处置、减小损失的关键。

(1)建立全面、及时的安全数据的搜集。通过SNMP、SYSLOG、Agent、Netflow、API接口、数据库接口、FTP、HDFS、KAFKA、端口镜像、Netflow等数据源接口对网络设备、安全设备、应用系统、中间件、主机、数据库等开展数据采集。

(2)数据解析处理:通过安全数据字段的识别、时间字段侦测、时间同步等技术提升数据的解析成功率。

(3)建立数据关联分析模型:基于Spark Streaming技术对系统采集的实时数据流进行关联分析,关联的模式包括统计关联、设备关联、信息关联、模式关联、漏洞关联、策略关联等,并内置安全关联规则。

(4)用户行为画像:建立特定用户的画像,包括其合法行为白名单和行为基线。通过用户行为分析引擎侦测用户的异常行为,例如异常时间、从可疑位置登录,或是访问和平时完全不同的数据或稻萘浚或是把数据上传至公司外部的可疑地址,提供可疑用户最近的所有行为给安全管理员进行进一步的详细调查。

(5)建立分等级的告警规则:根据监控内容,对不同设备和系统的异常情况进行告警,并对告警进行分类,例如高级告警、中级告警等。制定监控告警生成事件的规则,如主要告警可以生成安全事件进行跟踪和处理。

常见的高级告警:违规安全软件、违规登录系统、终端数据泄漏;中级告警:违规上网访问、密码未定期更新、终端病毒感染、K端恶意扫描;低级告警:补丁未及时更新、恶意卸载软件。大数据安全分析能力模型如图4所示。

5 结论

本方案分析了运营商大数据发展的趋势,重点阐述了当前面临严峻的安全挑战,并为运营商大数据开展内外部变现提出了一种运营商大数据全生命周期安全管控策略,通过基于运营商大数据系统建设的五个层级,建立数据采集、传输、存储、共享、使用、审计、销毁等七个环节的端到端安全管理体系。

运营商大数据由于涉及到用户敏感数据,一方面可以建立统一客户敏感数据管理平台,对数据进行分级管理,定制差异化审批审计流程。另一方面从检测、响应、恢复及加固四个环节建立大数据安全事件闭环管控流程,并提升大数据安全事件快速分析能力,将有效增强安全事件发生后的应对处置能力。

参考文献:

[1] 中国移动通信集团公司. 中国移动大数据安全风险防控工作指引[Z]. 2016.

[2] 中国移动通信集团广东有限公司. 广东公司DPI(2/3/4G软硬采)数据安全管理规定[Z]. 2016.

[3] 王准. 大数据环境下数据安全策略研究[J]. 网络安全技术与应用, 2016(5): 48-49.

[4] 李战克,丁梦娟. 大数据环境下的数据安全研究[J]. 信息安全与技术, 2015(6).

[5] 陈左宁,王广益,胡苏太,等. 大数据安全与自主可控[J]. 科学通报, 2015(Z1): 427-432.

[6] 陈立枢. 中国大数据产业发展态势及政策体系构建[J]. 改革与战略, 2015(6): 144-147.

[7] 王倩,朱宏峰,刘天华. 大数据安全的现状与发展[J]. 计算机与网络, 2013(16): 66-69.

[8] 王长杰,王卫华. 大数据时代下信息安全保护研究[J]. 清远职业技术学院学报, 2016(1): 42-47.

第9篇:大数据分析方案范文

在人口快速老龄化、家庭规模日益小型化和机构养老发展不足等多重因素的影响下,发展社区养老逐渐成为一种必然选择。建立起基于“互联网+”和大数据分析的社区老人智能医疗服务系统,在市区大医院、社区医疗站以及社区老年人三者之间建立起信息网络,使社区老年人的健康问题得到更好的保障。 

一、系统概述 

现如今,大型医院普遍存在床位紧张、人员调配效果不佳、管理体系不健全等问题。建立社区老人智能医疗服务系统是完善现有医疗体系急需解决的主要问题,同时,随着物联网技术的不断发展,将互联网与大数据分析技术用于社区医疗服务系统,已成为该方面的一项新技术。 

二、技术分析 

根据上述分析,需要开发一套基于“互联网+”和大数据分析的社区老人智能医疗服务系统,此系统可以最优化利用资源,帮助老人方便、快捷的解决突发状况。为满足需求,该方案需要具备以下技术:1)概率统计。收集社区老人的体温、心率等生命体征数据。以河师大社区为例,运用概率统计技术采集社区老人的生命体征数据。2)大数据分析。分析老人生命体征数据。在信息协作平台上,利用大数据分析、数据挖掘和人工智能中不确定性推理技术,对采集到的老年人信息进行分析及推断。3)互联网技术。构建“三角服务”模型。运用互联网技术,构建一个以老人为中心,社区家庭、社区医疗站、市区医院三大子系统相互连接的“三角服务”模型,实现智能管理。 

三、设计方案 

1、总体流程。整个医疗服务系统可分为线上和线下两种服务方式。线上:系统按照固定方案进行老人身体数据采集;线下:社区医疗站会定期派专业人士到老人家里对其进行全方位检查以及相关医疗知识的普及。 

2、数据采集与处理。首先利用智能手环采集社区部分老年人的身体数据,通过社区中建立的互联网网络把数据传输到手机APP以及信息协作平台上。分析老人生命体征数据。在信息协作平台上,利用大数据分析和不确定性推理技术,对采集到的老年人信息进行分析及推断。 

3、“三角服务”模型。“互联网+”社区养老中最为核心的就是系统模型的构建,运用互联网技术,构建一个以老人为中心,社区家庭、社区医疗站、市区医院三大系统相互连接的“三角服务”模型(如图1所示)。  

若采集到的老人的身体数据发生了变化,则会通过报警系统反馈到社区医疗站,社区医疗站则做出最快的反应,一方面,会到老人家中对老人进行急救,另一方面,会及时将老人的存档发送给医院,并联系医院进行一系列的急救措施,从而节约了救援时间。 

4、构建智能医疗服务系统。开发社区老人智能医疗服务系统。即开发一个集智能医疗设备、智能医护终端设备和带有功能模块的智能医护平台为一体的服务系统。将采集到的老人身体数据存于专门的数据库中,在信息协作平台上将社区老人、社区医疗站和市区大医院三者建立成一个相互共享的网络,实现数据信息的共享。手机APP与信息协作平台相联系,能够通过移动设备查看网络平台的信息,市区大医院的医疗系统与社区医疗站的数据库相连接,从而便于实现信息的共享。 

结语:本系统是基于“互联网+”和大数据分析的社区老人智能医疗服务系统,是物联网在医疗领域的应用,目的是为社区老人提供更便捷的医疗服务。将大数据分析技术与智能医疗服务系统相结合,在概率统计的基础上,将手机APP与信息协作平台相联系,通过移动设备查看网络平台的信息,便于实现信息的共享与交流,医疗服务更趋于智能化。 

参 考 文 献 

[1] 赵静. 基于物聯网发展的智能化社区医疗服务研究[D].燕山大学,2013. 

[2]潘峰,宋峰. 互联网+社区养老:智能养老新思维[J]. 学习与实践,2015,09:99-105. 

[3]王蔚,邵磊,杨青. 基于大数据体系下的城市住宅区养老模式研究[J]. 住区,2016,01:35-41. 

相关热门标签