公务员期刊网 精选范文 数据分析的方法范文

数据分析的方法精选(九篇)

数据分析的方法

第1篇:数据分析的方法范文

【关键词】 泳道 数据流图 需求分析

【Abstract】 With the development of information technology, data sharing and interactive between the departments and grades increase rapidly, and the basic data flow diagram is incapable of mining and expressing the complicate data requirement of networked information system. An effective data requirement analysis method based on swimlane data flow diagram is presented in this article, which takes the advantages of swimlane flowcharts and data flow diagram.

【Keywords】 swimlane; data flow diagram; requirement analysis

管理信息系统建设的基础在于政府、军队、企事业单位的信息资源规划。信息资源规划的核心任务在于各部门、各层级数据需求的获取与分析,其主要方法来自于业务流程分析和数据流分析[1]。然而信息技术的飞跃发展,使得部门间、层级间的数据共享与交互呈现指数级的增长[2],传统的基本形式的数据流图也不能充分的挖掘和表达复杂的网络化的信息系统数据需求,本文结合泳道流程图[3]和数据流图两者的优势,提出了一种基于泳道数据流图的数据需求分析方法。

1 基本形式的数据流图

数据流图(Data Flow Diagram),是从数据传递和加工的角度,以图形的方式刻画数据在系统中流动和处理的过程。

数据流图有以下几种主要元素:(1)数据流。数据流是数据在系统内传播的路径,由一组成分固定的数据组成。如订票单由旅客姓名、年龄、单位、身份证号、日期、目的地等数据项组成。数据流是流动中的数据,具有流向,除了与数据存储之间的数据流不用命名外,数据流应该用名词或名词短语命名。(2)数据源(终点)。代表系统之外的实体,可以是人、物或其他软件系统。(3)对数据的加工(处理)。加工是对数据进行处理的单元,它接收一定的数据输入,对其进行处理,并产生输出。(4)数据存储。表示信息的静态存储,可以代表文件、文件的一部分、数据库的元素等。

这里给出一个物资采购管理流程的数据流图的实例,如图1所示。

这个数据流图给出了数据源(评估人员),数据流,数据加工(如收货管理、采购统计等)和数据存储(如采购申请信息,供应商资料等),给出了数据输入与输出的流向,但是数据源或终点不够明确,数据产生和消费的职能部门、岗位以及时序等都无法清晰明了的展现出来,各部门,各层级间的独立信息和共享信息不能一一分明。为解决这些问题,可以采用泳道数据流图。

2 泳道数据流图

泳道数据流图是根据业务实际需求,在基本数据流图的基础上,结合泳道流程图具有的跨职能部门业务处理流程能力和数据流图刻画数据单元输入输出及其处理过程的能力,形成一种图形化分析跨职能部门业务数据需求的方法。

泳道数据流图包括以下几种基本元素:(1)数据流、数据存储、数据处理同基本形式的数据流图;(2)泳道。职能部门是业务处理的核心单位(业务流程主体),也是数据源或终点,在泳道数据流图中表现为一个泳道,是数据产生、处理或存储的容器或者空间。在这个泳道空间中,可以包含数据流、数据存储和数据处理。泳道空间所包括的数据处理,意味着由该职能部门完成该项数据处理,该职能部门是流入该项数据处理的数据流(含特定数据项)的消费者;其所包括的数据存储,意味着该项数据存储由该职能部门产生并维持其序列化,该职能部门是数据存储中所含数据项的生产者;在泳道数据流图中,泳道从左向右水平排列,也可从上到下垂直排列。(3)阶段。阶段是一个容纳业务流程元素或数据元素的时段,它是业务流程在时间上的意义分割,展现业务流程执行或控制的时序;同时也是业务数据产生、处理和存储的时序。在泳道数据流图中,阶段按时间先后可以从上到下排列,也可以按时间先后从左到右排列。(4)起始点。数据的输入输出以及处理追随着业务活动的过程,其起始点常常起于某项业务活动的开始。(5)终止点。数据处理的终点常常是数据输出,例如数据库存储、表单等。但业务活动常常有比较明晰的终止点。为简明表达业务数据需求,泳道流程图纳入终止点。(6)分岔点。数据处理过程常常因为业务逻辑的需要输出不同的数据项,从而产生分岔点。(7)数据项。数据项为数据流中的数据组分,具有明确的定义,包括名称、类型、长度、精度、取值范围、能否为空、是否主键等信息。

泳道数据流图中,以各个职能部门形成的泳道横向水平(或纵向垂直)排列,各个岗位纵向垂直(或横向水平)排列,由业务起始点开始,结束于终止点。分别明确各职能部门,各阶段的数据流、数据项、数据处理过程和数据存储方式和内容。

3 泳道数据流图的应用实例

以前文的物资采购管理流程为例,按照上述泳道数据流图绘制步骤,物资采购管理流程所涉及的泳道数据流图绘制如图2所示。

图中,职能部门分为申购部门,计划部门,评估部门、采购实施部门和财会部门。流程分为需求请领与评估、计划拟制、采购实施和财会审计四个阶段。流程起始于需求请领与评估阶段,由申购部门发起物资采购申请,该部门产生“采购申请信息”,处理“请购管理”过程,并将填写完备的“采购申请信息”发送到计划部门的采购计划拟制人员。计划部门接收“采购申请信息”、“样品评估信息”、“供应商评估信息”,从而“制定采购计划”,完成“采购单管理”,生成“采购单信息”。这个过程中,计划部门的采购计划拟制人员是“采购申请信息”、“样品评估信息”、“供应商评估信息”的消费者,又是“采购单信息”的生产者。其中“样品评估信息”由评估部门的产品评估人员生产,而“供应商评估信息”则由评估部门的供应商评估人员生产。后续的数据流信息则由采购实施部门和财会部门生成、处理并完成。

4 结语

泳道数据流图不仅拥有基本形式数据流图的优势,而且还可以清晰地分析数据项的生产者和消费者,分析数据流在跨职能部门间的流转过程,并给出数据处理和数据存储的执行者,从而更加充分的挖掘和表达信息系统的数据需求,是一种有效的信息系统数据需求分析方法和途径。

参考文献:

[1]高复先.信息资源规划――信息化建设基础工程[M].北京:清华大学出版社,2002:88-149.

第2篇:数据分析的方法范文

环境监测数据可以反映出某一区域内的环境质量状况、污染物的排放情况以及环境受污染的程度。各项数据的不断汇总并分析为各级环保主管部门以及相关机构做决策提供了技术依据。因此,采用健全的质量保证体系以及方法来保证数据的分析质量很有必要。首先,我们先来了解监测数据分析的方法。

(一)统计规律分析

就是采用数理统计方法、模糊数学方法以及适用于小同环境要素的数学和物理方程等方法,对所得的监测数据进行深度剖析,做出详细的分析评价。这种数据分析方法主要适用于环境调查、环境规划和环评等工作。

(二)合理性分析

实际的环境监测中,影响环境要素变化的因素错综复杂,而有效的能用于综合分析的监测数据十分有限,所以我们需要考虑到各种环境要素之间的相互影响,以及监测项目之间的关系,理论结合实际全面分析数据的合理性,这样才可能得到准确可靠的、合理的监测数据分析结果。

二、提高环境监测数据分析质量的方法

为了促进环境执法工作的严肃和公正,在科学化环境管理政策中,提高环境数据分析质量很有必要。在前人的研究工作基础之上,我们提出了以下几种方法来提高数据分析质量。

(一)加强审核

加强各项审核是提高环境监测数据分析质量的重要方法,它主要是指加强对现有数据的综合审核。在进行例行监测或是年度监测计划时,我们的工作一般都是连续性的展开的,一年或是好几年,因此,我们可以建立一个动态的分析数据库,录入每次的监测数据,包括每个污染源的详细信息(污染点的地理位置和排放口的排污状况等),在以后的审核中,我们可以迅速地在数据审核中对于同一采样点、同一分析项目进行新旧数据的分析对比。当数据分析结果出现异常时,可以及时的发现并找到原因,这可以对污染应急事故的发生起到提前警示的作用。另外,在数据审核中,也要密切注意到同一水样、不同的分析项目之间的相关性,比如:同一水体中氟化物和总硬度、色度和pH的关系、氨氮和总氮之间的相关性等,这样也能及时发现数据分析中出现的误差。

(二)加强监督机制

通过调研我们发现,目前在传统的监测数据质量控制系统中依旧存在许多不足,我们可以通过引入反馈和交流机制,加强监督机制来有效提高数据分析的质量。首先,通过强化平面控制,在系统内部全面优化管理的模式,提高工作人员的分析技术水平,尽可能的减少或消除数据误差,以此来提高监测分析的准确性;其次,我们应该主动接受来自外界的监督,对于外界有异议的监测数据要进行反复的检测;再次,我们也应该多举办技术交流会,让技术人员可以与各级环境监测部门的人员沟通,学习他们的先进技术和方法,同时进行数据分析结果对比,找到自身的不足,发现问题并能及时更正。

(三)加强采样及实验室测量质量的控制

1.采样控制

工作人员在每次采样前,都应该根据实际环境情况来制定采样技术细则,做好采样控制,比如:需要校准仪器并确保仪器可以正常运转;使用的采样管和滤膜要正确安装,采样器干净整洁没有受到污染源的污染,其放置的位置也能满足采样要求等。采集好的样品,要妥善存放避免污染。如果样品不能及时进行检测,考虑到样品的稳定性,最好将样品密封并存放在于冰箱中。

2.实验室测量控制

在实验室进行样品测试之前,首先应该对所要用到的玻璃量器及分析测试仪器进行校验。日常工作中,也应该根据各种仪器保养规定,对仪器定期进行维护和校验,确保仪器可以正常运转工作。其次,需要准确调配各种溶液,特别是标准溶液,配置时要使用合格的实验用蒸馏水。测试数据时,先要测定标准样品并绘制标准曲线。测定样品时要检查相关系数和计算回归方程,并对实验系统误差进行测验,每一步都不能少。

三、结束语

第3篇:数据分析的方法范文

1 传媒行业进入大数据时代

大数据是一种时代现象,目前主要是商业概念。还未形成严谨的学术定义。过去,大数据通常用来形容一个公司创造或手机的大量非机构化和半结构化的数据,如网络日志、社会关系网络上的用户活动数据、互联网搜索引擎上的详细搜索记录等等。对于传媒行业,大数据指跨媒体或全媒体数据,如电视机顶盒的回路数据、电脑或移动终端收看视频的数据、社交媒体上对于收看节目的相关评论等。

当下我们提及大数据,还指一种解决问题的方法,即通过手机、整理生活中的方方面面的海量数据,并对其进行分析挖掘,从中获得有价值的信息,这种对大数据的应用与实践已经演化出一种新的商业模式,即公司的核心竞争力在于其拥有的数据规模以及它运用这些数据解决问题的能力。这种解决问题的方法在于对各领域情况进行量化分析:信息准确描述,使我们认知不清晰的方面变得清晰,帮助我们去判断现状和趋势、确定未来战略,在记录、表述、分析、重组后让它带来效益。

传媒业本身就是生产和传播信息的产业,大数据时代,传媒业大有可为:信息源更加丰富,传媒机构可利用数据资源,量化分析,更好地把握信息;对受众需求的把握更加准确,传媒机构可根据受众需求确定传播内容和传播策略,实现精准传播;传播效果的反馈对于不断调整内容和策略,赢得受众,提示品牌形象有很大帮助。首先数字化,让电脑处理这些数据即建立数据库;在数字化基础上进行数据化,变成软件可以识别的数据化文本:智慧地使用已有的理论和方法,让这些数据发挥价值——内容提取、分享、互动,让它们更好地服务于使用者,挖掘其中的商业性创新价值。然而大数据在中国传统媒体中的影响目前并未实现,虽然中国少数传统媒体已经实践或正在实践中,对于互联网媒体,这个领域的实践已经走在了传统媒体的前面。

2 借力大数据进行电视受众分析

2.1 过去的受众分析方法

其一,过去的人员测量仪,一种可以记录受众收看或收听时间的专门仪器,可以定时反馈给数据中心。其二,日记卡,由受访者填写特定格式的表格,记录自己的收视行为。其三,面访,通过上门或拦截访问了解受众的收视行为。其四,电话访问,由访员向目标受众打电话了解受众的收视行为。首先,记录受众观看行为的仪器是抽样的形式安装到用户家中的,这种仪器的安装行为本身对受众观看心理有一定影响,从而导致记录仪器的不准确。其次,观众观看行为的复杂性,这些信息资料庞大,不是简单的受众回访、记录就能得到准备的数据,需要更高的技术来测量。由此可见,这种简单的受众行为分析显然不能适应当下受众复杂的行为变化趋势,也不能够为电视媒体提供精准可靠的分析数据,我们需要借助大数据进行信息分析。

2.2 利用大数据分析电视受众行为

首先,海量电视收视样本监测。利用海量数据收集技术,获得传统的电视收视信息、数字电视、智能电视受众收视行为。目前大部分用户使用数字机顶盒,通过数字机顶盒可以实现信息的传送和反馈,而且这些数据包括内容丰富,有电视直播频道、网络视频资源库、付费点播频道、特色频道等等。数字电视的推广使受众点播回看、增值业务等行为纳入受众观看行为内,这是传统的收视监测难以监测到的。例如在北京市场,北京卫视(高清)、CHC动作频道等都是传统收视率监测很难监测到的频道,而在海量样本监测中均属于常规可监测频道。其次,整合网络视频、移动终端视频观看行为,量化分析受众观看行为。虽然新媒体时代下,互联网声称取代传统的电视媒体,但调查分析,互联网视频观看内容大部分还是传统的电视媒体提供的。媒体受众的行为变迁、跨媒体使用行为的增长,也要求对媒介受众行为监测更加精细化和综合化——如何在新媒体环境下更好地把握受众行为偏好,拓展电视媒体的经营空间,成功实现节目创新和经营创新?成为新时期电视媒体发展的关键议题。这就需要借助网络视频网站、移动终端视频观看数据,精准分析受众的观看行为。具体实施方面,需要电视媒体与网络视频网站合作,在为其提供视频资源的同时,电视媒体需要借助网络视频网站受众观看数据,加上从数字机顶盒获取的量化信息,进行深入分析,精准把握受众对节目内容的关注焦点、对节目发展的心理期待、对节目环节的个性意见、对节目品牌的情感归属等一系列重要问题,对电视节目的生产编排以及成长发展提供有力支持。再者,利用数据收集加工处理平台,挖掘受众喜好,为电视生产制作提供量化信息。大数据之大,重点并不是它的容量大,而在与其强大的数据收集加工处理能力,深入数据分析提取有效信息的能力,这才是大数据的真正价值,谁做到了这一点,就能在市场中获胜。

目前做电视媒体受众详细数据收集与分析的公司是基本上由尼尔森垄断的,中国并没有监管收视率调查的行政机构,做电视媒体受众分析的都是市场调查公司。目前尼尔森、央视索福瑞等调查数据较为权威,虽然价格不菲,但是大多数电视行业数据分析都是这几家做的。尼尔森根据客户的具体需求来定制调查方案,对于一般性的调查需求,尼尔森拥有一套在全球范围内得到认可的专有调查产品和方法,为客户提供最有力的可比性标准化数据。有少量传媒集团着手于专业调查机构合作,深入开发大数据的潜在功能,如2012年2月广东佛山传媒集团与尼尔森公司合作,寄希望于记住尼尔森大数据分析的平台,通过对数据的整合、分析、管理,为他们的转型发展提供战略性的策略依据。

对于电视媒体的受众调查分析,尼尔森采用第四代收视测量海量样本回路数据收视研究,这是全球最新的收视率测量解决方案:受众观看行为通过机顶盒的升级,使得机顶盒能够对观众开关机顶盒时间、转换频道、使用增值业务等具体操作行为进行精确到秒的准确记录,被机顶盒记录的数据通过有线数字电视网络,在一个高度安全的封闭通路中,传输至监测服务器进行多层加密,再通过互联网回传至数据处理中心,整个过程遮蔽了认为干扰的可能性,最大限度报纸了数据采集和传输的安全性,在理论上达到全样本测量。因为这些数据量大几乎达到全样本测量,需要进行量化分析,这就是大数据的应用。

广电行业目前处于三网融合的大环境 中,在这个过程中不可避免地相互渗透和交叉,经营上互相合作、互相竞争,内容上出现了融合,内容的融合意味着数据的融合。目前电视媒体对受众调查分析的意识开始增强,但在实践中电视媒体并没有全面应用数据融合带来的海量受众数据信息。而IT、家电等外行将利用技术进入广电领域对电视媒体有一定的警示意义,但是对于拥有优质精心制作的媒资的电视媒体,若能抓住受众行为在大数据时代下的变化,将是大赢家。

参考文献:

[1] 王建磊.互联网电视机顶盒发展现状及趋势[J].

第4篇:数据分析的方法范文

[关键词]旅游流;空间数据;数据獲取;研究综述

[中图分类号]1759

[文献标识码]A

[文章编号]1002—5006(2012)06—0101-09

1 引言

以旅游者空间移动为核心的旅游流是旅游现象和旅游业的基础,各类旅游流因连接着客源地与旅游地、旅游地与旅游地而成为旅游系统的神经中枢或纽带。旅游流相关问题复杂、层次多元、涉及面广,使得旅游流研究已逐步从地理学的专属领域拓展到旅游学、数学、计算机科学、经济学、管理学、心理学等多学科领域城。近年来,不断出现多类型、多层次和多空间尺度的旅游流理论和实证研究。除对旅游流模式、时空特征、旅游流预测、驱动力的持续关注外,很多研究突破了单一旅游流问题本身,开始将旅游流具有的空间指向性、对区域旅游系统产生的影响和发展导向性纳入研究范畴,开展了与相关主题的融合研究,如旅游地定位和规划、旅游市场细分、旅游地方感知和互动、旅游地生态、社会、经济影响等。

同其他旅游研究相比,旅游流空间问题却仍是一个相对被忽略的领域。麦克切和劳(Mckercher&Lau)认为原因在于数据的收集和分析技术存在一定的困难。除纯粹的理论建构外,旅游流研究都必须依靠一定量的旅游流数据作为研究对象。科学、准确的旅游流数据决定了研究的准确性、可靠性、科学性,旅游流数据的獲取可以说是制约旅游流研究的基本问题之一。然而,针对旅游流数据獲取途径和分析技术的研究却更少,是旅游流研究一个相对薄弱的环节。除了在引入新技术时对传统方法和新方法进行对比介绍外,相关探讨也主要是微观尺度下旅游者跟踪方法的比较研究,缺乏整体、全面的梳理。国内这一问题更为明显,一方面,旅游流数据獲取仍停留在问卷调查、统计年鉴等传统途径,一些先进技术尚未被采用;另一方面,对旅游流獲取问题重视不够,强调对旅游流问题的认识和解释,而忽略研究方法论本身,在研究层次和科学思维上同国外仍有一定差距。因此,本文以旅游客流为主的旅游流相关研究为对象,梳理其空间数据獲取的途径并分类,在总结出各类方法的主要特点、优劣势、使用范围等基本问题的基础上,对比国内外研究,指出国内研究中存在的问题,以期抛砖引玉,促进中国旅游流研究方法层次的全面深入,尽快与国际研究接轨,提高我国旅游流研究的整体水平。

2 旅游流数据獲取相关问题辨析

广义旅游流包括旅游客流、信息流、资金流、物质流等众多类型,其中,最重要的是以旅游者空间移动为主体的旅游客流。旅游者空间移动规律是具有理论和实践双重意义的研究领域。从理论价值看,旅游者移动规律的研究不仅是对旅游行为本身的解释和展示,而且有助于解释旅游特定形式的特征和旅游者行为的黑箱,有助于深入理解旅游动机的产生、旅游目的地选择过程、旅游地方感形成、满意度等内容。同时,旅游者的流动性能够连接地理学的几大基本概念:时间、空间、地方和尺度,从而成为地理学视角的旅游研究的一个基点,是旅游地理学研究的核心问题之一和基本组成部分。实践价值方面,探索旅游流规律是分析目的地尺度上旅游运作的核心问题,对于旅游地管理、旅游社会文化影响、旅游吸引物开发、旅游环境保护等方面都有重要的指导意义。沃尔夫等认为,对于一个目的地而言,准确认识旅游者行为对其设施规划、需求趋势、旅游影响评价、资源使用和管理、政策制定都有重要的影响。夏等(Xia,et al.)则认为,旅游行为模式对于旅游管理者或旅游运营商弄清热点景区的位置和时间安排至关重要,空间模式显示了旅游者是如何组织吸引物、安排旅游计划的。此外,细致、准确的旅游流数据还可以为规划布局、公共设施建设、确定合理的旅游承载力、规划新吸引物、减少主客冲突等一系列旅游地发展环节提供参考。

由于旅游流涉及问题广、层次复杂,研究者对旅游流的理解、认识存在差异,从而出现了众多的旅游流数据獲取的途径和思路,因此,在梳理旅游流数据獲取途径前,需要厘清以下问题:

2.1旅游流的“流动性”

旅游流的本质在于其“流动性”。从旅游者的空间移动角度看,至少需要两个点:客源地和目的地(O—D),目的地(D—D)之间。国内部分研究仅使用区域内的旅游者接待量,或直接采用旅游景区各入口处统计的人数,这是一种基于结果数据的旅游流分析,此类数据揭示的是旅游者一定区域内的空间分布规律,而非旅游者的空间移动特征,体现不出“流动性”和相关地域单元之间的旅游流联系。旅游流是一种过程,需要将客源地或者前后关联的旅游地(点)纳入分析范畴,考虑多目的地过程中的移动规律,因此,本文未将未涉及“D—D”或“O-D”的旅游规模和纯预测类的结果型旅游流研究纳入分析范围。

第5篇:数据分析的方法范文

关键词:数据丢失;分析; 恢复; GHOST

中图分类号:TN919-34 文献标识码:A

文章编号:1004-373X(2011)20-0019-05

Analysis and Restoration of Common Data Loss

ZHANG Yao-min

(Shaanxi Radio & Tv University, Xi’an 710061, China)

Abstract: In order to remedy the loss caused by date loss which brings some loss to units and individuals, proceeding from the common losing phenomena such as malicious destruction, hard disk problems, incorrect operation and system halted, various causes of data loss are analysed. Mostly because the medium of a program or data damaged appear, as long as we learn some common recovery method, can save unnecessary losses. Specific Combining various medium structures of data storage and file storage principles with daily practical experiences, Different medium fault restorations of data loss and considerations avoiding data loss are given, which will help you with the data loss and prevent future problems in your work. The innovation point is to provide the possibility of data recovery for non-professional personnel.

Keywords: data loss; analysis; restoration; GHOST

随着信息化热潮在中国的不断推进,越来越多的企事业单位在工作中引入计算机系统来辅助工作,越来越多关系企业正常经营的重要信息也被保存在计算机系统中。据CCID统计,截至2005年12月底,我国上网计算机数仅次于美国,位居世界第二,到2010年年底,宽带用户达到1.25亿[1]。另据IDC调查分析,数据存储量以年均80%的速度增长。面对这种情况,当越来越多的用户习惯于把重要资料保存到电脑中的时候,却不得不面对数据可能丢失的尴尬,即便是在数据保存、备份方面花费不菲的企业用户,如银行和证券业,也无法保证自己的数据百分之百不被破坏。一旦系统发生故障,难免会产生重要数据丢失,将会导致企业停止运转,甚至面临破产。可见,数据恢复的重要性不言而喻。因此,当系统发生故障时如何找回丢失的数据,把给企业、个人带来的损失降低到最低就显得日益重要,数据恢复就顺应这一市场需求而产生了。

顾名思义,“数据恢复”,就是面对计算机系统遭受误操作、病毒入侵、硬件故障、黑客攻击等事件后,将用户的数据从各种无法读取的存储介质中挽救出来,从而将损失降低到最小的技术[2]。造成数据丢失的原因很多,不管是普通用户还是电脑高手,数据丢失是人人都会碰到而且是令人最头疼的事情。下面从数据丢失现象入手,分析了数据丢失各种原因,结合数据存储的介质结构与实践经验,给出了常用的数据恢复方法,最后提出避免数据丢失的日常注意事项。

1 数据丢失现象[3]

1.1 恶意的破坏

比较典型的例子就是各种病毒对文件和系统程序的破坏;另外,只要拥有足够的操作权限,任何系统都有一定的“自毁”能力。比如依靠系统正常的删除、移动、格式化等操作会造成对数据的破坏,这些多数也是病毒所致。还有,有的用户对自己使用的用户名设置了必要的密码,而对于Administrator这个具有系统最高权限的用户,密码却为空,这就是任何一个连接在网络上的非法用户都可以对该系统进行任何操作。这一情况是大多数非专业用户忽视而造成的,属于管理上漏洞。

1.2 硬盘问题

启动时,硬盘自检不到是常见的硬件故障,但此故障又可分为主板的硬盘控制器(包括IDE口)故障和硬盘本身的故障。如果问题在主板上,那么数据应当没有影响。如果出现在硬盘上,也不是一定不能修复。硬盘故障又可能分别在控制电路、电机和磁头以及盘片上。如果是控制电路的问题,一般修好它,就可以读出数据。但如果电机、磁头和盘片故障,数据恢复基本没有可操作性。

1.3 误操作

所谓误操作一般指对计算机操作不太熟悉,对系统提示的信息不清楚或不注意而造成的一些破坏行为。如未保存文件退出,导致文件或文件修改内容丢失;如安装Ghost的时候误操作,结果不知道怎么回事,原来的多个分区变成一个分区了,而且以前的数据全部没有了;如还有误删除、误格式化等。文件丢失、误格式化的情况一般来说,文件删除仅仅是把文件的首字节改为E5H,而并不破坏本身,因此可以恢复。GHOST时的误操作,只是破坏了原来的分区表,也是可以恢复的。

1.4 计算机突然死机是造成文件丢失的最大杀手

如果正在编辑Word文档过程中死机,先别垂头丧气,关掉电源后重新启动计算机,然后直接点击启动Word,就会发现刚才正在编辑的文件将会以一个恢复文件的形式出现在屏幕上,将其另存为一个文件后可继续使用。这是因为Word在打开文档编辑时会在Windows系统目录的Temp目录中形成临时文件,并在当前的编辑目录中形成一个中间文件,直到存盘退出时自行删除,这就使文件恢复成为可能。

2 常见数据丢失原因分析

信息化时代,各种存储介质(硬盘、U盘、光盘等)在使用时难免会出错,轻则数据丢失,重则整个介质报废,造成不可预料的后果。从以上分析可知,造成数据丢失的原因大致分为软件故障和硬件故障2种情况。软件故障一般表现为无操作系统,读盘错误,文件找不到、打不开,出现乱码,报告无分区、无法格式化等。通常由错误分区、格式化硬盘不慎、误操作、病毒的攻击等造成。据不完全统计,对大多数用户来说,计算机日常使用中80%以上故障为软件原因导致的“软故障”[4]。此文重点讨论软故障的修复。

(1) 黑客入侵与网络病毒感染,造成数据丢失。

相信这一因素造成数据灾难所占的比例最高,如今的黑客能在装有防火墙的网络中进出自如,病毒可以在几个小时之内遍布全球,时刻都在威胁着数据的安全,这些都是人们无法预料的事情。

(2) 用户的硬盘数据保护意识不高,造成数据丢失。

目前不论是企业用户还是个人用户,多数都是在计算机里安装了一种或几种防病毒软件,然后就认为可以高枕无忧了。这种过分依赖防病毒软件的思想使得用户疏忽了对数据的保护,等到数据灾难发生的时候才发觉,其实防护软件并不是万能的。

(3) 硬盘或系统、软件故障,造成数据丢失。

由这一原因造成的数据丢失多数表现为:数据无法找到,系统不认识所使用的装置,机器发出噪音,电脑或硬盘不工作等,这与用户使用电脑的方式和在电脑上安装的软件有关,视不同情况处理,不能一概而论。

(4) 自然损坏。

风、雷电、洪水以及意外事故(如电磁干扰、地板振动等)也有可能导致数据丢失,不过这一因素出现的可能性比前面三点要低很多。

综上分析,多数情况下,用户找不到的数据往往并没有真正的丢失,只要处理得当,恢复是完全有可能的。

3 各种介质存储原理

面对数据丢失的各种可能原因,要了解数据恢复方法首先应知道各种介质的存储结构和文件存储原理。

3.1 硬盘

3.1.1 硬盘数据结构

硬盘一般分为5个部分:主引导扇区、操作系统引导扇区、文件分配表区、目录区和数据区。主引导扇区共512 B,包括硬盘主引导记录(Main Boot Record,MBR)和硬盘分区表(Disk Partition Table,DPT)。MBR的作用是检查分区表是否正确以及确定哪个分区为引导分区,并在程序结束时把该分区的启动程序调入内存加以执行。

操作系统引导扇区(Dos Boot Record,DBR)是操作系统可直接访问的第一个扇区,包括引导程序和被称为BPB(BIOS Parameter Block)的本分区参数记录表。引导程序的主要任务是判断本分区根目录前2个文件是否为操作系统的引导文件,然后把第一个文件读入内存,并把控制权交给该文件。BPB参数块记录着本分区的起始扇区、结束扇区、文件存储格式、硬盘介质描述符、根目录大小、FAT个数、分配单元(Allocation Unit,簇)的大小等重要参数。

文件分配表区(File Allocation Table,FAT)用来表明一个文件所占用的各簇和簇链分配情况,标明坏簇和可用簇。磁盘上有2个FAT,第1个是基本表,┑2个是第1个的备份,其大小取决于该分区的大小及文件分配单元的大小等因素。

目录区(Directory,DIR)也称文件目录表(File Directory Table,FDT),记录着每个文件(目录)的起始单元、文件的属性等。数据区即Data,是真正意义上的数据存储区,占据硬盘上的大部分空间。

Data区的数据由FDT和FAT来解释,若FDT和FAT对Data区域的描述为“未使用”,则对应的Data区就是“未被占用”的空闲空间,可进行新数据的写入。

3.1.2 数据存储原理[5]

操作系统在保存文件时,首先在FDT区中找到空闲区写入文件名、大小和创建时间等相应信息,然后在Data区找到闲置空间将文件保存,并将文件在Data区第1个簇的簇号写入FDT,如果文件结束,则将Data区的最后一个簇的簇号写入FDT,并在Data区的最后一个簇写入结束标志。读取文件时,操作系统从FDT区中读取文件名、后缀名、文件大小、修改日期和文件在数据区保存的第一个簇的簇号等文件信息,根据FDT区中的簇号读取Data区相应簇号的数据,然后去找FAT的相应单元,如果内容是文件结束标志,则表示文件结束,否则内容保存数据的下一个簇的簇号,这样重复下去直到遇到文件结束标志。

明白了数据存储结构和各种操作对硬盘数据的影响,就不难理解为什么数据在被破坏后,只要没有新的数据覆盖,数据还能够再次找回来。这就为数据恢复提供了可能性。

3.2 U盘

U盘工作原理比较简单:USB端口负责连接电脑,是数据输入或输出的通道;主控芯片负责各部件的协调管理和下达各项动作指令,并使计算机将U盘识别为“可移动磁盘”,是U盘的“大脑”;FLASH芯片与电脑中内存条的原理基本相同,是保存数据的实体,其特点是断电后数据不会丢失,能长期保存;PCB底板是负责提供相应处理数据平台,且将各部件连接在一起。当U盘作系统识别后,使用者下达数据存取的动作指令后,USB移动存储盘的工作便包含了这几个处理过程。

3.3 光盘

3.3.1 光盘系统存储结构

光盘系统的核心模块由存储数据的盘片及其旋转驱动机构、读写数据的光学头组件以及控制和接口的系统电路3部分组成。总体结构与硬盘系统比较类似,不同的是存储介质变成了光学介质,数据的读写机构由磁头变成了光学头。

当系统工作时,由半导体激光器发出的激光束经光学系统聚焦于光盘盘片的记录层,处于记录状态时,半导体激光器光功率输出较大,焦点处大的激光功率密度使得记录介质的反射率发生变化,形成信息点;处于读出状态时,半导体激光器的输出较小,当其焦点在记录道上扫描时,由于记录点反射特性与其余位置反射特性的差异,检测反射光功率的变化即可读出已存储信息。

3.3.2 光盘的存取原理[6]

光盘利用激光束在记录表面上的存储信息,根据激光束和反射光的强弱不同可以实现信息的读写。由于光学读写头和介质保持较大的距离,因此,它是非接触型读写的存储器。

对于只读型和只写一次型光盘而言,写入时将光束聚焦成直径小于1 mm的微小光点,使其能量高度集中,在记录的介质上发生物理或化学变化,从而存储信息。例如,激光束以其热作用,融化盘表面的光存储介质薄膜,在薄膜上形成小凹坑,有坑的位置表示记录“1”,没坑的位置表示“0”。又比如,有些光存储介质在激光照射下,使照射点温度升高,冷却后晶体结构或晶粒大小会发生变化,从而导致介质膜光学性质发生变化(如折射率和反射串),利用这一现象便可记录信息。读出时,在读出光束的照射下,在有凹坑处和无凹坑处反射的光强是不同的,利用这种差别,可以读出二进制信息。由于读出光束的功率只有写入光束的1/10,因此不会使盘面熔出新的凹坑。

可擦写光盘是利用激光在磁性薄膜上产生热磁效应来记录信息。它利用激光照射磁性薄膜,使其被照处温度升高,矫顽力下降,在外磁场作用下,该处发生磁通翻转,并使其磁方向与外磁场一致,这就可视为寄存“1”。不被照射处,或小于矫顽力处可视为寄存“0”。通常把这种磁记录材料因受热而发生磁化的现象,叫作热磁效应。擦除信息和记录信息原理一样,擦除时外加一个和记录方向相反的磁场,对已写入的信息用激光束照射,使磁外场大于矫顽力,则被照射处又发生反方向磁化,使之恢复为记录前的状态。

4 常用数据恢复方法

不同数据丢失,其数据恢复方法各具差异。就大的方面而言,数据恢复分为纯软件恢复方法和软硬件结合方法,软硬件结合方法需要一定的硬件支持,对于大多数管理员来说是不现实的。结合实际,本文主要讨论纯软件恢复。这种类型的软件有很多,如:EasyRecovery,DiskGenius等,使用时必须掌握每一个软件的特性,有针对性地合理选择或配合使用,才能提高数据恢复的效率。

4.1 系统不承认硬盘

此类故障比较常见,即从硬盘无法启动,使用CMOS中的自动检测功能也无法发现硬盘的存在。这种故障大都出现在连接电缆或早期硬盘的IDE口上(现在硬盘多使用串口SATA),硬盘本身的故障率很少,可通过重新插拔硬盘电缆或者改换IDE口及电缆等进行替换试验,这样很快就能发现故障所在。如果新接上的硬盘不承认,还有一个常见的原因就是硬盘上的主从跳线错误。如果硬盘接在IDE的主盘位置,则硬盘主从跳线必须设置为主盘状,因为跳线错误一般也会无法检测到硬盘。

4.2 误删除数据的恢复

对于误删除数据的恢复,可以从网上免费下载数据恢复工具EasyRecovery,安装后启动EasyRecovery,并单击“数据恢复”,进入数据恢复的主菜单。选择“删除恢复”可以恢复已经被删除的文件。选择要恢复文件所在的分区。如果仅恢复删除了的一两个文件,可以选择默认情况下的快速扫描,但如果要恢复删除了包含子目录和文件的整个目录,就必须选择完全扫描。单击“下一步”,系统将对选择的目录进行扫描。扫描结束后,屏幕上显示所有可能恢复的文件信息。因此可以像使用“资源管理器”一样,选择想要恢复的文件进行恢复,单击“下一步”即可。

注意:由于EasyRecovery在恢复数据时并不重写硬盘,而只是在内存中镜像文件的FAT表和目录表,所有恢复文件都是存放在内存里,这就需要选择恢复文件存放的位置,然后把在内存中的恢复文件写到硬盘上。

4.3 手工恢复数据

(1) 恢复删除到回收站的文件数据。凡是在Windows系统里删除的文件,都会先存放在“回收站”里,通过打开“回收站”就可以选择要还原的文件。误将一个系统文件删除了,导致计算机运行不正常。如果文件被删到回收站,可以通过回收站的还原功能来恢复:打开“回收站”,并选中被删文件;然后单击“回收站任务”栏中的“还原此项目”即可。如果回收站中找不到被删的文件,也可以通过“系统还原”来恢复,操作如下:鼠标依次单击“开始程序附件系统工具系统还原”,打开“系统还原”向导;在向导界面中选择“恢复我的计算机到一个较早的时间”复选框,单击“下一步”继续;在“日历”中选择系统还原点,此还原点应该选择文件删除之前的日期,单击“下一步”继续;确认还原点,单击“下一步”,系统重启后即可。

(2) 用自动恢复功能还原死机前的文件。计算机突然死机后,你只需要重新启动,并打开Word文件,就会发现有个“恢复文件”。如果Word文件突然不动,也无法进行保存,不要紧张,对死机的电脑,你可以同时按下健盘上的“Ctr1+A1t+Delete”三键,按一下“没有响应”这一项,再按一下“结束任务”,就可以关闭这个死机的画面。重新启动后,再一次执行Word程序,你会发现复原后的文件。

(3) 由于突然断电,编辑的Word文档没有及时保存。若使用Word 2003,当你遭遇突然断电后,再次启动系统并打开Word后,系统会自动弹出一个列表,从中找到那个没有保存的文件并打开,再将其重新保存即可。以后,在编辑重要的Word文档时,请设置自动保存功能,让系统每隔多少时间保存一次,这样风险会变小很多。具体设置是单击“工具”菜单,选择“选项”子项,在弹出选项对话框中选择“保存”选项卡,并在其中选中“自动保存时间间隔”复选框,时间设置3~5 min为宜。

4.4 U盘数据恢复与介质修复

在使用U盘时,由于没有采用正确的插拔操作,导致U盘上一些重要文件丢失,甚至U盘无法格式化。U盘上的数据丢失可以尝试用“Final Data”这个软件,它是一款可以按扇区读取并进行数据恢复的软件。下载、安装后运行软件,单击“文件”菜单中的“打开”命令;在“选择驱动器”对话框中选择优盘盘符后单击“确定”按钮开始扫描;待扫描结束后,在“丢失的目录”或“丢失的文件”内选中所有需要恢复的文件;单击“文件”菜单下的“恢复”命令,弹出“选择目录保存”对话框,确定保存路径后单击“保存”按钮就可以了。

有些时候,由于不当操作或者中毒引起,原文件系统完全被破坏,表现为无法打开、无法格式化等信息,这种情况可以尝试使用“量产工具”把U盘恢复到出厂时的状态。首先用ChipGenius这个软件测试一下你的U盘是什么型号的芯片,然后再到网上去下载一个与之对应的“量产工具”对其进行量产重塑或者低格,以达到出厂时的设置,如果想要挽回里面数据的话,建议下载EasyRecovery软件先恢复U盘里面的数据,然后再使用“量产工具”。

4.5 光盘数据恢复

为了确保数据的安全性,一些用户将一些重要的文件都刻录到光盘中。但不知道光盘是否受到磨损,还是刻录质量的原因,使用时遇到光盘数据不能读取的现象,有什么办法可以恢复这些不能读取的文件呢?遇到这种情况确实很无奈,不过可以尝试用BadCopy来修复,BadCopy软件可以在不需要人工干预的情况下帮您读出CD-ROM或磁盘上的坏文件。不仅可以恢复损坏的文件,还可以恢复丢失的文件。软件运行后,在“恢复来源”中选择“CD-ROM”,进入恢复向导;在向导第一步对话框中单击“恢复模式”下拉框,针对您的现象可以选择“挽救已损坏文件”项,单击“下一步”继续;进入待修复文件的文件夹,选中需要修复的文件,单击“下一步”开始修复;文件修复后,单击“浏览”按钮,选择修复后文件的保存路径;最后单击“下一步”即可。

4.6 由于误操作,将某个盘进行了格式化,如何恢复存储在该盘的文件

格式化后的分区也可以通过软件来实现数据恢复。可以尝试使用Recover My Files软件,安装后运行,单击快捷工具栏中的“打开磁盘驱动器”按钮,选择需要恢复的磁盘分区,扫描结束后,选择需要恢复的文件,单击快捷工具栏中的“保存”按钮,选择保存文件的驱动器。

4.7 不小心打开了某个病毒邮件,导致系统中部分文件的损坏,如何恢复损坏的数据

首先经过杀毒软件的扫瞄,确认是哪一种病毒,如果杀毒软件不能处理的话,多数是网络病毒,根据病毒名称可以到网上下载相应的专杀工具。下载后运行该专杀工具,单击“浏览”按钮选择需要恢复的文件;单击“修复”按钮,弹出“另存为”对话框,选择文件修复后的保存路径;最后单击“保存”即可。

4.8 用GHOST镜像恢复系统时,磁盘分区丢失,如何恢复原有的分区

通常系统维护中经常使用一键GHOST恢复系统,本打算将GHOST镜像安装到C盘去,由于误操作选了“DiskFrom Image”,恢复完成后,重新启动计算机,整个硬盘只有一个C盘分区,其他盘都没有了。遇到这种情况,不要担心,GHOST镜像系统一般小于原来C盘的容量,也就是说,它只写入原C盘的位置,并没有写入到其他盘的位置上,只要恢复被破坏的分区表,就可以解决问题。具体解决方法如下:首先,重新启动系统进入GHOST,单击“Local”“Disk”“From Image”“OK”,在出现的Destination Drive Details界面中,按“Tab”键将光标移动到“New Size”下面的数字栏中,输入数字将上面的容量调整为原先的C盘容量(如果不记得C盘原来的分区大小,可以自行设置为比Ghost镜像文件稍大一点的数值,比如设多8 GB至10 GB左右),然后单击“OK”,将Ghost镜像恢复到硬盘。其次,恢复完成后,重新启动计算机进入系统。最后,到网上下载免费软件DiskGenius.exe,安装后启动Disk Genius,单击“硬盘”菜单“搜索已丢失分区(重建分区表)”打开“搜索丢失分区”对话框,单击“开始搜索”按钮,稍等一会儿,Disk Genius就会扫描到丢失的扩展分区,并发现扩展分区中的各盘符,只要按照上面的提示进行操作,重新启动计算机后即可恢复正常。

5 避免文件丢失应采取的措施[7]

(1) 安装杀毒软件以及防火墙,养成及时升级杀毒软件、病毒库更新、定期全盘扫描,以防止病毒侵入、及时维护好计算机以防计算机死机、避免误操作等人为因素造成文件丢失。

(2) 磁盘格式最好使用NTFS格式,由于NTFS格式增加了一个索引文件信息的主文件表,而且在存储数据时,系统将在存储工作完成后,将存储的结果与源数据进行比较,以确认操作的正确性。因此,使用NTFS格式的硬盘数据更安全,这样当发生数据丢失问题时恢复的程度比较高。

(3) 一般情况下, 要删除文件最好不要用“Shift+Delete”键删除文件,这样在误删除后还可从回收站轻松恢复,其次就是在清理回收站时应认真确认要清理的文件。另外,保存文件时最好不要把文件保存在桌面和系统盘里,这样可避免在以后丢失数据后,恢复数据带来的麻烦。

(4) 在编辑Word文件时,应定时建立Word文件备份。最好的方式就是养成“经常保存”的好习惯,不过在好习惯养成之前,也可以用Word的内建设置,自动帮你存一份备份文件,以免去时常重打文件的麻烦。这里的保险做法,让Word每隔一段时间自动备份正在编辑的文件,万一不幸死机,这个备份的文件会出现在同一个文件夹内,仅需要将它打开并用它覆盖掉原来的文件,就可以得到与死机前相同的文件了。

(5) 恢复数据是要通过读取簇内容来实现的,所以一个没有硬盘碎片的硬盘恢复起来会容易很多。因此,在日常操作中经常整理硬盘不只是可以提高硬盘效率的工作,还是一种可以提高数据恢复几率的好习惯。

6 结 语

如何避免数据丢失。任何数据恢复解决方案都不能保证所有数据能100%的恢复。而要真正做到数据的万无一失,最重要的工作还在于防患于未然。日常工作中就要有危机意识,除了采用上述避免数据丢失的措施外,还要养成良好的工作习惯,坚决不使用来历不明的文件,一旦遇到数据丢失问题时,不要紧张,分析问题的原因,找到解决问题的方法,相信你一定会取得好的结果。

参考文献

[1]郭靖.数字家庭网络用户预测[J].产业观察,2006(7):103-105.

[2]文光斌.数据恢复技术的发展前景、技术层次及常用方法[J].网络安全技术与应用,2005(13):5-7.

[3]刘三满.计算机数据恢复技术分析[J].山西电子技术,2007(1):95-97.

[4]黄飞.电脑硬件常见故障处理速查手册[M].北京:国防工业出版社,2005.

[5]王大伟,王常亮.浅谈数据恢复技术[J].网络财富,2009(6):13-15.

[6]张瑞琴.启动光盘原理及常用启动光盘制作技术[J].河北企业,2010(1):16-18.

[7]任兴洲.常见数据丢失问题的分析及应对措施[J].兰台世界,2005(6):32-35.

第6篇:数据分析的方法范文

关键词:数据挖掘;ADS-B数据;航路;航迹偏差

引言

随着交通流的增大,飞行航迹与航路经常出现存在偏差的情况,原有设计的航路在一定程度上已不能够完全满足当前飞机运行需求。通过航路优化可以有效提高交通运行效率。

广播式自动相关监视(ADS-B)是一种基于全球卫星定位系统(GPS)和地/空,空/空数据链通信的航空器运行监视技术[1],具有数据量大、易获取的特点。文章以天津上空的航路为例分析,运用时空航迹聚类、航迹相似度量及分层聚类航迹方法,提出的基于ADS-B数据挖掘的航路航迹偏差分析研究方法,能够为航路优化提供参考。

1 天津上空航路分析

天津位于北京东南方向,距离北京110公里。去往北京和从北京机场出发的航班大部分都需要经过天津上空,且该地区航路复杂(天津上空的主要航路图如图1所示)。

天津地区上空的A461和A593航路,作为京广通道和京沪通道,是全国较繁忙的两条航路。从目前的航路和飞行航迹来看,飞行航迹并不完全与按照航路所设计的路线一致,这在一定程度上不利于交通流量的控制,需要通过研究航迹偏差的原因来调整现有航路结构。

2 应用到的聚类方法

2.1 时空轨迹聚类方法

时空轨迹是移动对象的位置和时间的记录序列[2]。时空轨迹是连续的,但通常用一组时空记录点序列,以离散的方式表示。对时空对象的实际轨迹曲线进行采样,用得到的集合来代表时空轨迹[3]。而航迹也可以看成是一种时空轨迹。因此,时空轨迹(航迹)的模型如式(1)所示:

式中:代表一条轨迹,序列中每一个(d+1)元组(xn,yn,tn)代表轨迹对象tn时刻在d维空间中的一个记录点,其空间位置是tn

为了能够从ADS-B轨迹数据中发现有用的信息,需要使用空间数据挖掘的方法,通过聚类识别出对象空间稠密和稀疏的区域,将数据中的相似性与异常特征提取出来,从而发现全局分布模式和数据属性间的关系。具体的研究思路图3所示。

具体思路如下:

首先,采用Hausdorff距离的方法对两两航迹进行相关性运算。

其次,计算一条航迹中一点到另一条航迹全部点的距离,求出d1,d2......dn;其次,求出该点到另一条航迹上全部点的最大距离,记为dmax;

再次,用该方法求得航迹上全部点到另一条航迹的最大距离;

最后,两条航迹的近似距离D可以用所有该航迹上的点到另一条航迹的距离中取最小值表示,得到两条航迹间的距离D后,就可以通过判断D来得到两条航迹的相关性。

其中,X表示航迹点的经度,Y表示航迹点的纬度,T表示采集到航迹点的时间。由于航迹数据采用的是按时间顺序排列,所以处理时就可以不用三维点而直接用二维坐标进行处理即可简化为:

两两航迹进行相关性运算,设两条航迹为:

一条航迹T定m(xn,xy)点到另一条航迹U的距离可以简化为欧式距离,即:

该点到另一条航迹的最大距离dmax(m)可以近似为:dmax(m)=max(d1,d2,......dn)

两条航迹的近似平均距离D可以用所有该航迹上的点到另一条航迹的距离dmax中取最小值可以近似看成两条航线间的距离D为:

D=min{dmax(1),dmax(2),dmax(3)......dmax(m),dmax(n)}

在通过对D进行判断,就可以得出两条航迹的相关性。

2.2 航迹相似度的度量方法

在这里,我们需要对D进行特殊分析。根据国内的国情,中国国内航路宽度设计标准一般为20km,所以我们度量的标准S也为20Km,相似度用距离来表示的话可以为R=■,判断R可以得到两条航迹间的相似度。当R>1时,表示两条航迹完全无关,当R>1时,表示两条航迹有相关性,R数值越小,两条航迹之间的平均偏差越小,两条航迹相似度越高。

2.3 分层聚类航迹分析

由于分层聚类是由不同层次的分割聚类组成,层次之间的分割具有嵌套的关系并且它不需要输入参数,因此采用文献[4]的分层聚类航迹分析方法,对航迹进行分层聚类分析,然后得到某航迹聚类Ci。

2.4 聚类的平均航迹构造

首先,针对聚类得到的航迹进行分析。在两导航台之间,每隔一定的距离取适当的航路点ti,把以该航路点为圆心,半径为一定距离的圆内所有航迹点的平均值作为平均航迹的航迹点(如图4所示)。航迹聚类所形成的平均航迹Mt是由沿进场方向离散的航迹点构成的。每个航迹聚类所形成的平均航迹从统计数据的角度描述了在指定条件下(如:时间段、航空器类别、跑道使用构型、管制负荷程度等)某条标准的飞行程序对应的最为典型的一个飞行轨迹。平均航迹的定义如下:

(1)平均航迹的航迹点Mt定义为向量集其中:nmt为航迹点的编号, 按距离大王庄VYK导航台的地理位置由近到远由小到大进行编号;nmt为航迹点总数,mpi为平均航迹中第i个航迹点;

(2)每一个航迹点mpi定义为一个二维的向量:mpi=(x,y),其中:x表示航迹点mpi的经度(横坐标);y表示航迹点mpi的纬度(纵坐标)。文中使用分量mpi(x),mpi(y)分别表示平均航迹中航迹点mpi的相关信息。

构造平均航迹的基本思想为:从大王庄(VYK)导航台开始,沿航路方向, 逐点构造每一个平均航迹点mpi来获得所有的平均航迹点集Mt。其中平均航迹点mpi可以通过计算该航路点为圆心、一定距离为半径的圆内所有航迹点的平均值,最后将平均航迹点连线成为平均航迹,具体处理过程为:

(1)需要选择航路上以3海里为间隔的点集作为基准航路点集,以保证平均航迹中每一个航迹点的构造都包含所有航迹的信息(不妨设该航路点集为Ti={nmt为航路点总数;

(2)计算以一个基准航路点ti为中心、半径为5海里的范围内航迹聚类Ci中所有航迹点的平均位置,得到一个新的位置坐标,即为平均航迹点mpi,用mpi=(x,y)表示。对航路上其余点用相同方法,通过逐个构造每一个平均航迹点来生成平均航迹Mt。再将所有平均航迹点连线,得到平均航迹。其满足: 平均航迹中每一条航迹的航迹点数量都与Ti相同,且任一条航迹中的航迹点都是与相同序号的航路点具有较好的局部相似性。

3 算例分析

应用上述航迹聚类和平均航迹构建方法对从大王庄到行唐航段进行实例研究。

(1) 将ADS-B航迹数据聚类,使用时空航迹聚类方法,用Hausdorff距离判断并找出与从大王庄到行唐航段相似的航迹,用分层分析的方法,将相似的航迹归为一类,得到航迹聚类C1,航迹聚类图如图5所示。

(2) 针对大王庄到行唐两个NDB导航台之间的航段,选取每隔3海里为一适当的航路点ti,把以该航路点为圆心,半径为5海里的圆内所有航迹点的平均值作为平均航迹的航迹点Mt,将所有平均航迹点连线构成该航段的平均航迹,平均航迹图如图6所示。

图5 某日大王庄-行唐航段ADS-B航迹数据聚类图

图6大王庄-行唐航段平均航迹图

4 结束语

文章利用数据挖掘的方法对ADS-B数据航迹偏差进行分析研究,结合时空航迹聚类、航迹相似度量及分层聚类航迹方法,求得飞机飞行平均航迹。并以天津上空航路为例,计算了平均航迹,对航迹偏差分析具有一定的借鉴意义。最后感谢中国民航大学提供的大学生创新创业资金的资助。

参考文献

[1]付强.ADS-B原理及在空中交通管制中的应用[D].吉林大学,2011.

[2]龚玺,裴韬,孙嘉,等.时空轨迹聚类方法研究进展[J].地理科学进展,2011.

[3]Nanni M. Clustering methods for spatio-temporal data. Pisa, Italy: University of Pisa[D].2002.

第7篇:数据分析的方法范文

[关键词] 单核苷酸多态性;聚类分析;基因;数据挖掘

[中图分类号] R181.2+3 [文献标识码] A [文章编号] 1673-7210(2015)09(a)-0036-06

[Abstract] Statistical methods currently used for single nucleotide polymorphisms (SNPs) data cluster analysis are explained, and select five kinds of representative statistical methods, make specific analysis to each method separately. In the discussion process for each method, all divided into 5 parts: principle of the method, calculation methods, formulas, advantages and defects. In the discussion section of the article, all the methods are summarized, and propose future development direction of the cluster method for SNPs data.

[Key words] Single nucleotide polymorphisms; Cluster analysis; Gene; Data mining

在人类的基因组中存在各种形式的变异,其中,单核苷酸多态性(single-nucleotide polymorphisms,SNPs),即单个的核苷酸变异所引发的DNA链序列的多态性,是这些变异中最普遍的形式。根据数据统计,在人类含有不低于30亿个含氮碱基对数量的基因组中,SNP出现的概率在1/1000左右[1]。如何利用这些信息,建立数字模型,探索这些基因与位点和疾病的关联,成为了摆在科学家面前的一个富有挑战意义的课题[2]。

科学家们在长期的研究中,根据“物以类聚”的原始思想,衍生出了对复杂数据或者试验对象等进行归类的一种多元统计学分析方法,即现在归属于统计学分支的聚类分析(cluster analysis),又称其群分析。这种统计方法的核心思想从诞生之日起就未更改,即在没有任何可用来参考的或者依从的规范下(即先验知识准备程度为零),按照被研究对象或者样品本身的特点或者性状,进行最大程度合理的分类。通过聚类分析的计算过程,不仅可以保证在最终所分的类别情况下,同一类别中的对象或者样品,能够具有最大程度的相似性,而且使不同类别中的对象或者样品,拥有最大程度的相异性。以大量相似为基础,对收集数据来分类,成为了聚类分析计算本身的最终目标[3]。从统计学的观点看,聚类分析计算是通过数据建模简化原有数据复杂程度的一种方法,而从实际应用的角度看,聚类分析计算亦是数据挖掘的主要任务之一。高维度高通量SNPs数据聚类分析,是近现代聚类分析中一个非常活跃的领域,同时也是一个非常具有挑战性的工作。

目前用于高维度SNPs数据聚类分析的方法有很多种,常用的几大类有Logistic回归、潜在类别分析(latent class analysis,LCA)模型、结构方程模型分析(structural equation modeling,SEM)、以决策树为基础的分类回归树(classification and regression trees,CART)和随机森林(random forest,RF)算法的分析[4]、基于贝叶斯网络(Bayesian networks,BNs)模型的分析、基于神经网络(neural networks,NNs)模型的分析和支持向量机(support vector machine,SVM)的方法等,上述种类的方法各有其适用性,在聚类计算的效能方面也广泛存在争议。本文从以上几类方法中,遴选出应用较广泛、理论相对成熟的潜在类别分析、分类回归树模型、贝叶斯网络潜变量模型、BP神经网络模型和支持向量机5种具体方法进行比较,阐述其在SNPs数据聚类分析中的意义。

1 潜在类别分析

诞生于20世纪50年代的LCA方法,其基本原理是通过引入潜变量概念,建立潜在类别模型(latent class model,LCM),在保证维持各个显变量的数据局部独立性的基础上,力图用少数的潜变量与各个显变量建立关系,然后以数量相对较小的潜变量进行对象关系解释。而争取利用最少数量的且关系上互相排斥的潜变量对各个显变量的概率分布进行最大程度的解释,就是潜在类别分析的基本假设,这种假设的思想倾向于各种显变量对其类别进行解释的潜变量都有反应的选择性[5]。潜在类别分析的统计原理建立在概率分析的基础之上。一个潜在类别模型是由一个(或多个)潜在变量和多个外显变量组成的Bayes网[6]。

完整的LCM分析过程包括数据概率变换参数化、模型参数估计与识别、模型评价指标选择、分类结果解释等[7-10]。

1.1 概率参数化

潜在类别概率和条件概率构成了潜在类别模型概率参数化过程中的两种参数。假设某数据集含有三个彼此之间不相互独立的外显变量,以A、B、C表示,而且每一个显变量分别具有的水平数为I、J、K。按照假设,若寻找到合适的潜变量X,则X需满足一下条件:首先,要求合理解释A、B、C的关系;第二,在潜变量的各个类别之中所有显变量维持最大的局部独立性,则为潜在类别分析,如果潜变量X中含有T个潜在类别的话,用数学模型表达就为:

在上式中,LCM的组合概率,用πijkABC表示,相应的,潜在类别概率,以πtX表示,其意义可以解释为:在观察变量处于局部独立的条件下,潜变量X在第t个水平的概率,即从样本中随机选取的观察对象属于潜在类别t的概率。容易证明,各个潜在类别的概率总和永远为100%即1,用公式表达为:

条件概率,用πitAX表示,其意义可以解释成:外显变量A的第i个水平更倾向于划归到第t个潜在类别的个体的概率。由于各个潜变量的各个水平处于相互独立的状态,所以各外显变量的条件概率总和为1,即:

1.2 参数估计与模型拟合

在潜在类别模型的参数估计过程中,最大似然法(maximum likelihood,ML)是被最广泛使用且计算软件中默认的方法。EM(expectation-maximization)、NR(Newton Rapson)算法在计算迭代过程中为最常用的方法,而其中前者更为常用。在潜在类别模型评价方面,AIC评分(akaike informationcriterion)和BIC评分(bayesian information criterion)成为使用最为广泛的拟合评价指标。两者共同点为:其计算理论基础都为似然比χ2检验,对于模型对应的参数限制不一致的情况下,也可以用来横向比较,且结果简单直观,都是数值越小表示模型拟合越好。Lin与Dayton曾经指出,当研究的样本数量级达到或者超过千位级时,BIC指标更可靠,否则AIC更佳[11]。

1.3 潜在分类

完成最优化模型的确定之后,就可以利用模型进行计算,将每个外显变量的数据值分配到判定的潜在类别之中,通过这个过程,完成数据的后验类别分析,即潜在聚类分析。上述分类的理论依据是著名的贝叶斯理论,分类的计算公式为:

潜在类别分析虽然理论建立时间较早,但是一直依靠着自身的优势在聚类分析领域有一席之地,其计算思想中融合了结构方程模型与对数线性模型的构思。该算法的目的明确,即数量众多的显变量之间的关系,可以用最优化的组合模式,使用最少的潜变量来解释。结构方程模型只能够对连续型潜变量处理的缺陷,在潜在类别模型问世后得到了相当程度的弥补,特别在设计思想范围中,使得研究者以概率论为基础,能够通过数据对分类结果之后所隐藏的因素做更为深刻的了解,这些都要归功于分类潜变量的引入这一有效提高分类效果的方法[12]。

但是,由于该方法的分析原理比较简单,只是脱胎于贝叶斯概率理论的概率参数化,所以使得该方法在聚类分析过程中,如果SNPS数量较少,则表现出不错的聚类效果,但如果SNPS数据维度过高,则有失水准。具体表现在高维度高通量的SNPS数据聚类分析过程异常复杂,时间消耗过长,而最终得到的聚类结果也容易在解释时发生阻碍。

2 分类回归树模型

CART[13]不仅可以在已经获得的数据库中通过一定的规则提炼出关联,而且是对隐藏在各种指标中的分类属性进行量化计算成为可能,其作为数据挖掘技术中的经典聚类分析方法,为高通量SNPs数据的聚类分析制造了一个科学而准确的平台。分类回归树的基本原理为:如果对于已经给定的待分类对象X,已知其可以进行Y个不同属性的分类,那么该模型将模拟把X逐级递归的分解为多个数据子集,并且认为Y在子集上的分布状态,是均匀并且连续的,而分解的方法为二叉树分类法。该方法如同自然界中的树木一样,数据集X由根部向叶部逐步分解移动,每一个划分点即树木分叉点的原因,由分支规则(splitting rules)确定,最终端的叶子表示划分出的最终区域,而且每一个预测样本,只能被分类到唯一的一个叶子,同时Y在该点的分布概率也被确定下来。CART的学习样本集结构如下:

L={X1,X2,…,Xm,Y}

其中,X1~Xm可以称之为属性变量,Y可以称之为标签变量。但在样本集中无论是X或是Y,其变量属性可以容许多种形式,有序变量和离散型变量都可以存在。若Y处于有序变量的数值情况时,模型被称为回归树;若情况相反,称之为分类树。

2.1 分类回归树的构建

将给定的数据集L转化成与其对应的最大二叉树,这个过程称之为构建树Tmax[14]。为了寻找到对应数据集的最优分支方法,最大杂度削减算法被运用到构建过程之中。在进行分支时,数据中每个值都要纳入计算范围,只有这样才能计算出最佳的分支点进行分叉。CART的构建离不开Gini系数的使用。若数据集L中,含有记录的类别数量为N,Gini系数的表达式就为:

其中,Pj表示T中第N个分类数据的划分频率。对于任意的划分点T,如果该点中所包含的样本量非常集中,那么该点的Gini(T)值越小,从分类图上显示为该节点分叉角度越钝。欲构建最终的Tmax,就要重复操作,将根节点分支为子节点,而这种递归分类的计算,最好利用统筹学中的贪心算法。

2.2 树的修剪

当Tmax建造好之后,下一步需要对其进行所谓的修剪操作,就是去掉那些可能对未知的样本分类计算精度上,没有任何帮助的部分,其目标是处理掉对给定数据集中的噪音干扰的问题,以便形成最简单最容易理解的树。通常对树进行修剪的方法是以下两种,先剪枝方法(prepruning)与后剪枝(postpruning)方法,两者都有助于提高已经建成的树,脱离开训练数据集后,能够正确地对未知数据进行分类的能力,而修剪方法都是通过统计计算,将理论上最不可信的分枝去掉。

2.3 决策树评估

测试样本评估法(test sample estimates)与交叉验证评估法(cross-validation estimates)[15]是通常被用来对CART模型进行评估的方法,而前者的使用率更高。该评估方法的原理与多因子降维法有些类似,而且即时效率比较高,在学习数据集囊括的样本量比较大的情况下,该方法的优越性就更加突出,其原理可以解释为:将原始的数据集L随机分成两部分,分别为测试集L2与样本集L1,利用L1生成一系列的Tmax,而且按照序列T1>T2>T3>…>Tn,将测试集L2放到序列中的树模型之中,TK为L2中的每个样本逐个分配类别,因为L2中每个样本的原始分类是事先已经知道的,则树TK在L2上的误分情况可以利用公式(6)计算:

式中,Nij(2)代表L2中j类样本划归至i类的数量,c(i|j)为把j类误分到i类的代价,Rts(TK)表示TK针对L2的误分代价,则最优化树的条件为:Rts(TK0)=minK(Rts (TK)。

作为一种经典的通过数据集进行训练并有监督学习的多元分类统计模型,CART以二元分叉树的形式给出所构建出的分类的形式,这种方式非常容易解释,也非常容易被研究者理解和运用,并且这种方法与传统意义上的统计学聚类分析的方法构建完全不一样[16]。

但是CART方法对主效应的依赖程度很高,无论是每个分支的根节点还是后续内部的子节点,其预测因子都是在主效应的驱动下进行,并且每个节点都依赖于上一级的母节点分支的情况。而且CART方法对结果预测的稳定性上也有缺陷,具体表现在,如果所给数据集中的样本有小范围的更改,那么所产生的蝴蝶效应就会导致最终所构建的模型与原始模型的差别很大,当然分类结果也就难以一致。

3 贝叶斯网络潜变量模型

BNs是一种概率网络,它用图形的形式来对各种变量间的依赖概率联系做描述,经典的图形中,每一个随机变量利用节点的方式表达,而变量之间的概率依存关系则利用直线表达,直线的粗细表示依赖的强度。在BNs中,任何数据,当然也可以是高通量SNPs数据,都能够成为被分析的变量。BNs这种分析工具的提出,其原始动力是为了分析不完整性和概率性的事件,它可以从表达不是很精准的数据或信息中推理出概率结果。

网络的拓扑结构和条件概率分布作为构成BNs的两大核心组件,如果再将潜变量概念引入BNs,则成为了BNs潜变量模型。被包含在BNs中的潜变量数量,决定着这个模型的复杂程度,因为一般来讲,在实际工作中,研究者常常利用潜变量来进行聚类计算,所以BNs潜变量模型也成为了一个经典的潜结构模型(latent structure model)或潜类模型(latent class model)。

3.1 模型参数

在满足一定的假定条件下,才能对BNs模型进行参数学习的过程。根据文献记载,这些条件分别为:所有的样本处于独立状态;无论全局和局部,均处于独立状态;变量不能为连续变量,只能是分类变量。在上述条件得到满足的情况下,该模型可以利用数据,计算出网络拓扑结构中各个节点的条件概率θ,且服务于制订的BNs模型结构η和数据集D。计算的方法有最大似然估计法等[17]。

3.2 模型选择

与LCA方法类似,BNs模型也利用函数来对模型的拟合优劣程度进行评价,衡量标准也是BIC、AIC、BICe等的评分,一般来说,分数低的模型更加优化。

3.3 模型优化

在通过评分的方法来确定BNs潜变量模型后(需综合考量BIC、AIC、BICe三者的得分),该模型下一步就转化成了如何去搜索符合所给数据集的最优模型的过程。由于该网络的拓扑结构,使得该模型结构的数目的增长速度非常快,与纳入模型的变量数的增长呈指数级别比例,能够适应这种数量级的搜索算法是启发式的,其过程是比较不同的模型的评分,其中最常被使用的是爬山算法(hill climbing)[18]。

利用BNs模型进行高通量SNPs数据聚类,其优点之一就是在该模型中,所有遗传的模式都可以被忽略,无论是对SNPs的二分类变异赋值,还是三分类变异赋值,只要纳入模型中,就转变成纯粹的数学问题。正是由于这种优势的存在,使得该方法对原始数据的类型容许程度很高,由此扩展了此种模型的使用范围。BNs模型计算的过程虽然复杂,但是结果解读起来却是十分的简单直观。只要将各个类别的概率直方图呈现出来,那所有重要的且有意义的高维度SNPs的整体效应,就能直观的展现出来。BNs模型一旦被建立起来,就可以被用来对新纳入的患者进行分类,其过程如下:输入新加入样本的SNPs的状况,并且将这些状况进行数学化处理即赋予其数据值,并带入模型开始运行。模型会通过新加入样本的SNPs的状况,根据概率理论,将其归入相应类别。

但是BNs模型的理论比较抽象,公式比较复杂,如果让医学工作者去理解其中的数学机制,可能不太现实,若再要求对模型进行深刻解释,则更困难。该模型在优化过程中的搜索算法也有硬伤,爬山算法从出现开始,就一直受到一定程度的诟病,因为其有使模型偏离到局部最优的倾向。

4 BP神经网络模型

BP(back propagation)神经网络在所有的神经网络模型系列中,是被使用最多的模型之一,其核心原理为按照误差逆传播算法,对所给数据集进行多层的正向的反馈拟合,而这些层则包括输入层(input layer)、隐层(hide layer) 和输出层(output layer)。

BP神经网络模型对于已经给定的数据集的训练过程可以解释为:各种数据由输入层负责接收,并且向内层进行传递,传递过程中需经过一定的中间层级,信息在隐层部分进行计算处理,处理完毕后向输出层传递,输出层的神经元接收到后,即完成了一次完整的训练信息的传播,其结果由输出层向外面释放。如果输出的结果与期望值差距没有达到要求,则进入信息的反方向运动过程,将误差信息通过输出层、隐层、输入层的顺序反向传递。在上述正向和反向的两种信息传递过程中,为了使整个BP神经网络模型的误差的平方和达到最小,就需要对各个层级的权重和反应阈进行相应调整,在一定次数的迭代过程中达到符合设定的要求范围内[19]。

BP神经网络模型建立流程:①建立高通量SNPs足够而可靠的数据信息样本数据库。②把SNPs样本数据进行处理,变成BP神经网络模型可以纳入的形式。③建造BP神经网络初级雏形,进行数据训练。首先确定神经网络所需层的数量,还有隐藏节点的数量,接下来完成各连接权值的初始化过程,将样本数据代入。④开始BP神经网络的迭代过程,按照误差逆传播算法,对所给数据集进行多层的正向的反馈拟合,最终确定各个层的权重。⑤利用训练好的BP神经网络测试样本。将样本输入训练好的BP神经网络,并输出结果[20]。

非线性问题的解决能力是BP神经网络模型区别于其他的能够自我学习、自我训练的模型的特点之一,该模型以简单的结构模仿神经组织的构成和信号传导通路,根据提供的数据进行学习和自适应,最后可以对复杂的问题求解[21]。该模型的运行模式也很简单,一旦模型建立,则直接将数据带入,BP神经网络就可以对诸多影响因素和结果之间的复杂关系进行统计,超越传统聚类模型,也有能力提供更多的信息量[22]。

但是BP神经网络模型的缺陷也十分明显,首先该种聚类方法迭代次数比较多,计算收敛的速度比较慢;标准的BP神经网络算法各个层的权重值的确定是完全随机性的,容易形成局部最优化;在模型建立的初始阶段,各个节点的确定也没有确凿的理论支持[23]。

5 支持向量机

1995年Comes等[24]提出了一种新型机器学习方法,该方法的数学理论基础雄厚,被称之为SVM。这种方法问世之后,就以其在小样本、高维度数据方面处理的独特优势,被迅速推广到数据聚类分析领域的各个方面[25]。SVM的基本原理如下:利用非线性映射的方法φ(x):RnH,将待聚类数据集首先映射到高维空间H中,试图在高维空间中寻找最优化的一个超平面,此超平面的作用为对数据进行分类。达到最优超平面的要求为:对于数据来说,要求分类的间隔最大而且置信区间最窄;达到最少的数据样本错分数量,以上两条的原则为分类风险最低。

SVM的计算流程为:

在高维空间中,如果被映射数据具有二维线性且可分时,则一定存在一个分类超平面:

其中αi≥0称为拉格朗日系数,该函数对?X和b最小化,对αi最大化。将该问题转化为其对偶形式,求得最优分类函数为:

其中,K(x,xi) =φ(xi)・φ(xj)被称之为核函数,其作用是将原始数据集映射到高维H空间。而核函数有很多种形式,多项式形式、径向基形式等等。但是如果原始数据集经过转换后,确实为线性不可分时,方法会不可避免的产生错分点,此时非负松弛变量ξi≤1,i=1,…,l被引入,而式(8)、(9)合并为:

在上述条件下,求下式目标函数的最小值:

在式(13)中,用C来作为惩罚因子,对错分点来进行一定程度的惩罚,当然是人工定义的,其主要作用是在限制数据集偏差和该方法的推广范围两者间,维持一个平衡。

SVM模型作为一种经典的处理小样本的自我学习、自我组织的分类方法,虽然其基础理论依然与神经网络模型类似,均为通过对给定样本的统计学习,建造模型,而且对非线性数据的处理能力很强,但是很大程度上避免了陷入局部最优化,维度过高限制,拟合过度等缺陷,拥有更广阔的发展空间[26]。虽然该方法出现时间比较晚,但是研究者已经在包括预测人口状况[27]、婴儿死亡率前瞻[28]、金融产业[29]和工业产业[30]前景推断等方面进行了有效使用,当然也包括在高通量SNPs数据聚类,均取得了不错的效果。

但是SVM一样存在短处,由于其分类过程是基于对原始数据集的再次规划来寻找超平面,而再次规划的计算就有n阶矩阵(n为样本个数),如果n的数量很大,则电脑的内存将难以承受巨大的矩阵信息。而且原始的SVM模型只能对数据集进行二分类计算,有一定的局限性,由于在实际工作中,很多情况下分类数量要大于二,为了解决这个问题,只能去在其他方面想相应的解决方法。

6 讨论

不仅上述5种具体方法,而且在前文中所提出的几大种类中的具体聚类分析方法都各有其优缺点,研究者们已经针对上述几类聚类方法的缺陷进行了深入的研究,并提出了许多改进方法,提高了在高通量SNPs数据聚类分析时的计算效能。董国君等[31]提出了将仿生学算法中的退火算法引入到神经网络模型中,能够有效地避免该模型收敛到局部最优的状态。胡洁等[32]更是经过改进,建造了一种能够快速收敛而且全局最优的神经网络模型算法,将BP神经网络的计算效率大为提高。而Leo Breiman在2001年提出的随机森林(random forest)算法,本质上就是对分类回归树算法的一种组合改进,其计算原理为:利用多个树的模型对数据进行判别与分类,其在对数据进行处理的同时,还可以给出各个变量的重要性得分,评估变量在分类中所起的作用[33]。2012年提出了混合潜变量模型(structural equation mixture modeling,SEMM),本质上是一种结构方程模型衍生出的改进版,其设计思想中汇合了潜在类别分析、潜在剖面分析以及因子分析的因素,将潜变量分析与结构方程进行协调组合,创造出的一种新型SNPs分析方法。这种新的方法,将结构方程的缺点――只能分析连续潜变量和潜在类别分析的缺点――只能分析分类潜变量,进行有效的补充,而且把一种全新的探索式的思路引入了高维数据分析的领域。在实际进行聚类分析时,也可以将几种方法结合使用,分别在计算的不同阶段利用效能最高的方法,做到优势互补。现已经出现基于神经网络算法和蚁群算法进行结合使用的报道。

尽管用于高通量SNPs数据聚类分析的方法有多种,但目前没有任何一种方法可以适用于所有的情况。因此,研究者们依旧没有停下寻找更为合适的方法的脚步。不可否认,在基因组相关研究中,SNPs数据的分析对于研究复杂性疾病和遗传因素的联系是一项挑战,但也是机遇。如果能正确合理地运用各种复杂的统计学方法,就可以提高聚类分析的效能,提示研究者们未来应在寻找更适用的高通量SNPs数据聚类分析方法方面付出更多努力。

[参考文献]

[1] Jakobsson M,Scholz SW,Scheet P,et al. Genotype,haplotype and copy-number variation in worldwide human population [J]. Nature,2012,451: 998-1003.

[2] 马靖,张韶凯,张岩波.基于贝叶斯网潜类模型的高维SNPs分析[J].生物信息学,2012,10(2):120-124.

[3] 张家宝.聚类分析在医院设备管理中应用研究[J].中国农村卫生事业管理,2014,34(5):510-513.

[4] 袁芳,刘盼盼,徐进,等.基因-基因(环境)交互作用分析方法的比较[J].宁波大学学报:理工版,2012,25(4):115-119.

[5] 张洁婷,焦璨,张敏强.潜在类别分析技术在心理学研究中的应用[J].心理科学进展,2011,18(12):1991-1998.

[6] 曾宪华,肖琳,张岩波.潜在类别分析原理及实例分析[J].中国卫生统计,2013,30(6):815-817.

[7] Kaufman L,Rousseeuw PJ. Finding groups in data: an introduction to cluster analysis [M]. New York:Wiley,2015.

[8] Hagenaars JA. McCutcheon AL. Applied latent class analysis [M]. New York:Cambridge University Press,2012.

[9] 邱皓政.潜在类别模型的原理与技术[M].北京:教育科学出版社,2011.

[10] 张岩波.潜变量分析[M].北京:高等教育出版社,2011.

[11] Lin TH,Dayton CM. Model selection information criteria for non-nested latent class models [J]. J Educ Behav Stat,2012,22(3):249-264.

[12] 裴磊磊,郭小玲,张岩波,等.抑郁症患者单核苷酸多态性(SNPs)分布特征的潜在类别分析[J].中国卫生统计,2010,27(1):7-10.

[13] 邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2013.

[14] 王立柱,赵大宇.用分类与回归树算法进行人才识别[J].沈阳师范大学学报:自然科学版,2014,23(1):44-47.

[15] 温小霓, 蔡汝骏.分类与回归树及其应用研究[J].统计与决策,2010,(23):14-16

[16] 符保龙,陈如云.分类回归树在高校计算机联考数据分析中的应用[J].计算机时代,2011,(1):33-34.

[17] Dempster AP,Laird NM,Rubin DB. Maximum likelihood from incomplete data via the Em algorithm(with discussion)[J]. J Royal Stat,2012,39(1):1-38.

[18] José A,Gámez,Juan L,et al. Learning Bayesian networks by hill climbing: efficient methods based on progressive restriction of the neighborhood [J]. Data Min Knowl Disc,2012,22:106-148.

[19] 张凡,齐平,倪春梅.基于POS的BP神经网络在腮腺炎发病率预测中的应用[J].现代预防医学,2014,41(11):1924-1927.

[20] 张晶.BP神经网络在图书馆信息处理中的应用研究[J].图书情报,2014,(9):132-133.

[21] 徐学琴,孙宁,徐玉芳.基于BP神经网络的河南省甲乙类法定报告传染病预测研究[J].中华疾病控制杂志,2014,18(6) :561-563.

[22] 马晓梅,隋美丽,段广才,等.手足口病重症化危险因素BP神经网络模型预测分析[J].中国公共卫生,2014,30(6):758-761.

[23] 任方,马尚才.基于条件对数似然的BP神经网络多类分类器[J].计算机系统应用,2014,23(6):183-186.

[24] Comes C,Vapnik V. Support vector networks [J]. Mach Learn,1995,20:273-297.

[25] 张学工.关于统计学习理论与支持向量机[J].自动化学报,2011,26(1):32-42.

[26] 解合川,任钦,曾海燕,等.支持向量机在传染病发病率预测中的应用[J].现代预防医学,2012,40(22):4105-4112.

[27] 刘崇林.人口时间序列的支持向量机预测模型[J].宁夏大学学报:自然科学版,2013,27(4):308-310.

[28] 张俊辉,潘晓平,潘惊萍,等.基于支持向量回归的5岁以下儿童死亡率预测模型[J].现代预防医学,2014,36(24):4601-4603,4605.

[29] 陈诗一.非参数支持向量回归和分类理论及其在金融市场预测中的应用[M].北京:北京大学出版社,2014:104-106.

[30] Li P,Tan ZX,Yan LL,et al. Time series prediction of mining subsidence based on a SVM [J]. Min Science Technol,2014,21(4):557-562.

[31] 董国君,哈力木拉提.基于随机退火的神经网络算法及其应用[J].计算机工程与应用,2013,46(19):39-42.

[32] 胡洁,曾祥金.一种快速且全局收敛的BP神经网络学习算法[J].系统科学与数学,2014,30(5):604-610.

第8篇:数据分析的方法范文

1因子分析模型及其统计检验

因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。因子分析的目的即在找出量表潜在的结构,减少题目的数目,使之成为一组数量较少而彼此相关较大的变量。在本文中以主成分因素抽取法抽取共同因素,根据kaiesr(1960)的观点选取特征值大于1.0以上的共同因素,再以最大变异法进行共同因素正交旋转处理,保留共同度大于0.6以及因素负荷量大于0.5以上的题目。因素负荷量为写作硕士论文因素结构中原始变量与抽取出共同因素相关,负荷量越高表示该题目在该共同因素的重要性越大。共同度和特征值是因子分析的两个重要指标。共同度是每个变量在每个共同因子的负荷量的平方和,也就是个别变量可以被共同因子解释的变异量百分比,是个别变量与共同因子间多元相关的平方。特征值是每个变量在某一共同因子的因子负荷量的平方总和。

因子分析的数学模型及其统计检验描述如下:

彼此之间是独立的,则模型(4.1)称为正交因子模型;相反,如果公共因子彼此之间有一定相关性,则称为斜交因子模型。由于斜交因子模型比较复杂,在本文中只考虑正交因子模型,而且假定各公共因子的均值为0,方差为1。

模型中的矩阵a称为因子载荷矩阵,a称为因子“载荷”,是第i个变量在第j个因子上的负荷。wWW.133229.COm因子载荷阵的求解方法有很多,本文用常用的主成分分析法,求解载荷阵得到仅包含m个因子的因子载荷阵。主要问题就在于如何通过spss统计软件对数据的分析来估计因子载荷矩阵a,负荷量大的指标给予保留,否则剔除。保留下来的指标所构成的体系就是本文最终研究得到的指标体系。关于因子载荷的检验有:模型的标准化,这主要是为了得到抽象的因子含义,即对因子各维度进行命名;变量共同度检验,变量的共同度越高,说明该因子分析模型的解释能力越高;因子的方差贡献检验,用因子的累计方差贡献率来确定公共因子提取的个数,也就是寻找一个使得累计方差贡献率达到较大百分比的自然数,即最终提取方差贡献大于1的因子作为公共因子。

由于本文的论题是电子商务环境下服务业企业绩效评价指标体系构建,本文主要运用平衡计分卡把评价指标体系分为四个方面,18个二级指标作为18个因子,按照因子分析法来选取有效指标,各项指标在选取时,需要遵循两个原则,一是该指标在以前的研究中出现的概率,二是指标与所要研究的问题的潜在相关性。本文在四个方面的指标的选取上,另外考虑了①全面性,要求所选的指标能反映企业的经营、客户、企业学习与成长、财务方面的状况;②有效性,要求选择那些能够对预测企业的整体状况有指示作用的重要指标;如,若各项指标的双尾t检验的显著性概率小于0.05,则能有效的反映企业的四个方面的状况,反之,则是无效指标,应剔除。③同趋势性,即当各项指标增大时,表示企业的整体状况改善,反之当各项指标减少时,表示企业的整体状况恶化;④可操作性,采用易得到的数据。

2信度、效度、描述性统计、方差和相关分析方法

信度分析是采用一定的方法来衡量回收问卷中各变量的内部一致性,它主要考查的是问卷测量的可靠性,检验每一个因素中各个题目测量相同或相似的特性。本文采用克隆巴赫(cronbacha)一致性系数检验量表的信度和各分量表的信度。效度分析是采用一定的方法对问卷的理论构思效度进行验证。首先,必须对题目的结构、测量的总体安排以及题目见的关系做出说明,然后运用一定的方法从数据中得出基本构思,以此来对测量构思的效度进行分析。用于评价结构效度的主要指标有累积贡献率、共同度和因子负荷。累积贡献率反映公因素对量表或问卷的累积有效程度,共同度反映由公因素解释原变量的有效程度,因子负荷反映原变量与某个公因素的相关度。描述性统计分析是对各维度中的测量题目的均值、标准差、方差等描述性统计量写作硕士论文进行统计,了解各维度中题目设置的水平。方差分析又称变异数分析或f检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否具有统计学意义。

方差分析对客观事物数量进行依存关系的分析,主要刻画两类变量间线性相关的密切程度,其两个变量全是随机变量,且处于平等地位。两变量之间的相关关系可以通过绘制散点图或计算相关系数来反映。

3回归模型及其统计检验

现实世界中,一个事物的运动变化,总是与其他事物相关联。其中,有的还存在因果关系,这种因果关系有的是线性的,有的是非线性的。当预测对象与其影响因素的关系是线性的,且只有一个影响因素时,就可以用一元线性回归方法建立其一元线性回归预测模型,来表述和分析其因果关系;当有两个或多个影响因素同时作用于一个预测对象时,则用多元线性回归法建立多元线性回归预测模型。

本文就是以多对一的关系,因此,用多元线性回归模型进行统计检验。对于多元线性回归模型及其统计检验描述如下:

当预测对象y同时受到多个解释变量x1,x2,...,xm影响,且各个xj(j=1,2,...,m)与y都近似地表现为线性相关时,则可建立多元线性回归模型来进行预测和分析,模型为:

3)回归方程整体显著性检验

回归模型的显著性检验包括两个方面,即回归方程的显著性检验和回归系数的显著

性检验。

(1)回归方程的显著性检验

回归方程的显著性检验用于检验被解释变量与所有解释变量之间的线性关系是否显著。回归模型总体函数的线性关系是否显著,其实质就是判断回归平方和与残差平方和之比值的大小问题,可以通过方差分析的思想,构造f统计量来进行检验,f检验是用来检验多元线性回归模型的总体效果。

(2)回归系数显著性检验

回归方程总体显著并不意味着每个解释变量对被解释变量的影响都是重要的,还需要对每个回归系数的显著性进行检验。回归系数显著性检验通过构造t统计量来进行,

4)残差正态性检验

残差e是随机扰动项ε的体现。对残差进行分析的目的是检验随机扰动项是否服从经典假设。残差分析的内容包括残差正态性检验、序列相关检验、异方差检验等。本文应用残差的累计概率散点图进行残差正态性检验。

5)异方差检验

异方差常常表现为残差随某个解释变量取值的变化而变化,因此,检验随机扰动项是否存在异方差可以通过绘制被解释变量与解释变量的散点图来简单的判断。如果散点图呈带状分布,则不存在异方差;如果随着解释变量的增大,被解释变量波动逐渐增大或减少,则很可能存在异方差的现象。实践中,常常使用加权最小二乘法消除异方差。

7)多重共线性检验

所谓多重共线性是指各个解释变量之间存在线性关系或接近线性关系的现象。多重共线性常常会导致回归系数方差增大,从而使得t检验难以通过。用spss检验多重共线性共有四种方法:容忍度、方差膨胀因子、条件指数和方差比例。本文选用条件指数和比例方差这两种方法来检验共线性。

(2)方差比例

第9篇:数据分析的方法范文

【关键词】重庆高校;成本投入;效益产出;数据包络分析

【Abstract】With the rapid development of higher education, the educational efficiency problem have drawn the attention of the society from all walks of life. This article is based on 2013 annual report data of Chongqing universities and colleges of undergraduate course. It chooses six indicators which can effectively reflect the running efficiency, adopts the DEA CCR model of data envelopment analysis method, and use the DEAP2.1 software for data processing. It draws the conclusion: 1) the low scale efficiency, technical efficiency, and the resources use efficiency are the major reasons to make colleges produce inefficient DMU; 2) on the practice of improving teaching efficiency, besides should increase income and reduce expenditure, still should put emphasis on the effective use of various resources; 3) should implement the education cost management really, truly a rational allocation of limited resources, optimize the resource structure, enhance the teaching efficiency; 4) should be based on teachers, build a reasonable structure of high quality teachers, reduce the proportion of other personnel, reduce the cost of education investment, so as to effectively advance the efficiency and effectiveness.

【Key words】hongqing university; Cost inputs; Efficient outputs; Data envelopment method

0 前言

数据包络分析法以现对效率概念为基础,用于评价具有相同类型的多投入、多产出的决策单元是否技术有效的一种非参数统计方法[1-3]。其基本思路是把每一个被评价单位作为一个决策单元,再由众多DMU构成被评价群体,通过对投入和产出比率的综合分析,以DMU的各个投入和产出指标的权重为变量进行评价运算,确定有效生产前沿面,并根据各DMU与有效生产前沿面的距离情况,确定各DMU是否有效。由于DEA方法不需要预先估算参数,在避免主观因素和简化运算、减少误差等方面有着不可低估的优势[4-5]。

1 DEA数据包络分析模型

2 普通高等院校教育投入、效益分析

通过对重庆市2013年高等院校的年报数据,选取了14所院校作为决策单元,产出指标为:本专科毕业人数和在校生人数;投入指标为:本专科学生占全校学生的人数比、专业教师人数、学校固定资产、素质教育人员数(辅导员、心理咨询师)。对数据进行无量纲化处理,采用极差标准化法处理投入、产出数据,保留数据原有性质。

普通高校的实支成本,一般可分为劳动投入:专业教师情况、素质教育人员;财力投入:固定资产值;物力投入:本科生所占比例三种形式。办学效益是对办学实践活动合乎目的性和有用性的实现程度的评价[6],体现的是办学实践活动中物化劳动和活劳动的消耗以及占用与取得符合社会和人的需要的劳动成果的对比关系。办学活动涉及的因素量大面广,彼此之间关系复杂、微妙,且不确定性突出。这些因素从不同的侧面、以不同的方式影响和制约着办学效益,所以办学效益实际上是众多因素综合作用的结果。

根据上面的论述,我们知道,高等学校是一种具有多种产出的机构,而从某种程度上来讲,高等学校的毕业生和在校生数是高等教育的主要产出,这两个指标可以客观反应高校的办学效益。

3 实证分析

3.1 综合效率、技术效率和规模效率分析

运用DEAP2.1软件分析结果如表1。

由表1可知:1)综合效率为1的学校即达到了DEA有效,共有西南大学、重庆大学、长江师范学院等7所学校,占所研究高等院校的50%,这些学校的规模和配置效率都达到了1,说明这些学校在投入与产出上都达到了最优。2)重庆文理学院、重庆工商大学、重庆师范大学处于技术有效、规模效率较为理想(0.9

3.2 投入产出的冗余分析

表2为典型的5所学校投入产出的冗余量,可知,西南大学和重庆大学的产出和投入均没有冗余情况,说明其在投入与效益方面平衡,没有出现资源浪费和产出不足的情况。

重庆科技学院、重庆交通大学、重庆邮电大学在投入方面均有冗余,这可能是由于学校的专业教师和素质教育人员分配至各学生的比例较高,学校可考虑减少专业工作人员;且固定资产投入过多,可能由于学校投入的资产未能落到实处,不能产生相应的效益。据以上说明这些学校应该减少投入要素。

而重庆交通大学产出指标――毕业生数有0.057的冗余,出现了产出不足的情况,可能因为其投入经营不当,导致产出效益不足。

4 结论与建议

通过对DEA方法的CCR模型对2013年重庆市14所高等院校本专科教育的综合效率评价,可以推论出影响院校产生无效率DMU的主要原因是规模效率较低。此外,技术效率不高,投入资源使用效率较低,也是导致无效率单位的原因。因此各校在提高办学效益的做法上,除了应在教育资源使用上开源节流外,还应特别注重各项投入资源的有效利用,只有这样,才能提升学校整体办学效益。各校应重视建立健全有利于教育成本管理的各项内部管理与控制制度,使高校教育成本管理真正落到实处,真正起到合理配置高校有限资源、优化资源结构、提高办学效益的目的。教师是学校的办学主体,其自身素质和能力,决定高校的办学质量[7-8],因此,各高校应以教师为本,加强管理,科学管理,逐步完善有效的绩效考评机制,实行教学与科研的有机结合,建设一支结构合理的优质教师队伍,减少非教师的其他人员比例,降低教育成本投入,从而有效地提升高校的办学效率与效益。

高等院校成本投入与办学效益评价是一项复杂的系统工程,涉及因素量大面广,而且许多问题尚无定论[9-10],需要持续不断地进行多学科、多角度、多层次地进行研究,才有可能揭示其内在规律,把握其实质,对我国这样一个发展中国家而言,尤其如此。虽然本研究利用 DEA 分析法对高等教育成本与办学效益进行了评价,但是任何一种方法都是在现有方法的基础上发展起来的,有可能比现有方法更为合理、可行、有效,同时也必然会有其特定的适用范围和相应的限制。所以,我们还将更加努力地探索更有效的方法。

【参考文献】

[1]李美娟,陈国宏.数据包络分析法(DEA)的研究与应用[J].中国工程科学,2003,5(6):88-94.

[2]马占新.数据包络方法的研究进展[J].系统工程与电子技术,2002,24(3):42-46.

[3]朱乔.数据包络分析方法的综述与展望[J].系统工程方法,1994,3(4):1-8.

[4]Colbert, Levary, Shaner. Determining the Relative Dfficiency of MBA Programs Using DEA[J]. European Journal of Operational Research, 2000(125):656-669.

[5]Korhnen, Tainio, Wallenius. Value Efficiency Analysis of Academic Research[J]. European Journal of Operational Research, 2001(130): 121-132.

[6]李汝.对我国高等教育投入产出效益的实证分析[J].辽宁教育研究.2006(1): 34-37.

[7]顾建民.大学职能的分析及其结构意义[J].全球教育展望,2001(8):68-72.

[8]李淑霞.高等学校教育成本的影响因素分析[J].财会通讯(学术).2005(6):107-109.