公务员期刊网 论文中心 数据分析设计范文

数据分析设计全文(5篇)

数据分析设计

第1篇:数据分析设计范文

[关键词]数据分析;大数据;智慧校园;决策支持

1国内外研究开发现状和发展趋势

1.1现状与趋势

在当今大数据、云计算、物联网和移动互联网等新思路、新技术快速发展的又一历史时期,高等教育面临着前所未有的发展机遇,在经历了网络化、数字化、信息化管理阶段之后,“智慧校园”将是在“互联网+教育”趋势下最重要的发展思路。随着计算机技术的不断发展,各种系统结构化和非结构化数据以前所未有的惊人速度迅猛增长,“大数据”时代已经到来。大数据是指数据结构比较复杂、数据规模大的数据集合。其数据量已经远远超出了一般数据管理工具可以承受的处理时间以及数据处理及存储管理能力。在当今大数据环境下,高校管理系统的数据结构及数据量发生了巨大的变化。在数据存储、数据管理、数据分析及数据挖掘等方面面临着巨大的机遇和挑战。为了有效地利用大数据为高校决策分析提供更好的服务,必须基于大数据建立相应的数据分析系统。

1.2国内外研究与开发综述

随着大数据的发展和教育信息化的不断深入,基于大数据开展的高校校园数据分析与应用逐步受到重视。对大数据的定义始终没有形成统一的意见。维基百科对大数据(Bigdata)的定义是:所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息。麦肯锡全球研究院将大数据定义为:无法在一定时间内使用传统数据库软件工具对其内容进行获取、管理和处理的数据集合。加特纳(Gartner)于2012年修改了对大数据的定义:大数据是大量、高速、多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与优化处理。而在高校学生数据的分析应用方面,国内外高校均有开展相关的研究。纽约州波基普西市玛丽斯特学院(MaristCollege)与商业数据分析公司Pentaho合作发起开源学术分析计划,旨在一门新课程开始的两周内预测哪些学生可能会无法顺利完成课程,它基于商业分析平台开发了一个分析模型,通过收集分析学生的学习习惯,包括线上阅读材料、论坛发言、完成作业时长等数据信息,来预测学生的学业情况,及时干预帮助问题学生,从而提升毕业率。上海财经大学基于校园信息化数据基础,开发了校务决策支持系统,面向人才培养、内部管理、科学研究和师生服务等方面开展决策分析;华东师范大学利用校园信息化基础数据,开展了校车人数与载客分布分析,提升了校车使用率;利用一卡通数据开展了贫困生的特征确定、潜在贫困生分析、后续跟踪验证,有效提升了帮困扶贫的工作效率。

2需求分析

结合西安欧亚学院信息化建设基础与海量的数据积累,建立“智慧校园”数据分析系统,通过此平台的建设和应用,运用数据挖掘和知识发现,从而在大数据中获取数据之间内在的相互联系,以及其中可能存在的某种规律,从而有效提升校园管理的决策效率,提升教学科研与管理服务的综合水平。通过调查走访各部门,了解教师、学生与行政管理人员的相关需求。主要包括四个方面:一是教学数据分析需求。包括各分院、招生办、教务处等部门对于招生、学生学习行为、教学质量、学科建设与学生就业等方面的分析。二是生活服务数据分析需求。包括图书馆、后勤等部门对于学生的消费行为即图书借阅、网络行为、资源利用等项目的分析。三是财务、人事、宣传等部门对于全校的资产、师资力量、宣传效果等项目的分析。四是研究发展部门对于全校科研项目与成果完成情况的分析(见图1)。

3系统方案设计

3.1框架设计

结合需求情况,开展系统的总体框架设计,初步将系统分为三大板块,包括数据监测、决策支持和查询定制(见图2)。

3.2系统方案

系统总体架构包括四个层次,分别是数据引擎、数据挖掘、数据库解决方案和交互平台。数据引擎部分将集成校园WIFI、固网、一卡通、教务系统等各类信息系统的数据,形成数据源,数据挖掘将通过分布式计算架构和数据分析平台对潜在数据进行分析与建模,通过数据库建立本系统的分析数据库,最终通过PC、手机等客户端向用户进行呈现(见图3)。

3.3典型应用研究内容

3.3.1教学质量评估教学质量评估属于高校定期必须完成的任务,教学评估的主要目的是更好地发掘出教学过程中存在的一些问题,从而及时地对教学方法进行调整,最终实现教学质量的提升。将大数据运用到高校教学评估系统之中,不但能够在很大程度上提高高校教学管理的科学性,同时还可以提高信息化教学的实用性。把基于大数据挖掘的算法运用在教学评估工作之中,找出教学效果、信息技术在教学中的应用、师生之间的沟通互动等因素之间的联系,从而给高校的教学部门带来非常科学的决策信息,同时让教师可以更加有效地开展教学工作,提高教学质量。

3.3.2教师教学能力分析以往的教学缺乏大量数据支撑,教学的质量高低主要靠教师自我度的把握。现在,可以通过在线课堂等技术,搜集大量课堂情况信息,比如学生对知识点的理解程度、教师课堂测试的成绩、学生课堂纪律等。通过这些数据的分析,了解教师熟悉教案的程度、课堂氛围等,改善教学水平。也可以通过深度分析学生在教学过程中教师的课堂表现,从而发现课程的闪光点以及不足,从而让教师能够进一步地对课程教学进行改善,提升教学质量。

3.3.3个性化课程分析个性化学习是高校教学改革的目标,过去的班级制教学中无法很好达到这一点,通过把大数据挖掘技术和学习内容结合起来,指导学习者规划学习发展方向,制订学习规划,实现个性化学习功能。通过评估个人情况,根据分析结果推荐可能取得优秀成绩的课程方案。首先获取学生以往的学习表现,然后从已毕业学生的成绩库中找到与之成绩相似的学生信息,分析前期成绩和待选课程结果之间的相关性,结合专业要求和学生能力进行分析,预测学生选择的课程中可能取得的成绩,最后综合权衡预测学生成绩和各门课程的重要性,为学生推荐一份专业课程清单。

3.3.4学习行为分析通过一卡通门禁信息、网络信息、课程信息、在线教育系统等相关数据,可以把学生到课堂时间、上课表现、作业完成情况、自习情况等学习信息记录下来,进行变量分析。当一些与学习行为有关的因素(如旷课、纪律问题、课堂表现)发生变化时,对学生提示并进行分析。通过这种系统分析,可以很好地规划学生的学习时间,提高学习效率。

4技术创新点

4.1大数据环境下提升数据挖掘范围

相比于传统常规环境下的数据获取渠道,大数据环境下,校园数据的获取更为广泛和准确。常规环境下的数据主要以经费收支、课程建设、问卷、访谈、课堂观察等来源,而在大数据环境下,通过对事件数据、舆情数据、一卡通、日志搜索等数据的抓取与分析,更能够准确地反映实际校情。

4.2可视化技术展现数据分析结果

利用大数据分析的数据挖掘与可视化分析,能够直观地呈现大数据特点,同时能够非常容易被使用者所接受,就如同看图说话一样简单明了。智慧校园中,结合学生学习、生活消费的各类数据,通过系统分析与图表展现,让用户只管了解数据分析的结果。

4.3数据质量管理提供重要支持

本项目结合大数据发展趋势,充分利用数据挖掘、建模与可视化展示技术,系统存储数据主要是从校内外各种数据源中获得最原始数据,并对该部分数据进行整合形成数据层,然后将数据层中的数据经过抽取、清洗、转换、装载进入数据仓库从而形成支撑层,在支撑层的基础上,可以根据需求对数据进行挖掘分析,从而构建决策层。

4.4多重模型综合判别特征学生

系统将利用数据和模型,预测学习者在学习中的进步和表现,预测未来表现和发现潜在问题。如潜在心理问题学生的寻找,家庭困难学生认定,学期中期差生成绩预测等,不再是描述性分析报告的呈现,而是将构成一套综合决策分析模型,准确进行判别预警。

参考文献

[1]王芳.现代学校决策请用大数据[J].辽宁教育,2015(20).

[2]孙彦超,王兴芬.基于大数据的高校决策分析系统的构建[J].计算机光盘软件与应用,2014(15).

[3]周洁如.基于大数据特征的教学形成性评价策略探析[J].广西广播电视大学学报,2018(2).

第2篇:数据分析设计范文

关键词:畜产品;大数据;数据仓库;监测分析

1畜产品大数据的现状

在大数据时代下,人工智能、云平台和高性能计算等技术的高速发展为畜产品智能检测分析系统提供了重要的支撑。智能检测分析系统的建构,有利于提升畜产品检测的智能化,完善畜产品质量安全体系,推进农业信息化建设[1]。将畜产品检测与大数据技术相结合,利用现代信息技术,通过采集海量碎片化的信息数据,准确的进行筛选、分析,并最终归纳、整理出政府和相关机构需要的资讯,构建一套畜产品检测智能分析系统,实行及时有力的深度分析,整体提升畜产品检测监管能力和水平,促进畜牧业产业健康、可持续发展。针对目前畜产品的检测,其数据处理主要存在3个问题:(1)畜产品检测注重检测方法的使用和创新,检测设备的培训和升级,检测人员的指导和培训,而对检测数据分析不够重视,没有深度发掘测试数据的潜在价值。(2)各类检测机构众多且互不统属,有传统的人工统计模式,还有利用软件进行简单分析的模式。此外实验室所用大型仪器,厂家不同,操作软件也不同,数据存储和处理也不同,测试数据分散,导致数据收集困难。(3)畜产品数据的数据统计、分析与挖掘还比较滞后,需要向系统化、集成化、智能化的方向发展,缺乏相对应的畜产品检测数据分析系统。

2大数据平台的数据处理

2.1数据获取

数据获取是从数据源收集数据,数据源分为闭源数据和开源数据。闭源数据指的是和相关检测机构合作获取的内部数据,这部分数据可靠性比较高且不向外部公开,仅仅只作为分析统计使用,不能进行商业的应用。开源数据是指各检测机构通过网络的公开检测数据,比较分散,可以利用爬虫软件进行抓取[2]。对开源数据进行收集时,首先是定时,每段时间对相关网站进行分析,观察所检测数据的更新情况。其次定量,要准确地识别出哪些是最新的、哪些是相关的内容。数据主要来源于国家、省、市、县和具有检测资质的企业等相关网站,这些数据都比较分散,需要进一步进行有意义信息的提取,比如:过滤冗余信息,集成互补性信息。这其中还存在很多问题,如信息的质量问题,哪些信息是有价值的、可信赖的。可以从可信溯源(信息的不同来源进行分析,省市级的信息比较重要和真实)、动态轮询(根据后期分析和预测结果对数据源之前的重要性权重进行动态更新)做出判断。采集数据分为结构化数据和非结构化数据,要区别对待。

2.2资源聚合

考虑到不同数据来源中数据特性的不同,对于结构化相对较好、关联相对简单的检测机构知识库数据,重点关注检测指标实体(如样品编号、测量对象、浓度等)的识别与消歧;对于采集的非结构化数据,重点关注基于所识别的测试指标实体,抽取数据中的命名实体及其实体之间的关联。最后,研究知识融合方法消除知识元素间的知识冗余、知识冲突,以保证知识的精准性与可行度,构建可靠的畜产品检测知识图谱。针对复杂、迭代式的信息抽取与知识融合,使用具有高可扩展性、可容错性的MapReduce架构(开源Spark系统),实现并发处理与调度。以研究人员为中心,针对数据的局部性,设计合理划分策略,将大的数据集分为若干个容易处理的子数据集。根据划分的策略,针对不同子数据集的特点,设计特有的清洗方法,提升局部数据质量。设计整体清洗策略,清洗多个子数据之间存在的错误、不一致等问题,提升整体数据质量。由于分区的清洗策略充分的考虑了数据的局部特征与整体特征,将显著提高清洗效率和效果[3]。

2.3对多源异构数据的融合分析

畜产品检测数据之间存在潜在的信息互补和信息冗余,对这些大规模数据进行融合分析和产品动态画像的构建,能更加全面、有效地分析出畜产品质量异常发生的季节、地点、产生的原因等。针对数据的融合分析,本课题从两个方面进行处理:(1)为了过滤掉畜产品数据之间的冗余信息,并且对有意义、高质量的互补信息进行提取,采用主成分分析(PCA)和知识图谱的嵌入向量融合的方法,最终得到更加全面、准确的畜产品特征表示。(2)为了提高在下游任务中的性能,采用集成学习的思想对不同弱分类(或预测)器进行决策层的融合,比如在Flume的基础上结合Spark实现梯度提升决策树(GBDT)以及随机森林(RF)算法的快速分布式融合。

3数据仓库系统设计

数据仓库能够以不同的维度(如区域,时间等)、不同的粒度级别存储数据,同时具有方便的扩展性,因此课题拟使用基于Hive的MapReduce+Spark双计算引擎混合架构进行数据仓库系统设计,通过和机器学习技术结合,无须人工干预和停机就能自动调优、修补、升级、监视和保护数据库,以帮助疫病预测和制定战略决策[4-5],系统设计如图1所示。数据仓库的主模块包含HDFS、YARN、MapReduc、Spark和Hive。首先系统将多源异构数据汇聚到HDFS分布式文件系统,通过YARN对Hadoop集群和Spark集群的资源进行分配和管理,然后再利用Hive工具进行数据的管理和索引,再通过上层MapReduce和Spark计算引擎对数据进行查询分析和计算。双引擎的好处在于,可以依据业务计算需求的不同,通过配置或简单命令随时切换Hive计算引擎。MapReduce采用了多进程模型,便于细粒度控制每个任务占用的资源,但会消耗较多的启动时间,对实时性要求不高或对稳定性要求较高的场景下使用MapReduce计算引擎;而Spark采用了多线程模型,虽然会出现严重的资源争用,但有效地减少了中间数据传输数量与同步次数,对实时性有一定要求时使用Spark计算引擎。此外,根据项目的实际需要,添加以下模块:(1)考虑到业务的扩展性,添加组件ZooKeeper,按需对集群节点进行扩容。(2)考虑到病情预警所需要的实时性,添加组件SparkStreaming对数据进行流处理,为实时流处理提供平台。(3)考虑到数据源多样性,添加组件Graphx对图片类型数据进行处理。(4)考虑到和机器学习技术结合,添加机器学习库SparkMlib。

4结语

传统产业与现代信息技术结合,已经成为畜牧业创新发展的制高点。大数据时代,畜牧业在产前、产中、产后各链条、各环节产生大量的数据,如何分析、挖掘、开发和利用大数据技术对海量数据进行相关分析,对畜牧业发展做出准确预测,对畜牧业生产经营管理者进行正确指导和选择合适的技术行为,是畜牧大数据开发的关键,畜产品检测作为畜牧业安全保障的关键一环,需要加快信息资源整合,让数据转起来、用起来,让决策有依据,大数据分析必不可少。

[参考文献]

[1]邵航,宋英华,李墨潇,等.我国食品安全与数据科学交叉研究的科学计量学分析[J].食品科学,2019(10):1-18.

[2]许世卫.畜牧业信息监测与大数据分析技术及展望[J].兽医导刊,2019(15):6-7.

[3]赵志.教育大数据统计分析平台设计与研究[D].西安:西安理工大学,2019.

[4]韩太武.第八师动物卫生监督互联网+大数据智能监管平台设计[D].石河子:石河子大学,2016.

第3篇:数据分析设计范文

关键词:大数据分析平台;Hadoop;数据采集

引言

随着高校信息化建设快速推进,国内高校基本完成各类基础应用系统的建设,在应用系统中也存储了大量的数据,包括教师和学生的工作、生活、学习、教学和科研等数据,以及个系统的日志数据。由于各系统相对独立无法进行系统间的数据共享,使得这些系统数据都闲置在各应用系统中。因为在学校的管理与决策中缺乏真实可靠的数据做支撑,所以研究如何将闲置的数据有效利用起来,对高校的信息化建设会更有意义。大数据分析平台是在现有各应用系统的基础上,对各系统汇集起的海量数据资源进行清洗、整理、挖掘、分析等操作后,数据标准化程度提高其利用价值也更大。大数据分析平台的基础是数据,核心是分析模型,目标是应用。本文将整合校园内各应用系统数据,并对其进行挖掘、整理、分析,然后通过构建数据模型,搭建统一的大数据分析平台,实现对零散的数据进行整合分析,分析结果可以为学校及各部门的管理和决策提供数据支撑,数据的利用价值也更高。对师生在工作、生活、学习、教学和科研方面提供行为分析,分析结果为学校优化管理方式,提升服务水平提供指导,勾画“千人千面”,让学校真正了解师生。

1关键技术简介

Hadoop[1]是一个分布式系统基础架构,充分利用集群的优势对数据进行运算和存储。Hadoop由许多元素构成,底层是分布式文件系统(HadoopDistributedFileSystem,HDFS),用来存储集群中所有存储节点中的文件。HDFS上一层是Ma-pReduce引擎,为海量的数据提供高速计算。ETL(Extract-Transform-Load)[2]是用来描述将数据从源端经过抽取(Extract)、转换(Transform)、加载(Load)到目的端的过程。使用ETL目的是将学校中分散、零乱、标准不统一的数据整合到一起,为学校管理决策提供数据支撑。Sqoop[3]是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库间进行数据的传递,可以将一个关系型数据库中的数据导入HDFS,也可以将HDFS的数据回流到关系型数据库中。Sqoop也为NoSQL数据库它也提供了连接器。Nutch[4]是一个开源的高度可扩展和可伸缩性的分布式爬虫框架。Nutch主要由爬虫Crawler和查询Searcher组成,Craw-ler主要用于从网络上抓取网页并建立索引,Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。

2基础架构设计

2.1数据采集

大数据分析应用采用Hadoop平台及生态工具,从校园卡数据、上网日志数据、教学数据、师生管理数据和安防数据等结构化数据库,以及网络和相关表格文件等非结构化数据中,采集师生相关业务数据到分布式数据中心进行存储、挖掘、分析和展示。确保数据采集对应用系统运行不产生影响的情况下,可实时或定时增量采集数据。为了便于扩展,架构还支持从其它关系型数据库、非关系型数据库中采集结构化、非结构化数据,挖掘关联性更多的数据关系。数据采集架构如图1。数据采集是大数据分析中最重要的一部分。结构化的数据通过统一数据集成管道对业务系统数据进行抽取,按照数据分析模型要求对各应用系统数据利用经过抽取,转换,加载至主数据库;表格数据通过填报或导入的方式进入主数据库;日志数据通过日志处理工具读入主数据库;互联网中的社交、科研、舆情、Web等数据通过爬虫工具采集至主数据库。

2.2数据清洗整合

数据质量是大数据分析效果的基础,数据质量的管理,是发挥数据价值的基石,也是大数据分析的重要前提。在数据分析平台的建设过程中数据的清洗整合的工作占70%以上。大数据分析平台从数据使用的角度管理数据的质量,以可视化的形式反映数据质量问题,数据也可以利用可视化的界面对质量检测规则进行配置。通过数据采集存入主数据库中的数据质量较差,容易出现空字段,数据标准不一致,数据描述不统一。数据的清洗整合主要通用数据质量规则进行自定义配置,根据规则对主数据库中存在异常的数据通过缺值填写、无效值重复值删除、异常值优化等方法提高数据质量,根据数据分析模型整合已抽取的数据。

2.3分布式存储及数据分析

分布式存储主要是通过Hadoop分布式文件系统(HDFS)以及MapReduce框架将数据分散存储在多台独立的设备上[5],具有可扩展、低成本、高性能、易用等特征。传统的网络存储是将所有数据集中存储到存储服务器上,存储服务器的性能对存储数据的影响较大,也成为平台性能的瓶颈,不能满足大规模数据存储及使用的需要。在大数据分析平台上使用分布式存储,不但可以提高系统的可靠性、可用性和存取效率,还易于扩展。高校存储的大量数据应用价值非常高,通过对抽取的数据进行标准化处理,搭建分析模型,实现用数据对师生的行为进行画像,实时了解学生学习、教师教课等情况。

2.4平台架构体系设计

大数据分析平台主要向用户展示师生行为,综合数据分析,校情信息,教学及学习情况等。在平台架构设计中要充分了解学校各系统目前运行情况,学校各单位对数据的需求,以及学校目前的数据重量情况,在架构设计和数据存储空间设计时充分考虑平台发展的需要。底层数据抽取、清洗整合、分析建模等基础工作并不能向用户展示,数据的准确性和模型的合理性决定了分析结果的可靠性。大数据分析平台架构体系如图2:此架构体系可以兼容多数高校已经建设的数字校园结构体系,可以与已有的平台和数据中心相辅相成,建设效率更快的情况下还能节省成本。让原来的建设成果发挥更大的价值。

3大数据分析平台功能设计

大数据分析平台的场景应用是指通过数据建模把数据从各种维度、特征进行分析,然后根据不同的场景应用对分析结果进行展示。各应用场景的分析模型搭建需要充分了解各系统数据,以便于从多维度区分数据需求程度。在高校大数据分析中,数据的来源主要从学生综合系统,人力资源,教务管理,图书管理,校园卡系统,安防,上网管理,科研管理、资产管理和医院管理等系统中获取。大数据深入分析时,还要对非结构化表格数据和互联网数据进行采集,如通过表格填写进行管理数据采集,利用爬虫程序对互联网中期刊数据库、微博数据、网页数据、以及微信公众号文章等数据进行采集,再结合学校其它相对变化不大的数据,能搭建出更有价值的分析模型。各高校都有自己的特点,现有的各种分析模型并不能通用,必须根据本校实际情况对已有的分析模型进行优化或重新搭建。其中行为轨迹主要通过对各系统中定时定点的数据进行串联,形成一条行为路线。

3.1学生数据分析

高校管理中对学生的管理十分重要,对学生的数据分析需要站在学生的角度进行思考,如学生上课考勤分析,首先针对学生的课表、学生请销假、教室考勤机、校园卡记录、上网记录、图书借阅、安防数据、校医院系统等可以分析出有哪些学生没有上课。根据学生日常行为轨迹或习惯,以及消费情况分析该生是否在谈恋爱。根据学生上数据分析该生是否沉迷于网游。通过分析学生上课情况、教师情况、行为轨迹或习惯、以及相似课程成绩等数据对学生的学习情况进行预警,并对产生预警的原因进行分析。通过数据分析使学生管理者轻松的掌握学生状态,同时也可得到出现该状态的原因。在贫困生鉴别和精准扶贫方面,根据学生每月在校消费情况、家庭情况、助学贷款等数据筛选学生,并将男女分析算法区别设计。学生宿舍安全方面,通过宿舍智能电表实时监测用电情况,对违规使用大功率、高电流及电表高温等情况进行实时预警并将预警信息推送给相关人员进行处理。另外还可以通过数据分析对学生异常消费、上网时长,上网行为、心理健康、学业、学生轨迹等情况进行预警,可以对突发事件处理给予指导。通过用户画像从不同静态属性标签勾画学生人群进行展示,并支持深入挖掘学生消费行为信息,辅助学校在勤工助学、助学贷款、贫困生评定、价格调整、餐厅分流、超市分布、浴室建设等方面提供数据支撑。

3.2教师数据分析

在教学管理方面,通过教学数据、学生评教、学生到课率、教师备课、科研、图书借阅等数据可以分析出教师所适合的优势课程,为教学管理人员课程安排提供指导,将数据推送至教师可以为其发展提供指导。通过教师的校园卡消费、行为轨迹、上网数据等数据分析教师是否存在离职风险,如校园卡消费方面出现有意清零或提现,经常浏览招聘网站或投递简历等行为。

3.3其他数据分析

大数据分析能够对学生和教师分析外,还可以从其他方面进行分析用来服务于校领导、后勤管理、校园卡管理、校园安全管理等。科研分析方面,通过对年度科研项目立项和科研成果等科研数据的分析,可以预测学校科研发展情况,结合学校发展目标对发现的问题及时进行干预。教学管理方面,通过对不同专业、不同年级学生的选课情况和课程成绩等数据的分析,是否需要对学校开设的选修课信息通信王树国等:高校大数据分析平台设计与实现进行调整,以适应学校的培养目标和学生的学习兴趣。学生管理方面,通过校园卡、安防终端、相关账号等数据可以进行身份识别,可以通过数据分析获得实时在校人数,以及早出晚归、夜不归宿的学生,在综合学生数据后对学生的行为进行安全预警。餐饮消费、行为轨迹等数据与学习成绩进行分析,分析结果可以指导辅导员对学生进行分类管理。餐厅管理方面,通过对师生消费时间、季节、窗口人流量、消费金额等数据分析,后勤和餐饮经营者可以清楚的知道每个餐厅、每个窗口消费及收入情况,便于后勤对餐厅的管理,并及时对餐厅或窗口进行优化调整。可通过结合消费人群信息对消费用户数据深入挖掘,获得不同地方的人喜欢的口味,不同年级学生的餐饮习惯等情况。上网管理方面,通过对上网数据进行分类汇总、关键词提取、应用程序分类、安全设备日志分析、用户信息分类等数据进行分析,可以为学校网络保障、网络用户管理、网络安全预警、个人信息保护等提供数据支撑。图书馆管理方面,通过对学生和教师借阅时间、借阅书籍类型、借阅人类型、馆藏图书、在线期刊数据库浏览等数据分析,以及学生进出图书馆的次数与成绩之间的关系,为图书馆管理和图书需求情况提供数据支撑,更便于师生了解图书馆进出高峰时间段、哪个区域人流量较多、哪种书籍更受人喜欢等信息。校园安全方面,通过对校园安防平台中进出校门、进出校内各楼宇、视频边界和人员密度报警等数据的分析,为学校安全管理提供指导。对校园卡及财务数据分析,可以让校园卡管理老师了解学生、老师、临时卡等在消费、充值、使用等方面的情况,为师生进一步提高服务质量和主动服务意识提供指导。大数据分析平台主要功能设计如图3。大数据分析平台可对用户进行功能和数据授权。数据权限可分为全局、院系、辅导员和普通老师等级别,模块权限可根据角色对功能模块进行授权。可为师生提供大数据报告,可在PC和手机端访问。学生和老师可了解食堂拥挤、窗口美食、洗澡高峰、充值趋势、消费水平等等。数据智能管理方面,可以把数据库中的数据根据自己想要的结果轻松配置出来,功能强大,操作简单,用户可自己操作。

4平台实现

数据分析平台基于JAVA框架,使用在智能代码助手、重构、JUnit、CVS整合、代码分析等方面功能优越的IntelliJIDEA进行开发,数据库使用Oracle。在数据源管理中,利用Sqoop工具在Hadoop与关系型数据库间进行数据的传递,也可以实现数据双向流通,其底层实现就是MapReduce。对某些NoSQL数据库利用Sqoop连接器,同样可以实现数据流。新建数据源如图4所示。权限管理在大数据分析平台管理中主要进行组织管理,角色管理,用户管理等。其中用户角色定义中,根据不同用户的需求分别定义管理员、校领导、院处领导、办公室、教师、辅导员、学生等角色,根据不同角色划分不同权限,每种角色都可以订阅本角色范围内的需求信息,也可以根据学校管理需要给特定人推送相关信息。在用户管理中对不同角色用户可以进行批量权限划分,通过对前台的编码实现对分析结果的展示,个人画像展示如图5。

5结语

阐述了高校在数据管理方面存在的问题,构建了大数据分析平台技术架构,功能模块。基于Hadoop技术对大数据分析平台的部分功能进行了测试。平台试运行后为在校师生提供了统一的数据推送服务,并为相关部门的管理提供了数据支撑。平台在对数据抽取和分析模型搭建方面还有进一步提升的空间,例如在学生健康状况分析和学习情况分析,可以通过进一步数据挖掘,分析出质量更高的结果。

参考文献:

[2]陈锋.ETL数据治理在高校信息化建设中的研究与应用.中国教育信息化[J].2020(13):68-70.

[3]王建军,张英成,战非,赵侃.基于Sqoop的高校海量结构化数据导入研究[J].无线互联科技.2018(20):52-53.

[4]周飚.网络数据采集框架Nutch及其应用研究[J].中国管理信息化,2019,22(18):167-169.

第4篇:数据分析设计范文

关键词:大数据技术;智能交通;数据平台;组织优化

引言

与传统数据数量手段比较,大数据技术具有数据类型复杂、处理迅速、实效性强等优点,在智能交通领域运用大数据技术,可以采集海量的数据,这些数据内包含许多不可估量的价值,通过挖掘和分析能够快速得到所需的数据信息[1]。针对上述情况,本文提出基于大数据技术智能交通台数据平台各功能层设计情况,并提出其在交通数据诊断、路网延迟指数等方面的应用。

1智能交通数据平台功能需求

随着智能交通管控平台违法数据、道路信息增长速度日益加快,过去的关系型数据库在数据保存、处理等方面的性能已无法满足庞大的数据需求。关系型数据库在对智能交通转向场景的规律展开分析时,难以从多个维度数据类型间创建良好的相关性联系。大数据技术的应用就是为将这些结构或者半结构化的智能交通数据实施整合处理,因此,依托大数据技术设计的智能交通数据分析平台具有的处理功能如下:①过车数据:处在行使状态的车辆从卡口、电子警察等智能视频采集点通过时,能够准确记录该车辆的车牌号、颜色、车型等结构化的数据信息。②车辆违规行驶数据:前段配置的采集设备能从各路口采集车辆是否闯红灯、压线、违法掉头或停车等数据。同时,利用智能的视频采集点或固定源能够实时采集车辆行驶速度、车头间距等车流量信息。③运用大数据技术设计的智能交通数据分析平台能够与信号控制系统实现对接,及时获取信号控制系统的相位控制等信息。同时,智能交通数据分析平台还具备监控和智能交通管控平台,能够提供过车信息数据、路网信息、违法数据等。

2大数据背景下智能交通数据平台架构

2.1设计整体架构

智能交通数据分析平台是采用先进的计算机信息技术、通信技术、传感技术、人工智能等有效整合用于交通运输信息的管理和控制中,注重人、车与道路之间的协调,组成一种有利于改善环境、节约能源、保护安全的综合运输系统。智能交通数据分析平台运用层次化结构模型展开设计,并根据大数据建设要求,整个平台包含数据感知、资源层、应用层三个层次,数据感知层主要任务就是采集交通信息,资源层旨在管理交通领域的数据;应用层旨在负责实时调度智能交通资源。本次设计的智能交通数据平台系统能满足采集、存储、调度及处理数据等方面的需求,具体架构如图1所示。

2.2各模块层设计

2.2.1资源层从智能交通数据存储方面分析,运用数据仓库与挖掘技术实现大数据的存储和分析。其中,数据仓库技术能够满足智能交通数据平台处理海量数据的要求,该技术依托预设的存储模式,把交通领域中的异构数据根据数据结构数据实施提取、调用、处理等操作。同时,根据预设的仓储模型把数据存放在数据仓库内,借助数据仓库技术设计的智能交通数据平台下数据存储及挖掘架构见图2。

2.2.2应用层设计利用SOA实现智能交通数据平台系统应用层的设计,该层主要包含三个子模块:①应用实现模块:该模块旨在完成数据的调度,借助逻辑编程及时实现相应的功能;②应用流程模块:大数据调度流程依托专业的BPEL工具调度各种资源;③特殊调度模块:该模块的主要任务是把自定义调度流程转换成BPEL流程。依托SOA服务设计的应用层。

2.2.3数据表现层智能交通数据平台系统中的表现层是使用者直接参与的界面,用户可依托浏览器、平板、手机等终端设备浏览各种智能交通信息数据。该层主要任务是确保用户与整个系统的交互性,因此,配备简洁的外观、界面框架、各单元控件等。

3智能交通数据分析平台系统的应用

3.1智能交通数据共享及数据诊断

智能交通数据平台系统各功能的实现离不开各模块之间的信息整合与共享,因此,实现各模块信息融合的主要方式就是创建信息共享平台,这个平台能支持相关子模块功能提取所需的数据资源及信息共享服务。此外,一个完整的智能交通系统还必须配置智能交通信息中心、管理中心、智能交通基础设备等,它能满足城市交通信息规范化发展要求,包含各类信息性质、功能及传送方法,组成相应的信息流机制,对共享的数据进行存储和管理操作。依托大数据技术的相关功能,这些共享数据可以由日益变化的智能交通各数据信息提取出来,实现各地区、不同领域的数据库实施综合处理,将历史数据迁移至大数据平台下,还要保持数据的完整性及各种数据之间的关系可以理解。同时,可依据各模块不同需求及相关关系为客户提供各种数据信息服务,组织内部存储各类数据直接输出来,其他子系统保存相关数据从信息共享平台提供一系列的查询功能。此外,大数据平台可以及时统计并输出道路网络的拥堵、事故情况,并能归纳为利于用户决策的有用信息,例如:利用大数据分析,某个路口闯红灯数量明显少于平时,出现异常数据可以设置报警规则,提醒出现异常信息[2]。维护者对现场道路智能交通设施实施排查操作,判定是否存在设备故障。利用大数据技术直观展现道路不均指数,提供最佳的信号机配时/相位方案,便于决策人员制定科学的决策。

3.2道路网延迟指数分析

依托大数据技术对各个路口/路段历史流量进行统计,进一步分析路网的延迟指数。智能交通延迟指数求解方法是实际通过旅行时间与自由流通旅行时间相减,若所得数值为负数,则设定为0,表明并未发生延迟,并把这些数据映射至[0,10]数据区间之内。如果智能交通延迟指数较大,说明这个地点的拥堵情况更严重。左侧向使用者展现设定日期、特点等交通延迟指数改变情况,来回移动水平滚动条,能够及时查看不同时间段的延迟数据。左侧展现路口、道路等级、行政区划等各维度下相对应点的延迟指数和排名情况。通过综合分析道路延迟指数,能够为决策人员提供新建道路规划等决策提供支持。

3.3道路路口组织优化设计

进行组织优化过程中,必须收集相应的数据信息,包含交叉口现状图、事故数据、智能交通控制情况等。基于大数据技术展开分析,可以提供大量数据样本,进而输出相应的数据(空间及时间维度)。其中,时间维度主要包含小时、季度、每年、双休日、工作日等;空间维度由交叉口、行政区划、道路等。大数据技术对道路过车流量展现分析,进而获得城市各区域不同点一天的高峰表现及不同模式。依托大数据平台,根据历史数据明确早晚高峰期利用大量例数数据和智能算法,盘点各路段或交叉口早晚高峰出现时间,以此把控整体及局部智能交通分布状况,达到优化智能交通管理方案的目的。

4结论

综上所述,在智能交通领域运用大数据技术,能有效对车流量数据、道路设施信息等海量数据实施存储和处理。本文从智能交通数据平台入手,进一步阐述依托大数据技术设计智能交通数据分析平台框架,详细介绍应用层、资源层等设计及应用情况,以期达到智能交通组织优化的效果,并为制定科学的出行决策提供一定指导。

参考文献:

[1]仇辉.智能交通管控平台中数据分析子系统的设计与实现[D].北京邮电大学,2015.

[2]郑亮,张云丽.综合交通大数据分析平台教学系统设计[J].物流科技,2016,39(7):147-149.

第5篇:数据分析设计范文

关键词:教育平台设计;智慧教育;课程管理;大数据分析;在线学习;教育资源存储

引言

当前由于存在海量教育资源,导致教育应用平台建设资源分散和低水平重复建设问题严重,教育信息化虽在网络环境和硬件建设方面取得一定成果,但尚未能实现大数据下的智能服务,造成教育平台建设发展不均衡,无法向教师、管理员和学生提供一站式在线服务,成为影响教育信息化的重要难点。智慧教育是指将信息化理念运用在教育领域[1],全面深入地运用现代信息技术,加快教育改革与发展进程。随着大数据分析技术在教育领域的不断深入,翻转课堂、MOOC等一些新兴教育模式逐渐兴起,技术革新推动教育模式发生转变,如何利用大数据分布式数据存储特点[2],构建大数据环境下的智慧教育平台,克服学习障碍,实现智慧学习是众多学者关注的热点问题。大数据技术合理整合教育资源,向教育行业人员提供了虚拟服务,辅助教师和学生简化智慧教育平台开发部署过程,构建出适合教育和科学研究的智慧教育平台,为平台使用者提供存储文件、课程管理和课程等服务。发展智慧教育云平台能够在为学生创建良好学习环境的同时,向教师、管理员和学生提供一站式在线服务[3],因此,本文基于大数据分析技术设计智慧教育平台。

1智慧教育平台设计

1.1大数据分析技术平台

智慧教育平台采用大数据分析平台的分布式框架。大数据分析技术平台将大数据处理、数据交换与共享以及数据分析挖掘合理整合,用于智慧教育平台设计过程中,大数据分析技术平台框架如图1所示。SQOOP数字交换工具通过同步学校以及外部存储系统的教育资源数据,将教育资源数据保存在文件系统中,文件系统中海量教育数据传输到大数据分析层,大数据分析层采用HBase数据库结合SQL计算执行引擎,分析海量智慧教育数据,业务层主要挖掘、分析和处理智慧教育信息数据。

1.2平台总体架构设计

基于大数据分析技术设计的智慧教育平台总体架构包括数据资源库、大数据分析层、智慧教育信息云服务层、应用服务层和表现层五部分[4⁃6],基于大数据分析技术的智慧教育平台总体架构如图2所示。数据资源库中包括所有智慧教育平台设计数据,将数据传递至大数据分析层,采用SQL计算执行引擎计算处理多种智慧教育信息,得到学生、教师以及资源信息等,将所得多种信息传递至智慧教育信息云服务层[7],使使用者在移动终端界面体验智慧教育平台的各种服务。

1.3智慧教育信息云服务层设计

智慧教育信息云服务层连接平台使用者与平台应用服务[8⁃10],是智慧教育平台的核心层次,具体包括在线学习和平台信息与管理两个模块,在线学习模块包括教学、审核和交流功能,平台信息与管理通过用户注册账户、权限分配和身份审核等实现平台信息管理。智慧教育信息云服务层中平台使用者与平台服务关系如图3所示。智慧教育信息云服务中心包括使用者和服务两部分。使用者通过平台注册、用户管理和登录校验操作,完成智慧教育平台的注册登录,管理掌握智慧教育平台所有注册教师、管理员以及学生的所有基础信息,便于智慧教育平台集中管理[11⁃12];服务方面,智慧教育平台服务通过服务注册、服务查找和服务管理将平台服务授权给平台使用者,智慧教育平台服务通过用户验证、服务绑定和服务提供,实现平台存储文件、课程管理和课程等服务的使用者授权,使用者即可享受智慧教育平台服务。

1.4平台实现

1.4.1在线学习模块实现在线学习模块是智慧教育平台智慧教育信息云服务层的核心,在线学习模块教学功能是否全面、审核功能是否细致以及使用者体验感均影响智慧教育平台教师、管理员以及学生在线交流状态[13]。在线学习模块包括学生、教师和管理员,在线学习模块功能结构如图4所示。在线学习模块中,管理员主要审核教师备课资料和学生学习资源,课程审查保证智慧教育平台的教学课程质量。管理员通过跟踪学生学习进度并对学习过程采取持续行为跟踪和数据记录,为大数据分析课程提供数据支撑[14]。教师在智慧教育平台的在线学习模块完成教学准备并通过直播或录播对学生进行授课,在线解答学生疑问,教师在课程结束后向学生课程任务和课程总结等实训练习用于辅助教学练习。学生可在在线学习模块中了解课程详细信息并加以选择与确认,学生的课程学习也包括直播课程和录播课程两种,并且学生在课程结束后需完成实训练习,否则,无法进入下阶段课程学习。

1.4.2平台信息与管理模块实现基于大数据分析技术的智慧教育平台信息和管理流程图如图5所示。通过自定义查询与统计判断平台用户添加是否成功,添加成功,则针对教师、管理员或学生分配平台使用权限,权限不同,则信息和管理权限不同,将填写后身份信息交于学校审核[15],学校审核完成后即可允许信息,完成智慧教育平台信息和管理。智慧教育信息管理分为初级和高级管理两层面:初级层次可管理小范围教师、管理员以及学生基础信息;高级层次可管理一定区域内所有学校教师、管理员以及学生基础信息和功能。智慧教育信息管理的初级和高级层次管理均可为教育平台管理提供智慧教育服务,满足教师、管理员和学生的个性信息服务和决策信息服务。

2智慧教育平台性能测试

实验以某高校为研究对象,数据挖掘和分析该校学生的师生教学和学生学数据,分析得到某学生的学习生活行为信息,勾勒出学生个性化学习行为画像,如图6所示。智慧教育平台根据学生个性化学习行为提供个性化教学和管理,不断优化完善智慧教育平台教学方式和指导方法,将大数据分析技术深入用于智慧教育平台设计,提供更加个性化的平台服务。基于大数据分析技术设计智慧教育平台师生在线交流功能测试结果如图7和图8所示。在图7界面中,学生可获取关于正则表达式和Linux系统等相关学习资料,学生点击Linux系统相关课程可得图8所示沟通交流界面,任意选择该课程授课教师实现在线互动。结果表明,基于大数据分析技术设计的智慧教育平台可实现师生在线交流功能,方便师生交流课程内容。智慧教育平台功能测试目标是确保智慧教育平台以及平台各层次能正常使用,平台测试时需要多种智能终端对平台实施服务访问,测试平台各项功能能否实现。表1是对平台核心服务的测试用例描述,且从表1平台功能测试结果可知,本文设计智慧教育平台各项功能均可实现,说明采用大数据分析技术设计智能教育平台可广泛应用。

3结语

采用大数据分析技术设计的智慧教育平台,采用大数据技术处理智慧教育信息数据,合理整合教育资源,增强教育平台中教师、管理者以及学生间的在线交流,且智慧教育平台的服务管理、远程教育和教育资源门户服务等功能能够较好实现,并能提高个性化教育方法,因此大数据分析技术深入用于智慧教育平台设计意义深远。

参考文献

[1]余鹏,李艳.基于教育大数据生态体系的高校智慧校园建设研究[J].中国电化教育,2018(6):13⁃21.

[2]殷玮川,何世伟,李玉斌,等.基于云计算的地铁大数据分析方法研究[J].铁道科学与工程学报,2018,15(11):281⁃288.

[3]安涛,李艺.智慧教育的“器”与“道”[J].湖南师范大学教育科学学报,2016,15(3):41⁃46.

[4]王雅楠,李隐峰,李瑜,等.智慧社区移动应用设计[J].华中科技大学学报(自然科学版),2016,44(z1):215⁃218.

[5]魏群义,廖维,沈敏.智慧图书馆APP的设计与实现[J].图书馆论坛,2017,37(7):22⁃26.

[6]卢黎歌,吴欢.基于大数据时代的大学生价值观教育[J].西安交通大学学报(社会科学版),2016,36(6):79⁃83.

[7]张晓阳.大数据迷潮下的教育研究及其想象力[J].基础教育,2015,12(4):49⁃55.

[8]南旭光,张培.大数据驱动现代职业教育治理:价值逻辑、机制设计与制度安排[J].职业技术教育,2018,39(1):27⁃32.

[9]潘梅勇,宋伟奇.基于大数据的高职院校信息资源库建设[J].职业技术教育,2016,37(5):24⁃26.

[10]马星,王楠.基于大数据的高校教学质量评价体系构建[J].清华大学教育研究,2018,39(2):38⁃43.

[11]崔延强,权培培,吴叶林.基于大数据的教师队伍精准治理实现路径研究[J].国家教育行政学院学报,2018(4):11⁃17.

[12]周亦,周明全,王学松,等.大数据环境下历史人物知识图谱构建与实现[J].系统仿真学报,2016,28(10):2560⁃2566.

[13]王雯,赵衎衎,李翠平,等.Spark平台下的短文本特征扩展与分类研究[J].计算机科学与探索,2017,11(5):732⁃741.

[14]于彦伟,齐建鹏,陆云辉,等.时空轨迹大数据分布式蜂群模式挖掘算法[J].计算机工程与科学,2016,38(2):255⁃261.