公务员期刊网 论文中心 正文

高校大数据分析平台设计实现

高校大数据分析平台设计实现

摘要:随着高校各类应用系统的发展,信息化建设将转向大数据服务阶段。如何有效利用分散在各系统中的数据,为学校的管理与决策提供数据支撑,是迫切需要解决的问题。文章阐述了数据采集整合过程和分布式存储技术,设计了大数据分析平台基础架构和功能模块,分析了相关数据模型。通过搭建大数据分析平台,测试了数据采集功能和各分析模块的展示情况。

关键词:大数据分析平台;Hadoop;数据采集

引言

随着高校信息化建设快速推进,国内高校基本完成各类基础应用系统的建设,在应用系统中也存储了大量的数据,包括教师和学生的工作、生活、学习、教学和科研等数据,以及个系统的日志数据。由于各系统相对独立无法进行系统间的数据共享,使得这些系统数据都闲置在各应用系统中。因为在学校的管理与决策中缺乏真实可靠的数据做支撑,所以研究如何将闲置的数据有效利用起来,对高校的信息化建设会更有意义。大数据分析平台是在现有各应用系统的基础上,对各系统汇集起的海量数据资源进行清洗、整理、挖掘、分析等操作后,数据标准化程度提高其利用价值也更大。大数据分析平台的基础是数据,核心是分析模型,目标是应用。本文将整合校园内各应用系统数据,并对其进行挖掘、整理、分析,然后通过构建数据模型,搭建统一的大数据分析平台,实现对零散的数据进行整合分析,分析结果可以为学校及各部门的管理和决策提供数据支撑,数据的利用价值也更高。对师生在工作、生活、学习、教学和科研方面提供行为分析,分析结果为学校优化管理方式,提升服务水平提供指导,勾画“千人千面”,让学校真正了解师生。

1关键技术简介

Hadoop[1]是一个分布式系统基础架构,充分利用集群的优势对数据进行运算和存储。Hadoop由许多元素构成,底层是分布式文件系统(HadoopDistributedFileSystem,HDFS),用来存储集群中所有存储节点中的文件。HDFS上一层是Ma-pReduce引擎,为海量的数据提供高速计算。ETL(Extract-Transform-Load)[2]是用来描述将数据从源端经过抽取(Extract)、转换(Transform)、加载(Load)到目的端的过程。使用ETL目的是将学校中分散、零乱、标准不统一的数据整合到一起,为学校管理决策提供数据支撑。Sqoop[3]是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库间进行数据的传递,可以将一个关系型数据库中的数据导入HDFS,也可以将HDFS的数据回流到关系型数据库中。Sqoop也为NoSQL数据库它也提供了连接器。Nutch[4]是一个开源的高度可扩展和可伸缩性的分布式爬虫框架。Nutch主要由爬虫Crawler和查询Searcher组成,Craw-ler主要用于从网络上抓取网页并建立索引,Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。

2基础架构设计

2.1数据采集

大数据分析应用采用Hadoop平台及生态工具,从校园卡数据、上网日志数据、教学数据、师生管理数据和安防数据等结构化数据库,以及网络和相关表格文件等非结构化数据中,采集师生相关业务数据到分布式数据中心进行存储、挖掘、分析和展示。确保数据采集对应用系统运行不产生影响的情况下,可实时或定时增量采集数据。为了便于扩展,架构还支持从其它关系型数据库、非关系型数据库中采集结构化、非结构化数据,挖掘关联性更多的数据关系。数据采集架构如图1。数据采集是大数据分析中最重要的一部分。结构化的数据通过统一数据集成管道对业务系统数据进行抽取,按照数据分析模型要求对各应用系统数据利用经过抽取,转换,加载至主数据库;表格数据通过填报或导入的方式进入主数据库;日志数据通过日志处理工具读入主数据库;互联网中的社交、科研、舆情、Web等数据通过爬虫工具采集至主数据库。

2.2数据清洗整合

数据质量是大数据分析效果的基础,数据质量的管理,是发挥数据价值的基石,也是大数据分析的重要前提。在数据分析平台的建设过程中数据的清洗整合的工作占70%以上。大数据分析平台从数据使用的角度管理数据的质量,以可视化的形式反映数据质量问题,数据也可以利用可视化的界面对质量检测规则进行配置。通过数据采集存入主数据库中的数据质量较差,容易出现空字段,数据标准不一致,数据描述不统一。数据的清洗整合主要通用数据质量规则进行自定义配置,根据规则对主数据库中存在异常的数据通过缺值填写、无效值重复值删除、异常值优化等方法提高数据质量,根据数据分析模型整合已抽取的数据。

2.3分布式存储及数据分析

分布式存储主要是通过Hadoop分布式文件系统(HDFS)以及MapReduce框架将数据分散存储在多台独立的设备上[5],具有可扩展、低成本、高性能、易用等特征。传统的网络存储是将所有数据集中存储到存储服务器上,存储服务器的性能对存储数据的影响较大,也成为平台性能的瓶颈,不能满足大规模数据存储及使用的需要。在大数据分析平台上使用分布式存储,不但可以提高系统的可靠性、可用性和存取效率,还易于扩展。高校存储的大量数据应用价值非常高,通过对抽取的数据进行标准化处理,搭建分析模型,实现用数据对师生的行为进行画像,实时了解学生学习、教师教课等情况。

2.4平台架构体系设计

大数据分析平台主要向用户展示师生行为,综合数据分析,校情信息,教学及学习情况等。在平台架构设计中要充分了解学校各系统目前运行情况,学校各单位对数据的需求,以及学校目前的数据重量情况,在架构设计和数据存储空间设计时充分考虑平台发展的需要。底层数据抽取、清洗整合、分析建模等基础工作并不能向用户展示,数据的准确性和模型的合理性决定了分析结果的可靠性。大数据分析平台架构体系如图2:此架构体系可以兼容多数高校已经建设的数字校园结构体系,可以与已有的平台和数据中心相辅相成,建设效率更快的情况下还能节省成本。让原来的建设成果发挥更大的价值。

3大数据分析平台功能设计

大数据分析平台的场景应用是指通过数据建模把数据从各种维度、特征进行分析,然后根据不同的场景应用对分析结果进行展示。各应用场景的分析模型搭建需要充分了解各系统数据,以便于从多维度区分数据需求程度。在高校大数据分析中,数据的来源主要从学生综合系统,人力资源,教务管理,图书管理,校园卡系统,安防,上网管理,科研管理、资产管理和医院管理等系统中获取。大数据深入分析时,还要对非结构化表格数据和互联网数据进行采集,如通过表格填写进行管理数据采集,利用爬虫程序对互联网中期刊数据库、微博数据、网页数据、以及微信公众号文章等数据进行采集,再结合学校其它相对变化不大的数据,能搭建出更有价值的分析模型。各高校都有自己的特点,现有的各种分析模型并不能通用,必须根据本校实际情况对已有的分析模型进行优化或重新搭建。其中行为轨迹主要通过对各系统中定时定点的数据进行串联,形成一条行为路线。

3.1学生数据分析

高校管理中对学生的管理十分重要,对学生的数据分析需要站在学生的角度进行思考,如学生上课考勤分析,首先针对学生的课表、学生请销假、教室考勤机、校园卡记录、上网记录、图书借阅、安防数据、校医院系统等可以分析出有哪些学生没有上课。根据学生日常行为轨迹或习惯,以及消费情况分析该生是否在谈恋爱。根据学生上数据分析该生是否沉迷于网游。通过分析学生上课情况、教师情况、行为轨迹或习惯、以及相似课程成绩等数据对学生的学习情况进行预警,并对产生预警的原因进行分析。通过数据分析使学生管理者轻松的掌握学生状态,同时也可得到出现该状态的原因。在贫困生鉴别和精准扶贫方面,根据学生每月在校消费情况、家庭情况、助学贷款等数据筛选学生,并将男女分析算法区别设计。学生宿舍安全方面,通过宿舍智能电表实时监测用电情况,对违规使用大功率、高电流及电表高温等情况进行实时预警并将预警信息推送给相关人员进行处理。另外还可以通过数据分析对学生异常消费、上网时长,上网行为、心理健康、学业、学生轨迹等情况进行预警,可以对突发事件处理给予指导。通过用户画像从不同静态属性标签勾画学生人群进行展示,并支持深入挖掘学生消费行为信息,辅助学校在勤工助学、助学贷款、贫困生评定、价格调整、餐厅分流、超市分布、浴室建设等方面提供数据支撑。

3.2教师数据分析

在教学管理方面,通过教学数据、学生评教、学生到课率、教师备课、科研、图书借阅等数据可以分析出教师所适合的优势课程,为教学管理人员课程安排提供指导,将数据推送至教师可以为其发展提供指导。通过教师的校园卡消费、行为轨迹、上网数据等数据分析教师是否存在离职风险,如校园卡消费方面出现有意清零或提现,经常浏览招聘网站或投递简历等行为。

3.3其他数据分析

大数据分析能够对学生和教师分析外,还可以从其他方面进行分析用来服务于校领导、后勤管理、校园卡管理、校园安全管理等。科研分析方面,通过对年度科研项目立项和科研成果等科研数据的分析,可以预测学校科研发展情况,结合学校发展目标对发现的问题及时进行干预。教学管理方面,通过对不同专业、不同年级学生的选课情况和课程成绩等数据的分析,是否需要对学校开设的选修课信息通信王树国等:高校大数据分析平台设计与实现进行调整,以适应学校的培养目标和学生的学习兴趣。学生管理方面,通过校园卡、安防终端、相关账号等数据可以进行身份识别,可以通过数据分析获得实时在校人数,以及早出晚归、夜不归宿的学生,在综合学生数据后对学生的行为进行安全预警。餐饮消费、行为轨迹等数据与学习成绩进行分析,分析结果可以指导辅导员对学生进行分类管理。餐厅管理方面,通过对师生消费时间、季节、窗口人流量、消费金额等数据分析,后勤和餐饮经营者可以清楚的知道每个餐厅、每个窗口消费及收入情况,便于后勤对餐厅的管理,并及时对餐厅或窗口进行优化调整。可通过结合消费人群信息对消费用户数据深入挖掘,获得不同地方的人喜欢的口味,不同年级学生的餐饮习惯等情况。上网管理方面,通过对上网数据进行分类汇总、关键词提取、应用程序分类、安全设备日志分析、用户信息分类等数据进行分析,可以为学校网络保障、网络用户管理、网络安全预警、个人信息保护等提供数据支撑。图书馆管理方面,通过对学生和教师借阅时间、借阅书籍类型、借阅人类型、馆藏图书、在线期刊数据库浏览等数据分析,以及学生进出图书馆的次数与成绩之间的关系,为图书馆管理和图书需求情况提供数据支撑,更便于师生了解图书馆进出高峰时间段、哪个区域人流量较多、哪种书籍更受人喜欢等信息。校园安全方面,通过对校园安防平台中进出校门、进出校内各楼宇、视频边界和人员密度报警等数据的分析,为学校安全管理提供指导。对校园卡及财务数据分析,可以让校园卡管理老师了解学生、老师、临时卡等在消费、充值、使用等方面的情况,为师生进一步提高服务质量和主动服务意识提供指导。大数据分析平台主要功能设计如图3。大数据分析平台可对用户进行功能和数据授权。数据权限可分为全局、院系、辅导员和普通老师等级别,模块权限可根据角色对功能模块进行授权。可为师生提供大数据报告,可在PC和手机端访问。学生和老师可了解食堂拥挤、窗口美食、洗澡高峰、充值趋势、消费水平等等。数据智能管理方面,可以把数据库中的数据根据自己想要的结果轻松配置出来,功能强大,操作简单,用户可自己操作。

4平台实现

数据分析平台基于JAVA框架,使用在智能代码助手、重构、JUnit、CVS整合、代码分析等方面功能优越的IntelliJIDEA进行开发,数据库使用Oracle。在数据源管理中,利用Sqoop工具在Hadoop与关系型数据库间进行数据的传递,也可以实现数据双向流通,其底层实现就是MapReduce。对某些NoSQL数据库利用Sqoop连接器,同样可以实现数据流。新建数据源如图4所示。权限管理在大数据分析平台管理中主要进行组织管理,角色管理,用户管理等。其中用户角色定义中,根据不同用户的需求分别定义管理员、校领导、院处领导、办公室、教师、辅导员、学生等角色,根据不同角色划分不同权限,每种角色都可以订阅本角色范围内的需求信息,也可以根据学校管理需要给特定人推送相关信息。在用户管理中对不同角色用户可以进行批量权限划分,通过对前台的编码实现对分析结果的展示,个人画像展示如图5。

5结语

阐述了高校在数据管理方面存在的问题,构建了大数据分析平台技术架构,功能模块。基于Hadoop技术对大数据分析平台的部分功能进行了测试。平台试运行后为在校师生提供了统一的数据推送服务,并为相关部门的管理提供了数据支撑。平台在对数据抽取和分析模型搭建方面还有进一步提升的空间,例如在学生健康状况分析和学习情况分析,可以通过进一步数据挖掘,分析出质量更高的结果。

参考文献:

[2]陈锋.ETL数据治理在高校信息化建设中的研究与应用.中国教育信息化[J].2020(13):68-70.

[3]王建军,张英成,战非,赵侃.基于Sqoop的高校海量结构化数据导入研究[J].无线互联科技.2018(20):52-53.

[4]周飚.网络数据采集框架Nutch及其应用研究[J].中国管理信息化,2019,22(18):167-169.

[5]王立友.高校智慧校园大数据平台的设计与实现[J].河北民族师范学院学报,2020,40(2):88-93.

作者:王树国 皮宗辉 付文豪 单位:喀什大学网络与信息管理中心