时间:2023-05-31 20:08:51
第1篇:数据分析方向范文
【关键词】爸爸去哪,大数据,电视真人秀
1、概述
真人秀(也称真人实境秀、真实电视,reality television)一般是指以电视传媒为介质,通过举办某一类别的比赛活动,以从多名参赛者中选取最终获胜者为目的;同时,有着丰富的奖品,可以获得广泛的经济效益的电视节目。
2、大数据环境下的电视真人秀节目量产分析
尽管电视真人秀节目在荧屏上的收视率已经达到了一定的高度,但是从采编的实际角度上来分析的话,电视真人秀节目在现在的环境下如果实行量产的话仍然有一定的难度,综合分析主要包括以下四种原因:
2.1采编工作量大。《爸爸去哪儿》每一集都要有五组家庭参与演出,在每一集的游戏设计上,采编人员和导演组要进行多次的协同沟通,无论是从工作量上还是从信息量上都是很大的。尽管每一集的播出时长仅为120分钟左右,但是导演组要分别派出至少五组的采编人员跟随演员实景拍摄72小时。这与常规的综艺娱乐节目最多的2组采编人员现场工作1-2个小时比起来完全是一种“量化”的突破。
2.2后期制作繁琐。为了突出节目效果,才拍摄素材汇总完成之后,在剪辑的过程中要有大量的后期特效制作跟进,无论是画面效果还是工作量,在我国的电视荧屏上都是一次创新。如此大的信息量,让整个《爸爸去哪儿》节目的数据库信息完全达到了一个峰值。
2.3演员甄选难度高。第一季播出的成功如果是因为节目较为新颖的原因的话,那么第二季以后的节目在演员的甄选上也就相对的增加了很大的压力,因为按照广电总局的相关要求,对于这种真人秀的演员甄选要本着一定的原则来执行,因此尽管这个工作并不是采编人员要具体跟进的,但是在整个过程中,几乎每一个环节上都有采编人员忙碌的身影。
2.4社会效应和经济效果不成正比。《爸爸去哪儿》在播出的过程中,其实反映了当下的许多育儿教育方面的问题,因此引起的社会效应是十分轰动的,但是由于节目制作过程十分的繁琐,需要耗费大量的人财物来为其支撑体系的运转,因此就目前的情况来看,除了与之同名的电影节目的经济收益还较为明显之外,常规的电视节目其经济收益并没有太过突出。
3、大数据环境下的电视真人秀节目量产改进措施
每一集如此庞大的信息量,和相对不成正比的经济效益,给节目组,尤其是采编人员带来了巨大的工作压力,再加之节目前两季所取得的巨大社会效应,对于今后的节目制作而言,应遵从以下的几个改进方向:
3.1将节目大数据由量化管理向质化管理推进。前两季的成功,节目信息量的相对较为集中起了决定性的作用,如此大的节目数据如果仍然延续现在的量化管理模式的话,不仅仍然要增加采编工作人员的相对工作量,还可能因为节目效果的重复和同化让节目的收视效果受到冲击,因此,必须将节目的大数据从量化管理向质化管理进行改革。这种改革主要是将节目的全部信息数据由最初的后期集约化筛选向前期的质量筛选推进。所谓质量筛选是在减少固定摄影机位的同时,增加人工定位摄影机位,这样在表面上看起来是增加了摄影师的工作量,但是从实际的拍摄效果上来看,其实是减少了总体的节目素材累积量,因为对于固定机位而言,是长时间定位拍摄的,几乎是在演员到达拍摄现场之后就开始了,在演员离开拍摄现场之后才结束。而对于人工定位摄影而言,在需要采集素材的时候才开始拍摄,在不不要采集素材的时候是处于待机或者关机状态。这样在节目的后期制作上对于素材的审验就节省了大量的时间。
3.2采取商业化运作管理节目大数据。几百个小时的节目素材最终要浓缩到2个小时的实际播出节目中,其中海量的数据信息被浪费掉了,尽管这些数据信息中也有许多亮点内容和较为新颖的元素,但是仅仅是一个时间关系的问题就把其浪费掉了,这种情况无论是从节目的社会效应上还是从经济角度都是一种极大的浪费。如果采用一些商业化运作的模式来管理这些大数据的话,其实完全有很大的空间来改进。
首先,将大数据信息分类管理。前两季的节目不仅带来了轰动的社会影响,也催生了许多粉丝群的出现,对于这些粉丝群来说,相对应的偶像在拍摄过程中的信息是十分关注的,如果将一些没有正式播出的信息按照不同的演员主题进行分类处理,可以满足一些粉丝的需求。
其次,将分类信息商业化包装。毕竟粉丝群的影响力是有局限性的,而且也不一定带有太多的商业元素在其中,不过如果将这些经过分类处理的信息通过商业包装之后以单一演员的形式推向市场的话,那么对于广大的市场消费群体而言也会是一种拉动。
最后,将包装信息网格化销售。《爸爸去哪儿》是通过电视平台播出的,相关的数据信息如果再通过电视平台播出的话,并不一定能够再取得太好的收益,《中国好声音》的相关节目包装就是一个反面的教材,随着互联网技术和网络媒体的兴盛,如果通过点播平台和互联网媒体互动平台全方位网格化处理这些信息的话,可能要比单一的从电视平台上获取收益要强的多。
4、结束语
综上所述,在大数据环境下,如果让电视真人秀节目实现量产,达到社会效应和经济效果双丰收,其核心在于将采编工作从策划开始就实行团队协同合作的方式。这种方式能够将海量的数据分析细化到每一个节点上进行处理。从而让电视节目效果达到最佳状态。
参考文献:
[1]张洁意.职场真人秀节目核心元素分析――以江苏卫视《职来职往》节目为例[J]. 今传媒.2012(12)
第2篇:数据分析方向范文
关键词: BI&A3.0 管理科学与工程专业 研究生培养
在过去的二十年里,商务智能与分析(Business intelligence and analytics,BI&A)与大数据相关的分析随着大数据的发展在工业界及学术界变得越来越重要。来自于Bloomberg商业周刊的报道(2011)显示,97%的超过1亿市值的公司使用了商务分析技术。据麦肯锡全球机构预测,到2018年,仅美国一年就会面临14到1万人的深度分析技术人才的需求,同时约有150万数据分析经理的缺口[1]。
“智能”一词自20世纪50年代被人工智能方面的研究人员提出并沿用至今。而商务智能(Business intelligence)则随着信息技术的发展在20世纪90年代被企业界和学术界熟知。自2008年大数据的一系列论文在NATURE上发表,大数据分析技术已被应用到从文本、计算机日志、传感器、社交媒体等产生的大量非结构化、体量巨大、类型繁多、价值低密度、要求快速处理的大数据。BI&A经历了BI&A1.0,BI&A2.0和BI&A3.0的演进。他们分别对应面向基于关系数据库的结构化数据、基于web的非结构化数据、基于移动及传感器的非结构化大数据。因此,BI&A3.0是面向大数据分析的新兴领域。
BI&A3.0面向大数据可能产生的巨大影响,它涵盖了电子商务及营销智能、电子政务及政治2.0、科学与技术、智慧健康、安全及公共安保等方面。涉及的技术领域包括大数据分析,例如统计学习、序列及暂时挖局、空间挖掘、过程挖掘、网络挖掘、web挖掘、基于列的数据库挖掘、内存数据库、并行数据库、云计算、Hadoop、Mapreduce,文本分析,例如静态NLP信息抽取、主题模型、问答系统、选项挖掘、情绪及影响分析等。除此之外,还包括web分析、网络分析、移动分析等大的技术分析方面。因此,BI&A3.0是未来管理科学与工程专业研究生培养的重要基础和研究热点。
BI&A3.0的发展和应用对管理科学与工程硕士研究生的培养提出了挑战。主要表现在以下几个方面,BI&A聚焦于理解、解释、战略并服务于组织。一些学科对BI&A的发展作出了贡献,例如信息管理、计算机科学、统计学、管理学和市场营销学。
然而,目前的课程体系设置相对于商务分析技术及大数据的发展来说较滞后。虽然大部分学校针对学生的研究方法及研究能力的培养开设了一些BI&A课程,例如复杂系统分析与决策、随机过程、应用统计学、矩阵分析、Matlab、现代管理分析技术等。这些课程的设置对于面向大数据的BI&A3.0的研究及应用来说尚有差距,缺乏系统性和前沿性。因此,面向BI&A3.0的研究生课程体系改革具有一定的现实意义及急迫性。
1.教学研究的内容及实践内容
围绕如何培养面向大数据及BI&A3.0数据分析及研究能力进行课程体系改革研究。借鉴国际国内针对从BI&A1.0到BI&A3.0的知识体系及技能相关的教学改革,注重管理科学与工程的专业内涵。
(1)教学研究的内容
①对国内和国际当前的面向BI&A3.0大数据分析能力培养的知识体系及技能进行梳理。
②对本校管理科学与工程专业主要的研究方向进行梳理,调研面向BI&A3.0大数据分析的具体能力和层次要求。
③结合国际国内面向BI&A3.0的知识及技能体系与本校管理科学与工程主要的研究方向,提出面向BI&A3.0的管理类研究生课程体系改革的具体方案,包括课程设置、教学方式、考核方式、教学目的与要求。
(2)实践内容
通过设计与理论相配套的课程实验、研讨与课程内容密切相关的科学问题、及时追踪研究热点,使得实践环节成为提高研究生BI&A3.0创新和研究的推动器,同时也提高学生在实践方面的兴趣和动手能力。
2.教学及实践改革的目标
(1)教学目标。通过建立面向BI&A3.0的管理类研究生课程教学体系,使得研究生掌握BI&A3.0的基本知识体系、知识网络、基本研究能力,并最终培养研究生掌握面向BI&A3.0的创新能力。
(2)实践目标。通过培养学生面向BI&A3.0的实践技能,培养研究生面向BI&A3.0的实践能力,包括文献检索能力、借助计算机的分析能力、数学建模能力、数据收集能力。
3.课题研究要解决的问题
围绕面向BI&A3.0的管理类研究生课程体系的建设,本课题将要解决如下问题:
(1)如何划定面向BI&A3.0的分析及计算机技能。面向BI&A3.0的分析及计算机技能涵盖的面十分广泛,本校管理类研究生所依附的学科方向及研究重点决定了这些技能需有选择地纳入。因此,需要解决具体纳入哪些分析及计算机技能的培养。
(2)如何结合研究方向与BI&A3.0的应用。培养面向BI&A3.0大数据分析能力的目的是将BI&A3.0大数据分析应用到具体的研究方向。物流、市场营销、工程管理、运营管理等方向的研究需要将这些领域的知识和BI&A3.0的应用结合起来才能达到培养的目的。
4.拟采取的方法
(1)借鉴国内外先进的BI&A3.0教学教改经验。对国际和国内BI&A3.0相关的教学教改文献进行分析,并参加相关的国际国内会议,与国内外同行进行交流学习。
(2)对本校管理类研究生现状及改革反馈进行调研。通过以往教学实践的总结、专家学者的讨论、课题组集体研究的方式,调研适合本课程体系服务学科专业的研究生课程教学内容、目标、方法与手段。
(3)对企业界进行调研发掘BI&A3.0实际应用能力的需求。通过对企业界进行调研,发现潜在的BI&A3.0应用方向。通过这些方向的发掘弥补课程体系设置的不足。
自2008年NATURE发表的一系列大数据相关论文,到2012年,美国《大数据研究和发展计划》,成立“大数据高级指导小组”,再到2015年,我国提出国家大数据战略,针对大数据分析的BI&A3.0是十分前沿的。本项目将本校管理类研究生数据分析能力培养和BI&A3.0发展的大趋势结合起来,具有前沿性、现实性和急迫性。
第3篇:数据分析方向范文
关键词:信令分析;重定向;用户感知
中图分类号:TN929 文献标识码:A 文章编号:1009-2374(2013)09-0040-02
1 信令分析定义
(1)信令是建立通信的前提,信令就像网络的脉搏一样,通过对信令的分析可以洞察到网络中存在的问题,从而快速有效地进行问题定位;通过信令分析我们还能方便灵活地对网络的性能指标进行统计,准确而客观地进行网络评估;并且通过信令分析我们还能解决一些日常优化手段不能解决的网络疑难问题。
(2)信令分析过程包括信令的采集和信令的后台处理两部分。目前的信令采集工具较多,如泰克K15、InterQuest、中创信测仪表、安捷伦仪表等,它们都能实现在Abis口、A口、Gb口、Gn口等采集信令数据。信令后台分析工具如M-TRiX,它能处理目前大部分信令采集工具采集的数据,并支持多接口数据的分析。
2 数据业务信令分析与传统分析方法优势对比
信令分析是对通讯设备之间海量信令数据的一个处理、统计、分析的过程,通过对各个协议接口单独或联合分析,可以对网络承载能力进行评估,可以快速准确定位故障所在位置,可以对终端和SP进行分析,可以进行用户行为分析等等。因此,信令分析是当前端到端网络优化方式的重要手段,和传统的网优分析手段相比,信令分析具有很大的优势:
2.1 面向信令流程与网络现状
以信令作为分析基础的信令分析方法,一方面针对数据业务应用层、传输层、底层链路层展开分析,利于准确定位用户问题;另一方面准确评估网络现状,还原最真实的网络性能。
2.2 贴近用户感知与应用状况
传统网优分析的数据源是后期模拟用户行为获得的,不能代表用户当时的网络环境。信令分析的数据是用户当时行为的真实网络数据,当发生故障时,可以快速回放当时的信息,准确定位故障。
2.3 分析的深度和广度结合
一方面,信令分析方法以多接口串联分析和信令跟踪提高我们优化分析的深度,深入挖掘网络问题;另一方面,接口信令,如Gb口、IUPS口等信令接口涵盖了全网用户交互状况。准确而灵活的信令分析方法利于实现点与面、深度与广度的结合。
2.4 用户信息的深入挖掘
海量的接口信令中蕴含了丰富的用户应用信息,如果能充分利用挖掘,信令分析可以成为市场及客服部门进行业务推广有力的信息支撑。
3 信令分析思路
信令分析优化方法具体的流程如下所示:
其中关键的步骤如下:
3.1 采集数据
采集数据是使用专业的工具或软件进行通信网络接口的信令数据的收集或镜像,并不会影响现网正常运行的信令交互或信令接续。根据信令接口的情况可使用相应的信令分析平台。目前的信令采集工具较多,如泰克K15、InterQuest、中创信测仪表、安捷伦仪表等,它们都能实现在Abis口、A口、Gb口、Gn口等采集信令数据。对于软交换的信令接口,可以通过镜像的方法进行分流采集。
3.2 数据整理入库和信令追踪
信令中蕴含丰富的用户及终端信息,这里以终端支持能力等基础信息分析为例。用户终端支持能力信息可通过用户ATTACH、DETACH、PDP激活、PDP激活和RAU流程分析提取。在ATTACH信令流程中,Attach Accept信令会含有用户终端的支持能力。当UMTS FDD Radio Access Technology Capability为supported时,表示终端支持WCDMA网络。同时,Attach Accept作为在下发的GMM层信令,会带有用户的IMSI及LAC等信息。因此通过Attach Accept信令可以获取需要的信息。同理,在PDP激活流程中的Activate PDP Context Accept信令、PDP激活信令流程中的Deactivate PDP Context Accept信令、Detach激活信令流程中的Detach Accept信令中,同样包含了上述需要的用户信息。
3.3 筛选分析数据
将上述用户信息整理导入数据库,在数据库中进行二次处理,可分析得出分析结果:对入库的信令数据进行分析,进行各类专题的数据挖掘;对信令数据筛选、过滤、串联,进行问题定位及解决方案设定。
4 基于信令分析的2/3G优化案例
在分析数据业务用户的投诉中发现,WAP门户网站重定向成功率很低,只有3.11%。追踪用户上网流程,发现重定向至GX165的初始网址99.54%都是xin668。该类用户平均每6分钟发起一次请求,并进入10次的递归重定向,每次请求约20秒,占小区总上网时长8.90%,较大地浪费了无线网络资源。追踪用户的信令流程,可以看到如图2所示的界面:
(1)用户将自己的业务请求发往WAP网关(10.0.0.172),同时,将自己真实的URI地址封装在X ONLINE HOST字段内(.cn:80)。
(2)WAP网关防火墙收到用户的请求,将X ONLINE HOST字段中的真实URI地址提取出来,发往WAP服务器。
(3)WAP服务器收到用户的请求,发现该网址需要进行重定向,于是反馈真实的URI给用户()。
(4)用户收到服务器回应,重新发起业务请求,URI设定为,但是X ONLINE HOST字段并没有修改(仍然为.cn:80)。
(5)WAP网关防火墙收到用户的请求,将X ONLINE HOST字段中的真实URI地址提取出来,发往WAP服务器,即仍然为.cn:80。
(6)WAP服务器收到用户的请求,发现该网址需要进行重定向,于是反馈真实的URI给用户(),进入递归重定向死循环。
上述原因主要是因为用户的终端没有按照协议规范回应的重定向地址对X ONLINE HOST字段进行修改,导致进入重定向递归死循环。要解决该问题,可在Proxy处修改策略为:将垃圾网址http://.cn*加入黑名单(仿照不良网站的处理方法),消除递归重定向的起源。此方法可以消除最高重复10次的递归重定向,等效于减少90%的无效访问次数,将平均一次占用时长21.05秒缩短至0.11秒,大大节省了网络资源和用户手机电池功耗,且不会影响用户感知。
5 综述
信令中存在着异常丰富而真实的信息,信令分析是网络优化中的一柄利器。如果能充分利用信令分析的信息源的优势,在网络问题定位上有重要的价值。本文从信令分析的特征及思路出发,讨论了信令分析在2/3G网络数据业务优化中的实践意义,如基于信令分析的WAP门户网站重定向疑难问题定位,从实际应用中阐述了信令分析的创新性应用案例。
参考文献
[1]韩斌杰.GSM原理及其网络优化[M].北京:机械工业
出版社.
[2]王立宁.WCDMA无线接入网原理与实践[M].北京:
第4篇:数据分析方向范文
【论文摘要】数据库监控信息获取策略的研究内容包括:数据库威胁来源、威胁特征、数据库审计事件、数据库运行性能指标等。通过对数据库所受威胁的研究,建立数据库威胁知识库,可以了解数据库攻击手段、攻击特征、检测信息源,进而制定监控信息获取策略,保证数据库监控信息获取的完备性与可靠性。本文探讨了SQL?Server数据库安全监控系统的实现。
一、系统整体结构
下面本文将分别从横向、纵向以及切向对数据库安全监控系统进行了结构上的再设计,改善了原有系统结构设计上的不足之处,并对其不同的划分结果进行分析。
1、横向结构
从横向看,该系统按照信息获取系统、分析机系统、控制台系统按照功能不同进行了重新的系统模块结构的划分,并补充了实时状态查询模块,增加了数据库安全监控系统安全威胁分析的数据来源,其横向结构如图1所示:
a)信息获取子系统
b)分析机子系统
c)控制台子系统
其中信息获取子系统位于整个系统的底层,是系统运行的基础所在。它采用主机获取的方式,对数据库服务器进行实时的数据信息获取,获取主机以及网络通讯会话轨迹,并对获取的数据进行二次过滤,以减少模块之间传输的数据总量,减轻上层模块的数据分析时间,再将数据通过指定数据传送通道发送到上层分析机子系统,做进一步的处理。
分析机子系统作为整个系统的中间层,其作用在于对从底层接收到的原始数据记录进行进一步的处理。主要是通过该层所包含的分析模块对采集到的原始数据,按照既存于规则库中的规则,进行模式匹配分析,将正常授权访问与非法入侵行为区分开,并把分析的结果存储到日志数据库中。对于危害操作进行报警。
控制台子系统作为人机交互的接口,为用户管理、控制、配置系统并查询入侵记录提供操作界面。它负责控制、管理信息获取子系统和分析机子系统,生成安全规则,接收、存储报警和日志信息;对报警及日志信息进行查询统计;对报警事件做进一步分析处理,并且有开放的报警接口支持更高层次的安全管理平台。
2、纵向结构
从纵向看,与原有系统不同之处在于,新的数据库安全监控系统在采用获取一分析一响应的体系结构,构建面向对象开发和面向构件开发的技术基础上,新引入了面向服务框架思想,实现了获取与分析的分离,通信与业务的分离。其纵向结构如图2所示:
在整个系统中TCP/IP层,即物理网络层,作为底层存在于系统中,在其上构筑的通信托管层则总揽了系统的全部通信工作,是整个系统的总线,支持异步通讯和断忘映传。在这之上的业务托管层可视做所有业务的容器和管理平台,其中最重要的功能则是提供信息注册,以实现信息生产者和信息消费者之间的沟通。在业务托管层的边缘是信息网关,负责将业务数据按照标准协议转化成其他格式数据,以实现和其他系统(包括安全设备)之间的互联、级联。最上层的是具体的业务模块,它们的角色分别为信息生产者和信息消费者,其中信息获取可视做信息生产者,而分析则是信息消费者,响应是信息的二次消费者,也是最终消费者。
传统的AAR框架与面向服务思想的结合,使得这四个层次相对独立,互相之间实现了松祸合,并且因为托管平台也己成形,那么基于这一平台的响应业务插件的开发将会变得非常便捷,从而实现了面向服务和面向构件开发的核心理念随需而变。
同时也实现了系统的分布式结构设计,集中控制与多层管理。整个系统由检测系统、分析系统、控制系统组成,每个子系统都采用层次化设计,业务逻辑与通讯管理分层实现。一个控制系统可以管理多个分析系统,一个分析系统还可以同时支持多达五十个不同系统平台的检测系统。
3、切向结构
若从切面来观察该系统,新系统的关键脉络变得更加清晰明了,两条关键脉络包括:数据和命令,而且互相内部之间实现了高聚合、松祸合,提高了模块的独立化。这里的数据为狭义数据,主要包括了信息生产者向信息消费者提供的信息,而命令则是响应模块对于获取和分析模块进行配置、维护、管理所传送的信息。数据(包括报警数据和实时信息)始终是自下而上的,从被监控数据库采集出来,途经IAS,AES,最后到达MTS。而命令(控制)始终是自上而下的,其中一部分命令由MTS发起(因用户的操作发起或系统维护需要发起)途经AES,最后到达IAS;另一部分由AE发起(因系统维护需要发起)到达IAS。
二、系统工作原理
该系统是一种基于主机探测的实时自动攻击识别和响应系统,运行于有敏感数据需要保护内部网络中。通过采取主机监控的方式,获取用户的数据库操作信息。借助于自身内置的攻击特征数据库,识别违反用户定义的安全规则,进行应用级攻击检查。在寻找到攻击模式和其他违规活动时,可以进行如下反应:控制台告警、记录攻击事件、实时阻断网络连接,同时还可以根据需要对系统进行扩展,实现与防火墙等其他安全设备的联动。
信息获取、分析机以及控制台三个子系统三者之间的交互主要包括以下几个方面:
1、主机报警实现。探头启动之后,将自动实现对于探头所在主机数据库的监控,获取与数据库操作有关的信息,包括数据库操作的SQL语句、登陆的用户名、数据库主机名称、当前系统用户、操作结果(成功或者失败)等信息,并将信息格式化发送到分析机,分析机通过自身的信息规则分析系统,从这些信息当中分离出对数据库安全有危害的操作,并向控制台发送报警,控制台在接受到报警信息之后,由管理员发出对攻击源IP地址行阻断的命令。所发出的阻断命令由分析机转发给探头部分,由探头部分调用系统自身API函数,实现对于指定IP地址的拦截操作,从而有效的实现了对于数据库安全的保护,避免了被进犯的可能。
2、命令的下发。控制台对分析机以及探头进行控制,对它们进行维护更新,并通过查询的方式,获取探头以及分析机的运行状态。命令由控制台发出后,向分析机或者经分析机向信息获取部分传达,再分别由分析机以及信息获取部分的响应模块对命令加以实现。其中控制台所有下达的命令通过指定的端口进行传递,同时分析机以及信息获取系统的命令回复也是由同一端口向上传达。
3、数据的传送。探头、分析机以及控制台三者之间通过指定的端口进行数据的传送,所有发送的数据都进行了统一的格式化处理,以固定的格式进行传递。
参考文献
1、马应章.SQL标准发展概述[J].计算机应用与软件,2003,11:28-32。
第5篇:数据分析方向范文
关键词:大数据;数据挖掘;机遇;挑战
中图分类号:F27
文献标识码:A
doi:10.19311/ki.16723198.2016.21.032
而今,随着互联网、社交网的数据量不断增长,在大数据浪潮的冲击下,图书馆的IT应用也可借此加强数据建设,从而为图书馆知识服务创造更多的机遇,譬如构建业务建设的风险模型,或是对图书馆用户进行流失分析,甚至可以通过整合多维度大数据进行辅助决策。
1大数据的特性
1.1数量大
数据量已不仅仅局限于TB级,已然向着PB甚至更高级别的数据量迈进,呈指数型增长的数据量已无法用传统的数据处理方式进行分析存储。
1.2实时性
数据实时生成对数据分析模型提出了更高的要求,依赖于交互式、实时数据、建立实时的分析模型,通过分析挖掘数据背后深层次的需求增长或者对未来数据进行及时预测实时数据在大数据时代下意义显得尤为重要。
1.3多维度
大数据时代下,数据来源广泛而多样,不再仅仅局限于手工统计分析,而是可依据各类访问日志、检索记录、新闻媒体、影音视频以及社交软件等来源,具备结构化、半结构化甚至非结构化属性的数据,以及在多维度基础上获得一段时间内的数据形成的面板数据等。
1.4价值高
数据即是财富,也许单一的数据并无多大价值,但当庞大的数据将为我们提供更多更复杂的潜在信息,依据数据分析和挖掘技术,将会深入了解到数据背后的意义。
2大数据为图书馆带来的挑战
2.1存储能力及计算能力的挑战
随着大数据的飞速发展,数据来源增多,数据类型多样,数据采集技术的提高使得人们捕获数据能力也在稳步上升,各类结构化、非结构化的数据呈现出的复杂性吸引了众多研究者的目光,而大数据为基础的科学研究呈现出百花齐放的优良态势。有助于图书馆在此背景下向着新型知识服务的方向转变。而图书馆现有的数据储存技术以及数据分析技术显然难以跟上大数据发展的步伐。如何将分层分级存储架构的设计付诸实践以适应信息管理的需要,如何是数据不再受到现有计算能力能力约束,如何实现高通量计算机、高可靠性、高预测性等数据分析技术来对现有的大数据进行统计分析等问题,都是有待解决的难题。
2.2数据分析能力的挑战
大数据带给我们向着广度和深度发展的,已经突破了常规而传统的数据分析要求。大数据时代下的图书馆也需要通过数据分析了解知识服务的特点以及对未来的发展进行预测,从而应对可能发生的困境或机遇,因此,关联分析、趋势分析、神经网络分析、移动平均线分析等分析技术,可以为图书馆未来的发展创造一定的主动权。
2.3硬件设备的挑战
随着储存和计算规模的不断扩大,图书馆需要将高端服务器转换为中低端硬件构成的大规模计算机集群,从而支持非结构化的数据储存要求,同时需要有能够获取储存大规模数据的硬件并能够自动压缩、分层、删除重复数据等智能分析技术,并且有复制分块数据集到集群服务的网络设施以及具有保护性可保密性的软硬件基础设施。
2.4人员储备的挑战
对于现有的大多数图书馆员而言,大数据分析技术是一项全新的技术,他们并不具备相关的知识储备及分析能力,即便是具有一定的知识的图书馆员,可能有也缺乏实际应用的能力,难以将可挖掘的数据做持久化处理及深度分析。此外,随着图书馆数据量的增长,所能够真正分析使用的数据比例实际在降低,如果选择实用可靠的数据分析方法,提高可分析数据比例,真正将数据分析应用到知识服务的辅助决策中,是每一个图书馆员索要思考的问题。
3大数据为图书馆带来的机遇
3.1智能辅助
传统的信息检索模式依赖于用户所输入的检索词,通过检索功能将结果对用户进行反馈,而依赖于大数据的智能辅助功能则不仅仅只是被动的接收用户的检索要求,可以通过检索历史判断客户需求,从而主动推送相关信息给用户。通过对用户搜索行为数据的分析,发现客户的搜索习惯和搜索需求,并有针对性的进行推送,从而提高检索效率。
3.2用户流失及价值分析
随着硬件、软件局限性以及人员素质无法满足当前或未来的要求等问题约束了图书馆的发展,特别是在网络技术高速发展,信息量急速膨胀的今天,高校人员对于图书馆的存在价值进一步弱化,因此,如何能够通过利用大数据分析用户的需求、行为特点、使用习惯等来应对图书馆用户流失的现状,并且对于未来在交互知识服务中对于用户与图书馆使用方向发展态势进行预测,消除图书馆所面临的发展困境是值得每一位图书馆员研究的课题。
3.3引文分析及趋势分析
利用各类统计学的方法:如时间序列分析、相关分析、假设检验、聚类分析等方式,量化文献引用频率及行为,通过相互引证关系分析除了可以分析作者影响力或是文献重要性,还可分析学科之间的交互性以及信息来源分布特征,从而为各学科发展方向提供相应的规划依据。同时,图书馆作为文献集合的载体,可得到不同类型、不同信息要素之间相互引证的数据,从而为用户建立立体的引用分析,掌握全面的引证关系,即在广度上对于知识体系进行挖掘。此外,通过对于不同时间点的相同指标,可建立某些检索或引证的趋势曲线分析,便于用户了解检索的学术趋势或是学科的研究热点的历史变迁。从而发现不同学科、不同主题甚至不同机构的文献生长方向,在深度上挖掘相关的知识体系。
3.4知识服务及业务建设的风险模型构建
通过数据挖掘技术可构建图书馆信息安全风险评估模型,信息资源利用率评估模型、图书采购及使用率评估模型、知识产权风险评估模型等具有分析、决策等功能的数学模型来协助我们对于相关知识服务及业务建设的关键因素进行深入研究,同时可依据二八原则:即80%的效益由20%的关键因素决定,从而能够达到抓主要因素,促进图书馆有效发展的作用。
3.5知识挖掘及情报分析
通过引入先进的分析技术:如数据挖掘、索引规则等手段来对于各类文献数据进行深入分析,了解各类文献间的错综复杂的关系,揭示信息资源关联立体的知识体系,挖掘客户潜在的知识需求,从而提供精准的发现服务。此外,利用结构化和非结构化的数据,实现自动化、智能化的分析技术,获取动态化、知识化的情报,通过人机交互的方式及可视化的技术,帮助用户在一定的技术环境中查看分析结果,了解信息资源潜在的发展规律。
参考文献
[1]姜山,王刚.大数据对图书馆的启示[J].图书馆工作与研究,2013,(4):5254.
第6篇:数据分析方向范文
随着计算机网络和Internet的快速发展,高校的财务已经基本实现了会计电算化,会计人员从传统的手工核算模式已经过渡到了用计算机进行会计核算的模式,使会计人员从繁重的会计核算工作中解脱了出来,逐步实现了从核算性会计向管理性会计的过渡。目前,高校的财务部门已经积累了丰富的会计信息资源和一些人才储备,并在很大程度上提高了会计核算的效率,提高了财务管理的水平。然而,这些会计信息相对孤立,并没有形成系统的联系,没有很好地发挥出它应有的作用,没有很好解决会计分析和财务决策等重要问题。其主要原因不是会计人员的能力差和使用会计核算软件的效果不好,而是现有的会计信息系统本身所固有的缺陷,只注重了会计预算、会计核算和自动生成会计报表等功能,缺乏从多角度对会计指标进行详细的分析,同其他相关的管理系统也没有良好的接口。其缺陷主要表现在以下几个方面:
(1)数据缺乏可信性。比如领导需要某一部门人员的平均年收入的数字,不同的会计人员核算出来的数字可能会不同,这是因为要核算的数字不能从同一个数据源中取得,而且有些信息需要从外部数据源取得,也有可能存在数据算法上的差异,这是会计核算系统所解决不了的问题。
(2)生产率问题。在进行会计分析时,往往需要取多年的数据,在会计指标多的时候,生产率是相当糟糕的。比如领导要分析近四年的收入和支出情况,要完成这项任务,需要找到四年的报表来获取数据并分析数据,再编辑数据和进行对比分析,这就需要大量的资源才能完成。
(3)无法将数据转化为信息。在会计分析中,我们会问“今年的收入同过去五年中的各个年份有何不同?”这样的问题,会计信息系统不能准确地回答出该问题,这是因为系统并没有集成以往历史年度的数据。
为从根本上解决以上问题,必须建立同会计核算和财务管理相适应的一套新的系统,该系统不但能集成财务部门所需要的会计信息和与其相关的信息,而且能从多角度对会计指标进行分析,并能根据需要进行决策,方便财务部门的管理和领导查询和决策,提高财务的管理水平。该系统也就是被业界所称道的数据仓库。数据仓库是一个面向主题的、集成的、非易失的,随时间变化的用来支持管理人员决策的数据集合[1]。高校财务数据仓库是集成了财务信息的数据仓库,为财务管理进行决策的信息系统。
2高校财务数据仓库的内容和用途
根据高校财务管理要求,高校数据仓库应包括如下内容:
(1)会计核算信息,主要包括会计明细账、会计总账、科目代码、部门代码、项目代码、应收款明细账、应付款明细账和项目明细账等。
(2)人员工资信息,包括人员代码、工资项目代码和人员工资发放表等。
(3)学生学费信息,包括班级代码、学生信息、收费项目、收费学年、学生交费明细、学生应交费明细、学生欠费明细和学生交费总账等。
(4)学生奖贷助勤信息,主要包括学生奖学金发放表、贷学金发放表和勤工助学金发放表等。
(5)其它信息,主要包括国家的相关财政法规、高校财务管理和会计核算方面的制度和会计人员相关信息等。
高校的财务数据仓库的内容主要有以上信息,这些信息是随着时间不断变化和更新,并随需要进行动态的增加或减少,其变化完全取决于财务管理和决策者的需要。
从数据仓库的定义可知,建立数据仓库的最终目的是为了支持管理人员进行分析和决策,具体来讲,高校财务数据仓库的用途主要有以下几个方面:
(1)整合数据资源,方便师生和财务人员进行查询。财务信息是分布在各个相关的管理信息系统中的,教师和学生要查找相关的信息,必须连接不同的数据源,到不同的信息系统中去查询,不但查询的效率低,查询的命中率也很低,更有甚者不知道到那里查找自己所需要的信息,因此有必要整合数据资源,把财务的相关信息集中存放在数据库中,统一各异构数据库的基础信息代码,在此基础上建立财务信息查询平台,来实现对财务信息的集成的有效的管理。
(2)进行有效会计分析,提高分析效率与准确率。在高校财务管理中,经常要进行会计指标的比较和分析,不但要对学校的整体财务运行效率进行分析,而且要对学校的各二级学院的财务运行情况进行横向的和纵向的比较和分析,这些分析需要从不同的年度不同的信息系统提取相关的数据。从集成的、随时间变化的数据仓库中提取这些数据将会变得更加便捷和准确,例如我们要分析各二级学院的教师的近三年的平均年收入和学生的学费交费率,再到账务系统中提取各二级学院的三年来的平均人数(根本就不存在平均人数),再到账务系统中提取各二级学院的工资发放总额(在账务系统中,还需要财务人员累计各二级学院工资、津贴、奖金和其他补贴),再把计算出来的数字进行计算和比对,准备数据效率很低;计算各分院的学费交费率就更加困难,当年的交费率还可以到学费管理系统中取得和计算得到,前两年的交费率将无法获取,因为同它相关的基础数字并不存在。在数据仓库中做这些工作就轻松多了,只要在相关的事实表和维度表中聚集数据,便可自动取得所需信息。
(3)方便计算生均培养成本。数据仓库中已经集成了会计信息和学生相关信息,只要有适合的生均培养成本的计算方法,很容易构建出相关的事实表和维度表,计算生均培养成本也就比较容易。
(4)提高高校财务风险控制和财务预警水平。高校在办学资金筹集、教育经费的使用方面,都有了很大的自,高校的财务运行状况将必然存在风险,这就需要建立财务风险控制机制和财务风险预警系统,来化解与防范财务风险。高校财务数据仓库能同高校财务风险评价指标[2]有机的结合,高效率的对指标进行比对和分析,从而来防范财务风险的发生。
(5)为二级学院绩效考核提供基础数据。在高校的财务管理中,为提高资金的使用效益,往往会对各二级学院的财务运行情况进行绩效考核,考核的指标体系的建立和反馈,都需要会计相关的基础数据,从数据仓库中提取基础数据不但准确、效率高,而且结合考核指标,还比较容易得到相关信息。
(6)进行财务决策。财务数据仓库最大的优势是进行数据挖掘和财务决策,利用数据仓库,可以用决策树和聚类等算法来进行数据挖掘和财务决策,为制定相关财务制度提供依据,并可以分析相关财务制度执行的效果。
3高校财务数据仓库的建立方法
数据仓库主要有数据源、数据的存储、应用工具和用户界面等四部分组成。数据仓库的创建也是对这四部分用数据仓库的技术和体系结构来进行开发的,本文不再对高校财务数据仓库的创建进行详细讨论,它的具体创建过程已经在别的文献(如文献[3])里有详细叙述。本文只对财务数据仓库的建立方法进行阐述。
财务数据仓库是基于MSSQLServer2000创建的,它基本上采用了规范化的设计方法,采用了总线结构,有统一的事实表和维度表,使用星型和雪花型的数据结构,如图1所示的一个雪花模型。
数据结构创建好后,要把账务系统、工资系统和学费系统等中的相关数据经抽取、转换、清洁和装载等过程,导入到数据仓库中,其数据准备工作如图2所示。在数据装载到数据仓库时,不但要进行数据的转换,还必须注意基础代码的统一,如在图2中的三个数据库都存在部门代码表,该表的部门代码表示可能有所不同,在导入到数据仓库时必须做到代码统一。数据准备好后,便可以用工具软件如Excel、AnalysisServices等进行数据分析、数据挖掘和财务决策。
4高校财务数据仓库在会计分析中的一个应用事例
在财务管理中,财务人员经常需要分析各二级学院的经费使用情况,由于二级分院的经费都是使用项目来进行管理,所以在数据仓库中使用项目支出分析立方,其结构参见图1。从图1可以看出,财务人员可以从4个维度(时间维、科目维、部门维、项目维)来对二级学院的经费使用情况进行分析。可以分析各分院的经费组成情况、经费收入和支出情况、经费支出的分布情况(用科目代码分析经费在那些方面支出)和支出时间分布情况(经费都集中在何时支出)等,能从纵向和横向的角度来分析各二学院经费的使用效率。
在数据仓库系统中,后台服务器使用了SQLServer2000数据仓库,前端用Excel工具通过数据透视表服务来分析2004年和2005年各二级学院经费的使用情况。以下步骤将在Excel中实现一个数据透视表,向财务人员显示从立方中获取的数据:
(1)打开MicrosoftExcel。在数据(Data)菜单中选择数据透视表和透视视图(PivotTableAndPivotChartReport),启动数据透视表和数据透视图向导。
(2)在向导的第1步中,选择外部数据源以及要创建的是数据透视表;在步骤2中,单击获取数据按钮来定义要读取的数据源。Excel将自动启动MicrosoftQuery,并弹出选择数据对话框。选择OLAP立方选项卡,可以看到所有已经定义好的立方列表。选择新建数据源立方,出现新数据源对话框,在标识为1的字段中输入“项目支出分析”,在字段2选择MicrosoftOLEDBProviderforOLAPServices8.0[4]选项,然后单击连接按钮。
(3)出现多维连接对话框,允许分析人员建立OLAP服务器的连接,输入OLAP服务器的名称,单击下一步,并选择财务数据仓库数据,接着单击完成按钮。回到创建新数据源对话框中,在字段4中选择数据透视表使用立方,选择“项目支出”,单击确定按钮。回到选择数据对话框,选择已经建好的“项目支出分析”立方,单击确定按钮,回到Excel数据透视表和数据透视图向导。
(4)单击下一步,向导的第3步将提示分析人员选择显示数据透视表的位置,选择现有的工作表选项,单击单元Sheet1中的某一单元。
(5)单击完成,Excel就在工作表中上嵌入了一个新的空的数据透视表对象。同时显示透视表工具条和数据透视表字段列表。分析人员可以从字段列表中将项目拖放到数据透视表中,就可显示数据,用于分析了。
经过上述步骤后,生成了二级学院经费支出数据透视表,如图3所示。从图中可以看出管理学院几个学科的教学经费在2004年和2005年支出分布情况,上图显示的数据仅分析比较了办公费、毕业设计费、差旅费和学生实习费的支出情况,如果要分析比较其他科目支出情况,可以选择相应科目。从图3可以看出有4个维度,这4个维度可以根据需要任意组合,来分析各二级学院经费的支出情况。Excel还可以设置报告格式,自动生成报告,本例生成的报告如图4所示。
Excel还可以生成图形显示,来分析经费的支出情况,本例生成的图表如图5所示。可以根据比较分析的需要,可以选择不同的图形,以便更好地为分析服务。
第7篇:数据分析方向范文
关键词:大数据 金融业 优势 发展方向
互联网的飞速发展,导致相关数据量呈现爆炸式增长,海量数据将会为各大行业带来新一波技术红利。对于金融业这个对数据极度敏感的行业,数据运用的重要性不言而喻,能够高效运用海量数据的金融机构,必定会在未来的竞争中脱颖而出。
一、迎来大数据时代
伴随着互联网的飞速发展,大量数据正通过我们周围的设备不断产生,社交网络、在线购物、支付平台等等都在收集着数据。我们每天产生的数据量正在以指数级增长,2015年全球大数据储量达到8.61ZB,而今后十年,用于存储数据的全球服务器总量还将增长十倍。大数据正在以惊人的速度、数量和品种于各行各业中产生,大数据时代迎面而来。
作为又一个充满创新、竞争和生产力的高科技前沿,大数据以其多源、海量、异构的特性冲击着我们身边的每一个领域,已然成为继云计算、物联网之后信息技术领域又一次颠覆性的技术变革。对大数据合理、有效地运用不仅会改变生产和消费的商业行为模式,同时也会引起信息数据在数量、频度和运用等方面的巨大变革。通过对大容量数据的收集、整理与分析,发掘新的内容,创造出新的价值,带来“新知识”与“大发展”,大数据将开启一次崭新的、重大的时代转型。
二、大数据时代下金融业的优势
金融业作为一个与数据极度关联的行业,能够在当前环境中抓住机遇,积极适应大数据时代的金融机构将会得到更好的发展,进而实现自身竞争力。面对大数据时代,需要我们运用全新的逻辑与思维,以数据化的方法解决我们遇到的问题,运用大数据提升洞察力,拓展知识的广度与深度,进而帮助金融机构识别趋势并利用这些数据来获得竞争优势,创造可观的经济价值。就大数据时代而言,金融业具有得天独厚的发展优势,这主要源于以下三点:
(一)数据运用传统行业
金融业从最早的信用评级模型到后来的市场营销模型,直到现在的各类投资收益模型,近些年其对数据分析的实践操作经验将极大地辅助其向“大数据”分析跨越。
(二)相关人才集中行业
金融业作为一个信息密集型服务产业,其信息技术等部门拥有大量的IT技术开发与应用人才,并逐年增加对信息系统的投资力度,使得其对数据的挖掘、应用能力不断提升。
(三)数据收集多源行业
金融机构自身拥有大量结构化数据来源,如客户的账户信息、资金交易记录、证券交易记录等,与此同时还拥有网上银行交易记录、电商平台交易记录、证券投资收益曲线等非结构化数据。这些多维度的统计数据极大地便利了金融业对数据的挖掘,也体现出金融业强大的数据收集能力。
三、大数据时代下金融业的发展方向
大数据时代金融业的发展方向将发生巨大改变,需要金融机构迎合时代浪潮,以谋求长远发展,从而在新一轮的竞争中获得一席之地。对于金融机构未来发展方向的展望,本文归纳为以下五点:
(一)单一数据源向多数据源转变
对于传统金融机构而言,其数据来源大多为自身结构化的金融信息,如财务信息等,但在当前时代,金融机构的数据来源急速增长,引入投资者交易行为、客户评分、公共事业缴费记录等多方面、多维度的数据,从而可以更精确、更有效、更客观地进行分析评价。所以对于各金融机构而言,获取更多源、更强有效的关联数据变得越来越重要。
(二)基础数据分析向复杂数据分析转变
对海量数据的分析,不同于之前简单的数据分析,它需要更复杂的统计技巧来获得准确的结果。金融机构目前对于结构化数据的利用率较低,面对非结构化数据则更缺乏基本的处理机制和系统化的挖掘方法,所以加快建立大数据分析体系,充分挖掘数据资源价值,创建大数据时代新的数据分析方法,这将成为未来金融机构的数据深研方向。
(三)群体营销模式向个体营销模式转变
在大数据时代,通过对客户在社交媒体、多媒体终端等渠道产生的各类非结构化信息进行解析,金融机构可以将每一个客户数据化,进而可以为客户构建崭新的360度数字画像,分析粒度由群体精细为个体,从而可以分析个体客户需求,并及时提供与之匹配的金融产品和个性化服务,提升客户满意度。
(四)传统决策模式向数据决策模式转变
大数据使得决策模式发生转变,由传统的“基础数据+经验”决策模式向“数据证据”决策模式转变。大数据更强调决策建立在牢固的证据基础上。传统的决策模式依赖于简单数据分析和高层管理经验,而大数据时代全量数据分析使得分析结果更具客观性和决策支持性,所以金融机构未来的决策过程将会以数据为核心,围绕客观数据进行决策判断。
(五)传统风险评估向数据风险评估转变
大数据的运用使得金融机构的风险评估系统更加全面、客观。传统风险评估可能只是来源于对财务报表的研究,但是大数据时代下,金融机构可以利用企业的多角度关联数据进行参考评估,比如对于某家物流企业,银行可以通过第三方平台对其客户满意度、货物运输量、物流效率等方面进行了解,从而客观评价其经营状况。所以目前也有越来越多的股份制银行主动与阿里巴巴、腾讯等企业进行合作,进而以大数据思维建立起自己的新型风险评估体系。
四、结束语
大数据的时代已经到来,对于金融业而言,未来的发展势必聚焦在创新、复杂的业务方向,所以必须转变现有思维模式,重新审视自身核心竞争力,主动投身于互联网大数据,将大数据的收集与挖掘作为企业经营的核心资产,提高资源分配效率,从而使自身在未来的竞争中能够脱颖而出。
参考文献:
[1]雷晨宁.大数据时代金融业面临的机遇和挑战[J].商场现代化,2015(13):164-164
第8篇:数据分析方向范文
关键词:知识网络;结构分析;教学策略
中图分类号:G642文献标识码:A文章编号:1009-3044(2010)01-161-02
1 概述
数据库技术诞生于20世纪60年代末期,逐步发展成为一种计算机应用的专门技术,而今更成为现代计算机环境中理论研究和实用技术的核心组成部分。学习数据库课程的目的不仅要掌握其基本理论,而且要求能够用用现有的DBMS和数据库应用系统开发工具解决实际问题。由于数据库技术专业术语多,理论丰富,应用广泛,使课程的结构呈现出发散状态,对教师授课和学生学习都提出了严峻的挑战。
2 课程结构分析
通过分析研究大量中外教材(见参考文献)可以看出,该课程容量大,内容前后交错,重叠呈现,一方面根据基础理论、基本设计和系统管理构成了课程的纵向线条,另一方面在纵向线条的不同阶段不少知识点有重叠和递进,衍生出横向线条,使得课程内容形成复杂的知识网络。
2.1 纵向结构分析
该课程各种版本的教材中纵向结构大体基本相同。典型的情况是通常将数据库技术课程分成四大部分内容,每部分再分成若干章节。分析我国经典数据库教材萨师煊、王珊教授的《数据库系统概论》有以下的结构:
第一部分是数据库的基础理论,分成数据模型、关系数据库基础理论、数据库标准语言SQL、数据库安全性和数据库完整性五章。
第二部分是数据库的设计与应用,分成关系数据理论、数据库设计和数据库编程三章。
第三部分是系统管理与维护,分成关系查询处理和查询优化、故障恢复技术和并发控制三章。
第四部分是数据库新技术,包括新型数据库类别和高级应用。
有些教材将关系查询处理和优化放到第一部分,作为数据库的基础理论,同时将数据库的安全性和完整性放到第四部分,作为系统管理与维护的内容。分析这些章节所表达的意义,这样的安排都比较合理。
2.2 横向结构分析
该课程各种版本的教材中横向结构包括的知识点不尽相同,其中主要是由于国外的教材通常涉及到更多更细致的内容,各知识点在不同章节呈现的深度广度也不尽相同,分析典型的情况,包括的内容主要有:
1) 数据模型中对关系及其相关概念的概念使用描述的方法;在关系数据库理论中使用了关系代数的精确定义。
2) 数据完整性在关系数据库理论中使用描述的方法介绍了关系的完整性;在SQL中不强调名称地基于功能分类进行了完整性实现;在数据库可完整性一章中理论和实现上均进行了广义的扩充,系统管理和维护部分则把完整性作为其管理和维护内容的重要一部分工作进行了研究。
3) 关系数据库理论中的数据操纵使用关系代数来完成;在实际的DBMS中使用SQL完成;在关系查询的优化中以关系代数的实现过程为依据,以SQL的构造为实现方法构成了数据操纵从理论到实现,从实现到优化实现的完整研究。
4) 数据库安全性与完整性有类似的安排。
5) 作为关系中总最要的概念之一的码从数据模型一章开始引入;在关系数据库理论中详细描述码及其相关概念的含义;在SQL部分使用语言实现;在关系数据理论部分进行展开,一方面基于关系理论进行精确定义,一方面分析了各个不同码的概念的区别和意义,对后期内容中码的应用打下了坚实的理论和实现基础。
以上分析是主要的例子但并不完全,但从以上的分析已足以见该课程内容的丰富和繁杂。
3 课程教学策略与实践
1) 将课程由复杂的网络结构理清为线条清晰的纵向结构和横向结构。
2) 教学内容的组织原则是以纵向结构为主以横向结构为辅。即课程的讲授基本不打乱教材的章节次序,但讲课中渗透横向结构知识点的处理。
3) 分析并明确各横向结构知识点。整理出所有相关的知识点,明确它们在本课程中不同章节处出现时所承担的不同作用,所完成的不同功能。
4) 设计各横向结构知识点在各章节教学过程中的任务。安排各相关知识点在第几章的授课中具体讲什么内容,讲到什么程度。
5) 横向结构知识点讲课过程中要进行回溯。回溯要简明扼要。学生回忆起学过的内容,教师又同时不必消耗太多课时,温故知新,温故求新。
6) 横向结构知识点完成时进行总结,对进一步应用探索指明方向。
7) 明确学生在每部分学完需要掌握的知识点及程度并辅之以网络课堂,其中基本资料至少包括课件、作业和答疑,以提供给学生及时和持续的指导。
4 效果分析
经过几年的实践,数据库技术课程的教学达到了以下效果:
1) 将课程复杂的网络结构简化成纵向和横向两条线性结构,学生的学习由难趋易,明显降低了课程难度。知识点有打碎有融合。打碎是小化知识点,降低难度,融合是为了知识点的融会贯通和有效应用。
2) 将数据库理论和应用相互促进。横向结构保证知识点既在理论部分分析讨论又在应用部分基于某种具体的DBMS进行实现,知其然知其所以然,增强了学生学习的兴趣。
3) 实现了知识的顺利迁移。数据库理论是广谱的通用的知识点,这种DBMS的功能这样实现,另外的DBMS势必主要也包括了这样的内容,掌握了理论将方便学习和移植,把学习一个DBMS的方法迁移到另一个不同的DBMS上去。这个在学生毕业设计中得到了明显体现。课程实验使用SQL Server环境,毕业设计使用 Oracle 或 Mysql 或 DB2 等,通过自学,学生们顺利完成了任务。
4) 学生掌握了一种新的学习方法,从而增强了自主学习能力。沿着教材的纵向结构学习是一种本能,发现知识的横向结构、提取它,然后以此掌握知识的内涵并应用于实践则进入了学习的更高一层境界。这种能力,可以用于这门课程,当然也可以用于其它课程;可以用于学习功课,当然也可用于应用实践。
参考文献:
[1] 王珊,萨师煊.数据库技术[M]4版. 北京:高等教育出版社,2006.5.
[2] 黄德才.数据库技术及其应用教程[M]2版.北京:科学出版社,2006.8.
[3] C.J.Date. 数据库系统导论(An Introduction to Database Systems)(Seventh Edition)[M]. 北京:机械工业出版社,2003.
[4] Abraham Silberschatz, 等. 数据库系统概念(Database System Concepts)(Fifth Edition)[M]. 北京:机械工业出版社,2008.
[5] Patrick O’Neil,等. 数据库技术编程与性能(Database Principles, Programming and Performance)(Second Edition)[M]. 北京:机械工业出版社,2006.
[6] 叶小平, 汤庸,等. 数据库系统基础教程[M]. 北京:清华大学出版社,2007.
[7] 施伯乐,丁宝康,等. 数据库教程[M]. 电子工业出版社,2004.
[8] 陈志泊.数据库技术及应用教程[M]. 北京:人民邮电出版社,2002.
第9篇:数据分析方向范文
[基金项目]国家自然科学基金青年基金项目(81202776);国家“重大新药创制”科技重大专项(2015ZX09501004-001-002);中国中医科学院客座研究员联合创新研究项目(ZZ070817)
[通信作者]*谢雁鸣,研究员,博士生导师,研究方向为中医临床评价,Tel:(010)64014411-3302, E-mail:
[作者简介]廖星,博士,在站博士后,助理研究员,研究方向为循证中医药临床研究,Tel:(010)64014411-3302,E-mail:
[摘要]该研究旨在了解临床中苦碟子注射液(KDZ)不同使用剂量对肝肾功能指标:谷丙转氨酶(ALT)、谷草转氨酶(AST)、肾功能指标肌酐(Cr)和尿素氮(BUN)变化的影响,为KDZ临床安全用药提供有用信息。以全国18家三级甲等医院信息管理系统(hospital information system, HIS)为数据来源,15 228例患者作为研究对象,根据单次使用KDZ不同剂量分为2组,1 956例病人使用剂量>40 mL,55例病人使用剂量≤40 mL。运用generalized boosted models(GBM)倾向评分加权法,消除71个已知混杂因素在组间的差异,如年龄、性别、住院病情等,使结果更加贴近临床真实情况。同时使用3种不同logistic回归分析方法对比2组分析结果。通过分析发现2组人群肝肾功能指标均无统计学差异。根据目前数据未发现超说明书推荐剂量使用KDZ对肝肾功能产生影响,有待于将来前瞻性研究或更高级的混杂因素分析方法进行验证。
[关键词]真实世界;不同剂量;苦碟子注射液;HIS;倾向评分法
苦碟子注射液(KDZ)作为众多特色中药治疗药物之一,是目前临床上一种多用于治疗冠心病[1]和脑梗塞[2]的中草药提取物注射液。苦碟子注射液说明书上记载该药具有活血止痛、清热祛瘀的作用,且用于瘀血闭阻的胸痹,适用于冠心病、心绞痛脑梗塞患者,临床使用为静脉滴注,一次10~40 mL,每日1次。然而在临床上,患者的病情复杂多变,从而导致临床医生在使用药物时经常要调整药物使用剂量,甚至需要超出药品说明书的推荐剂量,在这种使用情况下,临床医生需要考虑药物对患者肝肾功能的影响,如何取舍是一个严峻的考验。在真实世界中观察中药注射剂超出说明书推荐剂量使用对肝脏功能的影响对于指导临床使用中药注射剂具有重要的作用[3-5]。本研究对源自于全国18家三级甲等医院的HIS系统中使用苦碟子注射液患者的住院信息进行分析,运用倾向性评分方法分析KDZ使用患者不同使用剂量对肝功能指标谷丙转氨酶(ALT)、谷草转氨酶(AST)、肾功能指标肌酐(Cr)和尿素氮(BUN)变化的影响,为KDZ临床安全用药提供有用信息。
1材料与方法
1.1数据来源与规范化数据来源于18家大型三甲医院HIS系统中的全部使用KDZ的住院患者信息,共有患者24 225位,共包括5个部分信息表:患者一般信息、西医诊断、中医诊断、医嘱记录、实验室理化指标检查[实验室指标信息系统(laboratory information management system, LIS)]。从中提取出具有谷草转氨酶、谷丙转氨酶、肌酐和尿素氮4个理化指标,同时年龄在18~80岁的患者,共15 228例作为分析对象。
在提取分析数据之前,对HIS和LIS数据库进行标准化,标准化的流程主要涉及剔除患者一般信息中的重复数据、信息表不一致的数据、无用医嘱记录、医嘱名称的标准化、中西医诊断名称的标准化、用药剂量单位的标准化以及理化指标检测值的标准化等。
前期针对47 001条完整有单次使用剂量的记录进行整体描述分析,按照剂量值将患者单次使用剂量分段:200 mL。其中以10~40 mL为最多,占86.82%;40 mL,占13.05%。
1.2数据分析定义和提取使用KDZ注射液前后7 d有2次ALT,AST,Cr和BUN检测者,若该时间段内有多次检测则取距开始用药前最近的1次检测与停止用药后最近的1次检测。若一个患者住院期间有多次使用KDZ注射液记录,则选择用药疗程最长的记录。根据数据库大描述分析定义:以单次用药剂量>40 mL作为1组人群提取标准,≤40 mL作为另1组人群提取标准。
根据上述3个条件针对4个理化指标提取分析人群数,见表1。
1.3结局指标以ALT与AST检测值高于该数据正常范围的20%作为判断其是否发生异常变化的依据。无论用药前ALT或AST正常与否,若用药前正常,但用药后异常,或者用药前异常,用药后更加异常,则记录该患者为“用药后异常变化”;用药后指标正常,则记录该患者为“无异常变化”;若用药前后都异常,但用药后异常程度减小,也记录该患者为“无异常变化”。
1.4混杂因素的界定根据提取的HIS数据的实际情况以及医学专业知识判断,考虑71个与分组变量和安全性结局(用药后4个指标是否异常变化)可能有关的混杂因素(协变量)。具体变量包括性别、年龄(分段处理)、医疗费用类别(医疗保险、公费、自费)、入院病情(危、急、一般)、住院费用、住院天数(危、急、一般)、是否超剂量、病危天数、病重天数、合并疾病(选取频率最高的前10种,以及合并其他疾病统一合并为1种,共11种)、合并用药(选取除KDZ以外的使用药频率最高的前50种,以及其他用药统一合并为1种,共计51种)。
1.5统计方法及统计软件描述性分析、CMH分层卡方检验、未使用倾向性评分加权的logistic回归、倾向性评分加权的logistic回归、带协变量调整的倾向性评分加权logistic回归。统计软件为SAS软件9.2版,R软件2.15版。
1.6分析流程图本研究分析流程图见图1。
2结果
将≤40 mL人群组定义为A组,而>40 mL的人群,定义为B组。对2组人群肝肾功能4个指标分别运用GBM倾向性评分方法进行分析。以下展示ALT在2组对比分析的过程。
2.1GBM倾向性评分方法分析以提取ALT结局不变化的数据为例,运用倾向性评分方法对71个混杂因素进行调整,并计算出K-S统计量和P,使得2组在协变量平衡后可比,见表2。
由表2可知,加权前后每个协变量均值无差异检验的具体P均有所调整,且调整后P没有统计学差异。其他3个指标:AST,Cr,BUN的倾向评分估计混杂因素重要性及其最后已平衡的比较,绝大部分协变量和用于分析ALT的变量一样,仅有个别变量在合并病和合并用药上有区别。
2.2倾向评分平衡后的分析4个指标2组间71个协变量进行倾向评分平衡后的分析见图2。针对4个指标各自71个协变量运用GBM倾向性评分方法平衡后(加权前后)P与均匀分布值的比较图。加权前,许多协变量在2组间有显著的差异。加权后,大多数协变量在2组间的差异不显著,P都沿着45度的直线即[0,1]均匀变量的累积分布分散开,这就似在一个随机对照试验中通过检验接受2组协变量无差异P服从[0,1]均匀分布一样。
2.3logistic回归方法本研究在倾向性评分GBM算法平衡混杂因素后,再考虑安全性结局和分组变量之间的关系。同时,对3种logistic回归方法进行了对比。3种分析方法为:未加权logistic回归,该方法不考虑协变量,其估计可能有偏倚; GBM倾向评分加权的logistic回归,通过倾向评分加权,可平衡大部分协变量,消除估计中的潜在偏倚,比方法一更准确;带协变量调整的倾向性评分加权logistic回归。有时,倾向评分方法并不能平衡所有的协变量,所以把这些协变量也加入到logistic回归模型中,可获得比上述方法更准确的估计。按照这3种方法对不同剂量使用组与肝肾功能异常变化的关系进行对比分析,以便从多个角度说明2组人群之间的差异性。3种估计方法针对4个指标估计出来的平均处理效应(即回归系数)见表3。其中,方法3选用的协变量为:丹红注射液和肺恶性肿瘤。结果显示,4个指标经过3种方法的对比分析发现,统计学上2组对比没有差异,也即从本研究方法的探索分析来说,不能说明是否超剂量使用KDZ会导致病人肝肾功能异常变化。
3讨论
3.1基于现有数据未发现不同剂量使用KDZ对患者肝肾功能异常变化有影响近年来,临床上对于使用KDZ发生不良反应(事件)的报道并不少见[6],但都没有针对肝肾功能指标异常变化进行特别研究。本研究为了使结果更加贴近临床真实世界,通过运用GBM倾向评分加权法消除了71个已知混杂因素在组间的差异,如年龄、性别、住院病情等对不同使用剂量(≤40 mL和>40 mL)是否会导致患者肝肾功能变化进行了探索,结果发现2组并没有统计学差异,而且3种logistic回归对比分析分析也无统计学差异。虽然不能说明不同剂量使用KDZ会导致肝肾功能异常变化,但是对于临床用药规范性而言,建议为了安全用药,应按照说明书提示的用药指针进行用药。
3.2GBM倾向评分加权法的优势本课题组近年来借鉴国外先进的研究理念和方法,充分结合国内的实际情况,与多学科的研究人员合作[7],针对上市后药物再评价研究,如基于大型医疗数据库的安全性再评价研究[8],运用统计学方法对真实世界海量数据进行分析。1983年诞生的“propensity score”方法[9],即倾向性评分方法(或称为倾向性指数),近年来越来越受到国内外医学研究者的青睐,该方法主要用于观察性研究中,特别是回顾性数据分析中混杂因素的控制[10-12]。本研究使用改良后倾向性评分方法进行数据分析,即GBM倾向评分加权法[13],该方法的优势在于可以产生带有较好概率估计校准功能的模型,GBM概率评估更为符合处理措施的实际概率估计。
3.3本研究的不足之处本研究属于回顾性观察性数据分析,因此存在诸多局限性,如不可避免地会出现各种偏倚和混杂因素,且人为选定的已知的混杂因素并不一定代表了所有的可控因素。虽然倾向性评分方法能够调整大量已知的混杂因素,但是却无法调整那些未知的混杂因素,因此来自于这种分析方法的分析结果及其论证强度不及前瞻性设计研究结果。其分析结果仅作为探索性展示,并不能作为确证性的研究结果。从本研究2组分析数据可知,2组样本数分布很不平衡,且考虑了71个之多的混杂因素,使得结果的估计方差会比较大,进而会导致检验的功效不会很高。因此,需要更大样本数据的分析才能够提高检验功效。
[参考文献]
[1]闫晓萍.苦碟子注射液治疗不稳定型心绞痛100例临床疗效观察[J]. 中国药物经济学,2013(5):263.
[2]刘姣,夏芸,路遥,等.苦碟子注射液治疗急性脑梗死的系统评价[J].北京中医药,2013(7):497.
[3]廖星,张辉,谢雁鸣,等.真实世界中苦碟子注射液不同疗程对肝肾功能指标变化影响的分析[J].中国中药杂志,2013,38(18):3084.
[4]姜俊杰,唐浩,谢雁鸣,等.基于医院信息系统的参麦注射液不同使用剂量对肾功能作用分析[J].中国中药杂志,2013,38(18):3060.
[5]黎元元,赵敏,谢雁鸣,等.参芪扶正注射液对肾功能影响的临床实效分析研究[J].中国中药杂志,2013,38(18):3031.
[6]高天,郑莉,郑行林,等. 苦碟子注射液药品不良反应(事件)观察分析[J].中药与临床,2012,3(4):41.
[7]Xie Y, Tian F. Regulations and guidelines should be strengthened urgently for re-evaluation on post-marketing medicines in China[J]. Chin J Integr Med, 2013, 19(7): 483.
[8]谢雁鸣,廖星,申浩.美国FDA“迷你哨点监测研究计划”的解读[J].中国中药杂志,2013, 38(5):768.
[9]Rosenbaum P R,Rubin D B. The central role of the propensity score in observational studies for causal effects[J]. Biometrika,1983,70(1):41.
[10]王永吉,蔡宏伟,夏结来,等.倾向指数的基本概念和研究步骤[J].中华流行病学杂志,2010,31(3):99.
[11]Dahabreh I J, Sheldrick R C, Paulus J K, et al.Do observational studies using propensity score methods agree with randomized trials? A systematic comparison of studies on acute coronary syndromes[J]. Eur Heart J,2012, 33(15):1893.