公务员期刊网 精选范文 数据分析方向范文

数据分析方向精选(九篇)

数据分析方向

第1篇:数据分析方向范文

【关键词】爸爸去哪,大数据,电视真人秀

1、概述

真人秀(也称真人实境秀、真实电视,reality television)一般是指以电视传媒为介质,通过举办某一类别的比赛活动,以从多名参赛者中选取最终获胜者为目的;同时,有着丰富的奖品,可以获得广泛的经济效益的电视节目。

2、大数据环境下的电视真人秀节目量产分析

尽管电视真人秀节目在荧屏上的收视率已经达到了一定的高度,但是从采编的实际角度上来分析的话,电视真人秀节目在现在的环境下如果实行量产的话仍然有一定的难度,综合分析主要包括以下四种原因:

2.1采编工作量大。《爸爸去哪儿》每一集都要有五组家庭参与演出,在每一集的游戏设计上,采编人员和导演组要进行多次的协同沟通,无论是从工作量上还是从信息量上都是很大的。尽管每一集的播出时长仅为120分钟左右,但是导演组要分别派出至少五组的采编人员跟随演员实景拍摄72小时。这与常规的综艺娱乐节目最多的2组采编人员现场工作1-2个小时比起来完全是一种“量化”的突破。

2.2后期制作繁琐。为了突出节目效果,才拍摄素材汇总完成之后,在剪辑的过程中要有大量的后期特效制作跟进,无论是画面效果还是工作量,在我国的电视荧屏上都是一次创新。如此大的信息量,让整个《爸爸去哪儿》节目的数据库信息完全达到了一个峰值。

2.3演员甄选难度高。第一季播出的成功如果是因为节目较为新颖的原因的话,那么第二季以后的节目在演员的甄选上也就相对的增加了很大的压力,因为按照广电总局的相关要求,对于这种真人秀的演员甄选要本着一定的原则来执行,因此尽管这个工作并不是采编人员要具体跟进的,但是在整个过程中,几乎每一个环节上都有采编人员忙碌的身影。

2.4社会效应和经济效果不成正比。《爸爸去哪儿》在播出的过程中,其实反映了当下的许多育儿教育方面的问题,因此引起的社会效应是十分轰动的,但是由于节目制作过程十分的繁琐,需要耗费大量的人财物来为其支撑体系的运转,因此就目前的情况来看,除了与之同名的电影节目的经济收益还较为明显之外,常规的电视节目其经济收益并没有太过突出。

3、大数据环境下的电视真人秀节目量产改进措施

每一集如此庞大的信息量,和相对不成正比的经济效益,给节目组,尤其是采编人员带来了巨大的工作压力,再加之节目前两季所取得的巨大社会效应,对于今后的节目制作而言,应遵从以下的几个改进方向:

3.1将节目大数据由量化管理向质化管理推进。前两季的成功,节目信息量的相对较为集中起了决定性的作用,如此大的节目数据如果仍然延续现在的量化管理模式的话,不仅仍然要增加采编工作人员的相对工作量,还可能因为节目效果的重复和同化让节目的收视效果受到冲击,因此,必须将节目的大数据从量化管理向质化管理进行改革。这种改革主要是将节目的全部信息数据由最初的后期集约化筛选向前期的质量筛选推进。所谓质量筛选是在减少固定摄影机位的同时,增加人工定位摄影机位,这样在表面上看起来是增加了摄影师的工作量,但是从实际的拍摄效果上来看,其实是减少了总体的节目素材累积量,因为对于固定机位而言,是长时间定位拍摄的,几乎是在演员到达拍摄现场之后就开始了,在演员离开拍摄现场之后才结束。而对于人工定位摄影而言,在需要采集素材的时候才开始拍摄,在不不要采集素材的时候是处于待机或者关机状态。这样在节目的后期制作上对于素材的审验就节省了大量的时间。

3.2采取商业化运作管理节目大数据。几百个小时的节目素材最终要浓缩到2个小时的实际播出节目中,其中海量的数据信息被浪费掉了,尽管这些数据信息中也有许多亮点内容和较为新颖的元素,但是仅仅是一个时间关系的问题就把其浪费掉了,这种情况无论是从节目的社会效应上还是从经济角度都是一种极大的浪费。如果采用一些商业化运作的模式来管理这些大数据的话,其实完全有很大的空间来改进。

首先,将大数据信息分类管理。前两季的节目不仅带来了轰动的社会影响,也催生了许多粉丝群的出现,对于这些粉丝群来说,相对应的偶像在拍摄过程中的信息是十分关注的,如果将一些没有正式播出的信息按照不同的演员主题进行分类处理,可以满足一些粉丝的需求。

其次,将分类信息商业化包装。毕竟粉丝群的影响力是有局限性的,而且也不一定带有太多的商业元素在其中,不过如果将这些经过分类处理的信息通过商业包装之后以单一演员的形式推向市场的话,那么对于广大的市场消费群体而言也会是一种拉动。

最后,将包装信息网格化销售。《爸爸去哪儿》是通过电视平台播出的,相关的数据信息如果再通过电视平台播出的话,并不一定能够再取得太好的收益,《中国好声音》的相关节目包装就是一个反面的教材,随着互联网技术和网络媒体的兴盛,如果通过点播平台和互联网媒体互动平台全方位网格化处理这些信息的话,可能要比单一的从电视平台上获取收益要强的多。

4、结束语

综上所述,在大数据环境下,如果让电视真人秀节目实现量产,达到社会效应和经济效果双丰收,其核心在于将采编工作从策划开始就实行团队协同合作的方式。这种方式能够将海量的数据分析细化到每一个节点上进行处理。从而让电视节目效果达到最佳状态。

参考文献:

[1]张洁意.职场真人秀节目核心元素分析――以江苏卫视《职来职往》节目为例[J]. 今传媒.2012(12)

第2篇:数据分析方向范文

关键词: BI&A3.0 管理科学与工程专业 研究生培养

在过去的二十年里,商务智能与分析(Business intelligence and analytics,BI&A)与大数据相关的分析随着大数据的发展在工业界及学术界变得越来越重要。来自于Bloomberg商业周刊的报道(2011)显示,97%的超过1亿市值的公司使用了商务分析技术。据麦肯锡全球机构预测,到2018年,仅美国一年就会面临14到1万人的深度分析技术人才的需求,同时约有150万数据分析经理的缺口[1]。

“智能”一词自20世纪50年代被人工智能方面的研究人员提出并沿用至今。而商务智能(Business intelligence)则随着信息技术的发展在20世纪90年代被企业界和学术界熟知。自2008年大数据的一系列论文在NATURE上发表,大数据分析技术已被应用到从文本、计算机日志、传感器、社交媒体等产生的大量非结构化、体量巨大、类型繁多、价值低密度、要求快速处理的大数据。BI&A经历了BI&A1.0,BI&A2.0和BI&A3.0的演进。他们分别对应面向基于关系数据库的结构化数据、基于web的非结构化数据、基于移动及传感器的非结构化大数据。因此,BI&A3.0是面向大数据分析的新兴领域。

BI&A3.0面向大数据可能产生的巨大影响,它涵盖了电子商务及营销智能、电子政务及政治2.0、科学与技术、智慧健康、安全及公共安保等方面。涉及的技术领域包括大数据分析,例如统计学习、序列及暂时挖局、空间挖掘、过程挖掘、网络挖掘、web挖掘、基于列的数据库挖掘、内存数据库、并行数据库、云计算、Hadoop、Mapreduce,文本分析,例如静态NLP信息抽取、主题模型、问答系统、选项挖掘、情绪及影响分析等。除此之外,还包括web分析、网络分析、移动分析等大的技术分析方面。因此,BI&A3.0是未来管理科学与工程专业研究生培养的重要基础和研究热点。

BI&A3.0的发展和应用对管理科学与工程硕士研究生的培养提出了挑战。主要表现在以下几个方面,BI&A聚焦于理解、解释、战略并服务于组织。一些学科对BI&A的发展作出了贡献,例如信息管理、计算机科学、统计学、管理学和市场营销学。

然而,目前的课程体系设置相对于商务分析技术及大数据的发展来说较滞后。虽然大部分学校针对学生的研究方法及研究能力的培养开设了一些BI&A课程,例如复杂系统分析与决策、随机过程、应用统计学、矩阵分析、Matlab、现代管理分析技术等。这些课程的设置对于面向大数据的BI&A3.0的研究及应用来说尚有差距,缺乏系统性和前沿性。因此,面向BI&A3.0的研究生课程体系改革具有一定的现实意义及急迫性。

1.教学研究的内容及实践内容

围绕如何培养面向大数据及BI&A3.0数据分析及研究能力进行课程体系改革研究。借鉴国际国内针对从BI&A1.0到BI&A3.0的知识体系及技能相关的教学改革,注重管理科学与工程的专业内涵。

(1)教学研究的内容

①对国内和国际当前的面向BI&A3.0大数据分析能力培养的知识体系及技能进行梳理。

②对本校管理科学与工程专业主要的研究方向进行梳理,调研面向BI&A3.0大数据分析的具体能力和层次要求。

③结合国际国内面向BI&A3.0的知识及技能体系与本校管理科学与工程主要的研究方向,提出面向BI&A3.0的管理类研究生课程体系改革的具体方案,包括课程设置、教学方式、考核方式、教学目的与要求。

(2)实践内容

通过设计与理论相配套的课程实验、研讨与课程内容密切相关的科学问题、及时追踪研究热点,使得实践环节成为提高研究生BI&A3.0创新和研究的推动器,同时也提高学生在实践方面的兴趣和动手能力。

2.教学及实践改革的目标

(1)教学目标。通过建立面向BI&A3.0的管理类研究生课程教学体系,使得研究生掌握BI&A3.0的基本知识体系、知识网络、基本研究能力,并最终培养研究生掌握面向BI&A3.0的创新能力。

(2)实践目标。通过培养学生面向BI&A3.0的实践技能,培养研究生面向BI&A3.0的实践能力,包括文献检索能力、借助计算机的分析能力、数学建模能力、数据收集能力。

3.课题研究要解决的问题

围绕面向BI&A3.0的管理类研究生课程体系的建设,本课题将要解决如下问题:

(1)如何划定面向BI&A3.0的分析及计算机技能。面向BI&A3.0的分析及计算机技能涵盖的面十分广泛,本校管理类研究生所依附的学科方向及研究重点决定了这些技能需有选择地纳入。因此,需要解决具体纳入哪些分析及计算机技能的培养。

(2)如何结合研究方向与BI&A3.0的应用。培养面向BI&A3.0大数据分析能力的目的是将BI&A3.0大数据分析应用到具体的研究方向。物流、市场营销、工程管理、运营管理等方向的研究需要将这些领域的知识和BI&A3.0的应用结合起来才能达到培养的目的。

4.拟采取的方法

(1)借鉴国内外先进的BI&A3.0教学教改经验。对国际和国内BI&A3.0相关的教学教改文献进行分析,并参加相关的国际国内会议,与国内外同行进行交流学习。

(2)对本校管理类研究生现状及改革反馈进行调研。通过以往教学实践的总结、专家学者的讨论、课题组集体研究的方式,调研适合本课程体系服务学科专业的研究生课程教学内容、目标、方法与手段。

(3)对企业界进行调研发掘BI&A3.0实际应用能力的需求。通过对企业界进行调研,发现潜在的BI&A3.0应用方向。通过这些方向的发掘弥补课程体系设置的不足。

自2008年NATURE发表的一系列大数据相关论文,到2012年,美国《大数据研究和发展计划》,成立“大数据高级指导小组”,再到2015年,我国提出国家大数据战略,针对大数据分析的BI&A3.0是十分前沿的。本项目将本校管理类研究生数据分析能力培养和BI&A3.0发展的大趋势结合起来,具有前沿性、现实性和急迫性。

第3篇:数据分析方向范文

关键词:信令分析;重定向;用户感知

中图分类号:TN929 文献标识码:A 文章编号:1009-2374(2013)09-0040-02

1 信令分析定义

(1)信令是建立通信的前提,信令就像网络的脉搏一样,通过对信令的分析可以洞察到网络中存在的问题,从而快速有效地进行问题定位;通过信令分析我们还能方便灵活地对网络的性能指标进行统计,准确而客观地进行网络评估;并且通过信令分析我们还能解决一些日常优化手段不能解决的网络疑难问题。

(2)信令分析过程包括信令的采集和信令的后台处理两部分。目前的信令采集工具较多,如泰克K15、InterQuest、中创信测仪表、安捷伦仪表等,它们都能实现在Abis口、A口、Gb口、Gn口等采集信令数据。信令后台分析工具如M-TRiX,它能处理目前大部分信令采集工具采集的数据,并支持多接口数据的分析。

2 数据业务信令分析与传统分析方法优势对比

信令分析是对通讯设备之间海量信令数据的一个处理、统计、分析的过程,通过对各个协议接口单独或联合分析,可以对网络承载能力进行评估,可以快速准确定位故障所在位置,可以对终端和SP进行分析,可以进行用户行为分析等等。因此,信令分析是当前端到端网络优化方式的重要手段,和传统的网优分析手段相比,信令分析具有很大的优势:

2.1 面向信令流程与网络现状

以信令作为分析基础的信令分析方法,一方面针对数据业务应用层、传输层、底层链路层展开分析,利于准确定位用户问题;另一方面准确评估网络现状,还原最真实的网络性能。

2.2 贴近用户感知与应用状况

传统网优分析的数据源是后期模拟用户行为获得的,不能代表用户当时的网络环境。信令分析的数据是用户当时行为的真实网络数据,当发生故障时,可以快速回放当时的信息,准确定位故障。

2.3 分析的深度和广度结合

一方面,信令分析方法以多接口串联分析和信令跟踪提高我们优化分析的深度,深入挖掘网络问题;另一方面,接口信令,如Gb口、IUPS口等信令接口涵盖了全网用户交互状况。准确而灵活的信令分析方法利于实现点与面、深度与广度的结合。

2.4 用户信息的深入挖掘

海量的接口信令中蕴含了丰富的用户应用信息,如果能充分利用挖掘,信令分析可以成为市场及客服部门进行业务推广有力的信息支撑。

3 信令分析思路

信令分析优化方法具体的流程如下所示:

其中关键的步骤如下:

3.1 采集数据

采集数据是使用专业的工具或软件进行通信网络接口的信令数据的收集或镜像,并不会影响现网正常运行的信令交互或信令接续。根据信令接口的情况可使用相应的信令分析平台。目前的信令采集工具较多,如泰克K15、InterQuest、中创信测仪表、安捷伦仪表等,它们都能实现在Abis口、A口、Gb口、Gn口等采集信令数据。对于软交换的信令接口,可以通过镜像的方法进行分流采集。

3.2 数据整理入库和信令追踪

信令中蕴含丰富的用户及终端信息,这里以终端支持能力等基础信息分析为例。用户终端支持能力信息可通过用户ATTACH、DETACH、PDP激活、PDP激活和RAU流程分析提取。在ATTACH信令流程中,Attach Accept信令会含有用户终端的支持能力。当UMTS FDD Radio Access Technology Capability为supported时,表示终端支持WCDMA网络。同时,Attach Accept作为在下发的GMM层信令,会带有用户的IMSI及LAC等信息。因此通过Attach Accept信令可以获取需要的信息。同理,在PDP激活流程中的Activate PDP Context Accept信令、PDP激活信令流程中的Deactivate PDP Context Accept信令、Detach激活信令流程中的Detach Accept信令中,同样包含了上述需要的用户信息。

3.3 筛选分析数据

将上述用户信息整理导入数据库,在数据库中进行二次处理,可分析得出分析结果:对入库的信令数据进行分析,进行各类专题的数据挖掘;对信令数据筛选、过滤、串联,进行问题定位及解决方案设定。

4 基于信令分析的2/3G优化案例

在分析数据业务用户的投诉中发现,WAP门户网站重定向成功率很低,只有3.11%。追踪用户上网流程,发现重定向至GX165的初始网址99.54%都是xin668。该类用户平均每6分钟发起一次请求,并进入10次的递归重定向,每次请求约20秒,占小区总上网时长8.90%,较大地浪费了无线网络资源。追踪用户的信令流程,可以看到如图2所示的界面:

(1)用户将自己的业务请求发往WAP网关(10.0.0.172),同时,将自己真实的URI地址封装在X ONLINE HOST字段内(.cn:80)。

(2)WAP网关防火墙收到用户的请求,将X ONLINE HOST字段中的真实URI地址提取出来,发往WAP服务器。

(3)WAP服务器收到用户的请求,发现该网址需要进行重定向,于是反馈真实的URI给用户()。

(4)用户收到服务器回应,重新发起业务请求,URI设定为,但是X ONLINE HOST字段并没有修改(仍然为.cn:80)。

(5)WAP网关防火墙收到用户的请求,将X ONLINE HOST字段中的真实URI地址提取出来,发往WAP服务器,即仍然为.cn:80。

(6)WAP服务器收到用户的请求,发现该网址需要进行重定向,于是反馈真实的URI给用户(),进入递归重定向死循环。

上述原因主要是因为用户的终端没有按照协议规范回应的重定向地址对X ONLINE HOST字段进行修改,导致进入重定向递归死循环。要解决该问题,可在Proxy处修改策略为:将垃圾网址http://.cn*加入黑名单(仿照不良网站的处理方法),消除递归重定向的起源。此方法可以消除最高重复10次的递归重定向,等效于减少90%的无效访问次数,将平均一次占用时长21.05秒缩短至0.11秒,大大节省了网络资源和用户手机电池功耗,且不会影响用户感知。

5 综述

信令中存在着异常丰富而真实的信息,信令分析是网络优化中的一柄利器。如果能充分利用信令分析的信息源的优势,在网络问题定位上有重要的价值。本文从信令分析的特征及思路出发,讨论了信令分析在2/3G网络数据业务优化中的实践意义,如基于信令分析的WAP门户网站重定向疑难问题定位,从实际应用中阐述了信令分析的创新性应用案例。

参考文献

[1]韩斌杰.GSM原理及其网络优化[M].北京:机械工业

出版社.

[2]王立宁.WCDMA无线接入网原理与实践[M].北京:

第4篇:数据分析方向范文

房地产投资环境属于城市投资环境的子系统,纵观国内外学者建立的各种投资环境评价方法,现阶段用的比较多的方法有:灰色关联分析法(邓聚龙,1988),层次分析法(SAATYTL,1908),模糊评判法(CHUATW,1979),人工神经网络法(HECHT-NIELSENR,1987),物元分析法(蔡文,1994)以及投影寻踪法(FriedmanJH,TukeyJW,1974)等.其中灰色关联分析法、模糊评判法、物元分析法是主观分析方法,在此类方法的应用中主要由人为的根据经验确定各个指标的权重,因此其评价结果具有一定的人为随意性;人工神经网络方法能够消除评价过程中的人为随意性,但是其学习训练需要相当多的样本,况且还容易陷入局部极小点,因此不便于推广应用;投影寻踪方法能够将高维数据转变为低维数据,通过低维空间数据来分析高维空间数据,但是其中的密度半径窗口参数需要根据经验来确定,其评价结果仍然带有一定的主观性;当然也有一些经典的传统降维方法能够利用指标数据信息对投资环境做出较客观的评价,比如主成分分析法和因子分析法,但是此类方法是从众多指标中提取少量指标来反应样本信息,使得样本的信息损失量较大,同时对样本数据也有严格的要求.投影寻踪动态聚类模型依据动态聚类思想来构建投影指标,完全依靠样本数据自身特性根据投影指标来寻找投影向量,利用投影向量将高维样本数据投影到低维数据,然后通过研究处理低维数据达到研究高维数据目的,同时实现样本数据的排序和自动聚类分析.投影寻踪动态聚类模型已经在洪水灾害管理、气候分区和区域水安全评价等领域的多元数据分析中取得了一定的应用.本文将投影寻踪动态聚类模型应用到房地产投资环境评价中,以期为房地产投资环境评价提供更多的方法论。

2实例研究

为了验证投影寻踪动态聚类模型在房地产投资环境评价中的适用性,下文将进行实例研究.考虑指标数据的易获得性,以辽宁省工业地产的投资环境分析为例.张军涛和刘建国利用主成分分析法筛选了影响辽宁省主要城市投资环境评价的主要指标,之后利用聚类原理对数据进行了聚类分析;杨建喜和宋永发利用基于遗传算法的投影寻踪方法将高维数据降维到低维数据,然后利用雷达图对投影特征值进行聚类分析,研究了辽宁工业地产投资环境的排序.以上两篇论文中使用两类不同的方法得到了类似的排序和聚类结论.本文的研究以此为基础,通过投影寻踪动态聚类模型进行辽宁省工业地产投资环境评价,然后与文献的结论进行比较,以检验投影寻踪动态聚类模型的适用性.工业地产是区别于住宅地产,商业地产和综合用地以外的工业性质的房地产.影响工业地产投资环境评价的因素众多,参考文献从社会文化环境、基础设施环境、经济发展环境、工业发展环境4个方面选择36个指标对辽宁省14个地级市的工业地产投资环境进行分析评价。首先,确定辽宁省工业地产投资环境的分类数,这里参照文献的分类,将整个样本分为3类。同时得各个城市的投影特征值,投影特征值排序以及投影特征值聚类结果。最后,将本文的分析结果与文献的分析结果进行对比。所得排序和分类结果与用投影寻踪分析方法和用主成分分析方法基本一致,验证了本模型在房地产投资环境评价中的适用价值.但与文献中的基于遗传算法的投影寻踪算法相比:克服了需要根据经验来确定投影指标函数的密度窗口半径参数和对投影特征值要借助雷达图进行聚类再处理的过程;与文献的主成分分析方法相比:投影寻踪动态聚类模型能够更多的利用原始指标信息,使得出的结论可能更加客观可靠.同时投影寻踪动态聚类模型在对数据的排序过程中自动输出聚类结果,不需要再借助其他方法进行聚类分析.这具有文献中所用方法无法比拟的优势.在同一聚类数据中,个别数据的排序结果与文献中结论稍微不一致,这主要是由于在用遗传算法求解时每次生成的单位投影向量带有一定的随机性所致。

3结语

第5篇:数据分析方向范文

(一)税收分析目标取向需要调整扩大现代意义上的税收分析,是全方位和多角度的分析。实际工作中,在收入导向型的组织收入观念和任务考核机制还较为突出的背景下,还没有完全突破因循守旧的思维旧框,没有跳出简单地就税收看税收的旧思维,往往更关注税收与税源、税收与经济分析,缺乏由单一需求向着满足多维度要求转变的意识。对诸多因素影响税收变化的深度揭示反映不充分,带有规律性、特殊性的分析模型或指数等还没有充分建立,一些分析评估借鉴意义不强。尤其是在对税收收入质量分析、税收政策效应评估、征管主观努力程度评价、税收景气指数制定等方面还存在不足。

(二)税收分析工作机制需要不断完善税收分析工作属于分层级分部门管理体制,系统化、全局化能力要求较高,需要各层级和各部门之间纵向与横向协同配合。从目前工作状况看,税收分析纵向运行相对顺畅,税务总局基本能够指导或协同省级税务机关开展各项工作。但由于市级以下税务机关及基层单位的税收分析基础工作仍显薄弱,现代化分析理念和手段运用不足,分析方式方法不多,缺乏应有的深度,不能很好地适应上级工作安排,对全局性工作任务有时产生不力影响,削弱系统上下整体联动税收分析工作力度。横向协作稍弱,部门合作意识有待强化。根据部门职责定位,税务机关业务部门各有分工,开展的工作各有侧重,但都属于税收工作整体一部分,相互之间存在有机联系。由于当下部门之间还不同程度存在着狭隘的部门意识,形成的界限隔阂使得部门之间、各业务环节之间未能有效衔接融合,没有形成很好的分工协调机制,统一性、统筹性不足,造成税收分析数据平台分散,数据庞杂,共享程度较低,分析内容既有重复也有遗漏,缺乏深度应用等问题。

(三)税收分析的数据基础建设亟待加强近年来,税务部门通过信息化建设,以及一系列征管改革举措,积累了海量的涉税数据信息,形成税务部门服务经济社会发展的数据资源优势。但从现行税收分析数据管理和应用状况看,还存在一些不足。一是税收分析指标体系不健全,未形成一个科学、系统严密的数据体系。一方面,数据指标项目设置不全、数据统计不够完整。目前税收征管工作的一些内容未完全纳入数据收集体系,部分基本数据项目缺失,特别是统计数据分类分项目划分不够细致,还不能做到最小化,难以获取税收管理所需的完整信息,影响综合分析效应。另一方面,用于分析的数据项目之间缺乏有机结合,其具有对应关系的具体项目数据往往采集不全,使各指标之间的对应关系断裂,不能做到前后呼应,彼此衔接。二是数据质量管理不严,数据不准。由于各部门数据需求多样,数据指标口径不统一,采集标准要求不一,存在数据需求过多过散过乱的问题,形成一些数据指标同名异义、同义异名,数出多门、口径不一的局面,影响了税收分析的质量和效率。三是由于税务系统全国数据大多集中整合不够,数据管理机制落实还不到位,数据监管技术系统尚未健全,数据的非正常扭曲现象尚存,都会影响到税收统计数据的真实性。

(四)税收分析人才队伍建设需要加大力度目前,税收分析队伍人员不足、素质不齐等问题比较突出。税收分析作为一项综合性业务,需要集税收业务知识、计算机技术应用能力、数据分析应用技术于一身的高素质税务人员。就当前税务系统来说,具有综合素质和专业能力的税收分析人员普遍缺乏,特别是基层分析队伍的专业化和综合程度总体与需要存在较大差距。另外,专业化人才的培养和激励机制尚未建立健全,队伍活力不足,亟待强化专业知识、业务技能培训和健全队伍建设机制。

二、建立健全税收分析机制的建议

进一步深入推进税收分析工作,既需要立足税收自身,围绕税收现代化建设的总体要求,做好税收分析工作,更需要跳出税收之外,开拓思路,打破常规,创新方法,建章立制,逐步建立科学的税收分析机制,不断提高税收管理水平。

(一)开拓思路,树立全面税收分析思维树立税收经济思维。从税收角度观察和反映经济运行状况,把握经济发展方式转变进程,折射经济社会发展中值得关注的问题,为各级领导决策服务,为经济社会发展大局服务。树立税收风险思维。通过对税种、行业、地区等维度的差异性分析,查找收入风险点,提升堵漏增收水平。树立开放性思维。拓宽税收分析视野,从税收角度观察世界经济形势,跟踪国外宏观调控走向,准确分析国际经济政治态势对我国经济税收发展的影响。树立大局意识。破除狭隘的部门意识,树立整体观、大局观,形成部门之间、系统上下、单位内外通力合作的税收分析工作格局。

(二)创新方法,突破税收分析手段限制一是要不断健全税收分析指标体系,注重收集和整理税收经济分析工作中已经采用的分析指标,丰富和完善适应各类税收分析新要求的税收分析指标,科学组合各指标之间的对应关系,形成一个科学、严密的逻辑体系。二是要建立科学的税收分析模型,提高分析模型的可读性、开放性和实用性,形成税收分析精品。三是要掌握先进税收分析工具,在不断完善和改进传统分析工具的基础上,尤其应尽快掌握数据挖掘分析技术,提高对税收大数据金山银矿的开采能力,丰富税收分析的内容和深度。

(三)明确分工,建立税务系统税收分析联动机制深入推进税收分析工作,要树立全系统一盘棋思想,通过在系统范围内的整体性安排,建立起各层级各部门横向互动、系统上下联动的税收分析运行机制,充分发挥各层级和部门的优势。同时,明晰部门岗位任务,构建职责明确、协同紧密的税收分析工作运转体系。一是建立纵向分层管理机制。明确各级税务机关的数据应用管理职责和分析重点。省局级以上着重宏观税收经济分析以及重点区域、重点行业分析,负责开发系统性的分析应用软件,确定制度规范和业务流程等工作。市局以下着重基础数据资料的采集,开展中微观税收税源分析,查找征管漏洞和薄弱环节,负责相关计算机系统维护工作以及上级税务机关布置和推送的工作任务。二是建立横向分工协作机制。明确各职能部门具体分工,部门间既有分工侧重,又需通力合作,形成分析合力。尤其加强规划核算、相关税种管理、税源管理三大税收分析工作主体的横向联动。三是建立信息交流共享渠道。通过搭建共享平台、广开渠道的方式,提高各类税收分析工作的交流力度和应用成效,促进系统上下共同进步、共同提高。

(四)建章立制,完善税收数据管理体系一是从源头抓好数据质量。在税收数据采集管理方面,规范数据采集标准,明确数据定义和来源,统一数据指标口径,确保数据准确,概念明确,口径统一。二是在数据质量管理方面,从数据采集、数据传输、数据应用等各环节,对数据进行审核,建立信息系统异常数据检查、清理的工作机制,实现数据的完整和准确,切实提升数据质量。三是整合数据分析应用平台。由税务总局层面开发界面友好、操作方便的数据综合查询平台,在保证数据安全的基础上,开放扩大查询使用权限,以充分发挥大数据优势。四是进一步整合目前各级单位和部门购买或掌握的第三方数据,及时整理上传,一并放在数据综合查询平台,供全系统使用,推进数据的共享共用。

(五)注重培养,加强税收分析专业队伍建设一是要注重培训提升和实践锻炼。进一步健全培训机制,建立多层级培训体系,充分利用系统内外资源,扩大培训规模,提高培训质量,提升税收分析人员的专业理论素养。税收分析工作不仅需要理论知识,还强调分析应用的实际工作能力。注重实践锻炼提升,给予税收分析人员在不同岗位锻炼机会,提高分析解决实际问题的能力。二是合理配置人才资源。根据税收分析工作中不同管理层级和工作目标需求,做好人员整合与分工。通过人力资源优化配置,形成合理的专业人才分级使用机制,切实加强业务核心部门力量,进而提高税收分析专业队伍整体工作能力。

第6篇:数据分析方向范文

随着计算机网络和Internet的快速发展,高校的财务已经基本实现了会计电算化,会计人员从传统的手工核算模式已经过渡到了用计算机进行会计核算的模式,使会计人员从繁重的会计核算工作中解脱了出来,逐步实现了从核算性会计向管理性会计的过渡。目前,高校的财务部门已经积累了丰富的会计信息资源和一些人才储备,并在很大程度上提高了会计核算的效率,提高了财务管理的水平。然而,这些会计信息相对孤立,并没有形成系统的联系,没有很好地发挥出它应有的作用,没有很好解决会计分析和财务决策等重要问题。其主要原因不是会计人员的能力差和使用会计核算软件的效果不好,而是现有的会计信息系统本身所固有的缺陷,只注重了会计预算、会计核算和自动生成会计报表等功能,缺乏从多角度对会计指标进行详细的分析,同其他相关的管理系统也没有良好的接口。其缺陷主要表现在以下几个方面:

(1)数据缺乏可信性。比如领导需要某一部门人员的平均年收入的数字,不同的会计人员核算出来的数字可能会不同,这是因为要核算的数字不能从同一个数据源中取得,而且有些信息需要从外部数据源取得,也有可能存在数据算法上的差异,这是会计核算系统所解决不了的问题。

(2)生产率问题。在进行会计分析时,往往需要取多年的数据,在会计指标多的时候,生产率是相当糟糕的。比如领导要分析近四年的收入和支出情况,要完成这项任务,需要找到四年的报表来获取数据并分析数据,再编辑数据和进行对比分析,这就需要大量的资源才能完成。

(3)无法将数据转化为信息。在会计分析中,我们会问“今年的收入同过去五年中的各个年份有何不同?”这样的问题,会计信息系统不能准确地回答出该问题,这是因为系统并没有集成以往历史年度的数据。

为从根本上解决以上问题,必须建立同会计核算和财务管理相适应的一套新的系统,该系统不但能集成财务部门所需要的会计信息和与其相关的信息,而且能从多角度对会计指标进行分析,并能根据需要进行决策,方便财务部门的管理和领导查询和决策,提高财务的管理水平。该系统也就是被业界所称道的数据仓库。数据仓库是一个面向主题的、集成的、非易失的,随时间变化的用来支持管理人员决策的数据集合[1]。高校财务数据仓库是集成了财务信息的数据仓库,为财务管理进行决策的信息系统。

2高校财务数据仓库的内容和用途

根据高校财务管理要求,高校数据仓库应包括如下内容:

(1)会计核算信息,主要包括会计明细账、会计总账、科目代码、部门代码、项目代码、应收款明细账、应付款明细账和项目明细账等。

(2)人员工资信息,包括人员代码、工资项目代码和人员工资发放表等。

(3)学生学费信息,包括班级代码、学生信息、收费项目、收费学年、学生交费明细、学生应交费明细、学生欠费明细和学生交费总账等。

(4)学生奖贷助勤信息,主要包括学生奖学金发放表、贷学金发放表和勤工助学金发放表等。

(5)其它信息,主要包括国家的相关财政法规、高校财务管理和会计核算方面的制度和会计人员相关信息等。

高校的财务数据仓库的内容主要有以上信息,这些信息是随着时间不断变化和更新,并随需要进行动态的增加或减少,其变化完全取决于财务管理和决策者的需要。

从数据仓库的定义可知,建立数据仓库的最终目的是为了支持管理人员进行分析和决策,具体来讲,高校财务数据仓库的用途主要有以下几个方面:

(1)整合数据资源,方便师生和财务人员进行查询。财务信息是分布在各个相关的管理信息系统中的,教师和学生要查找相关的信息,必须连接不同的数据源,到不同的信息系统中去查询,不但查询的效率低,查询的命中率也很低,更有甚者不知道到那里查找自己所需要的信息,因此有必要整合数据资源,把财务的相关信息集中存放在数据库中,统一各异构数据库的基础信息代码,在此基础上建立财务信息查询平台,来实现对财务信息的集成的有效的管理。

(2)进行有效会计分析,提高分析效率与准确率。在高校财务管理中,经常要进行会计指标的比较和分析,不但要对学校的整体财务运行效率进行分析,而且要对学校的各二级学院的财务运行情况进行横向的和纵向的比较和分析,这些分析需要从不同的年度不同的信息系统提取相关的数据。从集成的、随时间变化的数据仓库中提取这些数据将会变得更加便捷和准确,例如我们要分析各二级学院的教师的近三年的平均年收入和学生的学费交费率,再到账务系统中提取各二级学院的三年来的平均人数(根本就不存在平均人数),再到账务系统中提取各二级学院的工资发放总额(在账务系统中,还需要财务人员累计各二级学院工资、津贴、奖金和其他补贴),再把计算出来的数字进行计算和比对,准备数据效率很低;计算各分院的学费交费率就更加困难,当年的交费率还可以到学费管理系统中取得和计算得到,前两年的交费率将无法获取,因为同它相关的基础数字并不存在。在数据仓库中做这些工作就轻松多了,只要在相关的事实表和维度表中聚集数据,便可自动取得所需信息。

(3)方便计算生均培养成本。数据仓库中已经集成了会计信息和学生相关信息,只要有适合的生均培养成本的计算方法,很容易构建出相关的事实表和维度表,计算生均培养成本也就比较容易。

(4)提高高校财务风险控制和财务预警水平。高校在办学资金筹集、教育经费的使用方面,都有了很大的自,高校的财务运行状况将必然存在风险,这就需要建立财务风险控制机制和财务风险预警系统,来化解与防范财务风险。高校财务数据仓库能同高校财务风险评价指标[2]有机的结合,高效率的对指标进行比对和分析,从而来防范财务风险的发生。

(5)为二级学院绩效考核提供基础数据。在高校的财务管理中,为提高资金的使用效益,往往会对各二级学院的财务运行情况进行绩效考核,考核的指标体系的建立和反馈,都需要会计相关的基础数据,从数据仓库中提取基础数据不但准确、效率高,而且结合考核指标,还比较容易得到相关信息。

(6)进行财务决策。财务数据仓库最大的优势是进行数据挖掘和财务决策,利用数据仓库,可以用决策树和聚类等算法来进行数据挖掘和财务决策,为制定相关财务制度提供依据,并可以分析相关财务制度执行的效果。

3高校财务数据仓库的建立方法

数据仓库主要有数据源、数据的存储、应用工具和用户界面等四部分组成。数据仓库的创建也是对这四部分用数据仓库的技术和体系结构来进行开发的,本文不再对高校财务数据仓库的创建进行详细讨论,它的具体创建过程已经在别的文献(如文献[3])里有详细叙述。本文只对财务数据仓库的建立方法进行阐述。

财务数据仓库是基于MSSQLServer2000创建的,它基本上采用了规范化的设计方法,采用了总线结构,有统一的事实表和维度表,使用星型和雪花型的数据结构,如图1所示的一个雪花模型。

数据结构创建好后,要把账务系统、工资系统和学费系统等中的相关数据经抽取、转换、清洁和装载等过程,导入到数据仓库中,其数据准备工作如图2所示。在数据装载到数据仓库时,不但要进行数据的转换,还必须注意基础代码的统一,如在图2中的三个数据库都存在部门代码表,该表的部门代码表示可能有所不同,在导入到数据仓库时必须做到代码统一。数据准备好后,便可以用工具软件如Excel、AnalysisServices等进行数据分析、数据挖掘和财务决策。

4高校财务数据仓库在会计分析中的一个应用事例

在财务管理中,财务人员经常需要分析各二级学院的经费使用情况,由于二级分院的经费都是使用项目来进行管理,所以在数据仓库中使用项目支出分析立方,其结构参见图1。从图1可以看出,财务人员可以从4个维度(时间维、科目维、部门维、项目维)来对二级学院的经费使用情况进行分析。可以分析各分院的经费组成情况、经费收入和支出情况、经费支出的分布情况(用科目代码分析经费在那些方面支出)和支出时间分布情况(经费都集中在何时支出)等,能从纵向和横向的角度来分析各二学院经费的使用效率。

在数据仓库系统中,后台服务器使用了SQLServer2000数据仓库,前端用Excel工具通过数据透视表服务来分析2004年和2005年各二级学院经费的使用情况。以下步骤将在Excel中实现一个数据透视表,向财务人员显示从立方中获取的数据:

(1)打开MicrosoftExcel。在数据(Data)菜单中选择数据透视表和透视视图(PivotTableAndPivotChartReport),启动数据透视表和数据透视图向导。

(2)在向导的第1步中,选择外部数据源以及要创建的是数据透视表;在步骤2中,单击获取数据按钮来定义要读取的数据源。Excel将自动启动MicrosoftQuery,并弹出选择数据对话框。选择OLAP立方选项卡,可以看到所有已经定义好的立方列表。选择新建数据源立方,出现新数据源对话框,在标识为1的字段中输入“项目支出分析”,在字段2选择MicrosoftOLEDBProviderforOLAPServices8.0[4]选项,然后单击连接按钮。

(3)出现多维连接对话框,允许分析人员建立OLAP服务器的连接,输入OLAP服务器的名称,单击下一步,并选择财务数据仓库数据,接着单击完成按钮。回到创建新数据源对话框中,在字段4中选择数据透视表使用立方,选择“项目支出”,单击确定按钮。回到选择数据对话框,选择已经建好的“项目支出分析”立方,单击确定按钮,回到Excel数据透视表和数据透视图向导。

(4)单击下一步,向导的第3步将提示分析人员选择显示数据透视表的位置,选择现有的工作表选项,单击单元Sheet1中的某一单元。

(5)单击完成,Excel就在工作表中上嵌入了一个新的空的数据透视表对象。同时显示透视表工具条和数据透视表字段列表。分析人员可以从字段列表中将项目拖放到数据透视表中,就可显示数据,用于分析了。

经过上述步骤后,生成了二级学院经费支出数据透视表,如图3所示。从图中可以看出管理学院几个学科的教学经费在2004年和2005年支出分布情况,上图显示的数据仅分析比较了办公费、毕业设计费、差旅费和学生实习费的支出情况,如果要分析比较其他科目支出情况,可以选择相应科目。从图3可以看出有4个维度,这4个维度可以根据需要任意组合,来分析各二级学院经费的支出情况。Excel还可以设置报告格式,自动生成报告,本例生成的报告如图4所示。

Excel还可以生成图形显示,来分析经费的支出情况,本例生成的图表如图5所示。可以根据比较分析的需要,可以选择不同的图形,以便更好地为分析服务。

第7篇:数据分析方向范文

【关键词】数据分析 篮球运动 篮球技术

【中图分类号】G841 【文献标识码】A 【文章编号】1674-4810(2015)08-0188-02

在一场篮球比赛中进行数据挖掘,并提取相关篮球技术动作中可用信息是推进篮球运动与事业发展的一个有效方法。将数据分析应用到篮球运动中,通过对统计数据的分析,对篮球的各项数据进行分类,并分析查找这些数据之间的相关性。

一 篮球数据分析方式

篮球数据分析是现代篮球很重要的一部分,通过数据的分析可以发现很多平时难于发现的问题。在实际的运用中,数据分析的方式就显得尤为重要。

1.横向的数据分析

横向分析是对同一时期数据资料进行横剖研究,抛开其他各种条件,对待一事物的具体特征,以具体数据的方式研究其变化的趋势与规律。这种分析方式在篮球运动中可以用来分析球员的篮板、得分、助攻、抢断、失误五项数据。例如可以横向地分析助攻失误比是多少,这个比率越大说明助攻的成功率就越高,助攻的效率也就越高,反之说明助攻的同时付出了过大的失误损失,助攻的效率就低。这个比率可以提示球员需要在哪些方面提高,比率大了就要增大助攻的次数,比率小了就要适当减少助攻的次数、提高传球的把握性。数据横向分析在篮球运动中使用是理论与实际相结合的过程,它提高了篮球技术的科学性,加快了篮球技术的发展。

2.纵向的数据分析

纵向分析也可以叫作垂直分析,主要用分析发展进步的程度和速度。它可以清晰地分析出某个球员在职业生涯中的篮板、得分、助攻、抢断、失误的发展方向,也可以分析出一个球队一年中基本数据的发展趋势。例如某个球员的得分每个月的平均得分都在变大,这说明这个球员在上升期,就可以判断这个球员还有很大的潜力空间;一个球队每个月的平均篮板数都在下降,这说明球队的球员积极性在减弱,教练就可以多进行抢篮板方面的训练,多提醒球员拼抢篮板球,进而调动球员的积极性,提升球队的篮板球数。

二 篮球数据分析的主体

篮球数据主要由单个球员的数据和球队数据构成,在分析篮球数据时就要将这两个主体分门别类汇总对比分析。

1.球员的数据分析

球员是篮球运动的基本要素,球员数据的分析是数据分析的第一步,也是最基础的一步。球员在各个方面的贡献才能换来球队的良性发展,球员对球队的发展起到很大的推动作用,这样就要求在对球员进行数据分析时要对单个球员和多个球员组合进行数据分析。

第一,单个球员各项数据分析。(1)单个球员某场比赛中在篮板、得分、助攻、抢断、失误等数据分析。(2)单个球员特定时间段在篮板、得分、助攻、抢断、失误等数据方面增大或者减少。(3)相同位置的球员数据分析,数据分析对比就可以看出能力、效率和态度。(4)单个球员历史数据分析。现实数据与历史数据进行分析,清楚地显示该球员得分的增减、防守的变化、拼抢积极性的变化等。(5)单个球员特定比赛的数据分析。例如一球员主场时平均得分20分,客场时平均得分10分,就可以清楚地判断该球员在客场状态没有在主场状态好,这样就可以适当增加该球员的主场上场时间,减少客场上场时间。

第二,多个球员组合数据分析。在篮球比赛中,对比赛数据进行实时录入分析,并辅以以往的比赛数据作为教练员的参考是极为重要的,这不但可以帮助教练员判断球员的参赛状况,还可以帮助分析哪些球员组合后能发挥出更大的优势。

球员组合数据分析是为了更好地产生球队化学反应。例如球员甲、乙、丙一块上场时球队净胜10分,球员乙、丙、丁一块上场时球队负5分。通过这个球员组合数据分析可以表明甲、乙、丙组合效率更高,效果更好,在安排技战术时应增加此组合的上场时间。同理则要适当减少乙丙丁组合的上场时间。

组合数据分析在实际运用中越来越被重视,很多的球队都出现了“三巨头”“后场双枪”等。例如NBA达拉斯小牛队当年的“三驾马车”、底特律活塞队的“蓝领五人组”和湖人王朝时期的“OK”组合,还有我们都比较熟悉的火箭麦蒂与姚明“MM”组合。这些组合都是在组合数据分析的基础上建立的,最终也都在篮球运动的历史里留下了浓重的一笔。

2.球队的数据分析

篮球这项运动是一个团队运动,只分析球员的数据就违背了团队运动的精髓。因此,球队数据分析要建立在球员数据分析的基础上,既要注重个人的发挥,又要考虑球队的整体。对球队的数据分析主要有以下四个方面。

第一,球队胜利时的数据分析。数据分析的目的是为了提高球队的战斗力和竞争力,这就要求了在进行数据分析时要重视球队获得胜利时的各项数据。例如胜利的比赛要分析命中率比对手高几个百分点和净胜对手多少分,这两个数据可以体现球队的状态和进攻能力。在分析进攻的同时也不能忽视防守,防守情况就要分析净胜对手多少个篮板球、逼迫对手出现多少次失误、将对手的得分限制在多少分等。

第二,球队失败时的数据分析。有胜就有败,胜利时的数据分析会鼓舞人心,失败时的数据分析可能会使人心灰意冷,但是失败时的数据分析是寻找差距并迎头赶上的必经之路。只有进行准确到位的分析,才能将进攻端和防守端的问题暴露出来,才能更好地从根本上解决问题。

第三,球队历史的数据分析。把历史当作一面镜子,要经常地去照镜子,只有知道距离历史最好水平还有多少差距,才可以明确球队的发展方向。球队历史数据分析主要体现在以下三个方面:(1)发生重大人员变化。引进的重要球员偏重进攻,在战术体系中就要加大进攻的风格。(2)球队战术发生重大变化。球队由进攻型风格向防守型风格变化,就要分析改变风格后防守数据是否大于之前的效率。(3)与球队鼎盛时期的数据对比。球队鼎盛时期的数据是球队建设的目标,如果球队在上升期就要对各项数据进行分析,以便能尽快地达到巅峰。如果球队在下降期,如果只分析一些诸如防守的部分数据,就会使球队陷入一种困惑,反倒会起到负面作用。

对球队历史数据分析时最重要,也是最需要注意的一点是对比的时期一定要选择准确,否则会让数据分析不能客观、科学地指导球队的发展。

第四,与其他球队的数据分析。俗话说:“知己知彼,百战不殆”“三人行必有我师”,讲的就是要熟悉对手、学习对手的优势才能打败对手。与其他球队数据分析主要有以下四个方面的内容:(1)与即将比赛的球队进行之前交手数据的分析。这些分析就可以清晰地反映球队的优势或弱点,对手在某个环节的优势或弱点。从而在安排技战术时就可以最大化自己的优势,猛攻对手的弱点。(2)与战术体系相同的球队进行数据分析。进攻型的球队分析进攻数据,找到球队在进攻端的差距和不足;分析防守型球队的数据,这样可以使球队的战术体系更加的均衡化,以便提高和长足发展。(3)与战术体系不相同的球队进行数据分析,发现其他球队的优势,进而学习,变为自己的优势。(4)与战绩好的球队进行数据分析,寻找需要提高的要素。

三 结束语

随着数据分析在篮球运动中的运用越来越广泛,有些球队专门成立数据分析团队,聘请数据分析专家,篮球运动中的数据分析越来越精细化、专业化,数据分析已经成为篮球运动不可或缺的一部分。

参考文献

第8篇:数据分析方向范文

大数据技术的快速发展促进了科研方式的变革,基于数据紧密型的科研方式已经成为自科研经验方式、理论方式、计算机模拟方式之后的新的发展模式[1]。现阶段,海量的半结构化和非结构化数据给科研带来了巨大挑战,而且数据存储和共享功能缺乏合理性和有效性,这也给高校图书馆的服务模式造成不小的影响。在大数据时代,高校图书馆应该更加重视用户数据安全和服务质量,积极利用先进的数据分析和处理技术来提升高校图书馆服务的智能化和个性化,为高校图书馆的服务创新创造出有利条件[2]。高校图书馆应该借助大数据技术,充分了解用户的服务需求,并以满足用户的服务需求为目的开展相应的服务。

1 大数据时代高校图书馆开展嵌入式知识服务的内容

1.1 用户需求的分析

在大数据环境下,首先,高校图书馆可以收集和存储用户的基本信息,比如:用户的学历、年龄、科研成果、学习经历以及工作单位等信息,并详细记录用户的操作信息及检索、查询、收藏以及标识等操作行为,可以与用户查询资料的内容、学科类别以及相应用户权限进行关联,还可以收集用户具体的信息咨询、科技前沿以及参考导航等服务情境[3]。其次,高校图书馆可以分析海量?稻荩?利用基于语义网的技术来规范用户信息资源,并将其转换为能够被应用程序理解和直接调用的数据,从而可以更好地感知和预测用户行为。最后,高校图书馆利用用户数据作为决策依据,为用户制订当前目标、短期目标以及长期目标,并根据需求环境的变化动态分配硬件和软件资源,从而让高校图书馆的服务融入用户的科研活动中。

1.2 规律趋势的分析预测

针对某些行业或者学科进行全面收集信息资源时,在专业研究成果的基础上进行深入分析,比如对比、推理以及综合利用等科学分析手段,或参照专业学科发展规律,计量学发展规律等[4]。由于学科的知识特点和发展规律各不相同,因此需要运用多种分析和处理手段来构建不同的学科模型,从而能够准确地预测学科发展规律以及发展趋势。常见的预测方法有以下几种:①将大量文献内容进行数据统计,以归纳总结出文献的内在规律,比如齐普夫定律、洛特卡定律以及布拉德福定律等都是常见的基于文献内容的统计方式。②根据文献的发展规律和趋势来构建数学模型,可以达到预测文献发展规律的目的,比如普赖斯就专门构建了基于指数增长规律的数学模型。③将其他领域的数学规律和数学模型移植到文献发展的预测中,比如物理学中的半衰期规律、经济学中的人口增长规律以及生物学中的成长规律等。④依据模糊理论来搜集相似文献内容,存储在计算机中,并利用统计技术进行分析和对比数据,以此帮助科研人员挖掘数据关联性。

2 大数据分析与情报分析的共性

2.1 看重对数据的定量分析

数据作为最直观的资源,已经潜移默化地改变了分析决策的方式,如何有效地收集、筛选以及整理各种数据资源,并利用合理的方法来挖掘数据的潜在价值,已经成为评价一个组织是否具有竞争力的重要衡量方式。情报分析学科同样十分重视数据资源的应用,在情况分析研究的初期阶段,分析人员主要依靠人员的智力来分析少量数据现象,并从中归纳总结出情报分析的规律。随着科学技术的快速发展,学科之间的关联性和交叉性逐渐加强,学科知识的划分越细致,所涉及的内容也就越专业。目前,情报分析更多地依靠先进的信息处理技术,利用“机器学习”方式来挖掘数据、分析和统计相关联系,还可以利用定量化方式来关联基于关键字的词汇共现,其核心思路就是在计算能力的基础上利用人工分析判断数据联系。因此,利用数据来阐述问题已经成为情报分析的主要特点,在情报分析报告中利用数据、公式以及图表来说明理论的方式也充分体现了数据分析技术在情报分析领域的重要地位。

2.2 关注多源数据融合

大数据技术可以通过各种渠道,并利用各种收集手段来获取各种数据信息,在进行集中整理后,形成一种基于不同数据格式的统一处理方式,这种处理过程被称为多源数据处理融合技术[5]。一方面,可以通过不同用户和不同网络途径来获取同一个研究方向的内容;另一方面,根据信息数据的种类和用途的不同,比如:根据视频、音频及文本等方式进行分类,也可以根据结构化和非结构化等方式进行分类,同时也要考虑数据的异构性。需要注意的是,相同类型的数据也有可能分布在不同的站点,并由各自的数据供应商提供,如论文分析研究的数据来源就包括中国知网、维普及万方数据库等[6]。一般情况下,针对前沿领域进行情报分析时,只利用一种类型的数据是不够全面的,应该从其所涉及的期刊论文、图书资源、专利以及项目等收集有效信息,进行整合处理,这样才能够体现出该研究的整体特征。

3 嵌入式知识发现情报分析服务的重要环节

3.1 知识发现系统的利用

将文献分析方式与数据挖掘技术进行有机结合已经成为知识发现方面的热门研究内容,并且取得了可以直接应用的研究成果,这为嵌入式知识发现情报分析服务提供了重要的研究方式。不可否认,选择和使用合理的知识发现系统会提高信息数据的分析效果,其中比较有代表性的就是充分认识到知识发现系统的优势,评估数据分析结果与用户的契合程度,从而让数据分析服务的效果得到用户的认同。比如:一些基于知识发现的软件和系统比较适合大型结构化文献数据分析,可以根据结构化数据的特点分析出信息的特定发展规律[7];还有一些基于主题和科研本身的知识发现模型,其可以利用文献资源之间的相关性挖掘有效信息,并对文献资料进行多角度分析,根据关联原则描述该学科领域的发展趋势图;另外还可以利用关联和非关联的知识发现方法,再结合相关语义分析、词汇频率统计等技术,最后通过关键词聚类方式来寻找潜在的知识发现。

3.2 准确获取数据

知识发现可以分析大量数据和信息资源,并从中挖掘明显关联或者非关联的科学研究的内在规律,情报分析人员可以向科研人员提供相关情报分析,一般采用的是定量和定性相结合的分析方法。在进行定量分析之前,如果要获取较为准确的目标数据,除了要分析数据源以及检索方式之外,还要对数据进行预处理,如消除噪声数据、集成数据等。大部分的数据分析软件都具有数据筛选功能,其中常见的TDA(Threat Discovery Appliance)软件就可以通过列表功能手工筛选原始数据。需要注意的是,当自动筛选数据时,常常由于数据中检测出偶发的错误或者不同的存储格式导致筛选失败,这就无法按照要求构建知识图谱。嵌入式的知识发现服务可以将筛选后的数据与专业数据分析专家共享,由此可以进一步提高数据的准确性,从而得到与研究对象关联紧密的数据。

3.3 应用综合分析方法

科技创新活动不仅包括学科和领域的创新,而且还涉及社会各个方面的创新,所以嵌入式知识发现服务需要为决策人员提供情报分析服务,帮助分析对象的社会行为,并为决策人员指明科研决策的发展方向;此外,还可以根据用户的需求,结合经济学、社会学、管理学以及情报学等学科的分析方法,多方面地展现科技创新在社会环境中的具体状况和发展趋势。如今,国外已经出现了专门提供情报分析服务的公司,比如美国的麦肯锡公司就对医药领域提供多方面的分析和研究服务。而国内关于情报分析的研究还处于起步阶段,高校图书馆可以借鉴国外成熟的研究成果,比如可以利用波士顿矩阵方法来分析文献资源之间的关联性。

4 情报分析服务模型总体设计

情报分析服务的主要功能就是针对数据进行整理和分析,从而挖掘知?R的内在关联性。该研究根据内容解析方法来实施情报分析服务,并专门构建一个情报分析的服务模型。该模型采用了分层结构,自上向下共分成三个层次,即界面展示层、知识发现处理层、数据资源层等,具体结构示意图如图1所示。

首先是数据资源层,其确定研究对象包括三个步骤:确定分析目的、确定研究范围、搜集情报等内容。其次是知识发现处理层,它主要包括三个方面的内容:①制定编码标准,并借助计算机辅助工具来构建专属词典,其主要分为专业术语词典、停止词词典、同义词词典等。②编码部分,可以将文本文件转换为计算机可识别的文本向量。③数据分析部分,可以利用相似度算法和聚类算法来处理文本向量,从而实现情报自动聚类和串并功能。最后是界面展示层,主要功能为针对数据进行分析。

4.1 数据资源层设计

数据资源层为情报分析提供海量的数据资源,从各个数据源中收集数据并集成在情报员数据库中。众所周知,数据库的性能会直接影响情报分析服务模式的处理效率。目前,比较成熟的数据库种类主要有两种:关系型数据库和非关系型数据库。经过几十年的发展,关系型数据库技术相对比较成熟,其中的行和列的关系非常明确,主要采用表型结构存储数据,用户比较容易接受。但是,随着数据库技术的不断发展,关系型数据库的弊端也逐渐显现出来:①针对海量数据进行查询和存储操作,海量数据信息时刻充斥在互联网上,如果关系型数据库还是采用表型存储海量数据,这时的存储是以亿为单位。当利用SQL(Structured Query Language)语言查询或者针对多张表进行关联查询时,其查询效率是非常低的。②数据库的扩展性较差。当处理海量数据时,数据的结构非常复杂,修改数据库的表结构是非常耗时的,因此复杂的数据结构的处理效率无法达到用户的要求。③数据库的读写效率。针对动态的信息,每秒的读写次数要达到上万次以上,而关系型数据库的读写速度无法达到这种要求。

4.2 知识发现处理层设计

知识发现处理层的主要功能是针对数据资源层的数据进行深度的分析和挖掘,它可以利用内容分析方法进行数据分析和情报编码,具体的功能模块图如图2所示。知识发现处理层主要包括四个功能模块:情报自动聚类处理模块、情报串并处理模块、文本预处理模块、文本向量表示模块。

4.3 界面展示层设计

界面展示层主要包括两个部分:知识图谱展示功能和人机交互功能。知识图谱展示功能形象展现出情报数据资源的分析结果,是针对情报数据资源分析的拓展,它可以准确表达现象层面的具体信息,并通过更进一步的分析来找出隐藏在情报中的规律,从而协助情报分析人员更好地处理情报。人机交互功能是利用操作界面来实现用户和软件之间的信息交流,更好地帮助用户控制软件。

第9篇:数据分析方向范文

关键词 数据仓库技术;铁路数据资源;整合模式;主题

中图分类号:U292 文献标识码:A 文章编号:1671—7597(2013)031-014-02

由于现代社会经济、科技各方面发展迅速,所以在铁路生产经营方面的现实情况要求我们要在铁路生产经营的时候广泛应用各种新型信息技术。当然,在信息化的运行时候,会出现以下几个建设性的问题:信息技术的应用虽然是表现良好,但是其管理战略出现了不少问题,不协调发展导致了个体单独发展,整体发展效率不高。虽然我国在计算机信息管理方面已经投入了不少资金,也取得了一定的成效,但是没有构成理想中的经济链,却从而构成了不计数的信息单体。

1 铁路数据资源整合的必要性

1.1 铁路建设中出现的信息共享问题

其发生的问题主要体现在以下几个方面:单个铁路内部MIS的资源共享问题;多个单独铁路之间的MIS信息共享联系问题;每个部门对于资源共享的政策;MIS内部和外部之间的资源共享问题。造成以上几点问题的原因:没有制定好的严格的制度规章;信息系统分享时间不合;在信息的更新过程中由于各方面的标准不同,其产生的结果不同,所以即使信息已经共享,但是其真正可以利用起来的却是少之又少,这一点才是导致无法完成信息资源共享的根本原因。

1.2 数据资源整合的含义

数据资源整合用白话来说就是:运用一定的科技手段和原有的规划制度来对已经聚集到一起的资料进行抽取、转化、加载和集成,从而把在整体中分散开来的、不同单位的数据集成起来,确立一个面向大众的、集体的数据,以满足对数据有着极高要求的事业单位。并不是将企业或单位要将原有的技术和数据打乱,而是把在企业、单位中来自各方面的的数据整合起来,来满足要求更准确的相应要求;但是,又从另一个方面来说,数据资源整合也不是将所有的来自四面八方的数据集合到一起,而是要在对其资料进行分析之后,对原有的数据进行综合,从而建立面向大众的数据集合。数据的集合对于各方面都有些和很大的好处,其能够很好的对数据进行保存,以防止数据的丢失、缺少,从而实现信息的交流分享性。经过一系列的数据整合,不仅保护了企业、单位数据资料的完整性,还为企业、单位提供了一个可以随时调查所有准确的数据的平台。

2 铁路数据资源整合模型设计分析

2.1 数据整合的模式——三级

以现在的管理设计基础,对资源有一种高效的整合模型,那就是三级模式。三级模式的模型为:汇总数据层、面向业务主题的低粒度操作数据层和面向决策主题的高粒度数据整合层。以下的图1就是资源整合模型的总体设计思想的体现。

图1 数据整合模型设计思想

2.2 数据仓库技术的铁路系统主题设计

面向主题进行组织的数据被称作是数据仓库,在以上概念中,主题其实就是指在一个高层次中经信息源中数据进行综合归类并对其加以利用的行为,基本上每一个主题都有其专门相对的一个领域。当我们明白数据仓库的结构是什么构成之后,便可以按照铁路数据的特点,将其分为三点:运输组织、客货营销、经营管理。

2.3 对于数据仓库设计的逻辑性分析

在主题确定后,还要仔细的分析定义信息,并对实际情况和理想的表据中进行详细的定义。想要快速的完成数据仓库设计最好就以通用数据模型为指导。就按照一模一样的数据模型,以纵向分布模式、按维度方向对铁路实际业务查询和分析的需要进行总结和保存,才可以得到其细节查询和分析的最后系统结果。而为了弥补以上纵向策略的不足,我们便需要加以运用横向策略分析其相关的维度聚集数据,最后得到顾全大局、全面分析的系统。在整体系统中,保持纵向与横向的平衡型,运用要相当的灵活。经过逻辑分析和借鉴核心业务系统终会得到如下图的分布状况,图2。

图2 逻辑模型设计

3 总结

本篇文章的整体是围绕着铁路资源整合和数据仓库技术两条线索所展开的,其主要是从全局出发研究铁路数据资源整合,再从小点主题划分,一步一步的对其进行研究探索。

参考文献

[1]顾瑞,卢加元.数据仓库技术在档案资源整合中的应用[J].兰台世界,2012(05):16-17.