公务员期刊网 论文中心 大数据技术范文

大数据技术全文(5篇)

大数据技术

第1篇:大数据技术范文

关键词:大数据;数据库集群技术;分布集群

一、分布集群数据库在大数据中的应用

目前,许多数据增长率很高的大型数据库系统正被用于改善全球人类活动,如通信、社交网络、交易、银行等,分布集群数据库已成为提高数据访问速度的解决方案之一。为多种类型的用户在多个存储中组织数据访问,分布集群数据库的问题不仅在于如何管理大量的数据,而且在于如何组织分布式存储中的数据模式。智能数据组织是提高检索速度、减少磁盘I/O数量、缩短查询响应时间的最佳方法之一。基于规则的聚类是提供数据库自动聚类和数据存储模式解释的解决方案之一,基于规则的集群通过分析属性和记录上的数据库结构,将数据模式表示为规则。使用不同规则池分区的每个集群,每个规则与内部集群中的规则相似,与外部集群中的规则不同。分布集群数据库是一种有向图结构的进化优化技术,用于数据分类,在紧凑的程序中具有显著的表示能力,这源于节点的可重用性,而节点本身就是图形结构的功能。为了实现基于规则的集群,分布集群数据库可以通过分析记录来处理数据集的规则提取。分布集群数据库的图形结构由三种节点组成:起始节点、判断节点和处理节点。开始节点表示节点转换的开始位置;判断节点表示要在数据库中检查的属性。分布集群数据库规则提取的节点准备包括两个阶段:节点定义和节点排列。节点定义的目的是准备创建规则,节点排列是选择重要的节点,以便高效地提取大量规则。节点排列由以下两个顺序过程执行,第一个过程是查找模板规则,第二个过程是结合第一个过程中创建的模板生成规则。提取模板以获得数据集中经常发生的属性组合。在模板提取过程中,分布集群数据库规则提取中只使用了少数几个属性,它旨在增加获得高支持模板的可能性。与没有模板规则的方法相比,该节点排列方法具有更好的聚类结果,这两个过程中的规则生成都是通过图结构的演化来实现。

二、在线规则更新系统的应用

在线规则更新系统用于通过分析所有记录从数据集中提取规则,在大数据应用中,每个节点都有自己的节点号,描述每个节点号的节点信息。程序大小取决于节点的数量,这会影响程序创建的规则的数量。起始节点表示根据连接顺序执行的判断节点序列的起始点,开始节点的多个位置将允许一个人提取各种规则。判断节点表示数据集的属性,显示属性索引。在大数据应用环节,从每个起始节点开始的节点序列用虚线a、b和c表示,节点序列流动,直到支持判断节点的下一个组合不满足阈值。在节点序列中,如果具有已出现在上一个节点序列,将跳过这些节点。在更新每个集群中的规则时,重要的是要找到与最新数据不匹配的属性。因此,规则更新中要考虑的属性由以下过程确定。当计算集群中每个属性和数据之间的轮廓值时,阈值设置为0.85,只有轮廓值低于0.85的属性。将为规则更新过程中的判断节点的属性选择。一些数据的库存值和权重值低于0.85,因此这些值不包括在国民生产总值的规则更新中。在线规则更新系统中包含用于更新规则的属性,每个集群都具有属性的主要值,这些属性是集群质量的锚定点,进而影响轮廓值。在线规则更新系统应用中,完成主要的规则提取过程,这是一个标准的规则提取,在线规则更新系统考虑到数据集中的所有属性。执行该过程,对初始数据集进行初始集群;改善规则更新过程,仅对轮廓值低于阈值的数据执行。

三、大规模并行处理技术的应用

大规模并行处理技术主要用于编写和调试现代处理器的程序,而不是本地汇编程序,所有的书面代码都是从C/C++语言翻译成一个低级的核心汇编程序。在大数据应用中,会产生很多数据,在数据的分析和计算中,应该结合编程技术,标准语言是面向传统体系结构的,这就是为什么编译器不能使用所有可能的DSP体系结构以最佳效率生成代码的原因。为了获得一个良好的优化代码,有必要直接在低级汇编语言上编写代码。为了简化编写程序的任务,可以在某个处理器上使用面向代码生成器。使用一个专门的汇编代码生成器,使用并行结构化的编程语言可以获得比在C/C++中翻译的应用程序更高效的代码,生成高效的汇编代码,该代码积极利用DSP内核的并行性和其他特性。低级汇编代码是由所有编译器生成的,但是它们与传统的基于文本的语言(如C/C++)一起工作。大数据应用环节,在数据分类和计算中,当两个计算操作在不同的操作单元上执行时,才能在一个dsp核心的vliw命令中并行执行两个计算操作。根据运算执行单元的不同,计算运算可分为op1和op2两种类型。属于不同组使得在一个命令中执行两个操作成为可能。第一种类型包括由算术和逻辑单元执行的操作,第二种类型包括由乘法器、移位器ms执行的操作。在模板中,标记“1”表示第一种类型的标识,标记“2”分别表示第二种类型。如果两个操作具有不同的类型并且没有数据依赖关系,则可以进行并行化,DSP核心的并行性是通过在一个核心中存在多个操作单元来保证的。在大数据计算和分析中,如果有足够多的通用寄存器来执行这两个操作,并且它们可以并行执行,代码就会并行化,提升数据计算的效率。

四、结语

如今,计算机技术发展非常迅速,大数据得到广泛应用。在海量数据产生后,应该结合数据库管理相关技术,提升数据管理的效率。

参考文献

[1]胡世昆.分布式数据库技术在大数据中的应用[J].电子技术与软件工程,2019(01):153.

[2]贾鑫.探析分布式数据库技术在大数据中的应用[J].计算机产品与流通,2017(12):3-4.

第2篇:大数据技术范文

关键词:大数据;审计技术;技术分析

审计制度作为保证我国开展民主治国的根本制度,是我国依法使用权力约束的重要体系。审计制度的本质是我国管理体系内存在的一种内生制度,其具有防范、预防、抵御的免疫管理体系,其核心任务为健全民主制度,完善审计管理,推动我国社会经济健康运行与科学发展,进而更好地维护广大民众的切身利益,更是国管理的重要组成部分,故需完善大数据时代下的审计工作。

一、大数据分析审计方法和电子数据审核方式对比

电子数据审计的数据挖掘技术,主要依靠统计分析模块进行审计疑点发现和审计线索发现。通常,统计分析流程主要分为信息收集、清理、汇总、挖掘和可视化。传统环境下,常用方式包括账表分类、大数据搜索、数据分析、审计抽样和数值分析等。而在该类统计分析方式中,如Excel、Oracle、AO、ACL、IDEA等,作为主要的审计软件而被普遍采用。在大数据分析时代的会计活动往往包括国民经济运行中的所有大数据分析,而这种大数据分析常跨行业、跨领域,即具备了大量、多样、高价值、低密度等的大数据特点。根据资料类型对其进行分析,不难发现包含数据以及半结构化数据,其中涵盖照片、视频、文档等非数据内容。根据各个数据的实际来源对其进行分析后,可以发现单位内进行审计的相关数据信息以及资料,这些资料包括企业公开的信息。从目标入手,能够发现会计目标逐渐成为发现线索、评价风险、关注绩效的内容。审计工作不仅关系到企业违法违规的情况,还要求一旦发现企业制度存在的问题,需及时评估企业的内部控制风险,借助社会经济以及大数据技术,收集更多的信息内容,并对其展开分析,充分了解企业的发展情况,随后分析企业发展的趋势以及规律。此时,能够为企业以及国家提供更多的数据,随后制定合理的干预措施,便于企业做出决策。因此,大数据下的企业审计工作,具有收集、保存、管理、分析等多个功能,且在可视化的特点下,需明确其与传统方法的显著不同。所以,企业需明确大数据时代下,传统审计与电子审计方式之间的主要区别。

二、大数据审计采集技术

企业使用电子技术收集数据,直接关系到企业内审计工作的准确性,企业是否可以获得精准的数据内容,是决定企业能否开展下一步数据分析的关键。所以,企业在收集各个模型以及理论的基础上,可以发现采用大数据审计的关键如下:首先,电子数据的收集以及转换相关技术。其次,已经收集数据的完整性以及有效性。企业在收集数据的过程中,需明确研究重点为根据特定的领域、来源数据,制定具有针对性的收集以及处理形式。数据完整度以及有效性的检验,主要是根据当前审计的目标,并根据详细的审计标准以及规范,通过分析审计数据与准则的符合性,可以有效评价远程数据和本地数据的完整性与有效性。

三、大数据审计存储技术

处于大数据环境背景下的审计工作,保存数据的体系主要包含传统、新型以及分布式操作。由于审计工作的展开内容,多为一些敏感的数据信息,故对电子数据进行审计的过程中,不仅需要保证数据存储的有效性,还需保证数据的完整性,避免其被非法手段获取。而云存储信息技术是指运用分布式操作系统、数据库集群等现代信息技术,将互联网内的多个不同种类的数据进行协调,随后为大数据提供更多的技术,便于其访问各个内容以及业务。这一技术具有较高的可用性、低成本以及高性能的特点,故其是大部分数据存储的首选,再加上多副本以及数据完整性检验,均是大数据存储的关键技术。

(一)多副本技术

多副本技术可以减少大数据技术由于磁盘故障产生的损失,其是大数据存储过程中需处理的首要问题。多副本技术作为提高数据可用性的技术,存在一个主节点,以此保障副本内的收据一致性、数据可用性管理。整体数据均储存在工作节点内,且主要以多个副本的方式存储。主节点与工作节点主要采用心跳包通讯的方式,且当主节点出现故障之后,需自动开展病程分布工作,以此尽快恢复存在故障的副本。多副本技术是指多个副本供系统操作,该系统可以将一个数据分散存储在多个副本内。此时,其可以减轻系统存储数据的压力,提升可操作性以及系统运行功能。并且,当前这些云储存内的主流分布操作系统,均使用这一技术,可充分发挥其具有的价值。

(二)数据完整性验证技术

可证明数据持有(PDP模型)是典型的大数据储存资料认证形式,PDP模型主要是由Ateniese学者经过不同研究后,根据数据形态提出的相关方案内容。PDP可以分为两个不同的阶段,即预处理和验证。预处理过程中,用户提交相关文本以及数据后,可以获取修改之后的文本内容,并在本地保留原本的数据,服务端存储修改之后的文件。验证过程中,则由用户随机对服务器生成不同的挑战,随后结合服务器内存在的内容,获得完整的证据,及时将其传递给用户。用户通过验证内容,再加上预处理过程中使用的元数据,可以详细计算数据的有效性,以此保证数据的完整性。为了完成上述两个阶段的运算,PDP模型共包括四个基本计算,而为了提高有效性,上述计算均为多项式时间的计算。PDP模型仅能检验数据块是否完整,而无法恢复错误的数据块,这对挽回经济损失并没有帮助,于是,学者就设计了可恢复证明(POR模型)的方法,利用POR模型采用纠删码原理进行数据恢复。也可以扩充PDP模块,并支持动态操作,但该方法仅支持对数据的更改、删除和插入功能,而不支持对数据块的嵌入功能。

四、大数据审计分析技术

大数据挖掘中采用的数据挖掘技术和机器学习方法,是实现从检验式审计转向发现式审计的主要手段。云计算架构是进行大数据审计的主要框架。按照审计使用差异,可分为以下结构:批信息处理结构、流信息处理结构、混合信息处理结构等。首先,批信息处理结构通过把无依赖关联的大量数据分成多组小批量的生产数据,每群数据分布到各个区域的同时数据,完成大数据的分布式并行处理。批处理结构拥有最高吞吐概率,主要运用于事后审核,也是目前使用量最大的一个结构。其次,流处理结构与传统的批处理结构完全不同,它将信息看作如同从水龙头流出的水一般源源不断的到来,将收到的信息熔成数据块,即分配给相应的任务并进行信息处理,而信息处理的全部过程也是流式的。流处理结构的主要运用在对即时化要求较高的情景,速度通常可以达到秒级甚至毫秒量级,也主要运用在实时审计中。但因为即时化的特性,流程式处理大部分的结果都保留在存储器中,而不是直接存储在硬盘上。最后,混合处理结构结合了批处理的高吞吐度与过程管理的高即时化,因此基于过程式处理和批处理的混合结构也日益受到人们的重视,是未来审计应用的重点方向。其中,Spark是目前应用较为广泛的混合处理架构。Spark把数据组织为RDD(弹性分布式数据集)的方法,所有的运算工作均通过RDD完成,其过程和MapReduce框架非常相似,但为了提高工作效率,中间结果可只保留到存储器中,而不必通过磁盘。同时,为了满足流程管理要求,Spark了Steaming版本,它把所有输入数据流都以时间片(秒级)为单元加以分割,然后再以类似批处理的方法管理各个时间片数据。尽管借助云计算架构,可以显著提升审计大数据分析的时效性,不过要得出合理的审计分析结果,还需要借助大数据挖掘技术。大数据挖掘的目标与传统数据挖掘的目标是非常接近的,都是从大量复杂数据中获取了对数据挖掘目标具有重要价值的信息。而面向大统计的数据挖掘方法,则是在传统数据挖掘算法基础上发展起来的,因为它比采用传统大数据挖掘方式的数据源多、统计资料量大、类型复杂、数据价值存在的密度较低。因为大数据上的很多运算都可以用标准数据库的原语来表示,所以,为了方便地把传统资料挖掘的计算方式运用于大数据挖掘,部分学者已经对在关系代数中标准运算的MapReduce映射方式展开了研究。

五、基于区块链的大数据审计

大数据审计分析过程中,被审核人员所提交电子产品财务数据的真实性、正确性与完整度直接关系到具体实际审核业务的发展方向,对电子产品财务数据等会计信息真实性做出一定的鉴别和定义是人员顺利完成审核项目的基础环节,也是提高审核服务质量的重要基础。大数据分析审核的基础流程就是获取大量必需和完整的电子信息,构建被审核资料数据库,开展审查中间表、分析数据处理、延伸查实表以及审核取证工作,采集、交换、管理电子产品财务数据信息是实现大数据分析审计工作的基础工作,而电子产品财务数据的质量则直接影响着审核目标的实现。要想获取完整的、统一性的、可追溯的审核,电子数据信息质量尤为重要。数据处理过程中,将区块链技术作为关键技术,结合分布式网络结构,并采用多种数据信息技术,可以及时针对审核流程中电子产品数据信息的不安全因素,以区块链技术为基础,重点研究审核中电子产品数据信息采集及新闻真实性的核实机理、一致性传输与可溯源保存机理,以及安全性和可追溯性加强方案的实现机理。本文认为基于区块链技术的大数据审计,主要可以从如下几个方面进行研究:首先,在审计电子产品数据信息收集的过程中,由于在大数据处理环境下审计的电子产品统计数量多且繁杂,又牵涉诸多主体,所收集的电子产品数据信息中往往夹带着巨量噪音,其完全、真实感都很难保障。而通过区块链技术,就能够将所有审计节点单位的各种待审核电子记录进行自动收集,并将其定期分批加密进行传播。同时,通过分布式节点自动解密和确认机制,对各种待审核记录所涉及的信息关联方实现了交叉确认。经过确定的审核记录,数据在加入时间戳和密码机制之后被确认并进入区块链,而无法再进行更改。与传统的审计数据收集方式比较,采用区块链技术的审计数据收集方式将具备质量较高、真实、无法修改、可追溯性的优点,将大大减少审核流程中的上下一级重复性劳动,并解决了审计电子数据收集方式不全面、不真实,无法运用于全覆盖审核分析中的问题。其次,在审核电子商务数据分析中,我们可以利用区块链的时限戳管理机制,即以每组数据分析前后的时限戳为重要参量,根据审计电子商务数据传输方法、统计量、信息的重要性、可恢复力量等统计相关性信息,建立电子数据一致性评价模型,从而为数据传输过程中的安全性评价提供基础。最后,针对所存放的审核电子产品财务数据的安全与可靠性问题,以区块链的多数据副本共识技术为基础,将审核电子产品财务数据以多副本的方法分布式存放,并基于存放的位置、级别、管理授权等各方面的影响因素,对所存放的数据副本实行了本地评价,最后再将对每个数据副本的评价结果加以综述,形成各数据副本当前的存放有效性评价模型。然后以此为依据,对该电子数据的有效性做出评价,然后根据评估价值和该信息的应用范围确定有效性,防止错误信息流入审计报告体系,造成巨大会计风险。同时采用区块链技术对审计报告信息加以组合,并针对审计报告电子信息的类别、属性等诸多因素,以B+树等方法形成多索引。根据该索引和区块链的链式化构造,通过设计对数据修改记录的快速追溯监控方法,不仅追溯了存储中的不安全因素,还保证了重要数据的可重构性,为进行快速可追溯审计提供了基础。

六、结束语

第3篇:大数据技术范文

关键词:OBE;大数据;专业建设;财经高校

当今社会,大数据爆发性增长,正在掀起一场产业革命,对经济发展、社会治理和人民生活产生着重大影响,成为国家、社会、企业及个人关注和投入的新焦点。在国家大数据战略和数字经济发展驱动下,2016-2021年,全国分六批共有670余所高校获批数据科学与大数据技术本科专业,主要培养具备大数据采集、处理、分析与应用能力的复合型人才,其专业建设对于满足数字经济时代行业产业发展对大数据人才的需求具有重要意义。为办好这一新兴本科专业,高校教研人员围绕培养方案制定、课程体系设计、师资队伍建设、学生实践能力训练等内容进行了探讨[1-4]。数据科学与大数据技术专业是一门融合多学科知识的交叉专业,高校如何根据现有办学基础和特色,遵循基于成果产出的教育(Outcome-basedEducation,OBE)理念,明确培养目标定位,构建个性化培养方案和课程体系,将专业特色体现为被培养者所具备的知识、能力和素质要求,以适应数字经济发展对大数据人才的需要,还需进一步深入探讨。本文基于OBE理念,从培养目标、毕业要求、课程体系与考核评价等方面,探讨财经高校的数据科学与大数据技术专业建设之路。

一、专业建设面临的挑战

作为一门融合多学科知识的新兴专业,高校往往基于原有专业基础和条件来建设数据科学与大数据技术专业,规划不同的办学方向和特色。虽然原有基础和条件为新专业建设提供了资源支持和参考借鉴,但新专业建设还面临以下问题和挑战:

1.培养目标定位“换汤不换药”。作为多学科融合交叉专业,高校开设数据科学与大数据技术专业,多基于现有计算机科学与技术、统计学、应用数学或管理学相关专业的办学基础和师资队伍。现有办学基础虽然为新专业建设提供了参考借鉴,但也使得新专业的培养目标和特色定位容易出现与原有专业交叉重复和含糊不清的问题,不能与时展和社会需求相适应,导致学生培养思路不清晰,出现培养目标定位“换汤不换药”的现象。

2.课程体系设计“泛而不精”。数据科学与大数据技术专业学生培养,既要求掌握计算机科学与技术基础,又要学习数学与统计学相关知识,还需具备一定的专业化行业知识,即基础知识要求高、数据分析能力要求强、行业知识范围要求广。高校在设计课程体系时往往会兼顾到不同学科知识,但很难理清不同学科知识之间的相关关系和层次脉络,导致课程设置存在“泛而不精”的问题,使得学生只是停留在知识学习层面,不能融会贯通,综合运用能力较差。

3.学生实践能力“眼高手低”。数据科学与大数据技术专业建设投入要求较高,不仅需要配备高性能硬件环境,而且必须有充足的高质量数据用于数据分析实训。但多数高校缺少企业项目实战案例、商业数据以及专业的大数据实训平台,使得学生缺少大数据分析实战实训,动手实践能力得不到有效训练,学生培养存在“眼高手低”的问题,不能满足学生的发展需求,更不能达到用人单位的综合能力要求。

二、人才需求调研

为有效应对数据科学与大数据技术专业建设过程中面临的问题与挑战,调研了不同行业对大数据人才的最新需求,了解了不同行业对大数据人才的需求状况,明确了该专业与社会相关行业、职业、岗位的对应关系,深入分析了不同行业岗位对大数据人才的知识、能力、素质要求。调研发现,不同行业对大数据人才的需求主要集中于三大就业方向,分别为大数据应用开发方向、大数据分析方向、大数据架构设计方向,各方向对应的基础工作岗位和工作任务设置归纳如下:

1.大数据应用开发工程师。典型工作任务包括软件开发、软件测试、软件运维、面向业务的大数据平台应用开发等。

2.大数据分析师。典型工作任务包括面向业务的大数据采集、预处理、挖掘与机器学习、统计分析、运筹优化、数据可视化等。

3.大数据系统研发工程师。典型工作任务包括海量数据分布式编程、大数据平台底层架构设计、大数据分布式存储与计算、云平台架构设计等。更进一步,各工作岗位和工作任务对毕业生的具体要求归纳如下:

1.大数据应用开发方向。注重计算机科学基础,要求学生具备较强的C/C++/JAVA编程、Web前端开发及软件测试等软件编程开发能力,了解一定的专业化行业知识,熟悉业务需求分析、方案设计、系统设计、编程实现、实施与运维等软件工程开发全过程。

2.大数据分析方向。注重统计学、优化理论与算法等数学基础以及计算机编程基础,要求学生熟练掌握数据挖掘、机器学习、深度学习以及运筹与统计分析理论与算法,具备面向特定业务场景的数据管理与融合应用能力,能够面向数据采集存储、分析建模、挖掘学习、管理决策等全流程提供数据管理与融合应用解决方案。

3.大数据架构设计方向。要求学生具备计算机科学基础和软件开发能力,熟悉大数据底层架构原理,熟练运用主流大数据平台和典型深度学习系统,如Hadoop、Spark、TensorFlow,设计、开发面向特定行业的大数据产品和云平台。

三、基于OBE理念的专业建设实施路径

OBE理念是一种以学生为中心、基于学习成果产出的教育理念,也称为能力导向教育或学习产出导向教育,也是一种以学生的预期学习产出为中心来组织、实施和评价教育的结构模式,即采用“成果导向”的认证标准,将学生表现作为教学成果的评价依据,并以促进专业持续改进作为认证的最终目标,保证学生能够获得将来工作所需的知识、能力和素质[5-8]。针对数据科学与大数据技术专业建设面临的挑战,根据产业行业对大数据人才需求的调研结果,深入分析时展和社会需求对毕业生的具体要求,考虑江西财经大学现有办学基础、条件和特色,基于OBE理念的培养方案反向设计原理,可将数据科学与大数据技术专业建设思路与实施路径设计成如图1所示的校内外双循环闭环模型。

(一)培养目标

江西财经大学自2014年招收面向财经大数据方向的计算机科学与技术专业本科生后,2018年开始招收数据科学与大数据技术专业本科生。随着专业建设和学生培养工作的不断深入,形成了财经管理特色鲜明的数据科学与大数据技术专业建设思路和学生培养模式。数据科学与大数据技术专业是以计算机科学与技术、信息管理与信息系统、管理科学三个专业为基础建设起来的,教师队伍和教学资源与三个专业共建、共享。经过行业产业需求调研,结合学校在财经领域的学科优势,数据科学与大数据技术专业人才培养主要定位于大数据应用开发和大数据分析两个方向,其中将前者视为人才培养的基本目标,将后者视为人才培养的核心目标,即侧重于培养具备财经管理知识背景的数据分析师与数据科学家,专业培养目标归纳为:本专业培养德智体美劳全面发展,秉承“信敏廉毅”校训精神,适应国家大数据战略和数字经济发展需要,具有数学、统计学和计算机科学基本理论,具备数据采集存储、分析建模、挖掘学习、管理决策能力,能在金融机构、工商企业和政府部门从事数据管理与融合应用工作的复合型人才。学生毕业后经过5年左右的实际工作,达到以下预期成就:

1.应用数据采集存储、分析建模、挖掘学习、管理决策等专业能力,承担金融、商务运营、政府政务等多学科背景下的财经数据分析工作。

2.针对财经领域多学科背景下的大数据管理与复杂工程问题,运用数学、统计学、计算机科学、数据科学等知识,经调研、分析、判断和综合处理等过程,提出并践行数据管理与融合应用解决方案。

3.开展财经领域的大数据技术和管理工作,主动提高并展示多学科背景下的沟通交流能力、团队合作精神以及国际视野。

4.履行并承担大数据技术与管理人才应尽的社会义务及责任,主动提高并展示自身社会职责、社会公德、人文素养和职业道德。

5.主动锤炼团队意识和终身学习能力,主动拓展自己的知识和能力,关注本专业与其他学科交叉融合的新理论、新方法和新技术,适应不同职业岗位赋予的工作任务,获得自身职业生涯的持续发展。

(二)毕业要求

为实现专业培养目标,满足数字经济时代行业产业发展对大数据专业人才的需要,将人才社会需求、培养目标和专业特色体现为被培养者所具备的知识、能力和素质要求。

1.知识要求。掌握数学、统计学、计算机科学基础知识,训练严谨的数学逻辑思维和熟练的编程技能,应用基于统计与优化的数据分析方法对大数据管理与工程实践复杂问题进行描述、建模和分析,并编程实现,同时掌握财经及其相关领域的金融、商务运营、政府政务等多学科基础知识,能够面向财经管理复杂问题进行数据分析实践。在具体工作中表现为:具备数学、统计学、计算机科学、数据科学基础知识与专业知识,用于描述和分析财经及其相关领域的大数据管理与工程实践复杂问题。此外,还要求学生了解国家大数据战略、数字经济产业政策及相关法律法规,能够正确理解和评价大数据管理与工程实践对经济、社会、健康、安全、法律、文化和环境的影响。

2.能力要求。具有较强的数据采集存储、分析建模、挖掘学习、管理决策能力,解决财经领域特定行业的大数据管理与工程实践复杂问题;面向财经领域的不同需求和多任务要求,具有较强的数据管理与融合应用能力,能够面向不同业务需求提供个性化的解决方案,实现资源的优化配置。在具体工作中表现为:具有对大数据管理与工程实践复杂问题进行描述、分析、研究、决策和验证等的工程实践能力和创新意识,熟练运用主流大数据平台、典型深度学习系统,提供面向财经领域及其相关行业的数据管理与融合应用解决方案。

3.素质要求。树立正确的、积极向上的世界观、人生观、价值观,具备人文社会科学素质,理解个人与社会的关系以及社会主义核心价值观;理解大数据人才的工程职业道德、社会责任、团队协作精神和社会适应能力;能够认识不断探索和持续学习的必要性,具有自主学习和终身学习的意识,采取合适的方法与途径,不断拓展自身的知识与能力;了解本专业及相关领域的前沿发展趋势,关注本专业与其他学科交叉融合的新理论、新方法和新技术,具有开放意识、全球视野和跨文化沟通交流能力。

(三)课程体系设计

基于对学生的知识、能力和素质毕业要求指标点,有效整合原有专业教学资源优势,基于OBE课程教学正向实施原理,财经管理特色鲜明的课程体系设计思路如图2所示,并将课程体系设计准则和特点归纳如下。

1.厚基础。夯实学生的数学与统计学知识基础,深化学生的计算机编程和算法设计基础,为学生学习和熟练运用数据挖掘、机器学习相关算法及编程实现奠定坚实基础,并使学生未来在就业、升学、出国等不同方向上具备较强可塑性。

2.强能力。加强培养学生基于统计与优化的数据分析建模和数据挖掘学习能力,熟练掌握数据分析全流程所需的理论、方法和工具,能够面向财经领域不同的业务需求或数据分析需求,通过问题描述、分析和建模等过程,提出个性化的数据应用与管理决策方案,并要求学生能够基于Hadoop、Spark等主流大数据平台进行数据分析实战。

3.宽口径。突出数学、统计学、计算机科学、数据科学与财经商务管理等不同学科的交叉融合,围绕金融大数据分析、运营与商务数据分析、运筹分析与管理决策、大数据挖掘与应用开发等四个专业方向,开设不同的专业方向选修课程,为学生提供不同的行业基础知识和实践案例,培养学生面向不同行业背景的数据管理与融合应用综合能力。

4.重实践。重视学生面向财经领域数据管理与融合应用实际需求的解决方案设计实践,通过形式多样的课堂实验设计和大数据实验实训教学平台建设,开展多样化案例教学和行业数据分析实战,大力推行本科生导师制,指导学生参加金融数据分析大赛、企业商务数据分析大赛、计算机作品大赛以及“互联网+”创新创业大赛等不同形式的实践比赛竞赛,并充分利用校外实习基地,加强校企合作,促进产学研结合。

(四)考核评价

OBE理念强调教学过程以学生为中心,把全体学生的学习成果作为关注的焦点,教学组织、设计和实施的目标是保证学生获得特定的学习成果。因此,基于OBE理念的考核评价要以学生的学习成果作为唯一标准,从课程目标达成度、毕业要求达成度、培养目标达成度等不同维度对学生的学习成果进行评价,建立“评价-反馈-改进”闭环,形成持续改进机制。

1.课程目标达成度评价。在教学过程中,将课程目标达成度评价的核心从“教师教的如何”向“学生学的如何”转变,改变以考试和分数为标准的单一评价方式,面向教学实施全过程,以课堂学习、课后练习、答疑讲解、实践评价、期末考试等多种方式全面评价学生的学习成果产出。根据课程目标达成度评价和反馈,形成课程目标、教学内容、教学方式持续改进的课内闭环。

2.毕业要求达成度评价。基于课程目标达成度评价,根据课程目标对毕业要求指标点所起的支撑作用,为对应同一毕业要求指标点的所有课程目标达成度分配相应支撑权重,然后加权得出毕业要求达成度评价结果,并与预先设置的合格标准进行比较。根据各项毕业要求达成度评价和反馈,形成毕业要求、指标点、课程体系、课程大纲持续改进的校内闭环。

3.培养目标达成度评价。基于毕业要求达成度评价,根据毕业要求与培养目标之间的支撑关系,采用毕业生反馈和社会反馈相结合的方法,评价培养目标达成度。毕业生反馈方法充分利用毕业座谈、校友回访、返校联谊等交流机会,跟踪毕业生职业发展状况、培养目标认同度、培养目标达成自我评价。社会反馈方法充分利用校园招聘、校企产学研合作、实习实训基地、企业走访等机会,跟踪了解企业人才需求与培养目标吻合度、毕业生职业发展与培养目标吻合度、企业对培养目标认同度。根据培养目标达成度评价和反馈,形成人才需求、培养目标、毕业要求持续改进的校外闭环。

四、结束语

第4篇:大数据技术范文

关键词:大数据;超市;销售分析;商品分析;客户分析

1概述

随着大型超市和连锁超市的快速发展,超市业已成为商业领域最具活力的商业业态[1],我们日常生活中经常会去超市采购日用品,超市已经成为我们生活中不可或缺的一部分,超市的发展也紧密连系着我们的生活。全球大型零售商沃尔玛在分析大量的数据时发现,男性顾客在购买尿布时,常会买几瓶啤酒,于是将啤酒和尿布摆在一起。[2]在之后的数据表明使尿布和啤酒的销量都大幅增加了,这是大数据的经典案例“啤酒+尿布”。可以看出通过大数据技术的数据分析等等方面可以挖掘到超市一些隐藏的有效数据信息,其中数据挖掘就是利用数据分析工具从海量数据中提取隐含的、表面不为人们所知但又有价值的信息获取过程。[3]零售领域是数据挖掘的主要应用领域之一,[4]比如大数据技术可以了解消费记录、消费额、地区销售额等数据,有针对性地对重点区域进行广告投放,助力超市的发展。

2研究思路

以一家全球大型超市四年的销售数据为研究对象,数据是2011-2014年该超市的销售数据,对该数据进行一个多角度的分析,采用python、图表秀,对该超市进行销售情况、商品情况以及客户情况三方面分析。具体分析了超市这四年的发货情况、利润情况、整体地区布局、各类商品销售情况、销售数量、超市客户类型占比、客户增长情况等。

3数据说明

3.1数据来源

数据来源于kaggle平台公开的一家全球超市四年的销售数据,数据表中包含了行编号、订单编号、订购日期、发货日期、运送方式、顾客ID、顾客姓名、市、州、国家、市场、地区、类别、产品名称、营业额、数量、折扣、利润、运输费等24个特征,共50000多条数据,12M。

3.2数据预处理

在数据表中,存在一些空值、异常值、错误值和无效列等等数据,因此对数据进行了数据预处理,筛选出了我们需要的、正确的数据,把不需要的数据进行了剔除,其中主要使用了订购时间、发货日期、市、州、市场等字段的数据进行分析和探索。通过筛选空值发现,邮政编码这一列存在大量空值,并且对数据分析没有作用,因此删除该列。数据中订单优先这一列有为空值的数据,并且发现这些数据存在错位现象,删除订单优先为空值的数据行。筛选中发现,Sales这一列有不是数值的数据,删除销售额为字符串的数据行。

4销售情况分析

4.1发货情况分析

一共有50629笔订单,每笔订单的发货时间差平均为1天左右,最长的发货时间差为7天,并且发货时间差为0天的订单数量为38472个。由图1可知:当天就发货的订单数量占所有的75%以上证明该超市发货时间差较小,大多都能够在短时间内发货,效率较高,也证明该超市的商品库存量基本都保持在一个充足的状态下。

4.2利润分析

由图2可知,该超市从2011-2014年的总利润同比上一年相比呈现上升的趋势,2011-2014年的下半年利润总体都大于下半年利润,该超市的销售季节性非常明显,上半年是销售淡季,下半年是销售旺季。但上半年中6月份利润额呈现一个上升的趋势,利润偏高,下半年中7月份的利润额较下半年的其他月份偏低。对于上半年,结合多种原因分析其6月份利润额偏高的原因,利用这些原因可以进行一些销售活动,提高6月份的利润额。上年半年的其他月份,可结合商品的特点制定销售策略,还可以举办一些促销活动,促销可以刺激和诱导消费者购买商品。促销主要是聚集人气、吸引客户、提高销售额。而一般情况下,消费者进入超市,计划性购买仅占30%~40%,而冲动性购买则占到60%~70%。超市只有通过开展多种促销活动,才能扩大销售、提高营业额。[5]对于下半年,在保持原来的营销策略基础上,可以针对其具有季节性特点的商品,举办活动,加大商品投入。

4.3销售地区分布

该超市销售额中,APAC(亚太地区)销售额最高,Canada(加拿大)销售额最低,APAC、LATAM(拉美)、US(美国)、EU(欧盟)这四个地区就达到了85%以上的销售额占比。根据图3可知:除加拿大地区以外,其余的六个地区销售额每年呈现一个上升趋势。APAC、EU两个地区的每年销售额增长较快,具有巨大的发展潜力,该超市可以将市场重点放在APAC和EU上面,加大投入,在重点区域有针对性的投放广告等,增加每年销售额。其余地区可以参照APAC与EU的经营模式和策略,将两个地区的超市负责人与其他地区的负责人进行一个交流,将其余地区也做大、做强。

5商品情况分析

各类商品销售额贡献情况:由图4可以看出:只有Tables(桌子)的利润为负,说明桌子目前处于亏损的状态,通过筛选发现大部分桌子都在打折并且打折力度很大,超市要看是否是因为桌子滞销而打折出售的,如果不是此类情况就该考虑改变营销策略,减少亏损。Copies(复印机)、Phones(手机)、Bookcases(书柜)、Appliances(电器)、Chairs(椅子)、Machines(机器)、Storage(储藏箱)这几类商品是销售额比较好的,一共占到了总销售额的一半以上,这几类商品是该超市主要销售商品。销售额比较少的几类商品,Paper、Supplies、Labels都是办公用品中的小商品,超市可以在不亏损的情况下,降低这些小商品单独买卖的定价与复印机、书柜这几个销售额较高的办公用品一起打包销售,或者采用买多少送一些小商品的营销策略。

6客户情况分析

6.1不同类型客户消费情况

从图5可以看出:消费者占该超市客户数量最大,说明普通的消费者是该超市的主要客户,企业占比也比较高,企业的单子都比较大且固定,多多加强与企业的合作有利于超市的发展。2011-2014年各类型客户的销售额呈现逐渐上升的趋势,说明该超市的经营模式比较好,可以继续保持该经营模式。

6.2每年客户数量变化

从图6可知:2011-2014年的订单数量是在逐年增加的,但每年新增的客户呈现一个逐年下降的趋势。证明该超市客户的回购率比较好,经营情况保持的也比较好,订单主要都是老客户。保持老客户,吸引更多的新客户才是企业的生存之道。该超市可以举办一些销售活动或者不定期的进行超市的宣传、营销活动吸引更多的新客户注入超市。

7结论及建议

7.1销售情况方面。

发货时间差有75%以上都是当天发货,可以继续保持。2011-2014年,订单数量是逐年增加的,说明超市的经营比较好。该超市从2011-2014年的总利润同比上一年呈现上升的趋势,销售季节性明显,上半年是淡季,下半年旺季。在上半年可以举办一些促销活动,还可以结合商品的特点制定销售策略。下半年,在保持原来的营销策略基础上,可以针对其具有季节性特点的商品举办活动,加大商品投入。销售地区分布中,APAC销售额占比最高,Canada销售额最低,APAC、LATAM、US、EU达到了85%以上的销售额占比。APAC、EU两个地区的每年销售额增长较快,该超市可以将市场重点放在APAC和EU上面,加大投入,其余地区可以参照APAC与EU的经营模式和策略,将地区之间进行交流,把其余地区也做大做强。

7.2商品情况方面。

销售额前三是:Phones、Copiers、Chairs,利润前三的商品是:复印机、手机、书柜,可以加大这几类利润高的商品的营销和推广。桌子目前处于亏损的状态,超市要看是否是因为桌子滞销而打折出售的,如果不是此类情况就该考虑改变营销策略、减少亏损。降低Paper、Supplies、Labels等小商品单独买卖的定价与复印机、书柜这几个销售额较高的办公用品一起销售,或者采用买多少送一些小商品的营销策略。

7.3客户情况方面。

消费者是该超市的主要客户,可以多加强与企业的合作。2011-2014年各类型客户的销售额呈现逐渐上升的趋势,该超市的经营模式比较好,可以继续保持。每年的订单数量是在逐年增加的,每年新增客户为下降趋势,说明该超市客户的回购率比较好,经营情况保持的也比较好,订单主要都是老客户。该超市可以举办一些销售活动或者不定期的进行超市的宣传、营销活动吸引新客户。

参考文献

[1]肖生苓,牟娌娜,王维,高晓红.基于数据挖掘技术的超市顾客群研究[J].资源开发与市场,2011,27(08):683-685+712+672.

[2]孙杰.数据挖掘技术在零售业领域中的应用研究[D].大连:东北财经大学,2003.

[3]李春林,任博雅.基于某超市的数据挖掘分析[J].现代商业,2009(05):13-14.

[4]张红梅,夏南强.数据挖掘技术在零售业中的应用[J].经济师,2006(01):48-49.

第5篇:大数据技术范文

关键词:数据科学与大数据技术;专业建设;创新人才培养

引言

信息技术与传统经济社会的交叉融合引发了数据迅猛增长,产生了对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,并从中发现新知识、创造新价值、提升新能力的数据科学与大数据技术。这种新的信息技术和服务业态正在引领技术、物质、资金与人才革新,影响社会分工协作模式,促进生产组织方式的集约和创新,推动社会生产要素的网络化共享、集约化整合、协作化开发和高效化利用,改变了传统的生产方式和经济运行机制,显著提升了经济运行水平和效率,是推动我国社会经济发展与产业转型的新动力,具有极高的社会价值[1-2]。党的十八大以来,强调中国要高度重视大数据发展,改善民生及保障国家数据安全[3]。国务院《促进大数据发展行动纲要》提出要加强大数据专业人才培养,鼓励高校设立数据科学和数据工程相关专业,重点培养专业化数据工程师等大数据专业人才,大力培养跨学科大数据综合型、复合型人才。

1国内外相关研究现状

2016年,国内首批3所高校开设数据科学与大数据技术专业[4];2017年,国内开设该专业的高校增至32所[5];2018年3月,国内数据科学与大数据技术专业的学校达到250所[6];到目前为止,全国共474所(含理科、工科共488个专业)高校开设数据科学与大数据技术专业。武汉理工大学于2018年获批数据科学与大数据技术专业并开始招生。但与此同时,关于数据科学与大数据技术的专业建设研究工作还较少,如朝乐门等对国外数据科学专业建设进行调研并给出建议[7];曹淑艳等对大数据专业的申报细节给出分析[8];桂劲松等以数据科学与大数据技术专业为例,在培养目标、毕业要求、课程体系等方面探索新专业的建设思路[9];陈欣等结合重庆工程学院实际情况制定相关人才培养方案[10];樊迪结合应用型本科实际情况,制定科学的课程体系和培养方案,并给出相关的建议[11];贺文武等针对本科教育中数据科学的人才培养需求,探讨数据科学与大数据技术的课程建设、实践平台建设等问题[12]。目前,我国现有的数据科学与大数据技术专业人才培养方式还存在专业精准度不高、课程设置不符合实际、学生多教师少等问题[13];部分高校数据科学与大数据技术专业的建设还存在时效性、交融性、涌现性的问题[14];地方高校专业建设则存在一些培养思维固化、缺乏专业特色,师资力量不足等弊端[15]。

2数据科学与大数据技术专业建设方案研究

数据科学与大数据技术专业的建设,应该以培养具有行业特色和具有可持续竞争力的卓越交叉创新人才为目标,围绕学生数据科学理论体系和算法能力、大数据系统设计、实现和创新能力进行培养,同时结合我校建材建工、交通、汽车三大行业特色,强调实践能力训练。为达到上述人才培养目标,需着重解决如下课程体系构建、实践教学及实验条件建设、师资队伍建设等方面的问题,从而构建多层次、多类型、健全的卓越人才培养体系。打破课程间的壁垒,构建融思政、厚基础、强能力、重创新应用的课程体系,最终形成以学生创新能力培养为主线的贯通式教学模式。与企业和科研基地协同,结合我校行业特色和优势学科进行交叉创新,形成符合大数据产业发展和需求的校研企深度融合的多元化交叉创新实践人才培养模式。结合大数据人才培养需求、我校行业特色和优势学科,构建开放式、多层次的数据科学与大数据技术专业实验实训环境,形成从基础到面向特定行业领域的一体化实验实训环境,助力卓越创新人才培养。建设具备高水平工程教育能力、科技创新能力、具有国际化视野的教师队伍。

3具体举措

以培养学生实践创新能力为导向,培养具有可持续竞争力的卓越交叉创新人才。大数据技术需要与产业前沿紧密结合,因此数据科学与大数据技术专业必须与行业交叉融合、创新,服务国家产业升级和国家经济发展。在培养过程中,将强调全生命周期,以数学和计算机学科为基础,以算法能力为手段,面向领域应用,以创新能力培养为导向,深化产教融合、校企合作和创新创业,培养的学生将具有终身学习意识和创新意识,具备国际化视野和持续竞争力,能够引领科技创新和大数据产业发展,成为数据科学研究和大数据技术工程兼顾的具有可持续竞争力的卓越交叉创新人才。1)构建融思政、厚基础、强能力和重创新应用的课程体系,制定以学生能力培养为导向的教学内容。为了培养符合我国大数据产业需求,具有可持续竞争力的交叉创新人才,数据科学与大数据技术专业课程体系必须将思想政治教育有机融入到课程教学中,强调以数学和计算机学科为基础,算法能力为手段,面向行业和应用领域解决问题。因此,将构建融思政、厚基础、强能力和重创新应用的课程体系,主要分为基础课程、专业核心和选修课、行业实践课4个部分,见图1。在4年本科学习期间,数据科学与大数据技术专业遵循以数学和学科理论为基础,以算法能力为手段,面向行业进行创新来安排课程教学任务,见图2。2)建设校研企协同的多元化实践创新人才培养模式,构筑产学研深度融合的创新实践教育平台。依托武汉理工大学—华为ICT创新人才中心、水象科技等国内知名IT企业,在理论教学、实践教学等各个教学环节,学校与企业有机结合、相互渗透,建立理论教学、实验教学、科学研究、工程实践相互渗透的多维度新型教学组织模式和实践实训平台。依托计算机学院“科技部数字传播工程创新人才培养基地”“交通物联网湖北省重点实验室”“知识服务湖北省工程技术中心”等人才培养基地和科研基地,科教融合,开设创新创业特色课程,提升学生创新精神和科研能力。依托学校人工智能与大数据创新创业梦工场,在数据科学与大数据技术专业推行本科生导师制,扩大专业教育的对外开放,聘请院内外大数据、人工智能领域相关教师和专家指导学生进行课外科技和竞赛活动,并鼓励学生创新创业。3)构建系统化、多层次的数据科学与大数据技术专业实验实训环境。依托华为ICT创新人才中心和计算机类湖北省高校重点实验教学示范中心构建系统化、多层次的数据科学与大数据技术专业实验实训环境,实验环境建设包含4层架构,见图3。硬件基础设施层:基于高性能计算与海量存储节点构建的运算资源池,作为大数据各项实验学习环境的主要承载平台。系统管理与自动化运维层:方便用户使用、管理系统的软硬件资源。实验实训环境支撑层:包括基础实验实训环境、大数据实验实训环境支撑层,基于软硬件资源和系统管理功能,为大数据专业基础实验和专业实验提供保障。实验实训层:包括基础教学实验类、应用实现类和综合实训类实验项目和案例,形成从基础到应用、到面向特定行业和领域的大数据专业完整实验体系,见图4。4)促进教师能力发展,加强课程及教学团队建设。以建设一流数据科学与大数据技术专业为目的,全面提升教师教学能力、科技创新能力、工程实践能力和国际化能力。围绕数据科学与大数据技术专业,面向三大行业的重大科技创新领域,建设学科交叉与协同创新团队,提升教师科技创新能力;依托学校与三大行业和区域的合作共建,推进教育教学的行业协同、区域协同、企业协同,提升教师实践能力;依托高水平人才国际合作与交流,通过全球招聘教授、引进青年拔尖人才和鼓励青年教师国际交流,提升教师国际化能力。整合相关课程,贯通知识点,注重能力培养,建设大数据算法、大数据平台、大数据应用技术等课程群,建设相应教学团队,完善人才培养体系。5)建设学生培养质量保障和持续改进体系。(1)依托学生实验实训平台,对学生的实验/实训/竞赛/创新等活动进行记录和轨迹跟踪,构建学生“个性化需求—实验实践项目—能力达成度—就业创业能力”等信息反馈和持续改进机制,促进学生实践与创新能力培养。(2)以学生满意度为导向,结合教育部和学校一流本科专业建设要求,完善教学评估体系,建立教学——产出反馈机制,即建立课程教学效果评价与持续改进机制;建立学生与校外实习单位跟踪调查反馈与持续改进机制;建立学院对专业、专业对教师的教学考核与评价机制;完善教学环节各项规章制度,建立问题驱动的专业自我评估与持续改进机制。

4专业建设目标

经过专业建设与实践,达成如下建设目标。首先,形成符合我国大数据产业发展需求、反映我校行业特色和优势学科、以学生实践创新能力为导向、具有可持续竞争力的卓越交叉创新人才的人才培养方案。通过构建融思政、厚基础、强能力和重创新应用的课程体系,形成以学生创新能力培养为主线的贯通式教学方案。通过校企协同、科教协同,形成多元化的实践人才培养模式,构筑产学研深度融合的实践教育平台。构建从基础到应用、到面向特定行业领域的大数据专业实验实训环境。在课程体系、实践教育、实验实训有机结合的基础上,结合学生能力评估和培养质量保障体系,促进人才培养持续改进。通过实现上述目标,最终培养出具有较强的数据科学基本理论、专业素养、创新素质、适应国家行业需求并具有国际视野和可持续竞争力的大数据领域人才,同时带动其他相关专业发展,推动专业群建设水平的整体提升。

5结语

相关热门标签