公务员期刊网 精选范文 大数据论文范文

大数据论文精选(九篇)

大数据论文

第1篇:大数据论文范文

对于新媒体文学意味着什么大数据让新媒体文学回到“去作者化”的共在混融状态:在传统声音媒介时代,读者与作者共同创作、修改诗歌;到了纸质媒介时代,作者的地位上升;在新媒体文学时代,读者可以对作家进行积极主动的反馈,但这种反馈呈现出信息零碎化、评价随性化以及无法把握所有地域、身份、族裔的不完整状态;到了大数据时代,新媒体文学借鉴《纸牌屋》的数据挖掘模式,可以对读者信息进行全数据收集整理,以最大的吸引力呈现一个文本(其中包括一种可能性,即同一个故事开头,针对不同人群有不同的故事演进和情节,乃至人物设置)。舍恩伯格认为,“大数据是指不用随机分析法这样的捷径,而采用所有数据的方法”,因此,我们分析的大数据其实应该被称为“全数据”。在网络新媒体时代,人类所有的网络行为都可以被数据化,而这些数据又能完全被收集、存储、交换和分析。人们在不经意之间产生的数据总量大到我们难以想象的程度。“据有关研究报告,2013年中国产生的数据总量超过0.8ZB,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将超过8.5ZB,是2013年的10倍,一个大规模生产、分享和应用数据的崭新时代正在到来。”新媒体文学在发展过程之中当然也生产了大规模的数据,这些数据对新媒体文学意味着什么呢?第一,以PC和移动终端为主要载体的新媒体文学产生巨大的相关信息数据库,比如新媒体小说阅读量排行榜、新媒体作家数据库、读者阅读时间和习惯、哪些文学章节被反复阅读等等。与此同时,因为网络媒介的公开性和“无门槛”标准,新媒体文学的阅读者和创作者数量达到了文学史上前所未有的奇迹。2014年,中国网络文学的读者已突破5亿人,保守估计整体收入突破65亿元。这样大规模的用户群保证了巨大的数据量,也使文学网站拥有所有与网络文学相关的数据。网络文学带来的巨大经济效益成为对网络文学进行大数据分析的资本基础和动力。作为迄今为止最为强大的分析技术,大数据的重要价值在于预测趋势,即“正在发生的未来”。通过对这些大数据的分析,内容生产者可以有针对性地将作品推送给受众,而这种经过精心设计的文学作品恰好就是受众所需要的。这是因为大数据分析可以采用理想状态的全数据分析(目前还不能完全达到),而全数据分析由于分析的数据量巨大,单个数据的误差可以在分母巨大无比的全数据海洋之中被忽略。相反,在数据量有限的时代,我们就只能追求单个数据的精准。“因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。”当数据量持续积累增加时,对单个数据的精准性追求不是全数据的方式,放弃精准性、适度接受不精准性,仍然不会影响其结果。这类似于医用手术无影灯,从各个角度照射对象,永远不会存在盲区。盛大文学董事长邱文友认为,事实上国内文学网站在10年前就在运用大数据思维了:文学网站上有200多万名作家,700多万部作品,怎么在茫茫作家海中找出下一个唐家三少?靠数据分析。此外,在网络连载过程中,作家跟读者之间有互动,这些讯息也是数据。“比如作家本想让甲娶乙,可是绝大部分读者希望甲娶丙,这时候作家可以选择,是按原来思路,还是按小说可能延伸的商业价值去改写结局?所有决策的因素、动机跟方式,也是数据分析。”瑏瑡但是受网络技术发展的限制,当时新媒体文学的数据挖掘不可能像现在这样彻底和全面。第二,大数据时代新媒体文学批评走向多元化。当前的新媒体批评既包括传统精英式的学院派批评,也包括点赞、跟帖式的草根批评;学院派批评以黄鸣奋、欧阳友权为代表,草根批评以崔宰溶为代表。“黄鸣奋和欧阳友权以从西方新媒体技术层面发展出来的超文本理论作为理论生发点,对网络文学进行后现代性的学理探讨。”瑏瑢而崔宰溶认为,对中国网络文学的研究需要从原著理论(vernaculartheory)和网络性理论入手,才能真实地对新媒体文学进行研究。新媒体文学的接受者并不会以文化精英式的方式来俯视作品,他们对新媒体文学的批评是纯感受性的、本能直观的和零散局部的。这种自下而上的反叛式文学批评,迥异于传统精英式的学院批评。对中国新媒体文学的研究必须从网络的“原著居民”(网络文学读者)出发,由于他们大部分时间栖居于网络之中,因而对新媒体文学具有不受传统文学理论影响的本性感受力和知识系统。瑏瑣笔者认为,无论是西方网络文学理论还是原著理论,在大数据时代,它们都会被作为大数据库中的一个组成部分,再结合“总点击量”“总推荐”“月排名”等进行分析,从而寻找出读者最有可能喜欢的作品。无论如何,大数据时代给新媒体文学研究带来一种新实证研究路径。米埃尔(Miall)认为,文学的实证研究像灰姑娘一样总是被人们忽视或反对,早晚会有一天,实证研究将统领整个文化研究领域。人们会通过实证来研究理论观念,反思文学的本质和文化地位。瑏瑤网络技术的发达与新媒体文学的繁荣促成了大数据分析对于新媒体文学的数据实证性研究。

二、大数据思维给新媒体文学带来的理论思考新媒体文学的大数据分析

从学理上带来三组思考:一是大数据推动了新媒体文学的发展,然而新媒体文学能被彻底数据化吗?如果不能,那在什么样的层面上可以被数据化?新媒体文学与大数据思维融合的真正重要意义在何处?二是新媒体文学遭遇大数据思维之后,是否意味着对于新媒体文学的研究可以完全转换为数据式的实证研究?如果不能,对新媒体文学的研究还有哪些方面是大数据不可能涉及和完成的?三是当我们将文学接受者的大数据作为文学创作的唯一和最高标准之后,新媒体文学在题材选取、形式美学和叙事节奏等方面是否走向绝对迎合读者的趋势?如果是的话,新媒体文学作家的意义何在?他们又应该采取迎合还是引领的姿态呢?

第一,新媒体文学活动都发生在网络之上,因而可以被充分数据化。大数据自产生之日起,就迅速与人类已有的知识和学科产生了极强的关联,比如医疗健康、交通规划、公共管理、教育培养等领域都在你看不见的地方悄悄运作着大数据分析。“大数据时代的经济学、政治学、社会学和许多科学门类都会发生巨大甚至本质的变化和发展,进而影响人类的价值系统、知识体系和生活方式。哲学史上争论不休的世界可知论和不可知论都将转变为实证科学中的具体问题。”瑏瑥大数据的此种趋势根源于它能将所有网络行为数据化的能力,比如在新媒体文学活动之中,我们可以轻松采集到作家和读者的数量、年龄层、分布地域、经济状况、教育程度、阅读习惯、题材喜好,等等。除此之外,大数据可以分析:哪种题材的文学受众最多?同一种题材之中,什么样的文学桥段让读者喜欢?幽默、推理、悬疑还是浪漫?文学作品之中什么样风格的语言会更受哪种人的喜爱?什么样的故事情节发展路线和结局是最受人欢迎的?等等。这些方面都可以通过读者的评论和阅读数据反馈到内容提供商和文学作家那里,从而对作品进行实时调整。但是,我们不能因为大数据有这样的效果,就认为新媒体文学可以被完全大数据化。其实,作为技术和艺术合一的新媒体文学在多个维度上是不能被量化的,比如作家的灵魂高度、文学思想的深邃性、文学的意境、文学的美感、文学的终极关怀和文学对人性的探测等都不能被量化,而这些维度恰恰是文学之为文学最核心的内容。不管大数据技术怎么发达,它所追求的绝对客观性其实在数据产生之初就不存在。数据无论在表面上看起来多么客观地再现对象情况,它本身其实是在一种具有倾向性和差异性价值观基础上被建构的。因而,大数据的生成和分析永远不可能摆脱自己天生就具有的价值主观性。我们能看到的数据是研究者有能力或者热切希望看到的数据,若非如此,即便大量数据生成了,也不能被数据识别系统发现。这就好比雷达效应,你的关注点除了对象之外别无他物,但是“他物们”却客观大量地存在于你的意识之外,只不过你无意或不能去抓取它们。所以,大数据不管看起来多么科学客观,背后其实与主观价值判断是分不开的。“大数据”并不等同于“大智慧”,即使占有大量的数据,还必须有对数据具有专业化分析能力的人。Netflix的CEO里德•哈斯廷斯利用数据分析的方法也是受他前期从事碟片租赁服务的启发。他一方面熟悉在网络上怎么通过数据分析为别人推荐自己喜欢的电影和电视剧,另一方面他在无数的观影之中对影片具有极强的审美鉴赏能力。科技和人文的结合让他具有对《纸牌屋》数据进行采集和分析的能力,这才是Netflix进军艺术界成功的原因。所以,同样的大数据在不同主体那里得出的结论或者采取的应用是相距甚远的。就好比同样是医学CT扫描,仪器是相同的,照出的片也是相同的,为什么大家愿意去权威医院检查呢?问题的根源在于对CT成像进行分析的医生水平,同样的CT成像,在拥有不同经验的医生那里得出的结论很可能有天壤之别。大数据作为一种技术在教育、电影、艺术等人文领域广泛运用已是不争的事实,除了让人文领域的成果与经济效益直接产生关联之外,它的最重要意义其实是在哲学思维层面。大数据分析使我们抛弃传统哲学一直追求的现象背后的原因,而转向为关注事物和事物之间的关系性,即从因果关系转变为相关关系。瑏瑦这种思维方式转变是顺应时代的实用需求而产生的。一方面,大数据思维不去深究因果关系,而是绕开因果关系,退到因果关系的上层———相关关系(包含因果和非因果关系)。这种搁置因果的选择更是由于因果关系和相关关系之间复杂的关系:“(1)两个事物间有因果关系时,这两个事物间往往会有相关关系;(2)两个事物间不存在因果关系时,这两个事物间也可能会有相关关系(虚伪相关关系);(3)两个事物间有因果关系时,这两个事物间也有出现零度相关关系的可能(虚伪零度相关关系)。”瑏瑧当略过这些复杂关系,只关注“相关关系———结果预测”,就会省去无数不必要的麻烦,而直接得出需要的答案。“相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,其他数据值很有可能也会随之增加。”瑏瑨2004年,沃尔玛公司分析顾客消费时的各种数据时,意外察觉到数据和数据之间的相关性:飓风来之前,手电筒和蛋挞都销量增加,因而超市毫不犹豫地将它们放在飓风用品附近。这个例子就表明在大数据时代,深究原因并不一定能找到答案,而对数据进行相关性分析才是其核心。另一方面,大数据带来的相关性分析由于技术的成熟变得比因果分析更容易。丹尼尔•卡尼曼(DanielKahneman)甚至认为,人类之所以一直热衷于因果关系思维,是因为在信息不发达的社会采用因果思维可以快速地作出决定。相反,在那个时代如果采用相关思维会特别费力且不可能有任何结论。大数据由于技术的支撑完全可以支持相关性思维,但我们在现实之中会发现传统因果思维得出的结论被置于大数据时代后是有问题的。

第二,新媒体文学的学术研究与新媒体文学的大数据研究不能混为一谈,二者采用的研究方法不同,而这两种方法也只有被局限在一定范围之内才能发挥出自己的长处。19世纪,类似大数据思维的实证主义就已经僭越过文学的领地。当时实证主义提出,表象本身才是具有研究确定性的对象,对象背后所谓的本质是并不存在的。实证主义“反对追求绝对的知识,它停止去探求宇宙的起源和目的,拒绝认识诸现象的原因,只专心致志地去发现这些现象的规律,换言之,去发现各种现象的承续与类似的关系”瑏瑩。实证主义的“只研究怎么样(how),而不研究为什么(why)”瑐瑠主张与大数据思维追求相关关系而悬置因果关系的方式极为相似。文学虽然作为语言的艺术具有强烈的主观情感色彩,但是对文学的研究在很大程度上可以采用实证主义的方法,比如对文学流派、文学史、作家时代背景、作品传播状况的研究等。实证主义既要有“实”,又要有“证”:从研究对象入手得到大量材料,在此基础上,还需要进行分析论证的过程,否则材料只是死物。反过来,我们认为实证主义精神只能限定在以上研究领域才是对文学研究有益的。如果实证精神进入文学意义范围,文学的灵魂、精神和审美只能被理性实证逻辑消解磨灭,最后成为他者的“嫁衣”。从传统的实证主义对文学的研究经验可知,任何一种研究方法是不可能包打天下的,对文学研究不同的维度只能用不同的方法。针对新媒体文学的实证主义(大数据思维),只能研究新媒体文学的,即对新媒体文学的传播效果进行分析,预测新媒体文学会怎么样,提供什么样的文学作品其传播力更强等。然而,对新媒体文学研究本身就不能是技术式的,而应该是美学式的。在具体研究方法上,新媒体文学与传统文学走的是不同的理论路线。但就其艺术品格来说,文学应该研究的依然逃不脱深层的价值审视:从感官刺激的表层能否将读者引向一般生活状况,如生死、战争、世俗、宗教等,进而感受人类的终极意义和终极关怀。即使新媒体文学从表征上带有后现代的去中心、平面化和反经典的倾向,但我们还是坚信好的文学与人性追求是同一的,狂欢式的浅薄带来的是“娱乐至死”的悲哀。

第2篇:大数据论文范文

只有在同一时间同一地区大量采集样本,才有可能满足RCT随机对照实验的样本要求。RCT样本问题可望在大数据时代得到解决,随着泛在随时采集样本的大数据时代的到来,以及不间断采集医疗数据的可佩戴设备出现,样本数据的稀缺等问题将随巨量数据消失。而随着新型大数据分析挖掘工具的出现,特别是深度学习技术的不断发展和应用,证据及其结论的准确可信性必将大大提高。目前,深度学习识别5749个人脸的精度已达99.15%,其准确程度已经超过人眼和大脑。因此,深度学习必将为循证医学带来一场新的革命。本文将分析循证医学在数据证据获取、分析、制作等方面所面临的挑战,介绍医疗大数据时代的数据采集、整合、分析和处理方法,介绍面向医疗大数据的深度学习技术自动提取疾病特征的原理和方法,以及医疗大数据及基于云计算的深度学习对循证医学所带来的各种变革。面向大数据的深度学习将特征提取与决策分析过程合二为一,大大降低了医生在临床及医学研究中应用循证医学的劳动强度。结合医疗大数据、云计算和深度学习的循证医学,将克服过去数据证据稀少、偏颇、失信、不公、过时等不足,将具有更加广阔的推广应用前景和发展动力。

1循证医学与数据证据

循证医学,简之就是“遵循证据的医学”,又被称为实证医学。循证医学重视医生的临床经验,即传统意义上的经验医学,同时又强调诊断、治疗等决策应在临床证据最为符合病症的基础上作出[1]。在循证医学的创立、发展与传播方面,英国的科克伦(ArchiebaldL.Cochrane)、美国的费恩斯坦(AlvanR.Feinstein)以及萨克特(DavidL.Sackett)做出了重大贡献,成为循证医学的奠基人。科克伦强调大规模随机临床试验的重要性。他认为只有在大规模临床试验中使用随机分组策略,才能避免因样本分组而产生的选择性偏差,保持对照组和试验组样本的背景因素平衡,从而才能做出最终正确的比较与评价。他建议及时将切实医学证据传播给使用者,接受专家评估并对可信度进行适当分级,以使医学证据能被及时整理、归纳与更新。费恩斯坦奠定了现代流行病学的数理统计与逻辑基础。从1970年到1981年,他在美国《临床药理学与治疗学》杂志(ClinicalPharmacologyandTherapeutics)上,以“临床生物统计学”(ClinicalBiostatistics)为题连续发表了57篇论文,将数理统计学和逻辑学导入到临床流行病学,科学系统地建立了临床流行病学的有关理论体系。萨科特则为循证医学的传播与发展做出了巨大贡献。他发起并主编了与循证医学有关的两本著名杂志:《美国内科医师学会杂志俱乐部》和《循证医学》。

1997年,他还主编出版了《循证医学》一书,该书被译为多种文字并在世界上广为传播。正是在《美国内科医师学会杂志俱乐部》上,加拿大盖亚特(rdonH.Guyatt)于1991年首次提出了循证医学一词[3]。从循证医学与数理统计和逻辑学的渊源,便可以看出循证医学注重证据的内涵。它是一门非常强调证据制作的学科,同时又非常重视医学证据的传播和评估,这正是它区别于以往医学的特点。通过评估产生可信证据,通过传播发挥证据价值。医生在诊断与治疗过程中,不仅基于经验直观判断,而且结合证据科学决策,更加客观地进行诊断与治疗。短短十多年的时间,在世界各国医学研究与临床实践中,循证医学得到了广泛深入的应用。科克伦最初创建的世界循证医学协作网已经包括约50个专业协作小组,所收集的医疗证据几乎覆盖所有临床医学领域。1996年,我国华西医科大学建立了中国循证医学中心,并于1999年正式加入世界循证医学协作网;2001年,中国循证医学中心创办了《循证医学》杂志,发表在各类杂志的循证研究论文达45842篇。但是,循证医学也有其面临的问题,如对证据进行科学评价等问题。临床证据目前还没有完整、科学的定义,证据评价标准及推荐级别尚未完全统一,不同国家不同疾病的证据质量分级不尽相同。而且,随着人类对疾病认识的加深以及诊疗手段的革新,评价标准还会随这些因素的变化而变化。

循证医学的基础是数理统计学,要求RCT的实验样本及环境一致,以便排除个体差异及环境干扰,但这在现有条件下近乎不可能实现。号称大规模随机对照实验的样本偏少,对照组和试验组难有条件一致的个体,环境随时间空间变化造成实验对照控制困难。目前,大规模的医学样本采集困难,几百个样本已经算是比较大的样本了;而根据统计理论如要达到90%的敏感度,至少需要约1300个的数据样本。为了克服RCT样本不足的问题,Meta分析方法得到了广泛应用:通过综合已有研究多个样本集的结果,可以推得大规模样本集的综合结果。Meta分析取得了很多有价值的研究成果,但是,Meta分析的基础也是数理统计学,其运用的前提是样本及实验环境一致,正是在这一点上它备受质疑。首先,不同样本集的权重控制难于完全公正,因为其实验环境难于恰当评价和把控,实验结果难免有过度包装和偏颇之嫌。Meta分析存在的另一个问题是:它所依赖的数据往往不是最新的即时案例,制作的证据可能因环境与气候的变化而失去应用价值。总之,循证医学所面临的问题包括:证据的稀缺性、偏倚性、可靠性、及时性、公正性,以及环境的一致性等方面的问题。由于证据的一致性和及时性存在问题,基于历史数据进行Meta分析备受质疑。2014年,《英国医学杂志》在名为《循证医学濒临破产》的文章中指出[5]:循证医学的证据属于间接证据,基础建立在已经发表的研究文献上,利益冲突容易影响证据的公正性,证据环境与临床决策环境存在距离;循证医学助长了过度诊断、过度治疗,并可能存在沦落为利益集团代言人的危险。

2大数据对循证医学的影响

大数据(Bigdata)又称巨量或海量数据,是指数据规模巨大以至在合理时间内,无法通过当前主流软件工具,获取、处理、分析以便决策的结构复杂的数据[6]。大数据如下具有4V特点:Volume(巨量)、Velocity(瞬速)、Variety(多样)、Value(价值)。巨量是指已经不能再用GB(即1024MB)和TB(即1024GB)为单位,来衡量大数据的存储容量或规模,而要以PB(即1024TB)、EB(即1024PB)乃至ZB(即1024EB)为单位来计量数据容量。在巨量的医疗大数据中,各种条件的样本都会存在,因此,证据的稀缺已经不是问题。瞬速是指兼具方向的快速变化,即数据随时间和空间快速变化。大数据中的样本通常是全空间的、多维度的、全时间的及瞬时变化的。由于大数据地域环境广,数据样本量巨大、正反样本齐全,证据的“制作”已不再必要,而是随时随地客观地存在。瞬速性通过可佩戴健康监测设备体现,这为及时获取病患信息提供了极大便利。多样是指数据的种类繁多、结构复杂、因果并存、甚至同一数据表现出不同形式。数据的多样性对数据的理解和分析是一个巨大挑战,但同时也为样本分析结果的验证带来便利。因此,在医疗大数据环境下,不仅随时可以采集样本进行分析处理,还能对分析得到的结果马上进行验证,从而能够保证医学证据的可靠与可信。

价值是指相比小规模、历史数据而言,大数据具有更高的研究和使用价值。由于任意时刻任意地点都有大量样本,样本的稀缺性和及时性已经不是问题,这为医学研究扫清了采样障碍;同时由于样本丰富冗余多样,也为研究结果的验证提供了便利;大数据除具有巨量历史数据外,还有不同地域环境的巨量即时数据,这使循证决策更具应用价值和时效性。大数据将首先改变医学数据的采集方式。大数据的形成往往依靠自动采集技术,随着可佩戴监测设备如iWatch等的出现,医学数据的采集及积累速度将出现爆炸性的增长。以往的数据同大数据相比,如同沧海之一粟。且以往的数据往往靠手工采集完成,普遍存在稀缺、偏倚、可靠、及时、公正等问题,这样采集的证据必然会影响医学研究的结论。基于手工证据进行决策,其结论未必准确及时公正可靠。医疗大数据不间断地在不同地点同时采集,不仅包含历史数据以及即时数据,甚至还可能包含未来需求信息,例如,ogle就是通过人们对感冒药品的搜索来预测流感的。大数据的出现将改变医学数据的管理方式。在网络数字化高度发达的今天,尽管已经出现了电子病历,但纸张病历在数据管理中仍然重要。然而,纸张病历有其固有缺陷,如容易破损或丢失、整理归档的周期过长、借阅的时间成本极高、研究采样的工作量巨大等等。伴随大数据出现的数据融合技术能将不同医院的电子病历整合在一起,并同可佩戴健康监测设备的数据及时集成,大大减少了电子病历的整理、借阅和数据采集时间,这不仅对病人的疾病诊断和预警监控更加有利,同时也对医生的临床及医学研究更有帮助。通过语音和可视眼镜等现代化的数据浏览设备,医生在查房间隙就能获知下一病人既往病情,从而能大大减少医生的劳动强度,使医生有更多时间治疗病人,有更多的时间进行医学研究。

大数据的出现将改变医学数据的分析方式。以往在收集样本数据以后,通常使用SAS或SPSS等软件,对采集的数据进行统计分析,发现相关病因或建立决策模型。这些软件受计算能力及内存容量的限制,只能处理样本量不大的数据,并且处理的数据维数有限,例如,SPSS不能超过40维,而医疗大数据的维数成千上万。通过手工或统计软件的计算方法,将无法满足医疗大数据的分析需要。

当维数超过30个致病因素时,可能要考虑230种因素组合,普通统计软件已无法计算和处理,必须依靠内存及速度“无限”的云计算。必须研究与开发基于大数据和云计算的分析与挖掘技术如深度学习技术,使其能够自动完成高维病因数据的分析与主要病因的提取。总之,医疗大数据的采集、整合、分析、处理、研究完全靠人工完成已极其困难,没有利用云计算的统计分析软件也难于完成医疗大数据的分析和处理。在大数据时代,必须借助深度学习等技术完成医疗大数据的分析和挖掘。虽然医疗大数据能够弥补数据样本的不足和不公,但只有借助更为先进的分析工具和软件,才能为循证医学带来进一步的变革和发展。

3大数据对循证医学的变革

证据制作是循证医学的核心,证据能为医生的诊治提供参照,因此,循证医学得到了快速发展。但是,矛盾、偏颇、过时的证据也使循证医学备受质疑。首先是证据及其结论存在大量的矛盾,使人们对循证医治的结果产生怀疑;其次是证据偏颇使其成为利益代言人的工具;其三是证据时过境迁使医治达不到预期效果。而医疗大数据的出现恰好能够弥补以往证据采集与制作的不足。首先,医疗大数据使证据的稀缺问题得到解决;其次,随大数据广泛汇集的医生及病人评价,可有效避免证据成为利益代言人的工具;其三,可穿戴等自动采集设备可保证证据的时效性。这将有助于循证医学同中医的结合。中医的治疗过程通常比西医长,其证据采集及疗效评估存在很大问题,而随着可穿戴健康监测设备等技术的发展,长期持续采集治疗证据及疗效将不再困难,从而有助于循证医学在中医等领域发展壮大。此外,随大数据兴起的先进数据分析与挖掘技术,将对循证医学起到巨大的推进作用。临床决策分析评价是确定循证治疗方案的关键步骤,现有的决策分析评价模型包括决策树、Markov过程等一系列模型,这些模型在面临高维大数据时力不从心,难于继续提供较高的决策精度,使医生对医治方案是否有效失去信心。随着大数据深度学习技术的出现,病因的分析和提取已完全自动化,且大大降低了建立决策分析模型的工作量,提高了治疗方案的决策精度。对于任何疾病诊治方案,考虑的疾病致病因素越多,即证据或特征维数越多,得到的参考信息就越多,诊治的准确性就会相应提高。但是,医生在遇到大量高维的证据数据时,往往面临从中选择少数有效证据的难题。例如,假定要考虑30个致病因素或检验指标,建立决策模型就要考虑230种因素组合,从中筛选一个最优因素组合作为模型输入的工作量是巨大的。因此,要得到由若干最优证据构建的最佳决策分析模型,医生们所投入的研究精力可想而知。

筛选最优因素组合是医生们最费精力的工作,目前这项工作可以被深度学习自动完成了。深度学习最早由Hinton等人在2006年提出,它是一种无监督的特征学习和提取技术,它通过低层特征的组合构建更加抽象的高层特征。2012年,Lecun等人利用卷积神经网络真正实现了高效的多层深度学习。传统的神经网络学习只有单向认知过程,通常只包含一个隐含层,因层数较少而被称为浅层学习。深度学习则包含认知和生成两个过程,并且每个过程都包含多个隐含层,其模型的总体框架如图1的虚框部分所示。如图1所示,深度学习的“输入层”可以理解为各种致病因素以及各种检查化验结果,例如遗传环境因素以及肝功全套指标等;自底向上的箭头表示认知过程,自顶向下的箭头表示生成过程,即深度学习由两个互逆的过程构成;认知权重向量WnT和生成权重向量Wn表示深度模型的知识。原始“输入层”经“隐含层H0”认知得到输出,输出又经“隐含层h0”生成得到新“输入层”,如果原始“输入层”和生成的“输入层”完全一致,则说明认知产生的输出是完全正确的。根据信息论的有关理论,学是会产生损失,新旧输入不可能完全一致。因此,只要两者近乎一致就可以了。认知和生成权重同隐含层的每个输出相关联,wake-sleep深度学习算法用于双向调节权重:(1)利用下层输入和认知权重向量WiT产生输出表示,然后使用梯度下降法调节生成权重向量Wi;(2)利用输出表示和生成权重向量Wi产生输入表示,然后使用梯度下降法调节认知权重向量WiT。通过逐层学习最终得到顶层的认知和生成权重向量WnT、Wn。在深度学习完成后,如果要建立决策分析模型,只需将顶层输出即自动提取的特征,作为分类模型如支持向量机的输入,并用类别标记如肝硬化分级训练支持向量机,就可以得到用于决策分析的精确分类模型,分类模型如图1的虚框外部所示。2014年,香港中文大学汤晓鸥教授领导计算机视觉研究组(mmlab.ie.cuhk.edu.hk),开发了一个名为DeepID的深度学习模型,在LFW数据库上识别5749个人脸的准确率已达99.15%,其精细和准确程度已经超过了人眼和大脑。医疗大数据及深度学习必将为循证医学带来一场新的革命。不仅数据缺失、偏颇以及过时等问题会被迎刃而解,而且证据收集、制作以及诊治方案的决策都将会自动化,这将扩大循证医学在所有领域包括中医等领域的应用范围,大大降低医生在证据制作、治疗方案决策与疗效评估等方面所付出的精力,推动循证医学向更深更广更加现代化的方向发展。

4总结

医疗大数据带来的变革将是全方位的,它不仅为医学研究和证据制作带来便利,同时也将促进中医等替代和补充医学的发展。作为大数据采集的一项关键技术——便携式/可佩戴健康数据自动采集技术,将大大提高医疗数据采集以及证据制作的效率,解决中医等疗效数据需要长期采集观测的难题,弥补循证医学存在的证据偏颇、不公、过时等缺陷,促进循证医学更加客观、公正、可靠地在临床治疗中应用。在循证医学的证据评估以及利用方面,伴随大数据出现的云计算能够提高证据分析与处理的效率,大大节省医生临床应用和医学研究所需要花费的时间;面向大数据的深度学习能够从浩瀚的高维医疗数据中,自动完成疾病致病因素及环境因素等的筛选与提取工作,并能建立精度远远超过人脑的决策分析模型,从而大大提升医生建立和应用循证治疗方案的信心,有助于循证医学被各科医生更加广泛地接受和应用。尽管深度模型包含更多的隐含层,其学习时间要远远长于浅层学习,但两种模型的决策时间相差不大,因此,这并不妨害深度模型的有效应用。特别值得一提的是,深度学习将证据提取与决策分析两个过程合二为一,大大降低了医生在临床及医学研究中应用循证医学的劳动强度。基于大数据、云计算和深度学习的循证医学,由于能够降低劳动强度、提升工作效率、提高决策精度,因而将具有更加广阔的应用前景和发展方向。

5展望

第3篇:大数据论文范文

来自生物、医药、医械、临床实验与健康管理等各个方面的数据,构成生物医学的各类大数据资源,它们形式多样,具有自身的特殊性,主要表现在以下几个方面:

(1)原始数据量大,且呈异构、多样性。

(2)难以用数学方式表达其结构及特征。例如:医生对医学影像、信号和其他临床数据的解释多是非结构化的语言或文字形式自由的口述,难以标准化。

(3)数据可能包含冗余的、无意义的或不一致的属性,并且数据经常要更新。

(4)数据采集很难完全避免噪声干扰,而噪声往往会影响处理结果。生物医学大数据处理包括数据的收集、抽取与集成、分析与挖掘、解释和共享等诸多方面,涉及数据库、信息科学、统计学、高性能计算、网络科学、心理学等多个领域。

2生物医学信息处理

2.1数据挖掘在生物医学信息分析中的应用

数据挖掘是对海量数据进行处理和分析,找出数据间的隐含联系,发现未知规律,最终获得知识的过程。挖掘的过程包括信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘、模式评估和知识表示8个步骤[5]。近年来,数据挖掘是生物医学信息分析的常用手段,尤其是在循证医学研究、基因组和蛋白质组的研究领域中有很广泛的应用价值。KDNuggets在2011年全球数据挖掘应用行业调查的结果表明:健康行业位居10大数据挖掘应用领域的第3位。生物医学领域大数据多是不完整的、不一致的、有噪声的,数据具有独特的复杂性、丰富性、规模和重要性,需要数据挖掘的特殊关注。数据挖掘经典算法,如:分类、聚类、关联分析、序列等在生物医学数据挖掘时都可使用。

2.1.1 分类(Classification)

分类是根据己知数据的特征和分类结果,为每个类找到合理的模型(构造分类器),然后用这些模型对新数据进行分类。K最邻近算法、决策树、支持向量机、神经网络等是常用的分类模型构造方法。疾病的诊断和鉴别就是典型的分类过程。例如:美国学者利用数据挖掘软件Clementine,以决策树算法为模型,分析挖掘了医疗机构HealthOrg的数据仓库中有关年龄、BMI指数、腰臀比和周锻炼次数等数据,得出糖尿病患病危险因素的分析结果。此外,还有一些国内外研究者针对肺癌、乳腺癌的诊断数据,通过分类挖掘的方法提高诊断的精确性。

2.1.2 聚类(Clustering)

分析聚类分析是将有共同特征或相似度高的数据对象实例聚成一类的过程,常用来研究样品或指标分类问题。聚类分析在生物医学领域已经得到广泛的应用,例如:可以根据流行病学特征属性的相似程度将病例数据划分成若干类,通过比较各个类别之间的临床医学状态特征属性的差异来分析某类疾病。国外学者选取SEER数据库中的217558例肺癌病例,通过分析每个病例的22个临床医学特征属性和23个流行病学特征属性的相似度后,将这些病例划分为20类,这就是典型的聚类分析。

2.1.3 关联(Association)分析

关联反映的是一个事件和其他事件之间依赖或关联的知识,可以通过表征事物特征的两个或多个变量的取值之间存在的某种规律性,找出数据之间隐藏的关联关系。关联现象在生物医学领域普遍存在,例如:临床上的某些疾病会同时呈现几种不同的病症,这些病症之间就表现为一定程度的关联性,而医生诊断病症的过程常常以观察症状为基础。

2.1.4 序列挖掘(SequenceMining)

序列是指按一定顺序或规律排列构成的一系列符号、数值或事件。存储于DNA、RNA和蛋白质中的遗传和功能信息可用符号序列表示,分析序列数据能找到其统计规律或发现序列组成部分片段之间的相似性或相同性,这是生物信息学研究中最常用方法。此外,还可用时间序列数据进行某些疾病的研究与治疗,例如:欧盟资助的T-IDDM(TelemetricManagementofInsulinDependentDiabetesMellitus)项目通过Internet采集糖尿病患者的连续监测数据,经时间序列分析后找到患者一天内血糖水平变化的规律和趋势,为医生调整或精确胰岛素治疗方案提供有效的数据和支持。

2.1.5 图挖掘(GraphMining)

利用待研究的数据对象构建图这种数学模型,然后从图中寻找频繁出现的子图,从而挖掘出有价值的信息。例如:美国学术界整合出2003年H5N1禽流感感染风险地图,经过图挖掘分析出2013年H7N9人类病例区域[11]。此外,从政府管理角度来看,公共卫生部门可以针对覆盖全国患者的电子病历数据库进行图挖掘,从而完成全面疫情的监测。

2.2文本挖掘——生物医学文献信息的大数据处理

2.2.1 文本挖掘

目前,全球医药类期刊近3万种,每年200多万篇,并且以每年7%速度递增,互联网上的信息资源约有30%以上的是与医学信息相关的。文本挖掘(Text-Mining)和信息可视化(InformationVisualization)是分析这些数据,揭示知识领域的内在联系的最有效手段。文本挖掘主要结合文字处理技术,利用智能算法,分析大量的半结构化和非结构化文本源(如文档、电子表格、电子邮件、网页等),抽取散布在文本文件中的有价值知识,并转化为可利用的知识的过程,其工作流程如图2所示,挖掘前要完成包括文本收集、文本分析和特征修剪三个步骤的预处理工作。文本挖掘多以计算机技术实现,文档聚类、文档分类和摘要抽取是应用最多的技术。文档聚类主要完成大规模文档集内容的概括、识别文档间隐藏的相似度、减轻浏览相关、相似信息等功能。文档分类多以统计方法或机器学习自动实现,简单贝叶斯分类法,矩阵变换法、K最邻近分类算法以及SVM等都是其常用的分类方法。摘要抽取主要是利用计算机自动地从原始文档中提取全面、准确反映该文档中心内容的简单连贯的短文。此外,文本挖掘的结果评价常用分类正确率、查准率、查全率、支持度和支持度置信度等世界公认的重要参数进行评价。生物医学信息处理领域所涉及的DNA序列综合特征分析、蛋白质功能和相互作用分析、疾病基因发现、药物作用靶点预测等都与文本挖掘技术密不可分。在我国,已经有一些研究者利用文本挖掘技术来研究医学文献背后隐藏的知识。临床上,医生用文本挖掘技术对疾病的处方和中药用药规律进行了分析。

2.2.2 信息可视化

信息可视化是一种运用计算机图形学和图像处理技术,将信息转换为具有一定意义图形或图像,并进行交互处理的理论、方法和技术。它能有效发掘、过滤和研究海量数据,以更直观、有效的方式使研究人员更容易发现隐藏在信息内部的特征和规律,深层次地发掘包括生物医学领域在内的多个学科的研究热点和研究前沿信息,为研究人员把握研究方向提供帮助。信息可视化的常用工具有TDA、CiteSpace、Histcite、Vxinsight等软件,主要完成数量统计、共现分析和统计图表、共现矩阵、节点链接图、技术报告展示等功能。例如:国外学者针对PubMed数据库中2002年到2011年的文献,分析了以“电子健康档案”、“医疗记录系统”和“计算机辅助诊疗”为主题的文献的引用情况后,用可视化工具展现其研究结果,使相关领域的科研人员很直观的了解了该领域的研究状况。

3总结与展望

第4篇:大数据论文范文

1.1适应企业资源管理集约化和工作效率提升的需要

在整个工程建设过程中,人力资源的需求是不均衡的,而且每个阶段所需要的工种也不尽相同。因此常常会出现有些项目某一时期人员相对过剩,而有些项目却苦于找不到人。在企业发展规模快速扩张时期,人力资源的集约化管理已是迫在眉睫。物资集中采购是大型企业的通常做法,这也是企业“以量换价”降低成本的有效方法。大量物资从对外采购到对内各个项目的供应,期间还要实现大批材料间的合理串换以及设备间的合理调配等资源管理工作,仅仅依靠精密的计划是不够的,建设工程受施工环境、政策等多种因素影响,有时一拖就是几年(例如一个拆迁问题就可能影响一个工程多年)。因而充分集约企业有效资源,提高资源的利用率,降低企业成本,已成为企业管理创新的主要方向。基于“大数据”信息化平台的工程管理体系可为解决这一问题提供正确、可行的方法。

1.2适应企业流程化和标准化管理的需要

传统的施工企业技术管理强调技术创新、工法研究、论文编写以及对工程现场技术问题的处理等。相对而言对技术的传承、积累、技术人才的培训工作做得不够,很难形成具有企业特点的技术资源库。新员工常常连基本的表格填写都弄不明白,更无法谈及熟练掌握核心技术要点。同时随着企业规模的迅速扩张,企业的管理人员数量增长远远不及规模的增长。为了加强控制、保障效益,企业不得不提高流程化、标准化管理要求。但随之而来的问题却是由于数据不能共享,员工的重复工作大幅增加,且数据错漏频多。以大数据技术思维创新技术体系的管理方式和内容,变革施工企业的管理模式,是适应互联网时代企业管理革命的迫切需要。

2基于“大数据”的工程管理体系建设的主要思路和框架

2.1基于“大数据”的工程管理体系建设的思路

基于大数据的工程管理体系构建的思路是:用大数据的思维构建工程管理体系,是将工程管理全过程数据(并非只是样本数据)进行归集、分类,然后通过互联网在系统内进行共享和处理,实现思维共享,实现工程管理的系统化、系统运行的流程化、流程控制节点的表单化。用数据驱动系统建设,用数据应用的新要求推动数据积累,数据流动推动管理流程化运行,数据的变异推动监管系统的完善。

2.2基于“大数据”信息化平台的主体框架

基于“大数据”的信息化平台主要包括“大数据”库与工程管理系统两部分,相对于现有的工程管理软件,其核心是集成了企业管理经验的数据库,信息平台的开发是工程技术人员主导开发,强化了现场管理的主要控制点,适用性强。“大数据”库收集了工程管理过程中所形成的诸如技术、质量、安全、成本等方面的各类基础数据,为了便于数据归类及查询,分别建立了技术质量数据、成本管理数据、安全管理数据三个子数据库。工程管理系统是针对项目而建立,实现对项目进度、质量、成本、安全的过程管控。它包括四个子系统:项目综合管理、技术质量管理、成本过程管理及安全生产管理。

3工程管理系统建设的基本要求、主体功能及主要特点

3.1基本要求

(1)便于访问和查询

“大数据”库不仅应满足对企业全过程、全方位所形成的数据信息进行及时收集、分类储存,便于分析处理,而且应能与工程管理系统实现有效链接,便于对信息数据的访问及查询。

(2)实现对工程项目的高效管控

该系统能够对工程项目全过程、全方位进行远程管控,实现项目质量、安全、成本、进度等子系统的无缝对接,使管控指令及时下达,并迅速获得反馈信息,实时对项目执行效果进行评价。

(3)硬件设施能满足系统运行以及扩展的需要

企业中心服务器、网络传输带宽及数据采集终端必须满足系统运行,并且应预留出足够的扩展空间以适应系统持续改进的需要。

3.2主体功能

(1)实现项目的动态管理

该系统通过“大数据”库与管理系统的互动功能,从项目合同签订伊始到项目竣工结束,建立项目质量、安全、进度、成本的动态数据库,实现项目质量、安全、成本、进度等子系统的无缝对接和远程管控。

(2)实现标准化和系统化管理

该系统为资料编写流程、收集要求、操作人员行为规范、样表和示范文本等资料的标准化管理提供了依据,管理过程中所形成的资料实时归集、分类存储,确保资料的完整性、准确性和系统性。

(3)提供咨询服务和培训指导功能

数据库中的样本、范本、各种说明要求按照国家及行业现行规范进行编制,管理过程中形成的经验数据、方法等经过提炼与总结达到行业先进水平。企业管理人员通过便捷的查询和借鉴,能够快速了解和熟悉自身业务,从而不断提高综合管理素质。

(4)提供即时交流互动平台

该系统搭设了网上沟通交流互动平台,提供了企业员工相互间进行经验交流、问题探讨的通道,并能借助企业内、外专家库链接窗口,实现对各专业疑难问题(如技术难题、成本组价)的实时快速处理,并与手机联动,确保沟通的及时性、有效性。

3.3主要特点

(1)总结经验形成技术核心竞争力

将企业历年来在工程管理中所形成的各类数据(包括技术方案、质量管控技术方法、工法、成本参数等),根据新的管理系统要求,重新进行收集、分析、整理,数据库与管理系统之间统一协调。同时通过系统运行,将外部先进知识和企业不断发展形成的新知识充实到数据库中,实现对现有数据的更新,确保数据的先进性。

(2)简化管理工作

数据库中存储了各类工作表格、表单、样本,包括记录工程实体质量的资料表格、进行安全管理的台帐表格、收集进度数据的统计表格、控制成本的消耗表格等,并且每种表格在何时进行填报,如何进行填报,数据库中均有模板及说明,工程管理人员只需要结合工程实际进行填报,数据交由信息化管理中心进行处理、反馈,大大减少管理中的重复劳动,分工更加明确,管理工作得以简化。

(3)样本模板标准化和信息的集中处理降低对一线员工的要求

系统中的每个管理节点,其具体工作的相关要求均按照国家、地方、行业的管理标准,结合企业的管理流程,编制了大量的样本文件和模板,并对每项工作要录入的数据作出明确规定。对一线每个岗位的要求就是做到数据录入的及时性与正确性,而信息处理则集中在公司各职能部门或外包单位。弱化了对一线员工的技术要求,使其将更多精力投入到现场生产及管理中。

(4)通过平台数据流动实现资源的集约化管理

通过运用“大数据”信息化平台进行工程管理是对原有管理思路及管理路径的突破。原有的管理路径是点对点的单线程管理,例如:技术问题→技术部→总工程师,成本问题→成控部→总经济师,技术数据与成本数据在总工程师与总经济师之间发生交互,降低了管理效率,采用信息化的管理后,由于信息化平台的介入,使得多个职能部门间能够并行管理,数据交互可发生在任何时间及地点,提高了数据利用率。利用互联网及信息化平台使管理路径中存在了共享机制,平台及时了各类资源信息,包括设备、人力资源、材料、劳动力等,管理人员可通过平台调用、查询各类数据(人员、物资、技术资源等),实现资源共享。例如某个工地刚进场一台设备,这台设备的各类参数就会即时在内网上公布,设备资源库为设备管理人员提供全公司所有设备资源性能参数及其分布。同样对于材料资源,优秀的分供商信息随时都会公布在内网上,资源利用充分而有效。

(5)建立交互式平台系统及时纠偏

通过系统建设再造了企业决策层和管理层、管理层之间、管理层与执行层的运行流程。以流程运行为主线路,各管理节点将数据处理信息到交互式平台,使执行部门的数据及时传递到相应的监督和管理部门,例如材料部门是依据成控部和项目部在工程开工前提供的材料计划进行供应,而当项目的材料供应需求偏离计划时,材料部门会及时对项目部提出预警,及时纠偏,进一步规范流程运行。

4结论

第5篇:大数据论文范文

1.大数据的背景与特点

(1)信息规模大。大数据的发展是与互联网息息相关的,互联网技术的时时更新与不断发展,无疑产生了海量数据。毫不夸张地说,无时无刻不在产生新的数据。常规数据的存储单位一般为GB或TB,而大数据的单位往往是PB、EB甚至ZB,可见大数据的数据量之大之多。(2)数据的多样性。以前的数据大都是结构化的数据,现在由于信息的采集、加工与传输技术的不断发展,尤其是在互联网络上,产生各种非结构化的数据,代表性的非结构化数据包括音频、视频、传感数据,互联网上的以博客、微博为代表的文本数据等,使得数据的具体形态呈现多样性。(3)复杂关联性。在当今互联网的时代,产生的各种各样的联系,比如在电子商务网站上购物,曾经搜索过的关键词会成为电商网站制定个性化推荐、进行精准营销的最主要依据,个人在不同的社交网站上所提供的个人信息,以及在电商网站购物所留的具体信息都可以转成为有效的商业信息。这就表明了数据之间联系的紧密与密度,也说明了数据间的关联复杂性。(4)价值密度低。当然,海量的数据并不意味着海量的价值,不可能所有的信息都具有价值,如一些冗余信息。需要利用数据挖掘技术,对海量信息进行有效地提取与挖掘,找到具有价值的数据,并将其运用到商业活动中。

2.大数据时代第三方物流企业CRM面临的挑战

在了解了大数据的特征之后,我们便对大数据有了一个清晰的认识。那么在这个以数据为中心的大时代背景下,对第三方物流企业,对现在逐步将客户升级为企业核心竞争力、强调以客户为中心的第三方物流企业CRM带来了什么样的机遇与挑战,值得我们深思。CRM既是一种管理理念,也是一种应用软件,更是一种管理模式。客户一直都是企业非常重视的资源,而且对客户的重视早已从交易进行中扩展为注重潜在客户(即交易尚未发生时)、重视售后管理(即交易发生后),即在整个过程中都强调客户的地位和重要性。当今充满信息的时代,人们更加重视客户的管理,由此可以看出,客户的概念已经发生很大的变化。客户概念的泛化,无疑使客户需求变得具有多样性、多重性和差异性。在这个数据高速增长、信息高度发达的年代,无疑数据是驱动物流企业发展的动力。那么面对海量数据,低密度的价值数据,物流企业的数据“短板”,与客户信息、客户需求之间的矛盾与差距,使得物流企业在大数据时代进行客户关系管理时面临严峻的挑战,主要体现在以下几个方面:(1)数据不足与客户流失控制与预测不足之间的矛盾。客户流失一直以来就是企业面临的重大考验,而如何能够有效的控制与预测客户的流失也一直是长期讨论的热点。针对客户流失的控制与预测,传统的方法是建立在收集客户信息、资料的基础上,对客户的满意度进行分析。而往往这些数据是非常具有局限性的,仅仅是来自第三方物流企业自身积累的客户服务信息,而且在分析时并没有突出分析客户的忠诚度。而现如今客户的需求多种多样,且时时变化,客户的很多信息大多体现在社交网站或商务网站,而且信息的价值密度又比较低,造成物流企业不能很好的去收集、分析客户的信息,去有针对性的满足客户需要,去提高客户的忠诚度。因此,只能用相对少且相对固定的数据制定客户流失控制策略,或进行客户需求预测及市场预测,这些做法往往效果不理想。(2)数据更新不足与客户聚类以及个性化服务不足的矛盾。对客户数据进行聚类分析,是第三方物流企业进行客户关系管理很重要的一个应用方面。第三方物流企业的市场管理、销售服务等都与客户关系管理密切相关,都是强调以客户为中心。而根据数据对不同的客户群体进行聚类分析能够做到有针对性的进行管理,在降低客户关系管理成本的同时,也能够有效的制定实施营销策略。而对于物流行业这样一个数据驱动型的物流企业,数据的更新可以说是至关重要,要求及时将新的信息反馈给管理部门。而普遍的结构化数据,或已有的数据库数据信息相对陈旧,脱离客户不断变化的需求,这必然导致据此制定的各项CRM策略缺少有效性,甚至是营销策略的失误。(3)数据类型单一与关联性分析不足的矛盾。大量单一的客户结构化数据对已有客户的需求分析具有一定作用,然后对潜在客户或提高客户忠诚度上的作用不是很大。当前信息时代,除了传统的结构化数据,可以通过各项技术获得更多的半结构化的如网页、文本等数据,及一些非机构化数据,这些数据往往和客户的已有信息相关联,这些数据的收集与分析,能够为发展潜在客户提供基础。当前第三方物流企业大部分依旧依赖于结构化数据,数据类型比较单一,不能及时了解客户的进一步需求或与当前需求相关的产品或服务,造成对潜在市场的忽略。(4)客户需求变化与CRM模式滞后之间的矛盾。许多第三方物流企业对CRM的认识还停留在传统的与客户互动及管理方式上,虽然认识到了客户的重要性,但是在具体客户关系实施管理上,还存在很多问题,与信息时代的要求严重脱节。同时,在海量数据到来之时,又显得力不从心,无法挖掘出有效的价值信息。这种“迟钝”导致客户需求得不到最大满足,对第三方物流企业而言,面对残酷的市场竞争,时刻把握客户的需求,更好地为客户服务显得尤为重要。反之,则会导致被潜在客户所忽视,被老客户所抛弃,被客户抛弃意味着企业被市场淘汰。

二、大数据在第三方物流企业CRM中的应用

1.大数据下第三方物流企业CRM框架设计

在将大数据技术应用在第三方物流企业CRM的过程中,在整个CRM框架设计中都要明确体现出整个CRM的工作都是围绕客户进行的。各种商业目标定义的来源是客户,数据挖掘与分析的数据来源也是客户,最后具体的商业应用也是作用于客户。同时,数据的正确获取,数据的有效预处理,数据的合理存储,采用优秀的数据处理技术进行数据处理,以及优秀数据挖掘方法和技术的选择与应用,这些工作都离不开信息技术。包括大规模并行处理数据库、数据挖掘、互联网技术、分布式文件系统和可扩展的存储系统等。该模型以客户信息为主线,将第三方物流企业的客户关系管理分为三个层次:客户信息收集层、客户信息分析层、信息输出———客户服务与支持层,在整个过程中都离不开网络技术、数据挖掘等技术层面的支持。具体说,在将大数据应用于第三方物流企业CRM中时,第一步需要通过大数据获取技术得到足够多的各种类型的数据,主要包括从客户和市场等企业的外部环境,以及公司销售记录等内部渠道,收集各种客户信息和市场信息,形成大数据集;第二步需要应用包括数据仓库、数据挖掘和商业智能等技术手段对获取的大数据集进行计算、汇总,通过“聚类分析”、“关联分析”、“数据融合”,实现对客户的个性化分析、竞争情报分析、市场需要变动和产品扩展分析及共性分析,得到应用型数据,这样做的目的主要解决传统CRM中个性化服务不足、市场拓展、市场趋势预测不足的问题;第三步针对第二步的客户分析,围绕这个“中心”,把这些信息输出给客户或企业内部用来制定各种决策及提供服务支持,形成可行性报告,应用于服务管理、市场管理、销售管理及物流企业管理。通过整个CRM系统,不仅成功的对客户信息进行收集、分析、输出,同时将客户各种背景数据和动态数据收集整合在一起,同时将运营数据和外来市场数据经过整合、变换载进数据仓库。不仅重视怎样从技术上实现对大数据应用的过程,并且着重强调的是解决传统CRM的弊端,将大数据时代物流企业CRM所面临的问题在整个流程中进行解决。

2.大数据背景下第三方物流企业CRM应解决的问题

第6篇:大数据论文范文

个人信息泄露与滥用,侵犯个人隐私并不是互联网所特有的现象。但进入互联网时代以来,个人信息复制、散播极其便捷,滥用个人信息给公众造成骚扰甚至伤害的现象普遍存在,侵犯个人隐私的事件也层出不穷,因而对个人信息进行保护以预防和制止滥用,保护网络隐私逐渐成为多数人的共识。个人信息被极端滥用的典型事件以2005年韩国发生女子因未清理宠物粪便导致的所谓“狗屎女”事件为典型,该事件是如今被称为“人肉搜索”的第一次公共事件,因个人信息被公布,当事人受到巨大影响,退学、搬家直至罹患精神疾病都难以摆脱困扰,是导致韩国一度实行网络实名制的标志性事件。侵犯网络隐私也很普遍,具体表现则与个人信息有交叉也有不同。同时,大数据应用也是机遇,必须对大数据应用的商业利益与公众的隐私保护需求做出适度的平衡。

二、个人信息与隐私的含义,区别与联系

个人信息是指与自然人个人或家庭密切相关数据或者资料,有些能够定位或者识别个人身份,有些虽然不能定位或者确定身份,但与个人特征、信仰、健康状况、行为习惯、联络方式等有关。隐私在我国是历史上是早已有之的概念,但1949年以后至今,新中国法律意义上的隐私最早是1956年《全国人大常委会关于不公开审理案件的决定》首次在立法中使用的“阴私”提法:“人民法院审理有关国家机密的案件,有关当事人阴私的案件和未满十八周岁少年人犯罪的案件,可以不公开进行。”此后,1979年刑事诉讼法,人民法院组织法,最高法院在批复中也使用的是“阴私”这个提法,并界定了阴私案件的范围。从1982年《民事诉讼法(试行)》开始,1991年实行的《未成年人保护法》39条规定“任何组织和个人不得侵犯未成年人隐私”,从此我国法律和司法解释开始使用“隐私”而不再用“阴私”的提法。隐私的含义主要是指当事人不愿意他人知晓或者他人不便知晓的个人信息,事宜或不愿意或者不便他人介入的领域。《现代汉语词典》第五版对阴私的解释是不可告人之事,多指不好的事情,1998年重印的修订本解释则为“不可告人的坏事”,隐私:“不愿意告人或者不愿公开的个人的事”。可见,即使从非法律的普通人理解来看,隐私范畴大于阴私,隐私概念更为中性,没有贬义,除了阴私还有个人信息的内容可以构成隐私。

个人信息与隐私有区别也有联系:个人信息的内涵和外延都较大,与隐私有一部分交集,也有不完全相同之处。通常个人的信息包括:姓名,性别,年龄,婚姻家庭情况,联络方式(特别是手机等通讯设备号码,或者其他用户身份识别标识,包括码号,电子邮箱,即时通讯账户ID,家庭住址,可用以判断用户地理位置的移动或者其他设备的地理位置信息,等),健康状况,病史,基因信息,生物识别信息(指纹,脚印,血型,等),行为信息,包括个人活动信息,因使用移动计算机终端设备产生的浏览,搜索,交易,支付等信息。个人信息的概念比较中性,原来不是法律术语,2003年《居民身份证法》开始对警察泄露个人信息行为予以法律约束,2009年刑法修正案七规定非法提供、获取个人信息定为犯罪,此后,此概念成为法律用语,换言之,刑法先于民法对个人信息进行了保护。但目前还没有法律对个人信息的含义与范围作出规定或者限定,根据目前技术发展迅速的特点,个人信息的概念可能还会随着技术和商业发展有所变化。

目前正在从个人计算机为主的互联网走向移动互联网时代,隐私主要有:与性有关的行为或者其他信息,不宜公开的照片及音视频资料,财产、个人金融信息,生理情况,个人卫生和排泄等行为,不便公开的健康和疾病信息,等,在网络时代比较突出的网络隐私主要有:个人计算机终端设备产生、访问的敏感信息,用户通讯内容,用户的各类账户密码信息,等。

目前开始崭露头角的可穿戴设备,以及具备检测人体各项指标的手环,手表等各种设备,其对人体各种数据的采集即使个人信息也属于隐私。因而,如何确定个人信息的使用将平衡个人隐私保护与新技术给人类带来的福音。

三、中外个人信息与隐私的案例比较与分析

我国已经发生的个人信息泄露与滥用的案件很多都与隐私受到侵犯密切相关,比较典型的案例有“海运女”案件,“微博开房门”事件,“郭美美”事件,王菲诉张乐奕“北飞的候鸟”侵犯隐私案,等。美国发生过的有较大影响的个人信息案例包括2012年FTC调查谷歌隐私案,因safari浏览器隐私问题而对谷歌处以2250万美元的罚款。

在海运女案件中,法院判决搜索引擎因未履行《互联网信息服务管理办法》规定的监管责任,“百度公司在知道或应当知道网络用户利用其服务传播侵权内容的情况下,未采取合理的必要措施,应当承担责任”。本案判赔金额仅仅为2.2万元。在另外一个影响甚广的王菲诉张乐奕“北飞的候鸟”案件中,法院经公开召开研讨会,后判决侵权成立,赔偿人民币5000元。如果说后案因为存在道德上的争议,法院判决赔偿较低可以理解的话,前者的赔偿金额较低,就是我国目前常见的“赢了官司输了钱”现象的反映了。相比较而言,2001年Double Click公司就设立了首席隐私官职位,2007年该公司并入谷歌,2012年谷歌还是发生safari浏览器隐私问题罚款2250万美元。可见网络个人信息和隐私保护必须从长计议,不是简单某个措施就可以解决的。

四、个人信息保护的法律途径:

刑法修正案七,非法获取个人信息罪,这是对于新兴网络现象刑法再一次走在民事立法之前,刑法率先对个人信息的贩卖等行为采取严厉刑事制裁措施。

2011年修订的《居民身份证法》第6条规定:“公安机关及其人民警察对因制作、发放、查验、扣押居民身份证而知悉的公民的个人信息,应当予以保密。”第13条规定:“有关单位及其工作人员对履行职责或者提供服务过程中获得的居民身份证记载的公民个人信息,应当予以保密。”第19条规定:“国家机关或者金融、电信、交通、教育、医疗等单位的工作人员泄露在履行职责或者提供服务过程中获得的居民身份证记载的公民个人信息,构成犯罪的,依法追究刑事责任;尚不构成犯罪的,由公安机关处十日以上十五日以下拘留,并处五千元罚款,有违法所得的,没收违法所得”。

2012年底通过的《全国人大常委会关于加强网络信息保护的决定》,明确提出保护能够识别个人身份和涉及隐私的电子信息。2014年3月15日实施的《消费者权益保护法(修正案)》规定,个人信息依法得到保护,确立了工商行政机关可以对侵犯个人信息进行行政处罚的职能,确认了公民可以向法院起诉。但这两部法律都没有解决如何赔偿问题。因而,在法律实施到现在,还没有发生有影响力的个人信息方面的民事案件。日常生活经验表明,个人信息广泛被贩卖和滥用的情况没有取得明显的好转。仍需要思考如何从制度上确立预防和制止个人信息泄露与滥用的有效机制。

国外关于个人信息的保护,主要立法经验有:美国有《隐私权法》《电子通讯隐私法》等多部法律,主要是隐私保护,在美国隐私观念深入人心,用户有较强的隐私保护意识。欧盟以《个人数据保护指令》确立的个人数据保护模式,德国于1976年颁布《联邦资料保护法》,法国于1978年通过《法国自由、档案、信息法》,1984年英国制订《数据保护法》。根据笔者与来华的这些国家国籍的朋友交流情况来看,这些国家个人信息滥用远不如中国严重,笔者分析认为主要原因还在于较强的隐私意识文化传统及其成熟的法治,一旦侵犯个人隐私会承担较为严重的法律后果。

笔者认为,根据目前已经能看到的个人信息在移动互联网时代的广泛采集和应用,原有隐私权不能满足对个人信息应用和保护的需要,有必要在民法上创设个人信息权概念,是一种人身权(人格权)兼具财产权性质,类似知识产权的一种复合型民事权利。具体权能为:知情权(对采集、应用、存储、管理和销毁个人信息有知情了解的权利),处分权(允许采集、应用、存储、销毁个人信息),受益权(对个人信息的商业性使用获得收益的权利),不作为请求权(对不符合个人意愿的个人信息采集使用行为有拒绝、请求停止、消除的权利,此权能可以包含美欧目前已经被广泛讨论的“被遗忘权”)。隐私权的生活安宁权虽能涵盖一部分前述的权能内容,但个人信息可以许可他人使用,并从从获取经济收益,这些行为与传统的隐私权人格权特征有较大出入,因而单独确立个人信息权可以成立。

五、个人信息民事立法的基本制度构建

虽然我国已经在个人信息保护上进行了若干立法,但仍然存在明显的缺陷,即没有惩罚性的民事制裁措施,无法从制度上预防个人信息滥采滥用,也无法斩断个人信息的灰色利益链条。由于行政处罚需要证据,刑事处罚需要一定门槛,法律规定的行政惩罚措施和刑事打击在日常生活中罕见使用,因而在经济利益驱动下,几乎每个人在生活中都仍然难免经常性遭遇个人信息泄露与滥用的危害。借鉴博弈论的经济学理论,笔者建议在个人信息保护立法中建立以下基本民事制度,以引导企业遵守保护个人信息的法律规范:

首先是设立个人信息使用者和收益者对个人信息来源进行合法性审查的合理谨慎义务。即要求使用个人信息进行商业宣传或者其他推广的机构和个人应当对信息来源合法性进行合理谨慎的注意,为避免企业通过子公司或者第三方规避此义务,因而有必要加上受益人也负有此责任,包括广告主和实际受益人,不限于广告经营者或者直接者。只有建立了此制度,才能杜绝正规企业采购营销服务不审查个人信息的合法性,从而在客观上助长个人信息泄露与滥用的现象。同时,如果能够较好执行本制度,等于打击和消灭了非法采集和滥用个人信息的销售、变现渠道,使其失去违法的经济驱动力。

其次是建立递进式惩罚性赔偿制度。我国立法已经确立了企业对个人信息和隐私的保护义务,可以在此基础上扩展为企业对个人信息的安全保障义务。对于违反企业信息安全保障义务的,确立递进式惩罚性赔偿制度。我国侵权责任法已经有惩罚性赔偿制度的规定,但由于法院在确定赔偿时过于审慎,迄今为止没有看到有影响力的适用侵权责任法关于惩罚性赔偿的民事判决案件。消费者权益保护法自立法之初即确立了对欺诈的惩罚性赔偿制度,二十年来,通过典型案例的媒体报道,在社会上有广泛的影响,是我国民事法律中发挥了较好引导作用的法律规范。而且,我国的惩罚性赔偿限于欺诈或者主观恶意,消法修改后,欺诈的惩罚性赔偿额限于实际损失三倍以下,也规避了美国司法制度中赔偿过于庞大的负面作用。

因而,在个人信息侵权行为的民事赔偿方面,有必要继承前述法律已经有的成果。鉴于个人信息侵权行为往往难以证明损害后果,如果法律不规定法定赔偿标准或者计算方法,由于我国法院坚持填平式赔偿原则,实际诉讼中赔偿将延续目前较低局面而不会具有威慑力,仍然无法改变在利益驱使下泄露滥用个人信息的局面。因而,比较现实可行的是建立递进式的惩罚性赔偿制度,即对于三次以上侵犯个人信息权,或者经行政处罚或者诉讼判决侵权成立,仍然拒不改正的,法律应设定较大的法定赔偿责任,或者在按照普通民事侵权三倍以下予以赔偿,或者经由消费者保护组织起诉的,可以设定较大额赔偿,由消费者组织在受害者中予以分配。只有违法行为人了解一旦实施违法行为其法律责任将超过其获得的收益时,才可能根本上扭转个人信息过度收集,随意泄露和普遍滥用的混乱局面。

第三是建立个人信息规范、合理使用的制度。在大数据应用前景极为广阔的今天,应该为企业大数据应用留下空间,引导企业规范使用,而不能因噎废食,因限制过严导致企业无法开展大数据应用,公众也无法享受网络技术发展带来的便捷与进步。因而,建议确立在满足下面三个条件的前提下,允许企业采集、应用、存储、管理并销毁个人信息:

1、经公示或者告知信息收集目的,收集、应用、存储和销毁规则,并且采取合理措施履行保护个人信息避免泄露和滥用;

2、不披露具体个人的信息,也不能根据数据应用的结果反向联系或者确定到具体个人;

3、不违反隐私保护的强制性规定。

个人信息的合理使用,是指为履行与用户所订立合同目的,或者为保护用户之合法权益,按照最低必要限度原则收集个人信息,并诚实信用使用个人信用使用个人信息,包括身份验证,通知联络,履行合同订立的先合同义务以及履行合同后的附随义务等。合理使用应当是非商业目的,并且不得违反法律的强制性规定。

第四、建立个人信息举证责任倒置。网络时代信息由企业收集,存储于企业的服务器,用户往往难以举证,因而,在个人信息收集、存储、管理、应用和销毁相关事实发生争议时,应由服务器所有人的企业进行举证,否则维权人将因为举证不能而无法获得保护。有必要说明的是,鉴于可能泄露信息的环节可能很多,为避免企业承担过重的举证责任以及被滥用,因而举证责任倒置应该是指企业提供存储的个人信息,以及举证证明自己按照法律和相关行业标准履行了个人信息保护的软件和硬件、管理等相关标准和要求,即履行了信息安全保障的法定合理谨慎义务。

第7篇:大数据论文范文

在金融创新的大潮中,监管创新能够及时对金融市场中各种行为进行监督与管理,对保证金融市场的健康发展意义重大。在今天的中国金融市场上,各种创新快速推进。若金融监管不快速创新,则将为新产生的金融产品留下监管真空地带,从而为各种违法违规行为提供土壤。监管创新不仅仅是覆盖金融各新诞生的领域,打击各种新出现的违法违规行为,更重要的是为维护金融市场公开、公平、公正的金融秩序,发挥金融市场作用,促进金融市场健康发展,提供了保障。监管创新的意义在于以下几点:监管创新是保护投资者权益的需要。在金融创新的过程中,创新领跑者往往具有对普通投资者的优势。例如:在高频交易发展过程中,高频交易机构会采取闪电指令,先于普通投资者成交,并侵害普通投资者的利益。监管者需要防范类似创新带来的不公平竞争,以保护投资者利益。监管创新是维护市场秩序的需要。“老鼠仓”等违法违规行为违背了基金管理人诚信的原则,并严重危害了金融市场的正常秩序。若不加强监管,这种行为将打击投资者信心,并阻碍金融市场的正常发展。因此,需要大数据系统等类似的新型监管手段对“老鼠仓”形成有力打击,以维护金融市场正常秩序。监管创新是金融持续创新的需要。在金融创新的过程中,只有监管创新及时跟进,才能保证金融创新正常推进,并发挥金融创新的作用。相反,若监管创新滞后,新产生的金融产品容易纵。例如,1995年国债期货327事件,直接导致国债期货退市,还严重干扰了金融市场的正常运行,阻碍了金融创新的正常推进。

2金融监管创新中的问题分析

金融监管创新主要面临金融市场快速发展所带来的问题。在金融创新过程中,投资品种逐渐丰富,交易环境逐渐开放,投资者的交易方式也逐渐多样化。而与之相伴的是,风险来源增加,可能的监管漏洞也在扩大,这对金融市场的健康发展提出了挑战。我们从交易品种、交易方式、监管漏洞等方面对金融监管创新所需要面临的问题进行简要描述。

2.1品种丰富,交易环境开放在过去的金融市场中,投资者只能对股票、债券等品种进行投资。虽然在之前的金融市场中也曾短暂出现过权证、国债期货等金融衍生品,但最终这些产品都因产品设计不完善而退出市场。而在现在的金融市场中,投资者可以投资股票、债券、股指期货、国债期货、商品期货进行投资。此外,投资者还可以借助QDII对海外市场进行投资。在股指期货从无到有的过程中,也可以看出我国交易环境逐渐开放。在股指期货上市初期,其面临条款设计过严、投资者限制过严的局面。为此,证监会及中金所逐步细化机构投资者进入条件,吸引了更多的机构投资者,例如:基金公司、证券公司、QFII、保险机构等,参与到股指期货市场中来。此外,监管层在恰当的时机,不断放松合约的约束条件,如持仓限额、保证金比例、交易手续费等,以创造更开放的交易环境。进入2014年,金融创新的脚步继续加快。这其中比较突出的是各种期权产品的快速推进。上交所推进个股期权仿真交易;中金所推进股指期权的仿真交易;郑商所推进白糖期货期权的仿真交易;大商所推进豆粕期权仿真交易。这意味着在不久的将来,投资者又将拥有新的投资工具。

2.2新兴交易方式兴起随着金融产品的丰富,投资者可以选择的交易方式在创新。借助期货、期权等做空工具,基金管理人设计出对冲基金、套利基金等新兴基金产品。此外,海外流行的量化交易、高频交易也在国内逐渐兴起。量化投资是指利用投资模型指导投资的一种手段。在量化投资过程中,投资人员将交易思想转化为交易模型,并借助相应的计算机程序来检验交易模型的有效性。对于有效的交易模型,投资人员再借助计算机程序来实现实际的交易。在量化投资领域中,投资者可以从各种投资思想出发设计交易模型,从而从各种角度来获取传统投资方法无法获取的利润。关于量化投资的具体介绍,可以参考王帅(2013)。高频交易时对交易条件要求更高的一种交易方式。高频交易和低频交易相对,是借助高性能计算机,在极短时间内对市场变化做出反应并迅速完成换手的交易方式。关于高频交易的具体介绍,可以参考王帅(2013)。国内交易环境的开放对于高频交易等新兴交易方式的发展有重要的作用。例如,股指期货的交易手续费的下调对于高频交易者的参与至关重要。交易手续费上万份至零点五的下调可令交易策略从亏损变为盈利。此外,铜、白糖等期货品种的平今仓手续费优惠的设定给了套利交易者生存的空间。

2.3风险源、监管漏洞增加新的交易品种、新的交易方式给投资者带来新的收益的同时,也带来了新的风险源及监管难度。随着交易品种的丰富、交易系统的升级,由交易产生的数据急剧上升。高频交易往往涉及海量数据。面对海量数据,机构需要具备高端的服务器,甚至具备大型机房。海量数据处理也为监管层带来了更高的监管难度。新交易方式的兴起带来了新的影响范围更广的风险。2012年8月16日的光大乌龙指事件是由光大证券策略投资部门自营业务在使用其独立的套利系统时出现系统错误而造成。这种操作风险往往从外部难以监管,而且容易造成巨额亏损和巨大的市场风险。2010年5月6日,美国道琼斯30种工业股票平均价格指数在没有任何突发信息的情况下,盘中一度暴跌将近1000点,创美国股市有史以来最大单日盘中跌幅。随后,指数又大幅反弹,这给市场造成了极大的冲击。事后,美国证券交易委员会和商品期货交易委员会调查报告,认定本次瞬间暴跌是由一家交易机构在市场饱受压力时,交易电脑自动执行卖出指令触发的。这也让高频交易再次成为众人焦点。除新的风险外,在开放的市场环境下,“老鼠仓”等违规操作手法更加隐蔽。在过去的金融市场中,违法者只能对股票现货进行利益输送、内幕交易等操作。而现在,违法者可以操纵股票对应的期货进行非法获利,这也给监管带来了新的困难。

3金融监管创新的策略

为适应金融市场的快速发展,金融监管需要在监管理论与监管措施上同时进行创新。金融创新带来期货、期权等新金融品种,也带来了对冲交易、套利交易等新交易方式,但其同时也带来的更多、更高等级的风险。随着交易品种的丰富、交易系统的升级,传统监管方式难以满足监管的要求。而以大数据为代表的创新型监管系统正逐渐发挥出较好的监管作用。我们将从监管制度、监管技术等角度对金融监管创新进行讨论。

3.1监管制度完善金融监管首先要从制度上进行完善,才能使得后续监管有法可依、有规可循。在全球金融市场中,各国金融监管者们都需要不断出台新的监管制度或更新已有监管制度,以应对不断出现的新的金融产品或交易手段。在美国金融市场上,美国证券交易委员会(SEC)关于高频交易的监管制度修订在持续进行中。随着高频交易的快速发展,SEC对高频交易的关注也在不断升温。1998年7月7日,SEC建立了新的监管框架RegulationATS,并推出了ECNs、DarkPool等新型交易中心,引发了美国金融市场结构的变革,并为高频交易的迅速发展提供了制度•52•基础。但近年来,关于高频交易的各种担忧不断上升。从2009年下半年开始,SEC开始制定针对高频交易的监管措施。最终,SEC陆续出台了禁止闪电指令等监管措施,并且正在酝酿更全面的高频交易监管方案。在我国金融市场上,监管层同样需要不断修改已有监管措施或制定新监管法案,以面对新的金融问题。在我国基金领域,“老鼠仓”一直是危害严重的违规行为。老鼠仓是指庄家在用公有资金拉升股价之前,先用自己控制的资金在低位建仓,待用公有资金拉升到高位后个人仓位率先卖出获利。“老鼠仓”的行为严重侵害普通投资者的利益,破坏金融市场公平交易的原则。而随着金融创新的深入,“老鼠仓”行为更加隐蔽,更增加了监管难度。“老鼠仓”行为严重破坏金融管理秩序,损害公众投资者利益,但之前的刑法却未对这一犯罪行为做出明确规定。过去刑法只对利用证券、期货交易的内幕信息从事内幕交易的犯罪及刑事责任作了规定,但对“老鼠仓”行为未做出明确规定,这给监管带来了不小的麻烦,难以对该行为形成震慑力。之后,2009年2月28日,十一届全国人大常委会通过了《刑法修正案》,并从通过之日起实施。刑法修正案将《刑法》第一百八十条增加一款,称为“利用未公开信息交易罪”。这为打击“老鼠仓”行为奠定了刑法基础。此外,立法机构还从《证券法》《基金法》等层面对“老鼠仓”做出明确规定。

3.2监管技术创新在奠定了监管的法律基础后,监管部门需要对监管技术进行创新,以应对迅速展开的金融创新。以大数据为支撑的监管系统在近年中对“老鼠仓”的监管中发挥出越来越重要的作用。针对“老鼠仓”等交易行为,目前沪深两大交易所已建立实时监控机制等监控体系。而在这些监控机制中,大数据系统主要是通过模型在海量的交易数据中,调查违规行为。大数据(BigData),指的是量大到无法通过目前主流软件工具,在合理时间内达到提取、管理、处理,并整理成为有用信息的数据。对于大数据无法用常规方法处理的特征,研究者们认为大数据需要新的处理模式才能具有更高的价值。与之相随的是,数据存储、数据安全、数据挖掘等新的问题,而这些问题的探索也成为行业新的利润点。关于大数据的详细介绍,可以参考ViktorMayer-Schnberger,KennethCukier(2013)。新的监管技术极大地提高了监管效率。相比传统监管手段,大数据系统大大提高了打击精度、速度和广度。在采用大数据系统监管之前,“老鼠仓”的调查基本都来自举报和监管层的现场检查。但随着该违规行为越来越隐蔽,比如利用表面上关联性不强的账户进行操作,仅靠举报已经不能完全覆盖。此外,随着“老鼠仓”的操作逐渐转移到基金专户等信息披露不足的区域,传统监管技术难以追踪。查处老鼠仓的工作非常繁琐,一般需要查看长达数年的交易数据。随着账户关联性的降低,以及数据量的增大,人工核查速度和精度受到很大挑战。大数据系统的应用,可以有效解决上述问题。在近期查处的一些案件中,大数据系统是通过对比在嫌疑人曾经管理的基金下单前后数天内,基金账户与外界某账户所投资的标的,而发现“老鼠仓”线索的。大数据系统的采用还很大程度地缩短了案件的查处周期。在2013年‘马乐案’中,证监会于2013年4月11日启动对相关账户的初查工作,而至2013年6月21日就立案稽查,并交由深圳证监局承办,仅仅用了2个多月的时间。在提高打击精度、速度的同时,大数据系统还扩大了对“老鼠仓”的打击范围。在本次“老鼠仓”打击风暴中,大数据系统的跟踪范围不再局限于基金经理,还包括基金投研人员和保险公司资管从业人员。这种打击范围凸显出大数据系统在监管方面的高效。

4结束语

第8篇:大数据论文范文

统计与大数据系按照教务处“2021届毕业生实习及毕业论文(设计)相关事宜通知”,结合2018级人才培养方案,制定2021届学生毕业论文(设计)指导方案,具体内容包括以下6部分:

一、2021届毕业论文指导教师分配表(详见附件1)

二、 毕业论文写作与指导的具体安排

论文辅导时间:2020年10月1日至2021年4月1日

具体安排:

工作安排

具体内容

具体要求

截止时间

选题

确定论文题目

根据自己的专业、结合实习情况,以项目为基础选择论文题目,并经指导教师审核通过。

2021年1月1日

提纲

构思论文结构、拟订论文提纲

结合企业实践内容确定论文结构列出提纲。

2021年2月1日

写作与批改

初稿

按照论文提纲撰写初稿,主动与论文指导老师联系审核与批改。

2021年3月1日

二稿

按照论文指导老师的要求反复修改、完善、补充。

2021年4月1日

定稿

达到论文基本要求,定稿电子版发给论文指导老师。

2021年4月10日

交稿

打印提交

双面打印,毕业返校时以班级为单位提交。

2021年6月

 

三、 指导教师联系方式

姓名

职称

邮箱

QQ

电话

方党生

副教授

2541790217@qq.com

2541790217

15136166829

杨冬梅

讲师

339097597@qq.com

339097597

18625779090

李春花

讲师

19772728@qq.com

19772728

18638793098

魏瑶

讲师

43665723@qq.com

43665723

15838313791

马杰

高级讲师

Hnhymj@126.com

 

13838067063

杜旭阳

助理讲师

604696049@qq.com

604696049

17396370961

高艳云

副教授

37742562@qq.com

37742562

13939020929

钱钰

讲师

397019111@qq.com

397019111

15093132377

梁慧丹

助理讲师

1620280267@qq.com

1620280267

15188395423

秦航琪

助理讲师

1191084277@qq.com

1191084277

15670930099

范迪

助理讲师

1261810070@qq.com

1261810070

18339270887

 

四、毕业论文参考题目

大数据技术及应用专业

1) 大数据时代下的网络信息安全

2) 大数据对市场调查技术与研究方法的影响

3) 大数据环境下社会舆情分析方法研究

4) 大数据在房屋租赁的应用

5) 大数据在互联网金融领域的应用

6) 大数据在电子商务下的应用

7) 大数据时代下线上餐饮变革

8) 大数据在养殖业中的应用

9) 大数据对商业模式影响

10) 大数据在智能交通中的应用

11) 基于大数据小微金融

12) 大数据在农副产品中的应用

13) 大数据在用户行为分析中的应用

14) 基于大数据的会员价值分析

15) 大数据对教育模式的影响

物联网应用技术专业

1)物联网技术在蔬菜大棚中的应用

2)物联网技术对智能家居的应用

3) 物联网技术对智能物流监管的应用

4) 物联网技术在企业的应用

5) 计算机物联网技术带来的影响

6) 物联网技术在校园安全的应用

7) 浅谈物联网技术的应用与发展

8) 物联网技术在企业的应用

9) 计算机物联网技术在各个行业的应用

10) 物联网技术在食品安全追溯方面的应用

11)物联网技术在楼宇智能化系统的应用

12)物联网技术在智能停车场系统的应用

13)物联网技术在安保行业的应用

14)物联网技术在智能交通行业的应用

15)基于物联网技术的校园宿舍安防系统的设计与实现

 

信息统计与分析专业

1) 某企业竞争力调查分析

2) 浅谈企业统计数据质量

3) 人口素质与经济增长的关系研究

4) 地区竞争力初步分析

5) 农业结构调整与粮食安全保证问题研究

6) 我国中小企业发展现状与对策

7) 对某市房地产开发的市场分析

8) 消费者购买动机调查分析

9) 某产品市场需求调查

10) 某产品销售预测

11) 某产品销售统计分析

12) 某产品竞争力分析

13) 产业结构变动分析

14) 大数据发展对统计工作的影响分析

15) 郑州租房状况分析

 

五、毕业论文(设计)格式规范要求(详见附件2)

六、毕业论文(设计)格式模板(详见附件3)

 

 

 

 

 

 

附件1:2021届毕业论文指导教师分配表

 

附件2

 

河南信息统计职业学院

毕业论文格式及规范要求

 

   河南信息统计职业学院毕业论文(设计)统一的规格要求如下:

(一)开本  

A4白纸(210mm×297mm)

(二)装订

 长边左侧装订

(三)全文编置

1.页码

全文页码自正文起编列,正文与附录可连续编码。页码以阿拉伯数字左右加圆点标示,置页边下脚中间。

2.边距

正文至附录的文字版面规范为:天头25mm;地脚25mm;左边距30mm;右边距25mm。上述边距的允许误差均为±1mm。

3.行字间距

正文至附录的行字间距按5mm设置;字间距为1mm,或由Word自动默认。

(四)编排构成

1.前置部分

(1)封面设置

第一排:“河南信息统计职业学院”,华文行楷一号字,居中排列,第一排前空两行(三号字);

第二排:“毕业论文(设计)”,黑体一号字,居中排列;

第三排:“        级           专业      班”, 黑体三号字,居中排列,横线空格处填写相应内容,填写内容使用宋体三号字,与第二排空二行(三号字);

第四排:“题目                           ” 黑体三号字,居中排列,“题目”两字中间留两个汉字的空位,横线空格处填写相应内容,填写内容使用宋体三号字,与第三排空六行(三号字);

第五排:“姓名          学号            ”,  黑体三号字,居中排列,“姓名“两字中间留两个汉字的空位,横线空格处填写相应内容,填写内容使用宋体三号字;

第六排:“指导教师            职称              ”, 黑体三号字,居中排列,横线空格处填写相应内容,填写内容使用宋体三号字;

第七排:“系别        ” 黑体三号字,居中排列,横线空格处填写相应内容,填写内容使用宋体三号字,与第六排空两行(三号字)。

第八排:“        年    月    日” 黑体三号字,居中排列,横线空格处填写相应内容,填写内容使用宋体三号字,与第七排空两行(三号字)。

(2)声明

本人必须声明所呈交的论文是学生本人在导师的指导下独立完成的。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果。要求学生本人签名。

(3)内容提要

第二页为内容提要。内容提要是对全文基本观点的集中提炼和说明。提要中应阐明本论文(设计)要解决的主要问题及其依据,并指出创新之处。内容提要以300-500字为宜。其中“内容提要”为黑体三号字,每字间空一格,居中排列。“内容提要”下空一行编排具体内容,具体内容按照中文文章格式排列,使用宋体四号字。

(3)关键词

关键词是揭示文献主体信息的词汇。关键词在内容提要之后空一行设置。其中“关键词”三字用黑体三号字与“内容提要”对应居中排列,而后另起行设置关键词3-5个,用宋体四号字。各词汇间不用标点符号分隔,空一格汉字字符。

(4)目录页

“目录”二字用三号加黑宋居中排列,字间空三格;“目录”下空一行排全文的主要标题,用四号仿宋体。对目录中的每一个标题都要标注页码。

2.正文部分

一部完整的毕业论文(设计)正文部分一般应由以下要素构成:论文正文文字;结论;注释;参考文献。

(1)正文文字

论文(设计)的正文文字在署名后空一行排列,用四号仿宋字体打印。

(2)结论

毕业设计的体会和总结;该设计的结论、优点及有待探讨的问题。

(3)注释

注释是用于对文内某一特定内容作必要的解释或文字说明。注释的内容置于与当前页主题文字的分线以下,以带圆圈的阿拉伯数字标示,左空二格排列,用小五号宋体字。

(4)参考文献

参考文献是作者著文时研究和参阅的相关资料。“参考文献”四个字用三号黑体字左顶格标示。参考文献的内容置于主体文字之后空一行排列,其顺序与主体文字中的序号编排相对应,以带方括号的阿拉伯数字左顶格用五号宋体字排出全部内容。参考文献要列出书名,作者姓名、出版社及出版日期、并标明序号。在论文中引用所列的参考文献时,只要在方括号内注明所列文献的序号即可。

(5)毕业论文(设计)正文部分3000~5000字。

 

 

 

 

 

附件3

 

河南信息统计职业学院

毕业论文(设计)

 

       级               专业     班

 

 

 

 

 

 

 

 

题    目                                   

姓    名                学号               

指导教师                职称               

系    别                                   

 

20    年    月    日

 

 

声    明

 

本人郑重声明所呈交的论文(设计)是我个人在导师的指导下独立完成的。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果。

 

论文作者签名:    

20   年  月

 

 

 

 

 

 

 

 

 

内 容 提 要

××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××

 

关键词 :××××× ××××× ××××× ×××××

目   录 1 前言 1

1.1 1

1.2 1

1.3 4

1.4 4

2 5

2.1 5

2.2 5

2.2.1 5

2.2.2 6

2.3 7

3 8

3.1 9

3.2 10

4 11

4.1 12

4.1.1 13

4.1.2 14

4.1.3 15

4.1.4 18

4.1.5 20

5 结论 22

5.1 结论 23

5.2 问题与不足 26

5.3 未来展望 27

参考文献 28

 

 

1 ×××××××××××××××× 1.1 ×××××××××× ××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××

1.2 ×××××××××××××××× 1.2.1 ×××××××× ××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××

 

 

 

 

 

 

参考文献 [1] 江正荣编.地基与基础施工手册.北京:中国建筑工业出版社,1997

[2] 高大钊主编.土力学与基础工程.北京:中国建筑工业出版社,1998

……………………………………………………………………………………………………………………………………………………………………………… 

[8] 赵玉良.房屋地基基础变形事故原因分析及处理.河北建筑工程学院学报,2007,25(2)

[9] 袁迎曙,贾福萍,蔡跃. 锈蚀钢筋混凝土梁的结构性能退化模型[J].土木工程学报,2001,(3)

[10] A. Castel, R. Francois, G.Arliguie. Mechanical Behavior of Reinforced Concrete Beams-Part 2: Bond andNotch Effects[J]. Materials and Structures. 2000, (3)

………………………………………………………………………………………………………………………………………………………………………………………… 

[12] 中华人民共和国国家标准.建筑地基基础设计规范(GB50007-2002)

[13] 中华人民共和国国家标准.建筑边坡工程技术规范(GB50330-2002).

 

 

 

 

 

 

 

 

 

论文(设计)指导评语

 

 

 

 

 

 

建议论文成绩                 指导教师                           

20     年     月      日    

论文(设计)答辩评语

 

 

 

 

 

论文成绩                答辩组组长                        

20     年     月      日    

答 辩 组 成 员

姓  名

性别

年龄

职称

工作单位

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

第9篇:大数据论文范文

再次,完备的公路工程档案还是管理队伍进行科学系统的管理技能学习与提升的重要教材。通过档案的组织学习也能够逐渐形成一种独独具特色的企业管理文化,并通过一代一代管理人的学习与传承使之发扬光大。

二、大数据在公路工程档案管理中的重要性及作用

首先,公路工程档案管理需要进行海量的数据收集的,但是并不是每一项数据都是切实有用的,如果不分好赖的统统进行收集那么不仅会严重影响数据收集工作的进度同时也会让数据库里的数据一片混乱,有用无用的统统被放在一起。大数据技术在数据信息的收集方面能够有效鉴别数据质量及优劣,能够根据管理的实际需要进行数据的有效甄别,在最短时间内进行数据优选,从而既提升了收集效率又加强了数据总体质量。其次,大数据时代的来临让原本具有本质差别的各种数据存储阵营进行了有效整合,让各种数据传输接收端口逐渐统一化,从而真正意义上解决了部门不相容、领域不交叉的问题,让数据能够更为有效的进行传输和收集整理,这对于公路工程的档案管理工作来说具有非常重要的现实意义,因为公路工程建设不仅周期长、产生数据量巨大、同时还以为涉及到大量的部门及环节而在许多时候无法进行数据的有效交互与沟通,所以大数据技术能够很好的解决这个问题,实现数据的无差别传递,更好的满足对于数据的实际需要。再次,大数据在公路工程档案管理工作中能够发挥较大的实用性,能够更好的实现档案数据精确化收集与管理,能够将繁杂的海量数据进行有效归类与整合。

三、大数据背景下的公路档案管理措施研究

为了在大数据背景下切实加强公路工程档案管理工作具体质量还是需要进一步分析与寻找新方法与新措施。

(一)大力建设新型数据库

大数据时代的数据存储是当前主流数据存储载体所无法承受的,因此为了更加有效的使用大数据技术以及在大数据时挥更有效的信息管理作用就必须大力建设新型数据库。新型数据库不仅是指要进一步扩展数据存储的空间,同时还要加强多样性数据的存储能力升级,不仅要能够有效存储文字、符号等数据,同时对于声音、图片、影像的存储也要加大研究与开发力度,同时还要加强数据传输端口的统一化调整,方便数据信息的交互与传递,为大数据时代的档案管理工作提供一个良性环境。

(二)加强大数据分析软件的开发应用

大数据时代的特点不仅是在于数据的收集速度及额度,同时也在于数据分析的快速高效,为了能够有效利用这一特点就必须加强在数据分析及整个方面的技术开发与利用水平,要加强与数据开发专业公司的大力合作,并针对公路工程档案数据特点进行相应的数据分析软件开发,同时还要针对新技术能够快速普及的要求切实提升档案管理人员的总体素质,发挥最大化管理作用。

(三)加强风险预警机制建设

任何管理工作都会伴随着相应的风险。在大数据时代,管理工作能够更快更高效,同时风险也会更多更密集,所以风险预警机制的建设必不可少。风险预警机制建设最重要的部分就是根据大数据信息传输及管理特点加强档案信息安全性监管,设置更为科学有效的关键控制点,主要监控内容应该放在防止信息泄密、防止信息丢失、防止信息被恶意篡改、防止隐私权被侵犯以及防止与信息相关的知识产权纠纷发生可能性等方面。同时还要重视风险应对工作小组的及时建设,这样才能够及时发现问题、分析问题以及解决问题。

四、结束语

相关热门标签