公务员期刊网 精选范文 大数据技术论文范文

大数据技术论文精选(九篇)

大数据技术论文

第1篇:大数据技术论文范文

(中共山西省委党校,山西 太原 030006)

摘 要:大数据技术表征的过程彰显了广义语境性与再语境性、解构性与建构性、相关性与因果性、预测性与实时性的辩证统一。即结构与意义的辩证统一,新范式与旧范式的辩证统一,数据“发声”与人的主观创造性的辩证统一,历时性与共时性的辩证统一。为促进大数据发展,必须培养辩证思维能力,充分挖掘社会对大数据技术的个化性需求,加快创新型人才队伍建设,充分发挥人的主观创造性,培养大数据文化。

关 键 词:大数据技术表征;过程;方法论

中图分类号:N39文献标识码:A文章编号:1007-8207(2015)02-0030-06

收稿日期:2014-12-12

作者简介:苏玉娟(1975—),女,山西稷山人,中共山西省委党校理论研究室副教授,博士,研究方向为科技史和科技哲学。

数据技术是一个经历了由“无数据”到“小数据”、由“小数据”再到“大数据”的不断演变和完善的过程。随着物联网、移动互联网、智能便携网终端和云计算技术的发展,人类社会进入了因大数据技术的发展和社会对大数据需求的大数据时代。大数据技术表征的过程是大数据技术表征方法论被不断应用的过程。维克托·迈尔·舍恩伯格在他的《大数据时代》一书中将大数据引起的变革概括为:不是随机样本,而是全体数据;不是精确性而是混杂性;不是因果关系,而是相关关系。他从不同角度探索了大数据表征的现实性特征。随着大数据技术表征的不断深入,大数据技术表征的方法论特征越来越明显。将大数据技术表征的方法论作为科学方法论研究的一个重要组成部分,探究并揭示它的方法论意义,对于进一步促进社会大数据化的实现,是一项非常必要而且是非常重要的工作。

一、广义语境性与再语境性

毕达哥拉斯学派认为,数的本性就是为人类提供认识。数据是由数和量演变而来。大数据指数据集合的大小已经超出了典型数据库在获取、存储、管理和分析方面的能力。从大数据技术表征的因素看,大数据技术表征体现了广义语境性与再语境性的辩证统一。

⒈广义语境性。“广义语境的含义就是将语境概念从狭义的语言领域扩展到广阔的社会、历史、文化和认知领域,形成社会语境、历史语境、文化语境和认知语境。”[1]不同主体所涉及的广义语境因素是不同的。数据本身并没有意义,只有把数据放在特定的语境之中它才能被赋予意义。大数据技术表征的过程包括历史语境、认知语境、科学语境和社会语境。大数据技术发展带来的文化、心理、伦理、法律、道德等社会问题以及如何更好地获得和使用大数据等技术问题构成了大数据技术表征的历史语境。大数据技术表征的过程还引起科学共同体认知、企业认知、政府认知和民众认知的变革。大数据技术对自然科学、技术科学和人文社会科学的变革构成了大数据技术表征的科学语境。大数据技术表征还引起了社会领域的变革,如企业生产、民众生活的方式等。大数据技术表征的过程正是大数据技术在历史语境、认知语境、科学语境和社会语境中不断变革的过程。

⒉再语境性。“再语境化的过程就是语境不断运动、变化和发展的过程,也即意义不断改变的过程”。[2]大数据技术表征涉及历史语境、认知语境、科学语境和社会语境。语境因素的变革将引起大数据技术表征意义的变革,这个过程就是大数据技术再语境化的过程,体现了大数据技术表征的再语境性。大数据技术目前被广泛应用于制造业、农业、商业、金融业和交通运输业等。由于每个产业、每个行业和每个企业语境因素的不同,大数据技术在每个产业、每个行业和每个企业表征的过程就是大数据技术再语境化的过程。对于每个企业来讲,随着语境因素的变革,大数据技术表征的意义也在变革。沃尔玛通过大数据技术发现尿布与啤酒的相关性,这个结果会影响沃尔玛对商品摆放位置的调整。所以,无论是从广义语境还是从每个企业的具体语境看,大数据技术表征的过程就是大数据技术在不同领域再语境化的过程。

⒊广义语境性与再语境性的辩证统一。大数据技术表征的过程是大数据广义语境化与再语境化过程的辩证统一。亚马逊公司能时实知晓购书者的偏好,是因为在历史语境中网上售书的记录、认知语境中企业研发团队和民众的认知水平、科学语境中大数据技术的变革、社会语境中大数据技术推荐相关图书对民众选购习惯的改变,是历史、认知、科学和社会等语境共同作用的结果。亚马逊公司为每个顾客实时推荐图书的过程,同时又是具体语境的再语境化过程。可以说,亚马逊公司时实知晓购书者的偏好并推荐新书,是广义语境和再语境化共同作用的结果。广义语境为亚马逊公司推荐图书提供条件,再语境化则彰显亚马逊公司为每个客户推荐图书的个性化服务特征。

二、建构性与解构性

结构指组成整体的各部分的搭配和安排。主体对客体信息的选择取舍或加工制作,最后都必须通过“建构”或“解构”这一环节,才能实现主体反映客体的要求。建构侧重系统的建立,解构指对稳固性的结构及其中心进行消解。每一次解构都表现为原有结构的中断、分裂或解体,但是每一次解构的结果又都产生新的结构。大数据技术表征的过程是传统范式解构和新范式建构的辩证统一。

⒈解构性。范式是从事某一科学的共同体所共同遵从的基本理论、观念和方法。每一次科技革命都引起科学共同体研究范式的变革。“有人将大数据称为继实验科学、理论科学和计算科学之后的第四种科学研究模式。”[3]这种范式的产生来源于数据密集型科学的发展。每一种新的范式的产生都是在对旧范式解构的基础上产生的。库恩认为,科学革命发生的过程就是新旧范式转换的过程。经验科学和实验科学偏重对经验事实和实验观察的描述,以归纳法为主。理论科学侧重理论总结和理性概括,以演绎法为主。计算科学主要以数据模型构建、分析和解决科学问题,以定量分析法为主。大数据技术作为数据密集型科学发展的重要领域,是“由传统的假设驱动向基于科学数据进行探索的科学方法的转变。”[4]传统的研究范式基于假设和问题,通过归纳、演绎和计算方法进行研究。大数据技术基于观察数据、实验数据、模拟数据和网络的大行为数据、大交易数据,并不依赖于假设,而是通过数据“发声”探索事物的现象和规律,是对传统归纳法、演绎法、计算模拟方法的解构。

⒉建构性。解构的结果必然是建构出新的研究范式。大数据技术在解构传统研究范式的基础上建构出了自己的研究范式。从主体看,大数据技术研究范式从科学共同体表征走向社会表征。在经验科学时期,科学研究范式主要体现为个体表征。随着科学从“小科学”走向“大科学”,大数据技术表征从科学共同体扩展到政府、企业和民众,而且促使经济、社会、军事、文化等社会领域的数据化。从方法论看,大数据技术产生的研究范式侧重数据挖掘和数据共享。一方面,强调数据本身科学研究范式的建构,即数据密集型科学的发展;另一方面,强调大数据在社会领域的再建构,实现大数据技术的社会化。根据研究问题的不同,大数据可以被重复建构多次,不断形成新的价值。因此,大数据技术表征的建构性不仅彰显新范式的产生,而且彰显大数据的再建构性和价值的增值性。

⒊解构性与建构性的辩证统一。事物的发展过程就是吸收旧事物中的积极因素,抛弃旧事物中消极因素的过程。大数据技术对传统研究范式解构并不意味着完全抛弃旧范式。经验科学是理论科学的实践基础,理论科学指导经验科学的发展,计算科学为经验科学和理论科学提供了更好的模拟方法和计算手段。大数据技术表征的过程离不开传统研究范式,是旧范式解构性与新范式建构性的辩证统一。一方面,大数据技术在解构传统科学研究范式的同时,也为传统科学提供了方法论指导。大数据技术研究范式通过数据“发声”为经验科学、理论科学、计算科学提供了新的研究方法。另一方面,大数据技术研究范式的建构过程离不开归纳法、演绎法和计算法。上文中提到的沃尔玛超市在大数据分析的基础上发现了“啤酒和尿布”销量的相关性,就是一个很好的说明。因此,大数据技术解构与建构的过程既是对传统科学研究范式的解构,同时又是对传统科学研究范式的积极吸收,是解构与建构的辩证统一。

三、相关性与因果性

相关性是指两个或多个具备相关性的变量元素的密切程度。相关性的元素之间存在一定的联系或者概率才可以进行相关性分析。因果性分析是为了查明不同要素之间的关系以及导致一定现象产生的原因。强相关性往往是因果性的重要表现。大数据技术从“是什么”的角度分析数据之间彼此的相关性,为决策者提供选择,同时强相关性数据关系背后可能存在因果性。因此,大数据技术表征过程是相关性与因果性的辩证统一。

⒈相关性。“知道‘是什么’就够了,没必要知道‘为什么’。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己‘发声’”。[5]维克托·迈尔·舍恩伯格认为,小数据时代追寻因果关系,大数据时代追寻相关关系。相关关系是指当一个数据增加时,另一个数据值会随之增加。大数据技术通过分析事物之间的相关性,为决策提供服务。沃尔玛通过对每一个顾客的购物单、消费额、购物时间及天气等数据的分析,发现季节性飓风来临之前,蛋挞与飓风用品具有相关性,于是将二者摆放在一起。“通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。”[6]大数据技术通过对数据的采集、存储和分析以发现事物的相关性,这是大数据研究范式不同于传统研究范式的显著特征。

⒉因果性。维克托·迈尔·舍恩伯格强调大数据技术的相关性,并没有否定因果性。虽然相关不等于因果,但不代表相关就不可能是因果关系。两个变量A和B具有相关性,其原因有很多种,可能AB或者BA,也可能CA并且CB。为此,要证明事物之间相关性产生的因果性,必须从理论上证明两个变量之间确实有因果性,并且要排除第三个隐含变量同时导致这两个变量的可能性。大数据技术通过统计因果关系反映事物之间的相关性,进而寻找隐藏在大数据背后的原因。只依靠数据,不发挥人的主观能动性以挖掘数据背后的原因,人就可能成为数据的“奴隶”。“对数据的盲目崇拜,只会让冰冷的机器浇灭炽热却敏感的爱情”。[7]如果失去人类的探究精神,大数据技术表征将产生新的技术异化。实际上,在进行数据分析前,一定在思维中存在着关于事物因果判断的各种可能。因此,大数据技术表征具有因果性特征,需要结合数据的相关性和相关科学理论的逻辑性分析事物相关性背后的因果关系。

⒊相关性与因果性的辩证统一。“科学研究就是寻找研究对象的现象之间的因果关系,没有因果性,科学研究也就失去了基础。”[8]因果性说明事物之间内部的联系,相关性是事物之间关系的外在表征。因果关系说明事物之间具有强相关性,即AB或者BA。强相关关系作为事物关系的外在表征,可能是偶然现象,也可能具有因果性。“相关关系可以在实践中引导我们怎么做,因果关系可以回答我们为什么这样做。”[9]二者之间是相辅相成的。大数据技术表征的相关性包括直接的和间接的相关性、强相关性和弱相关性等,它拓展了我们对于客观世界认识的维度,即从因果性扩展到相关性和因果性。对于相关性数据我们需要进一步挖掘,寻找现象背后可能隐藏的因果性,进而认识事物发展的规律。大数据发现的因果性又会反馈过来为大数据的生成、存储、处理、应用等提供理论指导。因此,在大数据时代,大数据技术表征的相关性与大数据背后可能存在的因果性是辩证统一的。没有相关性分析,大数据技术发展就没有优势;没有因果性分析,大数据技术发展就无法揭示规律。

四、预测性与实时性

在大数据时代,依靠大数据的分析结果可以用来预测事物未来发展的趋向。大数据来源于实时记录、监视、跟踪。可以说,大数据技术表征的过程是预测性与实时性的辩证统一。

⒈预测性。大数据技术的显著特点是数据规模巨大、数据处理迅速、数据种类多和价值密度低。数据价值密度的高低与数据总量的大小成反比。以视频为例,一部1个小时的视频,在连续不间断的监控中,有用数据可能仅有1-2秒。大数据的价值就在于通过对大数据的“提纯”,发现规律,预测趋势。如果大数据没有预测性功能,它的价值将大打折扣。目前,大数据的预测性体现在很多领域。警察利用数据可以预测某人犯罪的可能性,亚马逊、淘宝、京东、迪斯尼主题乐园等利用大数据预测和引导消费者的需求,相关部门则可以利用大数据对流感等疫情进行预测。如在一个特定地区,越多的人搜索“流感”一词,就意味着该地区有越多的人患了流感。因此,预测性是大数据技术价值的重要体现,没有预测性,数据的价值是残缺的。

⒉实时性。我们时刻都在“第三只眼”之下:“亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听了我们心中的他,还有我们的社交关系网。”[10]大数据主要来源于对政府数据、物理数据和网络数据的实时监测。没有实时性的监测,大数据就体现不出“大”的内涵。大数据的实时性也带来了存储问题和数据垃圾问题。谷歌数据中心只有6-12%的电能被用来支撑大数据的分析处理,绝大部分电能只用来支撑很多闲置状态的服务器。

⒊预测性与实时性的辩证统一。数据的实时性与预测性体现了事物发展的历时性与共时性的辩证统一。共时分析跨越时间,历时分析跨越空间。忽视共时性,也就忽视了事物的关联性;忽视历时性,也就忽视了事物发展的历史性。任何事物的发展过程都是在共时与历时二维时空中运动的结果。从历时性看,实时性反映的是事物运动的历史轨迹,而预测性反映则是事物的未来可能的轨迹。只有实时性与预测性相结合,才可能更清楚地分析事物发展的轨迹。从共时性看,实时性监测为分析事物空间的相关性提供了最原始的资料,预测性则是基于事物空间的相关性做出的预测。所以,从历时性与共时性看,大数据技术表征的过程是实时性与预测性的辩证统一。

五、启示

大数据技术表征的过程彰显广义语境性与再语境性、解构性与建构性、相关性与因果性、预测性与实时性的辩证统一。为了更好地迎接大数据革命,我们必须做好以下几个方面工作。

⒈培养辩证思维能力,科学对待大数据技术表征的方法论特征。通过对大数据技术表征方法论特征的考察我们发现,对于大数据技术的应用必须具有辩证思维。辩证思维是唯物辩证法在思维中的运用,对立统一规律、质量互变规律和否定之否定规律是唯物辩证法的基本规律,也是辩证思维的基本规律。阿里巴巴集团副总裁、数据委员会会长车品觉认为,“今天的大数据就是明天的小数据,这个是做大数据的人都知道的。”[11]大数据时代,大数据与小数据处于发展和联系之中。对于某个个体或企业的研究,小数据更具有挖掘数据潜力的功能,对于把握事物之间相关性问题,大数据技术的功能更具有优势。科学运用大数据技术表征的方法必须培养辩证思维。因此,要学会运用发展和联系的观点分析数据技术应用中的大数据与小数据的辩证关系,以及大数据技术应用过程中广义语境性与再语境性、解构性与建构性、相关性与因果性、预测性与实时性的辩证关系。

⒉充分挖掘社会对大数据技术的个化性需求,实现大数据技术表征广义语境性与再语境性的辩证统一。从广义语境看,大数据技术表征的过程包括历史语境、认知语境、科学语境和社会语境。大数据在制造业、零售业、农业、金融业、交通运输业和影视业等行业的应用过程就是大数据技术广义语境因素再语境化的过程。因此,不断挖掘社会对大数据技术的个性化需求是大数据技术实现广义语境性与再语境性表征的前提和基础。目前,大数据技术虽然在很多领域都被广泛应用,但是,从不同领域应用的分布看,大数据应用还处于起步阶段,只有很少量的企业充分地利用了大数据。“为数不多的数据拥有者往往是资金雄厚的垄断者或产业巨头,中小企业则不一定拥有。”[12]大数据被应用的潜力还是很大的。因此,一方面,应通过政府和非政府组织宣传并鼓励企业从观念、技术和管理等层面重视大数据的应用;另一方面,应大力发展大数据技术服务公司,为企业和政府大数据应用提供技术服务。

⒊加快创新型人才队伍建设,实现大数据技术表征解构性与建构性的辩证统一。不同行业和企业的大数据技术表征的过程是大数据技术不断解构和建构的过程。但是,大数据技术引起研究范式的建构和解构需要专业的人才队伍支撑。没有专业的研发团队,大数据技术无法实现建构与解构,大数据仅仅是具有潜在的价值,而不可能转化为现实的价值。很多企业想利用大数据技术,但是人才“短板”成为最明显的制约因素。“麦肯锡公司预测美国到2018年需要深度数据分析人才44-49万,缺口14-19万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。”[13]大数据技术在我国的应用正处于高速发展阶段,更缺乏这方面的人才。为此,一是应加大对大数据教育的投入力度,为大数据专业人才的培养提供保障,以满足社会对大数据人才的现实需求。二是应在加大政府和企业管理人员、专业技术人员培训力度的同时,使用好现有的大数据人才。

⒋充分发挥人的主观创造性,实现大数据表征相关性与因果性的辩证统一。每一次科技革命在解放人类体力劳动和脑力劳动的过程中,往往伴随着异化问题的产生。大数据技术革命在改变人类生活的过程中容易使人物化为数据的“奴隶”,重视相关性忽视因果性,进而影响到人类对自然规律的认识,这也违背了科学研究的意义。为消解大数据的异化问题,必须充分发挥人的主观创造性。首先,在数据获取阶段要充分发挥人的主观创造性,实现结构化数据与非结构化数据的有效融合。其次,在数据挖掘阶段,不断开发新的挖掘手段,实现挖掘次数与算法参数的自动调节,即实现机器学习。第三,在数据分析和使用阶段,通过相关性和因果性分析,更好地发现事物发展的规律,进而指导大数据库建设和大数据在实践中的应用。

⒌培育大数据文化,实现大数据表征预测性与实时性的辩证统一。大数据技术一旦被企业和民众所采用,大数据技术就将物化为企业和民众的行为习惯,影响企业的生产方式和民众的生活方式,最后上升为社会的大数据文化。“大数据文化就是尊重事实,推崇理性,强调精确的文化。”[14]大数据文化约定了大数据被收集、存储和记忆的时间。大数据文化从观念和制度等方面渗透到不同主体的行动中,指导和规范政府、企业和民众的行为。所以,在大数据时代,应重视培育大数据文化,规范和约束不同群体的行为,尽量减少虚假信息的产生和传播,尊重不同群体的隐私,缩小不同群体之间的数字鸿沟,形成良性的大数据技术表征的社会文化氛围。

总之,大数据时代,我们既不能过分依靠大数据,认为大数据是万能的,也不能冷漠地看待大数据,认为大数据技术应用只是“昙花一现”。必须运用辩证思维,科学地对待大数据技术表征的方法论特征,在大数据与小数据之间,大数据技术表征的广义语境性与再语境性、解构性与建构性、相关性与因果性、预测性与实时性方法之间保持必要的张力,充分发挥好大数据技术对社会变革的功能。

参考文献

[1][2]魏屹东.科学的维度及其广义语境解释模型[J].自然辩证法研究,2002,(02).

[3]邬贺铨.大数据思维[J].科学与社会,2014,(01).

[4]邓仲华,李志芳.科学研究范式的演化[J].情报资料工作,2013,(04).

[5][6][10](美)维克托·迈尔·舍恩伯格.大数据时代[M].盛杨燕,周涛译.浙江人民出版社,2013.67,72,193.

[7][12]郑志励.喜忧参半“大数据”[J].中国图书评论,2013,(08).

[8]黄欣荣.大数据对科学认识论的发展[J].自然辩证法研究,2014,(09).

[9]徐艳.大数据时代媒体发展的SWOT分析[J].理论学刊,2013,(07).

[11]车品觉.没有大数据神话[J].管理学家,2014,(04).

第2篇:大数据技术论文范文

关键词学科一技术关系 关联性分析 转化效率

1.引言

“科学一技术”关系的实践研究发展于上世纪90年代,弗朗西斯・纳林(Francis Narin)通过专利对论文引用在来源和时间方面的关联性,证明在高科技领域,科学与技术之间有着紧密的相互作用。利用论文和专利数据可以衡量国家、地区或机构的创新能力测度以及相互间知识转移、技术转移途径的研究,主要是基于宏观数据进行统计分析。基于专利的科学一技术关系的研究,主要包括定量指标方法、数理模型方法、科学一技术映射模型及社会网络分析方法。指标方面主要有科学联系度(Science Linkage)及其标准化后的产业标准化指数、当前影响指数(Current Impact Indicator)及衍生的科学强度、技术循环时间(Technology CycleTime)、技术扩散系数、相对强弱指数(RSI)等。数理模型方面,有基于熵值算法学校一产业一政府的三螺旋模型与算法(已由Mode-1进化到Mode一2),技术成长曲线及其修正,以及用于科研投入与产出绩效间的灰色关联分析;科学一技术映射模型方面,国内学者尝试建立科学学科分类与专利IPC分类的映射模型等;社会网络分析方法,如高继平提出的专利/论文的混合共被引网络分析、聚类分析和聚类自动标引,基于社会网络分析工具的研究等。定量指标方法难以避免突发因素造成的数据噪音,例如论文或专利的数量的突发性增长或引用;模型研究和社会网络分析其关注的指标较为局限,例如模型研究主要是宏观的规模性产出数据;社会网络分析则要求变量数据间有共现关系。文章涉及7个论文和专利的数据变量,得到21种关系组合,扩展了定量指标体系,同时发现了一些原本弱相关或无关的数据变量去除时滞影响后呈现出较强或极强的相关性。

“科学一技术”相互作用分析能体现出科学研究与技术应用间的协同发展、扩散转化和相互贡献程度,从而为支持科技领域布局、制定技术创新策略、合理配置科研资源等提供决策依据。文章以国内高等学校“科学一技术”发展现状为研究对象,通过高校的专利数据和论文数据关联性分析,挖掘影响科学和技术发展的关联性因素,探讨科学与技术相互转化、扩散、相互促进的时间效率。一项研究,或某一领域的研究,在研究发表后需要多长时间能被关注(被引)、被传播、以及促进技术应用的出现,通过r间度量来揭示该问题,能够为高校科技管理部门开展科技资源布局提供有效的决策支持的定量分析方法体系和策略。

2.研究方法

关联性分析方法在很多学科领域得到了应用,在挖掘“科学一技术”关联性分析方面,可以分析研究经费的投入产出,但其涉及的变量局限于产出数据,而忽略了引文关系,即科学与技术间的转化和扩散效率;可以分析科研项目与专利产出间的关联性,但其忽略了科研与技术之间的时间转化差异,其相关性系数均低于0.9。

对于科学与技术的关系,通常认为:先有科学研究再有专利产出,即研究总是走在应用的前面;成果公开之后会经过一段时间得到关注、扩散、被利用。那么一个机构、一个学科、一个技术领域甚至单个的研究内容发表之后,究竟要多长时间才能爆发出大量的技术应用成果?文章扩展了“科学一技术”常用的分析指标涉及的数据变量(见表1),考量了科学与技术发展的时间差异性,一方面挖掘了更多的可用指标;一方面将原本弱相关的关联性通过时间关系处理得到了较强或极强的关联性,并分析该时间差异对科技转化效率的影响。

从表1看出现有文献的研究方法主要有两种:一是考察单一变量的变化趋势或者分布情况;二是对技术相关变量(如专利被引次数与专利公开量、引用论文文献和专利公开量或量)间通过逻辑运算得到的数值进行分析,形成衡量科学一技术关联性、活跃度和影响力的常见指标体系,运算方法主要包括平均数值、标准化数值、引用关系时间间隔等。但其存在的共性问题是:变量关系单一,且依赖于指标的建立来对数据进行处理,无法消除由突发因素引起的数据噪音。

2.1关联性分析方法

在不同的变量间可能存在着线性相关或曲线相关关系,可以是正相关也可以是负相关,不同类的相关又可分为强相关、中等相关、弱相关或者无关等几种关联程度。而曲线相关大多可以转换线性相关进行研究,衡量变量间的线性关系常用的系数为皮尔森(Pearson)相关系数。假设:变量A(专利申请)与变量B(专利被引)之间存在潜在的关联性,当N=30(1985-2014年),A与B两个变量曲线走势见图1,但两条曲线并不完全重合,可以首先计算得到一个皮尔森相关系数:

对于同一年份的数据来说,专利被引相对于专利申请有所滞后。这一规律在图1中表现为变量B的峰值在时间上较变量A提前出现。因此,在计算相同年份的变量A和B的相关性之后,尝试寻找变量B的峰值相对变量A峰值前移的一般规律,计算不同年份的变量A和B之间的相关性;当Pn达到最大值时,n即为变量B相对于变量A的峰值前移时间差,也可以理解为变量B相对于变量A的时滞。新的线性相关系数计算公式如下:

当Pn达到最大值时,n即为A变量对B变量产生作用的时滞度量。

关联性分析主要解决两个问题:(1)对于相互之间没有直接关联性的变量,通过考察其时间序列变化情况,挖掘其在时滞效应和转化速度方面的关联性,以考察其预测性。(2)消除单个数据带来的噪音影响,使分析结果具有较好的稳定性和合理性。

2.2方法验证

通过曲线拟合,比较A和B,以及A和B两组曲线的皮尔森系数和R方值,若皮尔森系数R方值得到改善或有明显提高,且通过SPSS分析软件得到的置信区间均在95%及以上,则说明该方法对于该变量组合具有统计意义。

文章通过列举两个例子来进行验证说明:(1)选择机构G的30年间(1985-2014年)(A1)和专利申请量(B1),并假设论文研究能带动专利的申请,分析在当前的发展趋势下,预测专利申请要经过时间n才能达到当前科学研究水平带来的相应技术应用规模;(2)选择机构G的30年(1985-2014年)专利申请量(A2)和专利被引量(B2)进行关联性分析,与现有的“技术扩散速度”指标进行参照分析。两组变量30年时g序列数据的趋势分布与关联性见表2和图2。

经公式(2)计算得到表3。可见,G单位专利申请与间的关联性,在时间差值n1=2年时达到最强,预测2年后在当前的总体研究态势下,会引发技术引用的大量出现;专利申请与专利引用之间原本呈现的弱关联性,在时差n2=3年时获得较强的关联性,且推测得出G单位的技术扩散速度为3年。

经过该处理后,通过SPSS以A为自变量,B为因变量进行曲线拟合,R方值都得到了明显改善(见表4)。证明该关联性方法具有统计意义,能够表征两个变量间的关联程度。

同样,通过数据验证,关联性分析7个变量(、论文被引、专利申请、专利授权、专利被引、引用专利、引用论文)的21类组合关系都呈现出较好的应用可行性。

3.评价体系的构建

文章的数据包括专利和论文两部分。专利数据来源于TI数据库,以专利权人代码为检索条件,获得1985-2014年国内排名前3的理工科高校(高校S、高校Q、高校Z)的专利公开和引用情况;论文数据来源于InCites平台中3所高校1985-2014年的和被引情况。

3.1评价指标的确立

从论文和专利数据中提取出7类变量,通过前期的关联性分析后,得到21个组合形式并确定变量A对变量B具有促进或推动作用(表5)。

根据主/客体(论文与专利)与行为(引用与被引)之间的时间维度关联性(图3),15对变量组合可以大致划分为四个类别:

(1)表征产出规模驱动的时间效应,体现在不同主体具有同样的行为:一专利申请,即科学研究产出对技术应用产出的推动作用。

(2)表征扩散时间效应,体现为不同主体的产出与被引行为的时间维度关联性,又可以细分为两类:一类包含一论文被引、一专利被引、论文被引一专利被引,即科学研究的扩散对科学研究和技术引用产出的时间影响;一类包含专利申请一专利被引、专利申请一论文被引,即技术应用的扩散对新技术应用和科学研究扩散的时间影响。

(3)表征转化时间效应,体现为不同主体的产出与其引用行为的时间维度关联性,分为两类:一类包含专利申请一引用论文、专利申请一引用专利、引用专利一引用论文,即技术转化对科学研究和新技术应用产出的作用;一类包含一引用专利、一引用论文,即科学研究转化对新的研究内容、技术应用和技术应用转化的影响。

(4)表征贡献程度,体现为引用行为与被引行为的时间维度关联性,也可分为两类:一类是科学研究对新的科学研究转化和技术应用转化的贡献度,包括引用论文一论文被引、引用论文一专利被引;一类是技术应用对新的科学研究转化和技术应用转化的贡献度,包括引用专利一专利被引、引用专利一论文被引。

3.2机构数据对比

通过公式(3)的计算处理后,我们得到以下结果(表6)。比对国内3所水平较高的理工类院校的论文和专利的产出及引用关系数据,其论文数量与专利信息的产出规模、扩散效应、转化效应和相互贡献程度都具有极高的关联性。对比变量A对变量B的推动或促进作用在时间维度的间隔大小,可以挖掘各高校间的“科学一技术”间扩散、转化速度的快慢,以及相互贡献程度的时滞效应。

从关联性来看,高校Q除了专利申请与专利被引、专利授权与、与专利被引、与专利引用专利文献、与专利引用论文文献和专利被引与专利引用专利文献6种组合呈现出中等相关外,其他变量间都呈现出较强相关;高校S和高校Z在专利被引与专利引用专利文献、专利被引与专利引用论文文献2组变量无关联性。

从时间关系上来看,专利授权与其他变量的关系,和专利申请与其他变量的关系差值在0-2之间,整体抵消了我国专利申请到授权的18个月审核周期的时间,因此两者可按需选择,文章以专利申请为主要变量开展分析。另论文被引和专利被引(2,2,1)在时间关系上同步于和专利申请(2,2,1),即一项/篇专利和论文被引用的同时,意味着另一项/篇专利和论文公开发表。因此两组变量具有相互验证的效果(表6中灰色部分为文章未选取的变量组合)。

(1)从产出规模来看:高校Z对科学一技术的产出发展较快,其变量间的时间间隔均小于高校S和高校Q。

(2)从扩散效应来看:高校S与高校Q技术扩散对科学的影响时效长于高校Z(论文被引一专利被引、一专利被引、专利申请一专利被引),而科学研究扩散对新的科学研究的促进(专利申请一论文被引)高校S要迟于高校Q和高校Z,科学研究扩散对新的技术应用的促进(一论文被引)三所高校时效相同。

(3)从转化效应来看:在技术转化方面(专利申请一引用专利),三所高校的效率相似;但高校Q的科学研究转化效率(一引用论文、一引用专利)略低于其他两所高校。

(4)从贡献程度来看:高校Z的科学贡献度较差(引用论文一论文被引),高校Q的科学贡献度和技术贡献度(引用论文一专利被引、引用专利一专利被引)较好,高校S的技术贡献度和科学贡献度(引用论文一专利被引、引用专利一专利被引)都略低于高校Q。

总体来看,高校Z近年来的产出发展较快,其科学研究向技术应用方面的转化速度较快,但是技术与科学的关联度较低,科学贡献度较低,但技术影响力较高。高校Q近年来科技产出变缓,科学研究向技术应用扩散速度较快,高校Q的科学研究转化效率较高,科学与技术的关联度居中,技术循环时间变长,但其技术贡献度和影响力仍较高。高校S在产出发展速度上略缓于其他两所高校,其技术扩散效率不高,科学贡献度和技术贡献度的水平居中。

3.5与传统指标的对比检验

传统指标受到时间变化以及突现的大数值个例影响,会导致指标结果具有数据样本的依赖性。通过分别比较扩散效应与“技术扩散速度”指标,转化效应关联性分析与“学科关联度”和“技术循环时间”指标(见表1)的数据值,对关联性方法的可行性进行检验。

(1)扩散效应关联性与“技术扩散速度”指标。

在已有的科学一技术分析中,计量扩散效应的是(专利申请)与(专利被引)的平均时间间隔,即“技术扩散速度”这个指标来度量的,用这个办法得出来的一个高校的技术扩散速度,选取的时间范围距离现在越远则值越大,选取的时间范围距今越近值越小。例如:图4中,选取30年的数据时,校S、高校Q和高校Z的均值分e为9.1、8.2和9.9年,中值为8.7、6.2和8.3年;选取近十年的数据时,三者的技术扩散速度分别为2.3、1.8和2.4年,中值为2.2、1.6和2.2年。

关联性的分析则是对两个变量的总体趋势进行对比,根据表6的结果,在30年的数据范围内,科学研究的扩散对科学研究和技术引用产出的时间影响(和论文被引:4、3、3,专利申请和专利被引:4,3,3),以及技术应用的扩散对新技术应用、科学研究和科学研究扩散的时间影响(和专利被引:5,5,4)的时间效应更加的均衡和稳定。

(2)转化效应关联性与“科学关联度”和“技术循环时间”指标。

传统指标中评价科研转化和技术转化的指标有科学关联度和技术循环时间两个指标。通过计算学科关联度得到图5,得到的2014年累积值分别为1.10、0.70、0.59,高校S的科学关联度较高,高校Q科学关联度居中,高校Z的科学关联度较低。该结果与三者的科学研究转化对新的研究内容、技术应用和技术应用转化关联分析结果(1,1,1)近似。

近五年(2010-2014年)技术循环时间方面的高校S的技术循环时间(4、5、3、3、3年)与高校Z(5、4、4、3、2年)近似,较高校Q(8、7、4、3、4年)略快,且年代越近,其技术循环时间越小。通过关联性分析,技术转化对科学研究和新技术应用产出的作用(2,3,2),高校Q略缓于高校S和高校Z,与传统指标的结果相近,但受数据集合时间范围的影响更小。

4结论

第3篇:大数据技术论文范文

关键词:计算机数据库 信息管理 应用

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2016)05-0000-00

1数据库系统的特点

数据库系统的主要特点包括:数据结构化、数据的共享性高、冗余度低,易扩充、数据的独立性、数据的灵活性等几个方面。

数据库结构化。在系统的文件中,虽然说在记录的内部已经有了一些结构,但在记录与记录之间仍然没有任何的关联。数据库的结构化让整体数据的结构化变得不再是空想。数据库的结构化是数据库的主要特征之一,这也是数据库与文件系统最为本质的区别。

数据的共享性高、冗余度低,易扩充。数据的共享性是在数据库技术中最为重要的特点之一,建立数据库最重要的目的也就是为了数据库的共享性,假如说这个数据库没有具备共享性,那么这个数据库的价值也将会非常的有限,一个可以共享的数据库,不单单可以让一个部门内部之间共享,还能够被多个用户或者多个应用程序使用。另外数据共享能够减少数据冗余,有效地节省存储的空间还能够有效的避免数据之间出现不一致性。

数据的独立性。数据的独立性包括物理独立性以及逻辑独立性两个方面。逻辑独立性指的是数据库的总体逻辑结构发生变化,但是虽说发生了变化,却都不需要修改原来的程序。物理独立性指的就是数据的存储结构发生改变,这种改变不会影响应用程序或者数据库的逻辑结构。独立性就是数据库的逻辑性和应用程序之间相互独立。

数据的灵活性。其实数据管理库不仅仅只能够存储数据,除此之外,他还有很多的管理功能。在数据的编辑及修改、数据的输入输出等方面都具有很大的灵活性,人们能够根据企业或者自身的需要来建立有自身特色的数据库,然后根据自身的实际情况来进行管理。

2计算机数据库在信息管理中的应用现状

应用范围不断的扩大。随着信息时代的不断进步,计算机数据库技术也在不断的发展,应用范围也不断的扩大,并且在工业、农业、商业、第三产业等领域也都得到了广泛的推广,使得这几个领域中的计算机数据库的信息管理手段逐渐的改善,也使得管理效率不断的提高。计算机技术与数据库理论之间的相结合体现了良好的市场发展前景,它凭借着计算机技术的安全可靠性,逐渐得到了诸多领域之间的一致认可,为计算机数据库技术日后的应用发展奠定了坚实的基础。

应用的安全性不断加强。计算机数据库技术不断得到应用的最重要的因素之一就是它的安全性不断的加强。由于计算机数据库安全性日益增强,所以计算机数据库在信息管理上的优势逐渐显现出来。信息管理面临着很多的安全隐患,随着数据库技术安全性的增强,为信息管理提供了非常多的便利或者是为安全隐患提供保障。信息管理之中最重要的就是数据,敏感数据很有可能面临着被篡改删除的安全性问题,计算机数据库就有效的为这样的安全 性问题提供了保障。计算机数据库技术一方面具备信息备份以及信息恢复的技术,在某些信息被误删之后可以及时找回,还能够在不增加成本的情况下对数据进行复制,这样就能够避免由于系统错误或者误删所带来的弊端。另一方面就是保证数据库中的数据可以不被非法访问或是被非法更新,还进一步地防止了数据的丢失,数据安全的指数不断提高。应用的安全性不断加强减少了数据库的安全隐患问题,还进一步推动了数据库技术在信息管理中的应用。

应用趋势不断增强。计算机数据库技术在经历了长时间的持续发展之后,理论及技术不断的完善,现如今,计算机数据库技术的操作性非常的简易,简易的操作性能为计算机数据库技术日后不断的应用拓展提供条件。现在多媒体技术也在不断地发展当中,所以对于图像、声音或视频的要求也越来越高。因此,计算机数据库技术的应用趋势在不断的增强。

受重视的程度不断提高。计算机数据库技术所具有的两个特征就是安全性以及适用性,这两个特征都能够满足多种领域中不同用户的各种需求。另外,在实际的使用过程中计算机数据库技术还体现出了良好的应用性能,所以计算机数据库技术不管在理论研究方面还是在实际使用方面都得到了社会各界之间的重视。

3计算机数据库技术的应用建议

虽然说计算机数据库技术在应用中受到了社会各界的广泛关注,但是它在实际的应用过程中还是存在着一些问题。

将基础理论与实践应用相结合。将计算机数据库技术的理论知识与实践应用相结合,来增加实用性。计算机数据库技术的基础理论与实践应用有着非常密切的联系,它们之前相互联系,相互依存,如果说不存在基础的理论知识,那么在实践应用的过程中就会遇到重重的障碍,不能够解决。所以在计算机数据库技术的应用过程中企业应该不断了解计算机数据库技术的新型理论知识并将其应用于实践中,来改善数据库技术的实用性。

提升数据库技术的安全性能。在现在的阶段中计算机数据库发展的最重要的核心问题即是数据库技术的安全问题,为了能够最大程度的保证数据库的安全,应该不断提升计算机数据库的安全性,以便于全面的改善信息管理的安全性。在企业的应用中,对于安全性的重视程度不够,所以为了提升安全性能,各个领域不同用户就要提升安全意识。

在计算技术不断发展的现在,越来越多的行业开始引用先进的计算机数据库技术来开展信息管理功能,为了计算机数据库在日后更加良好的发展,所以相关人员应该不断的研究总结,强化技术,进行创新,提高计算机数据库的安全性,将技术的理论知识与实践应用有效的结合起来,增加技术的实用性。总而言之,计算机数据库的安全性实用性就使得它有了广阔的发展空间,但是它仍然需要我们不断的研究总结来实现更加良好的发展。

参考文献

[1]李旭军.计算机数据库技术在信息管理中的应用[J].赤峰学院学报,2011(10).

第4篇:大数据技术论文范文

[关键词]专利引证 技术热点 耦合 聚类分析

[分类号]G353.1

1 引言

新技术的产生可以导致一系列相关的新产品问世,对人们的生活、企业的发展乃至社会经济产生巨大的推动作用。在某一新技术尚未完全成熟之际,必定会有很多企业围绕这一技术不断进行改进和完善,并申请相关专利技术进行保护。因此,未来主流市场中的主流技术在专利文献中有量的征兆,可以通过对专利数据的定量分析来进行技术热点的监测。

当前利用专利文献进行技术热点监测的方法主要有两种:①通过对具有技术含义的专利著录项,如专利IPC分类号的数量变化来监测技术热点;②利用文本挖掘技术,从专利文献中抽取技术关键词进行词频统计、聚类分析来监测技术热点。在学术领域,学者们基于专利分类号对某个时间点或时间段的技术热点进行了探索。袁冰等指出,通过分析专利涉及的所有IPC分类号,以及这些IPC分类号下分别包括的专利数量,就能够获知整个区域的技术构成情况以及该区域内市场经营主体关注的技术热点。王燕玲认为,将不同主体的1PC分类按时间分布并加以比较,可发现不同主体的IPC变化过程,是一个从创新主体角度研究技术领域热点变化的主要方法。左凤茹对水电行业中世界著名企业的专利申请量按IPC分类号进行统计后,指出目前水电没备的研究热点。栾春娟等认为,经过德温特技术人员标引的“德温特指南代码”(Derwent Manual Codes),对研究专利的技术领域分布更具指导意义,她们利用德温特指南代码,陆续对基因工程、3G技术、生物技术、电动汽车领域进行了技术热点分析。在技术实践领域,主流的专利分析软件如Thomson Data Analyzer(TDA)、Aureka、HIT-恒库等正是基于上述原理,实现了从批量专利文献中抽取专利分类号或技术特征词汇进行统计、聚类分析的功能,并用可视化的方式展示分析结果,生成相应的专利地图,进行技术热点监测。以Aureka为例,它提供了ThemeSeape地形图功能,以分析的专利样本为基础,对其中相关词汇的词频应用聚类分析生成主题(词汇)地形图,以此来描述专利技术热点的分布情况。

但是,由于IPC的分类原则是将同一技术主题归在同一分类位置,使之具有相同的分类号,即侧重于对单一技术主题进行分类,而且IPC将专利要求的技术主题作为一个整体来分类,而不是对其各个组成部分分别进行分类,因此分类不彻底,也造成分类不够细,某个分类号下存在大量文献。这样一来,基于IPC分类号的技术热点难免存在偏差,且比较宏观,难以反映企业关注的微观技术热点变化,更难以揭示技术日新月异的变化和发展。而利用模式匹配、规则基础和自然语言处理技术直接从专利文本中抽取词和词组进行统计或聚类分析,虽然相对比较精确和具体,但也存在着一些相关陛较高的词组或短语,因为出现过于频繁而容易被软件分析系统自动剔除,造成分析的误差。因此,如何提高基于专利文献技术热点监测的准确性,如何利用专利引文所承载的技术关联信息进行获取和关联挖掘,如何对已有的宏观技术热点和微观技术热点监测进行补充,是本文研究的主要问题。

2 基于专利引证的技术热点监测方法

2.1 专利引文的技术情报价值

专利对先有技术(prior art)和科学论文的引用是科学和技术发展规律的表现,它体现了科学和技术的累积性、连续性和继承性,也体现了不同学科、不同研究层次之间的交叉、渗透。大多数发明不是“无中生有”的,一般发明人在进行发明创造活动时,会参考具有相同发明目的的先有技术的发明创造内容和发明人所熟知的先有技术。另外,专利审查员审查专利文件时常会将被审查的专利与主题相近的先有技术相比较,这两种方式导致了专利引文的出现。Arehibugi和Pianta指出,专利引文数据广泛地提供了具体技术领域某一技术发明的相关技术信息。

1965年,普赖斯创造性地研究了科学论文之间的施引与被引证关系,以及由此形成的所谓“引证网络”。专利引证网络是将文献计量引证网络的对象从科技论文到专利文献的直接延伸,通过绘制专利引证关系图来考察互相引证的专利的关联程度和技术相互间的影响,寻找最早被引证的专利文献,洞悉专利的继承性和发展历程。专利与其引证论文或引证专利密切相关,反映了相同或相近的技术创新,这种相关性是由技术本身的传承和发展而形成的。据此,利用各种数学以及统计学的方法对专利与专利之间的施引和被引现象进行比较、归纳、抽象判断,以探索其数量特征及内在价值,专利引文分析也具有重要的技术竞争情报价值。

2.2 基于专利引证进行技术热点监测方面的实践应用

借助专利与专利间的引用与被引用关系,不仅可以揭示出专利的理论、技术起源,而且可以对技术领域中的技术前沿和技术热点进行追踪。Mogee等利用专利同被引(patent co-cltation)对2808条Eli Lilly公司的专利数据进行聚类分析,识别该公司的核心专利技术和技术热点群组,发现主要的技术热点(teehnolo-gy fronts)。孙涛涛等基于专利耦合关系,指出同时引用相同基础技术专利簇的另一个专利簇(base tech-nology)可以构成技术热点。尹丽春等将文献计量学中的共被引方法应用到专利文献的研究中,对在我国申请的数字信息传输领域中的专利技术前沿问题进行探讨。

目前市场上各种专业的商业化专利分析软件(如法国IMCS的Matheo Analyzer、美国汤森路透旗下的Aureka、Innovation和Delphion、中国恒和顿的HIT-恒库等)几乎都有绘制引证网络图的功能,利于追溯目标技术的起源和发展。但是这些软件工具无法利用专利文献中的同被引或耦合技术,借助可视化关系揭示技术前沿或者技术热点。

2.3 基于专利引证的技术热点监测方法设计

研究首先通过基于“关键词+专利引文”的检索策略,从专利数据库中检索、下载研究主题范围内的原始专利数据,构建本地专利专题数据库;其次,按照分析需要对本地原始专利数据进行拙取,将专利号、题名、发明人等专利著录项从专利文献中抽取出来,完成数据预处理;再次,分别利用专利耦合聚类和具体概念词聚类,实现由浅至深、由粗到细的技术热点监测。具体实施流程如图l所示:

值得注意的是,为了构建准确、有效的专题数据集-进行分析,专利数据检索至关重要。在专利数据采集的过程中,首先采用关键词试检,从试检结果中寻找相

应表达的同义或近义词,扩充、调整检索策略,力求保证关键词的全面性与准确性,构建初始专利数据集。然后对初始专利数据集中的专利进行被引频次排序,遴选25-50个高被引专利作为种子专利,并请领域专家对种子专利进行判读。如果专家认为研究领域的种子专利不准确,则需要重新回到第一步,调整检索策略进行数据检索。

此外,在利用专利耦合进行技术监测的过程中,要注意设定合适的专利耦合阈值,阈值过大或过小都会影响耦合矩阵的构建,从而影响耦合技术热点的聚类。同时,那些低于耦合阈值的专利内容相对分散,较难形成热点,应该予以舍弃。

2.3.1 基于专利引证的技术领域数据集构建 利用专利引文和专利引文索引能识别那些用其他方式不能识别的专利之间的关系,而且这些关系往往可以使相关信息的检索变得迅速。正如Garfield E所言,除了专利引文和专利引文索引,现在尚无一种更加有效的工具可以确定某一专利所透露的技术是如何被改动、完善和利用的。马海群指出,引用检索作为传统专利情报检索方式(如分类或主题检索)的重要补充,可以有效地提高专利检索的查准率和查全率。借助专利与专利间的引用与被引用关系,本文提出“关键词+专利引文”的技术领域专利文献数据集构建方法,获得同一批技术专利技术起源的所有相关专利数据,提升检索效率、增强资料的搜集性及准确性,具体步骤如下:①与领域专家讨论,确定相关检索技术关键词,确定检索式进行关键词检索;②根据初检结果,构建与专题技术相关的初始专利数据集;③遴选TOP25-TOP50高被引专利作为该技术领域的种子专利;④检索引证种子专利的专利(citing patent)及其被引专利(cited patent),构建专题技术数据集。

通过上述步骤,构建待分析的技术专题数据集,其专利引证关系如图2所示:

2.3.2 技术热点监测方法文献中的间接关联包括文献耦合和同被引两种,都能用来确定研究热点(re-search fronts)。正如Persson和Morris。所言,耦合论文可以反映“研究热点”的知识结构,同被引论文则提供了一种知识基础(intellectual base)的知识结构。Glanzel指出论文从发表到被引用期问有一个明显的时滞,用同被引来映射学科结构存在时差,而耦合分析则可以实时地反映学科最新的动态变化。Van denBesselaar P等也指出,耦合测度的是源文献之间的关系,同被引测度的是被引文献之间的关系。前者是基于有意识的行为,即著者有意地将两篇文献联系起来,而后者仅是两篇文献出现之后的偶然关联。因此,文献耦合更适于最新研究主题的揭示。

为了在基于IPC分类号的宏观技术热点和基于词的微观技术热点中找到一个较好的平衡点,本文首先利用专利之间的耦合关系获得耦合专利簇,形成中观层面上的技术热点?技术热点交由领域专家识别,为其命名。其次,引入时间轴的概念,对耦合聚类实现的技术热点发展趋势进行分析,帮助技术决策者了解每个技术热点随时间的发展变化情况。再次,利用自然语言处理技术,从技术热点的专利文本中抽取词和词组进行统汁和聚类分析,获得以概念词为表征的技术热点,辅助技术决策。

3 实证研究

3.1 数据集的构建

本文采川基于专利引证的方法构建技术领域专题数据集。研究以DVD领域激光头技术为例,经与领域专家讨论,将optical head、pickup和pick up确定为检索关键词,从美国专利商标局(USPTO)文摘库中检索1995-2004年1O年间的专利数据,检索出1934个专利构建DVD激光头技术领域初始专利数据集。从巾遴选TOP25高被引专利作为该技术领域的种子专利。从USPT0数据库中检索出种子专利的729个施引专利(citing patent),去重后得到515个。上述515个专利又引用了3397个(去重后)被引专利(cited patent)。分别将上述数据下载到本地,构建专题数据库,作为本次研究的分析对象。

3.2 基于专利耦合的技术热点分析

研究首先将515个专利和3397个被引专利的专利号(patent number)、题名(title)、授权日期(issuedate)、专利权人(assignee)、技术分类号(IPC)从数据集中抽取出来,为后续分析做准备。然后将研究的耦合阈值确定为4,对原始数据集中的515个专利进行筛选,舍弃专利耦合强度少于4的那部分专利,得到272个专利作进一步的分析。

其次,根据专利之间的引证关系,生成专利初始引证矩阵。这是个典型的二值矩阵,即矩阵中所有的元素取值均为0或者1,如果两个专利之间存在着引证关系,即取值为1;如果两个专利之间不存在引证关系,即取值为0。本例中的研究对象有272个专利,需要生成272×272的矩阵,由于文章篇幅限制,略去原始的272×272矩阵。专利初始引证矩阵是一个不对称矩阵,根据初始引证矩阵转换成对称的专利耦合矩阵。

再次,采用层次聚类法对专利单元样本进行聚类分析。聚类的过程是:先将n维专利耦合矩阵转换成n维的相似矩阵,然后根据一定的聚类算法把分析对象分成类群。在选择相似性(similarity)测度方法时,本文采用了Dice相关系数来对耦合距阵进行标准化处理,采用离差平方和法(ward’s method)计算类间距离。上述步骤用Matlab提供的statistics toolbox工具,选择层次聚类方法实现,将耦合强度大于4的专利聚成了10个小类的专利簇,得到10个技术热点,并通过领域专家帮助,给每个技术子主题命名。

最后,绘制各技术热点的发展演变图,考察技术热点在10年间的发展变化。从DVD激光头技术各个子技术主题在10年间(1995-2004年)的发展趋势来看,大部分子技术主题在1997-2002年处于上升阶段,随后缩量发展,从一个侧面说明激光头技术整体而言已经相对成熟,自2003年始发明创新逐渐减少。其中,生命力最为旺盛的是技术热点4――光记录设备,从1997年至2004年不断有新技术发明问世。DVD激光头技术10个热点的发展演变如图3所示:

3.3 基于词聚类的技术热点分析

为了考察光记录设备这一技术热点的具体情况,随后将光记录设备的87条专利数据导入Patentics专利检索分析平台,进行概念聚类分析,得到10组概念索引词,表征光记录设备的详细技术热点,见表1。

其中,关于物镜的专利占了该技术热点的1/4,其次为光度头和激光束。在这些子技术热点中,日立、松下电工、富士施乐、日本电气等日本企业在光度头中表现突出,日立、富士施乐、希捷等企业在激光束中有较大的技术优势。

4 研究结论

基于专利引证的技术热点监测方法在技术领域数据集的构建和热点监测过程中,有针对性地对专利引文所承载的技术关联信息进行获取和关联挖掘,使得数据分析的目标更加明确,通过专利耦合寻找微观技术热点群获得的技术热点更为凝练、精确。此外,在凝练的微观技术热点群中利用技术特征词汇进行聚类监测,词或短语的专指度更高,能有效避免出现词或短语的高峰区域内个别专利不属于此技术领域的分析误差现象。因此,无论在理论上还是实际操作中,基于技术特征词汇的技术热点监测更具有效性和可靠性,是对以往单纯基于IPC分类号或基于词处理技术获得技术热点的有效补充和参考。

第5篇:大数据技术论文范文

论文摘 要 智能交通系统 (ITS) 是集成于信息技术、传输技术、电子技术、及计算机处理技术等多种类电子工程技术,而建立起的实时、高效、准确的综合运输和管理体系。其中,数据压缩和数据融合技术使得ITS技术更具有现实意义。本文基于智能交通系统中信息的特征,探讨了数据压缩和数据融合技术涉及的关键技术及要求,分析了技术应用及现实突破。

1 ITS信息及特征分析

1.1 智能交通信息(ITS)

交通系统由包括4个基本要素:人(交通出行者、驾驶员和管理者)、物(货物)、各类交通工具和相应的交通设施构成。交通信息是指所有与交通系统的四大要素相关联的信息,是ATMS的关键基础。面向ATMS的基础交通信息主要是指与交通运行状态和交通管理有关的交通信息,是交通信息中最直接、最基础的信息。基础交通信息包括基础交通地理信息、交通实时状态信息、交通控制和管理信息、交通政策法规信息、公共交通信息。

1.2 基础交通信息的属性特征

基础交通信息是一种在大范围内、全方位发挥作用的,实时、准确、高效的综合运输和管理系统,其应具有以下一些基本属性特征:1)准确性;2)及时性;3)共享性;4)信息的采集具有实时性和动态性;5)具有海量信息特征;6)增值性。

2 数据压缩处理技术

交通信息一方面时采集到的信息烦杂多样,要想利用这些不同类别的信息,需采用不同的处理方法;另一方面,交通信息的一个显著特征是它的空间性和随机性,因此对它的研究分析需要建立在广泛统计的基础上,应用各类信息处理技术和统计分析方法来探索它的规律性。

所谓多媒体技术就是能对多种载体(媒体)上的信息和多种存储(媒质)上的信息进行处理的技术,特点主要表现在它的综合性和交互性。交通信息是属于多媒体信息范畴。若要实时的综合处理声音、图像、视频、文字等多媒体信息,其数据量是非常大的。要传输或存储这样大的数据量是非常困难的,必须对其进行压缩编码,在满足实际需要的前提下,尽量减少要传输或存储的数据量。

数据压缩主要依靠信源编码技术。一般的,图像压缩技术可分为两大类:无损压缩和有损压缩技术。在多媒体应用中常用的压缩方法有PCM(脉冲编码调制)、预测编码、变换编码、插值和外推法、统计编码、矢量量化和子带编码等;混合编码是近年来广泛采用的方法。新一代的数据压缩方法,如基于模型的压缩方法、分形压缩和小波变换方法等也已经接近实用化水平。

3 信息融合技术

信息融合技术在单纯数据采集融合(即一次融合)阶段称为数据融合,是研究多种信息的获取、传输与处理的基本方法、技术、手段以及信息的表示、内在联系和运动规律的一门技术。融合是指采集并集成各种信息源、多媒体和多格式信息,从而生成完整、准确、及时和有效的综合信息,它比直接从各信息源得到的信息更简洁、更少冗余、更有用途。

先进的交通管理系统(ATMS)是一个典型的多传感器系统,信息融合技术给交通信息加工和处理提供了一种很好的方法,信息融合技术的最大优势在于它能合理协调多源数据,充分综合有用信息,提高在多变环境中正确决策的能力。

在信息融合领域使用的主要数学工具或方法有概率论、推理网络、模糊理论和神经网络等,其中使用较多的是概率论、模糊理论、推理网络。当然,除了这几种常用的方法之外,还有其他很多解决途径。

3.1 概率论

在融合技术中最早应用的就是概率论。在一个公共空间根据概率或似然函数对输入数据建模,在一定的先验概率情况下,根据贝叶斯规则合并这些概率以获得每个输出假设的概率,这样可以处理不确定性问题。贝叶斯方法的主要难点在于对概率分布的描述,特别是当数据是由低档传感器给出时,就显得更为困难。另外,在进行计算的时候,常常简单地假定信息源是独立的,这个假设在大多数情况下非常受限制。卡尔曼滤波方法则根据早先估计和最新观测,递推地提供对观测特性的估计。另外,概率论和模糊集理论的综合应用给解决多源数据的融合问题提供了工具。

3.2 模糊理论

模糊集理论是基于分类的局部理论,因此,从产生起就有许多模糊分类技术得以发展。隶属函数可以表达词语的意思,这在数字表达和符号表达之间建立了一个便利的交互接口。在信息融合的应用中主要是通过与特征相连的规则对专家知识进行建模。另外,可以采用模糊理论来对数字化信息进行严格地、折衷或是宽松地建模。模糊理论的另一个方面是可以处理非精确描述问题,还能够自适应地归并信息。对估计过程的模糊拓展可以解决信息或决策冲突问题,应用于传感器融合、专家意见综合以及数据库融合,特别是在信息很少,又只是定性信息的情况下效果较好。

3.3 推理网络

推理网络的构建和应用有着很长的历史,可以追溯到1913年由一位名叫John H W ig-more的美国学者所做的研究工作。近来,许多对于分析复杂推理网络的理论往往基于贝叶斯规则的推论,并且都被归类于贝叶斯网络。目前,大多数贝叶斯网络的研究都包括了对于概率有效传播的算法拓展,同时它在整个网络中也充当了新证据的角色。同时贝叶斯网络在许多A1任务里都己作为对于不确定推理的标准化有效方法。贝叶斯网络的优点是简洁、易于处理相关事件。缺点是不能区分不知道和不确定事件,并且要求处理的对象具有相关性。在实际运用中一般不知道先验概率,当假定的先验概率与实际相矛盾时,推理结果很差,特别是在处理多假设和多条件问题时显得相当复杂。

参考文献

[1]杨兆升.基础交通信息融合技术及其应用[M].北京:中国铁道出版社,2005.

[2]史其信,陆化普.中国 ITS 发展战略构想[J].公路交通科技,1998,3.

第6篇:大数据技术论文范文

2、EI(工程索引)TheEngineeringIndex,简称EI.创刊于1884年,是美国工程信息公司(EngineeringinformationInc.)出版的著名工程技术类综合性检索工具。EI每月出版1期,文摘1.3万至1.4万条;每期附有主题索引与作者索引;每年还另外出版年卷本和年度索引,年度索引还增加了作者单位索引。出版形式有印刷版(期刊形式)、电子版(磁带)及缩微胶片。EI选用世界上工程技术类几十个国家和地区15个语种的3500余种期刊和1000余种会议录、科技报告、标准、图书等出版物。年报道文献量16万余条。收录文献几乎涉及工程技术各个领域。具有综合性强、资料来源广、地理覆盖面广、报道量大、报道质量高、权威性强等特点。

3、ISTP(科技会议录索引)IndextoScientific&TechnicalProceedings,简称ISTP。创刊于1978年,由美国科学情报研究所编辑出版。该索引收录生命科学、物理与化学科学、农业、生物和环境科学、工程技术和应用科学等学科的会议文献,包括一般性会议、座谈会、研究会、讨论会、发表会等。其中工程技术与应用科学类文献约占35%,其他涉及学科基本与SCI相同。

4、ISR(科学评论索引)IndextoScientificReviews简称ISR。创刊于1974年,由美国科学情报研究所编辑出版,收录世界各国2700余种科技期刊及300余种专著丛刊中有价值的评述论文。高质量的评述文章能够提供本学科或某个领域的研究发展概况、研究热点、主攻方向等重要信息,是极为珍贵的参考资料。

5、CSSCI(中文社会科学引文索引)ChineseSocialScienceCitationInformation英文名称首字母缩写,是由南京大学研制成功的、我国人文社会科学评价领域的标志性工程。科学引文索引是从文献之间相互引证的关系上,揭示科学文献之间的内在联系。通过科学引文索引数据库的检索与查询,可以揭示已知理论和知识的应用、提高、发展和修正的过程,从一个重要侧面揭示学科研究与发展的基本走向;通过科学引文索引数据库的统计与分析,可以从定量的视角评价地区、机构、学科以及学者的科学研究水平,为人文社会科学事业发展与研究提供第一手资料。CSSCI俗称“南大版核心期刊”。

6、中文核心期刊要目总览由北京大学图书馆与北京高校图书馆期刊工作研究会联合编辑出版的《中文核心期刊要目总览》(以下简称《要目总览》)。《要目总览》不定期出版,1996年出版了第二版,2000年出了2000版,2008年又推出了最新的版本。《要目总览》收编包括社会科学和自然科学等各种学科类别的中文期刊。其中对核心期刊的认定通过五项指标综合评估。中文核心期刊要目总览,就是通常所说的中文核心期刊,俗称“北大版核心期刊”。

7、CSCI(中国科学文献数据库)是国家科学数字图书馆资助的项目,建设目标是建立中文科技期刊的基于web的科技文献文摘、引文、联合目录馆藏的科技知识服务体系,面向广大机构和个人用户提供中文科技期刊文献资源的有效发现和评价服务。结合对全文数据库的开放链接,建立基于核心科技期刊的知识发现、评价和推介服务体系。

8、ASPT(中国科学文献计量评价数据库)ASPT是中国科学院文献情报中心(A)、中国社会科学院文献信息中心(S)、北京大学图书馆(P),中国学术(光盘版)电子杂志社(T)共同建设的《中国科学文献计量评价数据库》。

9、CJFD(中国期刊全文数据库)(ChineseJournalFull—textDatabase)的英文缩写.属教育部主管,清华大学主办,中国学术期刊(光盘版)电子杂志社创办的我国第一个学术期刊全文检索与评价数据库,是我国知识信息生产、传播、应用和期刊评价、管理的现代化运作平台,以光盘和网络等形式向国内外读者提供动态知识服务,并为中国科学文献计量评价研究中心进行期刊评价提供基础数据,为新闻出版总署等有关期刊管理部门提供期刊管理数据。如刊物被这些数据库收录,在一定程度上说明这些期刊的权威性。

10、CJCR(中国科技期刊引证报告)CJCR是按照美国JCR的模式,结合中国的具体情况,以中国科技论文与引文数据库(CSTPCD)为基础,选择数学、物理学、力学、化学、医药卫生、工业技术、电子与通信、计算技术、交通运输、航空航天、环境科学等学科的1000多种中国出版的中英文科技期刊作为来源期刊,根据来源期刊的引文数据,进行规范化处理,计算了总被引频次、影响因子、即年指标、被引半衰期、论文地区分布数、基金论文数和自引总引比等十余项科技期刊评价指标,并按照期刊的所属学科、影响因子、总被引频次和期刊字顺分别进行排序。

11、CMCC(中文生物医学期刊文献数据库)是医学图书馆创建的近期中文医学期刊文献的数据库,是面向医院、院校、科研、图书情报、医药卫生和医药出版等单位的文献摘要数据库。它收录文献量大,专业性强,信息新,查询途径广,更新及时,系统功能比较完备,用户界面友好,使用方便,是检索最新医学文献的重要工具,几乎收录了国内生物医学领域的全部核心期刊、重要刊物以及与生物医学相关的一些自然科学期刊,内容涵盖了生物医学的各个领域及其边缘学科的相关领域。CMCC是目前我国同类产品中提供信息量最多、传递速度最快的中文医学文献数据库。

12、CASS(中国人文社会科学核心期刊要览)是中国社会科学院文献信息中心在多年的期刊研究基础上完成的一项科研成果。它采用我国目前年度收文量最大的引文数据库和其他大型文献数据库作为统计数据源,运用文献计量学的理论和方法进行综合统计分析,邀请各学科权威专家进行评审,力求客观地反映期刊的“学术影响力”。该书评出哲学、政治、法律、经济、文学、历史等重要学科领域中的344种核心期刊,涵盖了目前我国人2社会科学期刊中使用率和学术水平均居前列的权威期刊和优秀期刊。CASS也有人称之为“社科院版核心期刊”。

13、中国科技期刊引证报告(统计源期刊)是按照美国科学情报研究所(ISI)《期刊引证报告》的模式,结合中国期刊发展的实际情况,确定了在中国出版(不含港、澳、台)的1576种(2004年版)科技期刊列为《中国科技论文统计源期刊》,学科范畴主要为自然科学领域,是目前国内比较公认的科技统计源期刊目录。因其受科技部委托,带有官方色彩,具有很高的学术权威性,人们习惯称其为“统计源期刊”,又称为“中国科技核心期刊”。

14、CSTPCD(中国科技论文与引文数据库)中国科技信息研究所(ISTIC)是受国家科技部委托,从1987年开始对我国科技人员在国内外表论文数量和被引用情况进行统计分析,并利用统计数据建立了中国科技论文与引文数据库(CSTPCD),受到社会各界的普遍重视和广泛好评。中国科技论文统计源期刊是CSTPCD的数据来源。通过中国科技期刊综合指标评价体系对期刊学术质量的考核,CSTPCD每年对收录期刊的范围进行调整。

15、CSCD(中国科学引文数据库)收入我国数学、物理、化学、生物学、医药卫生、工程技术、环境科学和管理科学等领域出版的中英文科技核心期刊和优秀期刊近千种,其中核心库来源期刊670种,扩展库期刊为378种.核心库的来源期刊经过严格的评选,是各学科领域中具有权威性和代表性的核心期刊。扩展库的来源期刊也经过大范围的遴选,是我国各学科领域较优秀的期刊。具有建库历史最为悠久、专业性强、数据准确规范等特点,被誉为“中国的SCI”。

16、CAJCED(中国学术期刊综合评价数据库)是部级火炬计划项目,是以《中国学术期刊(光盘版)》和中国期刊网专题全文数据库的评价数据为基础而建立起来的大型数据库。是《中国核心期刊要目总览》数据源统计的分析工具、《中国科学引文数据库》和《中国人文社科引文数据库》来源期刊的重要依据。该数据库为各期刊管理部门进行期刊管理、评比及期刊的其它定量分析研究提供依据和统计分析结果。在《中国学术期刊综合评价数据库》来源期刊及其统计分析的基础上结合《中文核心期刊要目总览》,由评价中心《中国人文社会科学引文数据库》专家遴选900多种社科类优秀期刊作为来源期刊。

17、中国期刊方阵“双高”“双奖”“双百”“双效”期刊“中国期刊方阵”的基本框架分为4个层面,形成宝塔形结构。第一个层面为“双效”期刊。以全国现有近万种期刊为基数选取社会效益、经济效益好的1000余种期刊,作为“中国期刊方阵”的基础。第二个层面为“双百”期刊。即通过每两年一届评比产生的百种重点社科期刊、百种重点科技期刊。每届进入全国“双百”重点期刊数量控制在200种左右。第三个层面为“双奖”期刊。是全国“双百”重点期刊基础上评选出的国家期刊奖、国家期刊奖提名奖的期刊。此类期刊约100种左右。第四个层面为“双高”期刊,即高知名度、高学术水平的期刊。此类期刊约50种左右。“双奖”和“双百”期刊通过评选产生,“双高”期刊由新闻出版总署、科技部确定,入选期刊均为国内知名品牌期刊。

18、部级期刊“部级”期刊,即由党中央、国务院及所属各部门,或中国科学院、中国社会科学院、各派和全国性人民团体主办的期刊及国家一级专业学会主办的会刊。另外,刊物上明确标有“全国性期刊”、“核心期刊”字样的刊物也可视为部级刊物。

第7篇:大数据技术论文范文

【关键词】FDI 经济 内生性 模型 溢出效应

一、引言

目前,我国已经成为FDI第二大流入国,拥有高额外汇储备,并且在未来很长的一段时期内人民币升值预期都会存在。在这种情况下实证研究我国的FDI的技术溢出效应不仅对更合理地引进和利用FDI具有十分重要的意义,而且还直接关系到到我国宏观经济政策的制定、实施。我国学者从1994年以来对FDI的技术溢出效应进行了大量的实证研究。研究的方法大致可分为两类:第一类运用各种理论模型(例如Feder模型)将产出的增长率作为因变量,FDI的存在程度作为自变量进行回归分析;第二类采用各种理论模型推导出技术进步率作为因变量(例如全要素生产率),FDI的存在程度作为自变量进行回归分析。但是学者们对FDI的技术溢出效应的实证研究结论并不一致。本文通过分析发现上述两种方法在建立理论模型时均未考虑到FDI变量的内生性。由于FDI技术溢出过程是一个较为复杂的经济现象,宏观经济变量总产出、国内资本存量、外商投资资本存量、劳动投入量和经济结构变动等相关经济因素相互作用,存在错综复杂的多项因果关系。在实证研究中,采用单方程回归估计FDI技术溢出效应有可能忽视FDI变量是一个内生变量,而在回归方程中,变量的内生性会影响到模型的准确程度。我国学者对FDI技术溢出效应实证研究结论的不一致可能部分地来自于这个缺陷。由于目前技术进步率指标的计算方法在学术界没有得到统一,为了防止计算方法上的不一致造成结论不一致,本文只针对第一类方法进行实证分析,运用格兰杰因果检验,证明FDI变量确实具有内生性。下文结构如下:第二部分为文献综述,第三部分为理论模型的建立,第四部分为数据说明及实证分析,第五部分为结论。

二、文献综述

Blomstrom和Kokko将FDI的技术溢出效应定义为,跨国公司在东道国实施FDI引起东道国技术或生产力的进步,而跨国公司无法获得其中的全部收益的一种外部效应。目前学术界对FDI技术溢出效应的存在在理论分析上已经获得共识,但实证研究的分析结果却还未取得一致。王扬运用索洛余值法测量FDI的技术贡献率分析得出1993-2003年期间FDI对辽宁省平均的技术贡献率为23.31%[2];何洁利用Feder模型分析认为FDI在我国各省市的工业部门中都存在明显的正向外溢效应,而且在经济发展水平越高的地区,这种外溢效应的作用越大[3];赵奇伟研究了京津冀地区的FDI技术溢出效应得出:1980-1994年FDI与区域产出增长率显著正相关,区域内边际上外资变化量存在正的技术溢出效应;1995年后,FDI与区域产出增长率相关系数开始变为负数[4];陈柳通过对1987-2003年中国27个省份的面板数据综合分析了本土创新能力和FDI技术外溢对经济增长的作用,得出结论:FDI本身的外溢对经济的增长作用并不显著,FDI也并不是引起本土创新能力增强的原因[5]。郑秀君在整理和收集了1994-2005年我国学者关于FDI技术溢出实证研究的大部分文章后,分析研究得出,虽然我国大部分学者估计出来的表示FDI技术溢出效应的模型变量的系数为正,但大多数并没有通过统计检验,少数通过统计检验的模型在数据的选取上还存在问题[6]。

目前,大部分的研究文献都是建立单方程回归模型,将FDI的技术溢出效应作为因变量,FDI变量作为自变量纳入模型,通过对FDI变量的系数进行t检验来判断技术溢出效应是否存在。在变量的选取方面,国内较为流行的做法是用产出增长率来度量FDI的技术溢出效应,用FDI占产出的规模来作为FDI变量。本文对此存在两方面的疑问:

首先,现有的模型没有区分FDI本身的贡献度和FDI的技术溢出效应。绝大多数模型求证的FDI的技术溢出效应不但包括了FDI的技术溢出效应,而且还包括FDI本身的贡献度。例如FDI可能引起外资企业与内资企业之间产量增长率的梯度差,而这种梯度差显然会影响到总体的产出增长率,但不能就此判断FDI技术溢出效应的必然发生。因为FDI引起的外资企业高的产出增长率仅仅是FDI本身的贡献度,受益者只是外资企业本身。由于FDI本身的贡献度存在,模型中的产出增长率与FDI变量之间总是存在显著的相关性,模型没有精确地区分FDI的技术溢出效应和FDI本身的贡献度,得到的结论往往夸大了FDI的技术溢出效应。

其次,对FDI影响因素的研究证明:某一地区、某一行业最初的产出增长率会影响到FDI的区位选择和行业选择。Djankov,Hoekman研究发现外资企业的行业选择具有某些特定的规律,比如会自主或不自主地选择生产力更发达、技术水平更先进或利润更高的行业。另外,在对FDI的技术溢出效应进行研究时,Kokko发现外资企业的介入会提高内资企业的技术水平,但是内资企业技术的提高同样也会迫使外资企业提高技术水平,两者之间存在相互影响的互动关系[7]。这些研究成果都证明了FDI的技术溢出与东道国本身的经济增长相互影响、相互关联。在进行FDI技术溢出效应的实证研究时,模型的建立必须考虑到这种关联性。

上述两个方面都有可能导致FDI的技术溢出效应过程中FDI变量内生性的存在。因此,目前大部分的研究文献中建立的单方程回归模型可能包含双向因果关系,具有联立性误差。而对具有联立性误差的模型采用最小二乘法估计方程是不合适的,因为最小二乘法将模型中的变量视为外生变量。

实际上,我国已经有部分学者开始重视FDI变量内生性的问题。周礼在实证研究FDI技术溢出效应时为了解决内生性的问题,建立了联立方程模型。陈羽为了克服产出方程中的内生性和行业间异方差性采用了差分方程和针对动态面板数据的系统GMM估计法。但是目前还没有研究文献对FDI变量的内生性进行实证分析,本文将利用我国实际数据进行格兰杰因果检验,验证在进行FDI技术溢出效应的实证研究中FDI变量的内生性。

三、理论模型的建立

本文的研究目的是在实证分析FDI技术溢出效应的理论模型中寻求并验证FDI变量的内生性。本文将在格兰杰因果检验理论的基础上构建以下理论模型:

At代表度量各年外商直接投资额的变量,即FDI变量;Bt代表度量各年FDI技术溢出效应的变量;是白噪音。在格兰杰因果检验中,如果对式(1)中滞后B所估计的系数作为一个群体是

统计上异于零的(即≠0),那么可以判断存在从A到B

的格兰杰因果关系。

目前国内外大部分研究文献都是以某一行业、某一地区的产量增长率作为度量FDI技术溢出效应的变量,以外商直接投资额占总产量的比值作为FDI变量来实证研究FDI的技术溢出效应。本文在充分借鉴已有研究成果的基础上,选取了我国GDP增长率作为度量FDI技术溢出效应的变量(即GDP=B),而在FDI变量的选取上,本文选取了外商直接投资额的自然对数值(即lnFDI=A)。其原因有以下两点:(1)本文在对有关外商直接投资额的时间序列数据进行平整性分析时,发现不管是以各年外商直接投资额占总产量的比值作为时间序列,还是以各年实际的外商直接投资额作为时间序列等都存在时间序列的非平整性问题,并且在对时间序列数据进行多阶差分处理后,平整性依然不甚显著。但是对外商直接投资额的自然对数值进行一阶差分处理后构成的时间序列数据具有显著的平整性,满足对时间序列数据进行格兰杰因果检验的要求;(2)在A=lnFDI,B=GDP的前提下,系数

被称为A对B的半弹性。因此系数在经济学上具备了良好的解释意义:度量了在给定FDI技术溢出效应量的情况下GDP增长率的变化所带来的FDI变量的相对改变量,即本文所求证的FDI变量在实证研究FDI技术溢出效应的理论模型中所具有的内生性。

因此,本文建立理论模型如下:

四、数据说明及实证分析

1983年以前我国外商直接投资额数量较少,数据缺乏,本文选取了从1983-2005年的数据。另外,FDI的流入通常会给东道国带来通货膨胀的压力,长期中会出现GDP增长率计算偏高的趋势。本文为了消除通货膨胀的影响,以1978年=100的可比价格对我国的GDP增长率重新进行了计算。数据见表1。

格兰杰因果检验要求被检验的时间序列数据具有平整性。下面本文将运用单位根检验方法中的ADF检验对时间序列数据lnFDI、GDP进行平整性检验。

从图1和图2出发,本文对GDP时间序列数据采用包含常

数项的序列形式()进行ADF检验,

而对lnFDI时间序列数据采用同时包含常数项、时间趋势项的序

列形式()进行ADF检验。

检验结果表明GDP时间序列数据虽然在水平情况下显示出平整性,但由于引入滞后项过多,样本数据太少,降低了ADF检验结果的置信度;lnFDI时间序列数据在水平情况下则显示出了显著的非平整性。因此,本文对两个时间序列数据进行了一阶差分处理,然后对两个时间序列的一阶差分形式进行ADF检验。检验结果表明在5%的显著性水平下,两个时间序列的一阶差分形式同时显示出显著的平整性。

下面运用式(2)进行格兰杰因果检验,检验时用两个时间序列的一阶差分形式数据去代替水平形式数据。检验结果见表2:

检验结果表明,GDP对lnFDI存在格兰杰因果关系,该因果关系在滞后1期的情况下最为显著,在滞后3期时,因果关系不太显著,在滞后4期、5期的情况下显著性水平虽然有所提高,但考虑到样本数据过少,引入变量过多,对其可靠性存在质疑。

五、结论

本文运用格兰杰因果检验对在实证分析FDI技术溢出效应的模型中可能存在的FDI变量的内生性进行了研究,发现:我国的GDP增长率对我国外商直接投资额的增长率有所影响,并且这种影响具有滞后性,在滞后一年的情况下,影响最为显著。因此,本文可以得出以下结论:在实证研究FDI的技术溢出效应时,FDI变量的内生性确实存在。本文在计量分析时,虽然采用的是我国的GDP增长率作为度量FDI技术溢出效应的变量,具有一定的片面性(姑且不论及该变量选取方法在我国学术界的流行性),但是并不影响得到上述的一般性的结论。因为FDI的技术溢出过程是一个动态的、与东道国的各种经济要素相互作用、相互关联的过程。由于过程的动态化以及各种经济要素的相互作用,对FDI技术溢出效应的实证研究便面临着许多不确定的问题(FDI变量的内生性仅仅是其中之一)。如何在以后的研究中,解决这些问题,建立一个尽可能与客观情况相符合的科学的计量FDI技术溢出效应的理论模型将是我们不断努力的方向。

参考文献

[1]陈羽.中国制造业外商直接投资技术溢出机制的重新检验[J].世界经济文汇,2006(03):28-33.

[2]王杨.FDI对经济技术贡献率的实证研究[J].东北财经大学学报,2006(03):66-69

[3]何洁.外商直接投资对中国工业部门外溢效应的进一步精确量化[J].世界经济,2000(12):29-36.

[4]赵奇伟,张诚.区域经济增长与FDI技术溢出:以京津冀都市圈为例[J].数量经济技术经济研究,2006(03):111-120.

[5]陈柳,刘志彪.本土创新能力、FDI技术外溢与经济增长[J].南开经济研究,2006(03):90-101.

[6]郑秀君.我国外商直接投资(FDI)技术溢出效应实证研究述评:1994~2005[J].数量经济技术经济研究,2006(09):58-67.

第8篇:大数据技术论文范文

Abstract: The characteristic of data mining technology course and the problems in the course teaching were analyzed. Based on them, some countermeasures were proposed to improve the effect of course teaching of data mining technology.

关键词: 数据挖掘技术;课程;教学

Key words: data mining technology;course;teaching

中图分类号:G642.0 文献标识码:A 文章编号:1006-4311(2011)25-0155-01

0 引言

数据挖掘技术是电子商务专业的一门重要专业课程,它是信息化时代对信息与数据管理的必然要求。一方面,在生产、生活和商业活动中,我们产生了海量的数据,这些数据有着不同的表现形式,如最常见的超市记录单、各种各样的公司或商业数据库,还包括音频、视频等;另一方面,我们需要从这些数据中寻求规律,对数据进行“挖掘”,使数据发挥更大的作用[1]。数据挖掘正是从大量的数据中提取出隐含的、以前不为人所知的、可信而有效的知识[2]。数据挖掘技术教学的目的就是要使学生掌握典型的数据挖掘技术,并能够运用数据挖掘技术解决实际问题,为今后运用数据挖掘技术解决实际问题打下扎实的基础。

1 数据挖掘技术课程特点

数据挖掘技术具有自己独特的课程特点:

1.1 新颖性 1995年,在加拿大召开了第一届知识发现和数据挖掘国际学术会议(International Conference on Knowledge Discovery and Data Mining),由于把数据库中的数据形象地比喻为“矿床”,“数据挖掘”一词很快流传开来[3]。数据挖掘的发展仅有10余年的时间,数据挖掘技术课程是一门新兴学科。

1.2 内容广 数据挖掘包括关联规则挖掘、分类规则挖掘、特征规则挖掘、时序规则挖掘、偏差规则挖掘、聚类规则挖掘和预测这七大任务,相应的,每种任务都有自己专门的挖掘技术[4],如关联规则挖掘的典型技术为Apriori算法及其衍生技术,分类规则挖掘的典型技术为ID3或C4.5决策树算法及其改进算法等。

1.3 有深度 数据挖掘技术作为一门计算机与数据处理相结合的新兴学科,具有一定的难度。其中的任何一个技术都可以独立成篇,如粗糙集分类算法自原理至实例推广就是一门单独的课程;作为数据处理的重要内容,聚类算法同样可以独立成籍。

1.4 交叉性 诚如前面所述,数据挖掘技术有着广泛的支撑背景,既包括信息论方法和集合论方法等归纳学习类技术,又包括神经网络方法、遗传算法方法、蚁群算法等仿生物技术,还包括成熟的统计分析技术和模糊数学技术,此外还有公式发现类技术和可视化技术等。可以这样说,数据挖掘总是在广泛吸取其他各门学科的先进技术,并加以转化、发展的。

2 数据挖掘技术教学过程存在的问题剖析

数据挖掘技术作为一门新学科、新课程,发展迅速,但是其缺点也是不言而喻的,主要包括:

2.1 课程教材不统一 目前,数据挖掘技术的教材层出不穷,这些教材尽管总体涵盖内容相近,均自成体系,但是有的细节却并不一致,如多数教材主张采用E-R图进行数据仓库(数据挖掘通常总是与数据仓库连接在一起的)设计,但也有教材持反驳态度[3];对数据仓库系统的体系结构说法也不尽一致,不同的教材给出不同的体系结构,有的甚至将数据结构等同于体系结构[5]。这主要是由于学科和课程的新颖性导致的,使得教材的编写多带有研究探索的性质,未能达成统一。

2.2 教学重点不统一 教材的不统一和学时的不统一(如有的院校是36课时,有的是48课时)导致教学重点也不统一,有的考虑到学生掌握知识的浅显性,将重点放在统计分析技术,而对神经网络技术和遗传算法技术等相对较难的技术一笔带过;有的则考虑到体系的完整性,对所有数据挖掘技术等同对待,均匀笔墨。

2.3 教学方式不统一 数据挖掘技术是一门实验技术较强的课程,但是有的教师在安排授课时,仅设置理论课时,没有实验课时;有的教师则将课程直接放在实验室来上,偏重于对学生实验技巧的掌握。当然,更多的是将实验课时与理论课时交错进行的。对实验安排的处理也不尽相同,有的分组进行,有的则由学生独立完成。

3 提高数据挖掘技术课程效果的对策建议

3.1 精心编排课程讲义 课程教材是授课的首要基础,一本好的教材不仅便于教师的备课、授课,更有利于学生的理解。当然,教材与课时、教学大纲有着密切关系,教师在选择教材时应充分考虑学生的学科基础、授课课时数、教学大纲规定的培养目标等各种因素,从大量层出不穷的教材中选择最理想的教材,适当的时候也可根据相关教材,整理一份恰当的讲义教材,组织学生使用。

3.2 合理安排教学内容 数据挖掘技术的教学内容应考到学科体系的完整性,既要为学生打牢理论基础,又要突出学生实践能力的培养。因此要以“掌握理论、强化应用、突出能力”作为数据挖掘技术课程的培养目标,通过精选具有充分代表性、源于实际问题的典型例题与案例,使它们能基本覆盖在实际中最常见的数据挖掘问题,在讲解这些从实践中抽取并经过精心改造和设计的例题和案例的过程中,逐步地建立起学生应该掌握的数据挖掘技术理论框架。

4 结束语

数据挖掘技术教学具有十分重要的现实意义,通过科学讲述数据挖掘技术,有助于培养学生对理论知识的现实应用转化能力,培养学生从现实世界出发提出问题、分析问题和解决问题的能力。数据挖掘技术的教学应以培养学生能力为主线,精心组织教学内容,有效采用多种方式,增进学生对知识的理解与掌握,显著提高教学效果与质量。

参考文献:

[1]陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.

[2]Jiawei Han,Micheline Kamber著.范明,孟小峰译.数据挖掘:概念与技术[M].北京:机械工业出版社,2007.

[3]周根贵.数据仓库与数据挖掘[M].杭州:浙江大学出版社,2004.

第9篇:大数据技术论文范文

该书共四个篇章,分别为概论、非结构化数据管理、结构化数据管理、应用实例,涉及十二个章节。概论篇涵盖一至二章,一章为数据管理背景,详细介绍数据管理的目标及功能、数据传输、存储结构化数据访问整合等内容。二章为数据管理需求与挑战,介绍高能物理、生物信息、虚拟天文台、地质地理等数据需求以及挑战。非结构化数据管理篇涵盖三至八章,介绍数据管理体系结构、数据存储、元数据管理、数据传输、存储资源管理、数据管理标准等内容。结构化数据管理篇涵盖九至十章,介绍OGSA.DAI的基本架构与使用、异构数据库整合的基本概念、系统结构、数据接口、系统软件结构等内容。应用实例篇涵盖十一至十二章,其中,十一章详细介绍高能物理网格数据管理的应用与数据服务组件、元数据服务器以及数据集管理系统与工作流程;十二章主要介绍虚拟天文台数据管理应用、天文数据特点与访问集成以及中国虚拟天文台VO.DAS等内容。网格技术作为新兴技术,其前景远大,是未来很多领域构建信息化系统的必要方法,在诸多社会领域都具有广泛应用。其管理研究应注意以下三个方面。

一、数据管理工具的研究。

任何网络技术的应用都需要完善的数据管理工具,利用数据管理工具存储、访问、传输、整合数据库中的数据,是网格技术得以发展应用的基础。目前,网格技术采取的数据管理工具主要是GlobusToolkit,其主要包括GridFTP、RFT、OGSA-DAI、DRS等,其中,GridFTP、RFT用于数据的移动功能;OGSA-DAI用于结构化和半结构化数据的访问与集成;DRS则用于数据复制。这些工具能有效利用数据资源,实现数据处理与分析,可有效保障数据传输可靠性。从目前情况来看,数据管理的访问与集成是实现网格技术的关键,也是今后进行研究的重点方向。科研学者可以参考书中前几章概念理论以及结构化数据管理篇第九章OGSA-DAI基本理论知识进行深入研究,为网格技术的广泛应用奠定基础。

二、数据管理系统的研究。

在大数据时代,海量数据的爆发使数据管理更加具有挑战性,良好的数据环境是社会发展的重要基础,网格技术不仅要满足大量数据存储,还要集成数据资源,构建数据管理系统,为数据的使用和调取提供方便。上文所述的GlobusToolkit能提供底层的数据管理技术,但对于管理员以及用户需求并未得到满足,因此为了网格内外部用户以及管理员的使用方便,建立完整的数据管理系统势在必行。此系统一方面要满足外部用户对网格数据的上传、下载、访问、传输等;另一方面要使内部用户在使用数据管理工具时更加快速便捷,不必使用繁琐的参数和操作。

三、网格数据建模的研究。

相关热门标签