公务员期刊网 精选范文 数据挖掘学习计划范文

数据挖掘学习计划精选(九篇)

数据挖掘学习计划

第1篇:数据挖掘学习计划范文

关键词 留学生 数据挖掘 关联规则 教学管理 教学计划

中图分类号:G642 文献标识码:A DOI:10.16400/ki.kjdkz.2016.05.012

Abstract This thesis mainly studies on the application of data mining technology in teaching. As the number of students abroad in China grows, we need to find a better way to make Chinese teaching management more efficiency. It combines the technology of data warehouse and data mining with educational management system to rationally utilize the mass data accumulated in the work of teaching and management. Then, in order to acquire the potential decision-support knowledge to guide the work of teaching and enable teaching management to operate with a definite object and thus further improve the quality of teaching, this paper makes research from the following areas. Firstly, it applies the technique of data mining to analyzing the effect and gain and loss in the teaching reasonably, then, it studies a variety of factors which influence the well development of students from multi-angle. Finally, with regard to the primary and secondary factors affecting students' performance, it carries out deep analysis.

Key words data mining; association rules; teaching management; teaching plan

0 引言

近几年来华留学生教育进入快速发展时期,我国已经成为国际学生流动的重要目的地国家之一。随着我校留学生规模的不断扩大,如何更有效地对来华留学生进行教学管理已成为一个重要的研究课题。而运用数据挖掘技术,从大量的留学生相关数据中挖掘出一些有价值的信息,将更有利于构建切合我校留学生实际的培养体系,更好地保证培养质量。

一方面,从招生角度上来讲。目前我校留学生的生源渠道主要分为三类:第一类是由中国国家留学基金委直接分配至我校学习的获中国政府奖学金的学生。第二类是学生自己通过网上申请,我校根据学生提供的材料进行审核录取。第三类是由国外大学或中介机构根据协议推荐来我校学习的学生。由于外国留学生来自不同的国家,之前在各自不同的教育体系中接受高中教育,文化课背景差异很大,这就导致生源的质量参差不齐。运用数据挖掘技术可以找到其中有价值的信息,如哪个国家的教育水平相对较高,来自哪个国家的学生平均申请成绩较好,使用何种母语更容易融入中国高校教学等。这为招生工作提供了参考,从招生源头提高留学生质量。

另一方面,从教学管理角度来讲。目前,我校留学生数据库中存放着历届学生的各科考试成绩,海量的数据只是单纯地记载了数据信息,对学生信息、成绩等数据的处理一般还停留在简单的数据备份和查询阶段,如传统数据库技术可以查询最高分最低分和平均分等表层信息,但却无法发现隐藏数据之间的规律或者说有指导意义的知识。大量有价值的信息被淹没在海量数据中。事实上不论是课程与课程之间,还是课程的设置之间,与学生成绩都存在着千丝万缕的联系,现阶段已有的数据并没有发挥其真正的价值,而运用数据挖掘技术则可能更好地发现隐藏在数据背后的丰富信息。通过对学生成绩数据库中所包含的各种类型数据进行相应的处理,如:抽取、转换、分析和模型化处理,从中寻找影响学生学习成绩的众多因素,以及这些因素所涉及到的相关问题。应用数据挖掘技术分析学生的成绩水平,使学生深入了解其在学生整体中的相对位置,由此来调整个人学习计划。同时,帮助教师和学校决策者洞悉教学过程中存在的问题,进而反思教学质量。还可以根据关联规则挖掘得到的一系列有价值的规则,分析检查课程体系的合理性,比如:相关课程之间的衔接与先后顺序是否恰当等,根据分析结果最大限度地优化培养计划和决策。此外,利用数据挖掘技术还可以发现数据中存在的潜在关系与规则,比如:根据学生的出勤次数和作业的上交情况预测学生成绩发展趋势等。为教师的教学环节提供建设性的意见和建议,为学生管理工作提供有价值的决策支持,从而帮助学校做出实时适时的决策调整,使得学生管理工作有的放矢。

1 数据仓库与数据挖掘

1.1 数据仓库

传统数据库在联机事务处理(OLTP)中获得了较大的成功,而传统数据库中只保留当前的管理信息,缺乏决策分析所需要的大量历史信息,故不能满足管理人员的决策分析要求。为了解决这一问题,进行相关决策分析,数据仓库应运而生。简而言之,数据仓库就是能够满足决策分析所需要的数据环境。数据仓库的概念,由“数据仓库之父”W.H.Inmom博士提出:数据仓库是一个面向主题的,集成的、与时间有关的,非易失的数据集合,为管理部门提供决策支持。它实际上是一个特殊的数据库,这种系统称为OLAP系统。本文中我们就利用留学生成绩数据库中的各种类型的数据建立相应的数据仓库,为数据挖掘提供数据平台。

1.2 数据挖掘

近年来随着信息技术的迅猛发展,人们所拥有的数据信息急剧增大。如何从大量随机的数据中挖掘出一些有价值的信息,成为一个重要的研究课题,由此带动了数据挖掘技术的产生和飞速发展。数据挖掘就是从大量的,不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又有潜在的有用信息和知识的过程,是数据库中的知识发现的核心。可以说,有数据积累的地方,就有数据挖掘技术的用武之地。

数据挖掘的分析方法分为:聚类分析,关联分析,时序模式分析和分类分析。其中聚类分析是指通过数据本身具有的相似特点把海量数据集归纳为若干个簇,即“物以类聚”。同一簇中的数据之间相距小,相似度高;不同簇中的数据之间相距较大,数据相异度高。关联分析是指利用关联规则进行数据挖掘,其主要评价标准有:支持度、置信度、兴趣度等。本文中我们将数据挖掘技术与留学生教学管理相结合,挖掘在留学生教学管理中隐藏的有价值的信息,为留学生管理提供决策指导与决策支持。

2 数据挖掘在教学领域中的应用

数据挖掘与数据仓库相结合,是完成决策分析的关键因素。教务数据主要存储在关系型数据库中,其主要任务是执行联机事务和查询处理,对其中大量的教学信息及数据的应用仅限于某些单方面的分析,而缺乏相关的综合分析,大部分数据难以再次利用,不能满足决策分析的要求,为此需要对各种类型的数据进行抽取,转换、汇总加载到留学生成绩数据仓库中,借助数据挖掘技术,为教学提供决策支持服务。

在留学生成绩数据库中,包含着多种类型的数据,它们既相互独立又相互联系。运用数据仓库的理论和方法,对这些数据进行适当的预处理,即可产生支持教学决策所需要的信息。留学生成绩仓库的应用模型如图1所示。

根据留学生成绩的特点,以学生成绩分析为主题建立星型结构的留学生成绩仓库。星型结构主要由事实表与维度表两部分构成。事实表是星型模型的核心,维度表是事实表的附属表,一个事实表一般拥有一组维度表,每个维度表都通过主键与事实表相连,维度表之间通过事实表的中介相互建立联系。该数据仓库主要涉及到的信息有:留学生基本信息,教师信息,课程信息,试卷信息,知识点信息及专业信息等。星型结构的留学生成绩数据仓库的具体构建情况如图2所示。

2.1 数据挖掘在成绩分析中的应用

定性评价在生活中有着广泛的应用,我们往往把学生成绩硬性地划分为:优、良、中、差四个等级。而这种传统的硬性区间划分法,存在着众多弊端。例如将成绩90分定为“优”,而成绩79分确定为“良”,这往往只是根据经验但却缺乏理论指导,而实际上二者之间并没有那么明显的差距。如果我们利用数据挖掘中的聚类分析法对学生成绩进行适当处理,就可以有效地对学生成绩进行等级划分,为学生学习和教师的教学提供更合理的参考标准。在合理的等级划分基础上,我们就可以利用关联规则挖掘技术对学生成绩进行多角度、多方向的深入分析,获得可以为教学工作提供决策支持的有价值的隐藏规则。比如:学生成绩的好坏跟作业上交情况有着明显的关系,该规则说明教师可以通过及时督促学生上交作业来提高学生成绩。此外,我们也可以采用决策树挖掘技术来分析影响学生某门课程成绩的主要因素。比如:针对学生出勤率,作业上交情况,国籍,学生中英文水平四个因素对学生成绩的影响程度进行决策树挖掘分析,我们发现学生出勤率、作业上交情况以及学生的中英文水平是影响学生成绩的主要因素,而国籍则是次要因素。由此说明较高的出勤率、良好的作业上交情况以及较好的中英文水平是学生取得良好成绩的重要保障。

2.2 数据挖掘在培养计划制定中的应用

培养计划对一个专业的学习至关重要,一个好的培养计划将会获得事半功倍的效果,反之,将会产生事倍功半的结果。目前我校对于本科留学生虽然部分课程有全英文授课模式,但是就培养方案、教学计划来讲,大部分课程与本专业国内学生的几乎一样。而我国大学课程大纲的起点都是按照和国内高中毕业的程度衔接制定的,特别是数理化这样衔接性很强,对基础和选修课程要求很高的课程,大部分留学生不能跟上学习进度,教学效果较差,学习困难较大。

传统的教务系统无法为留学生的培养计划的制定提供建设性的决策支持。然而,利用数据挖掘技术对留学生信息维表,课程维表和学生成绩维表进行关联规则挖掘,则可以找出不同课程之间的关联,从而为留学生单独制定一套行之有效的特殊培养方案,适当调整外国留学生的必修和选修课程,提高教学效果和质量。如对石油工程专业留学生课程成绩进行关联规则挖掘,获得等级为“优”的课程之间存在的有价值的规则,如表1所示。

相应的规则解释有:(1)规则2 表明,“高等数学(Ⅱ)I”与“高等数学(Ⅱ)II”作为“理论力学”的先行课程的信任度为88.3%,因此“高等数学(Ⅱ)I”与“高等数学(Ⅱ)II”作为“理论力学”的先行课程比较合理。(2)规则3表明,“理论力学”作为“材料力学”先行课的信任度为90.6%,所以“理论力学”作为“材料力学”的先行课程比较合理。(3)规则4表明,“理论力学”和“材料力学”作为“油田开发地质”的先行课程的信任度为86.0%,所以“理论力学”和“材料力学”作为“油田开发地质”的先行课程比较合理。综合(1)(2)(3)可知,高等数学(Ⅱ)(I ,II),理论力学,材料力学,油田开发地质这四门课程的合理开课顺序应该是:(1)高等数学(Ⅱ)(I ,II)(2)理论力学(3)材料力学(4)油田开发地质。如果对上面列出的规则进行多次推导,可以得出“石油工程”这个专业大致合理的开课顺序:(1)高等数学(Ⅱ)I、高等数学(Ⅱ)II;(2)高等数学(Ⅱ)(I ,II),理论力学,材料力学,油田开发地质;(3)测井综合解释,钻井工程、油藏工程、气藏工程,石油工程的全面设计;(4)环境保护在石油和天然气领域,强化开采理论。

由上述的关联规则及相应的结果解释,我们可以清楚地看到,相关课程成绩之间存在较高的关联程度,先行课程的学习情况将直接影响其后续课程的学习。我校即可根据上述结论为学习“石油工程专业”的本科留学生合理安排课程顺序,使其获得良好的学习效果。

2.3 数据挖掘在留学生选课方面的应用

高校愈来愈注重个性化人才培养,学校教育方式越来越人性化、多样化,学生自主选课就成为课程改革的必然产物。但由于留学生初到中国对环境的不熟悉,包括一开始的语言障碍、沟通障碍,显然对中国高校的课程设置了解有限,这样有可能致使他们选课仅仅是凭表面感觉来进行。如:学生在选择“中国概况”这门课的时候,可能仅仅是因为对中国历史文化的好奇,而并不了解应如何合理选择其他相关课程来加深对这门课程的理解。“中国概况”这门课程需要有一定中文语言基础,盲目选课将导致留学生对中国概况的学习仅限于皮毛,而不能深入了解中国历史文化。

现有的选课系统不能为学生选课提供建设性意见,但如果利用数据挖掘技术对学生汉语成绩进行关联规则挖掘,找出课程之间的关联,就可以在学生选择某门课时为其推荐相关课程,完善学生在该领域的学习体系。若获得如下规则:“中级汉语”和“中国概况”成绩等级为“优”;该规则说明汉语水平高低与中国概况的了解程度有较强的关联程度,所以我们在学生选择“中国概况”这门课程的时候,就应当向其推荐“中级汉语”,从而加强学生对该课程的学习。

2.4 数据挖掘在教学中其他方面的应用

通过对学生基本信息,学生成绩与留级或退学情况进行关联规则分析,从中分析导致学生留级或退学的因素,从而可由学生的现有情况预测其被留级或退学的可能性,及时对有退学或留级危险的学生进行适时指导,避免退学或留级情况的出现,使每个学生都能享有充实圆满的大学生活。另外,采用关联规则与决策树挖掘技术对学生基本信息,学生成绩与就业情况进行深入分析,比较国籍,专业方向,性别,专业课成绩,英语水平,参赛(参加科技比赛)情况,从中可以获得相关信息,对学校的招生工作提供参考。如:来自巴基斯坦国家的学生普遍成绩不错,就业情况较好,这样对招生部门来讲,可以提高对该国的学生的招收比例,从而提升整个高校的留学生质量。

3结论

数据挖掘技术作为一种新兴的数据分析技术,被充分应用到留学生的教学管理中。从招生管理方面来讲,通过数据挖掘技术,可以了解不同国家的生源质量,从而为学校的择优录取提供理论参考。从教学方面来讲,采用数据挖掘技术可以理性地分析在留学生教学方面的成效与得失,使留学生在学习过程中,更好地掌握理论基础和专业知识,并且可以把获得的基本的中文听、说、读、写能力运用到所学专业领域中。在教育信息化的大趋势下,数据挖掘技术在教育领域内必然有十分广阔的应用前景,而随着数据挖掘技术的发展,它也必将会在留学生教学管理中起到越来越重要的作用。

参考文献

[1] 严华,陈文菁.关联规则在学生成绩分析中的应用.福建医科大学学报(社会学版),2008.9(1):46-49.

[2] 吕爽,陈高云.数据挖掘技术在高校教学评估中的应用[J].广东广播电视大学学报,2006.3(15):24-28.

[3] J.Brachman,T.Anand. The Process of Knowledge Discovery in Databases.A Human-centered Approach,1996:37-58.

[4] 赵辉.数据挖掘技术在学生成绩分析中的研究与应用.大连:大连海事大学,2007:6-10.

[5] 张莉.数据挖掘技术在高校学生成绩分析中应用的研究.青岛:中国石油大学(华东),2009:6-10,56-57.

[6] 潘锋.教务管理系统中的数据挖掘.重庆:重庆大学,2008:36-38.

[7] 彭玉青,张红梅,何华等.数据挖掘技术及其在教学中的应用.河北科技大学学报,2001.22(4):21-24.

第2篇:数据挖掘学习计划范文

[关键词] 数据挖掘 数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

第3篇:数据挖掘学习计划范文

关键词 电子商务;数据挖掘;Web挖掘

中图分类号TP392 文献标识码A 文章编号 1674-6708(2012)71-0193-01

1 国内外研究现状

数据挖掘的要领是从大量的、不完全的、有噪声的、不清晰的、随机化的现实使用数据中,提取隐藏在其中的、人们事前不能预知的、但已经潜在的和可以使用的模式过程。互联网技术在现代信息社会的大环境下,得到了长足的应用和发展。利用互联网技术使得现代网络教育可以充分利用长期以来传统面授教育积累下来的大量优秀教育资源。网络中包含了丰富的动态超链接信息,以及页面的访问和使用信息。随着WWW的发展,Web数据挖掘在数据挖掘领域中的作用越来越重要。通过挖掘Web使用记录发现潜在的、有价值的信息,如用户访问了哪些页面,点击了哪些链接、哪些页面的点击频率最高等等,通过对Web日志进行挖掘,可以跟踪发现用户的访问习惯,以此来改进网页的设计结构,以实现智能化、个性化的用户界面。目前,数据挖掘的研究重点逐渐从发现方法的研究转向实际的系统应用,国际上有影响的典型数据挖掘系统有SAS公司的Enterprise Miner,IBM公司的Intelligent Miner,SGI公司的Set Miner等。

2 数据挖掘

数据挖掘利用了如下一些领域的思想内容: 1)建模识别、机器语言学习、人工智能的探索算法、理论学习和建模技术;2)利用统计学中的估算、假设检查和抽样。数据挖掘容纳了一些思想信息在其他领域中,这类领域中包含最先进的可视化信息检索、进化计算论、电子信号处理、信息技术理论。

随着数据仓库技术的迅速发展以及数据库管理系统的广泛应用,人们在积累了大量的数据信息后,急切地感觉到需要一种新的技术工具从大量数据信息中智能的、自动的抽取出有价值的符合用户需要的知识或信息,数据库知识的发现应运而生。数据挖掘就是对于在一些实际或察看信息的集合中查找模式的政策支持过程,人工智能、机器语言的学习、数据库理论、统计分析学神经系统网络、知识库技术系统、高性能计算应用、数据可视化教学信息查找、模式发现等学科的研究是数据挖掘涉及到的方面,数据挖掘是一个多学科多方面的交叉内容。

3 Web数据挖掘

我们把数据在网络上的挖掘应用叫做Web挖掘,在网络数据使用过程中,利用数据挖掘技术以及与万维网有关的数据信息库中的资源、网络用户的操作行为,在用户操作过程中获取有关部门感举的信息,搜寻可利用的挖掘模式和潜在的数据信息,相关内容涉及多个领域,例如:计算机网络技术、数据挖掘技术、计算机科学技术、机器语言学等,是一项现代信息科学的综合产物。对网页中的页面信息,以及页面后台数据库中的操作数据进行统计收集,从网页文件内容里以及内容中所描述的信息数据里抽取有价值的、潜在的、有用的信息的过程,叫做Web内容挖掘。

4 面向电子商务的数据挖掘

电子商务是在全球各地广泛的商业贸易交易中,在互联网开放的网络环境里,基于服务器、浏览器使用方式,买卖双方不见面地情况下进行各种贸易活动,让消费者完成网上购物、商铺之间的网络交易和在线支付以及各种商务贸易及相关的综合的一种商业运营模式,是当代社会最新型的运营模式。

电子商务是使用计算机技术、网络技术和远程通信技术,实现整个贸易过程的电子信息化和数据化;是使用互联网作为手段,使买卖双方不见面地情况下可进行各种商务贸易活动。

5结论

随着信息系统的广泛使用,如何充分利用数据,发掘有用的知识,是广大拥有大量数据的组织非常关心的问题,在此前景下,需要从数据中找出有用的知识。介于以上情况,人们需要使用一个新的技术工具将数据转换为自己所需要发知识内容,这便产生了数据挖掘技术。

数据挖掘技术在电子商务中的应用前景广阔,随着数据挖掘技术与数据库技术的不断发展,对Web挖掘中存在的各种复杂的非结构化数据会有更完善的解决方法。随着社会的不断发展,电子商务必将加快中国经济发展的步伐,电信行业的迅速发展,网络迅猛普及更为中国的网络电子商务打下了坚实的基础。数据挖掘技术在电子商务中的应用前景广阔,随着数据挖掘技术与数据库技术的不断发展,对Web挖掘中存在的各种复杂的非结构化数据会有更完善的解决方法。

随着社会的不断发展,电子商务必将加快中国经济发展的步伐,电信行业的迅速发展,网络迅猛普及更为中国的网络电子商务打下了坚实的基础。很多城市都在兴建自己的数码港我国上网人数也在快速上升,许多小区都有了互联网,宽带的进入,相信会有更多的人采取这种方式来发展自己的营销计划。因而可以说,电子商务网站在中国将会有巨大的发展前景。

参考文献

[1]朱明.数据挖掘[M].中国科学技术大学出版社,2002:75.

第4篇:数据挖掘学习计划范文

关键词:数据挖掘;高校;成绩分析

中图分类号:TP311.13

高校教育中,学生成绩能够反映学生对所学知识的理解与掌握程度,是教师用于评估教学效果的主要依据之一。随着高等教育的普及,现代高校的教学规模逐年扩大,学生数量不断增加,影响学生学习效果的因素从以个人因素为主逐渐拓展到多种因素的综合作用,高校教务管理系统中也积累了大量的学生数据资源。信息时代中,数据收集、存储与处理已经成为推动社会进步的主要动力之一,特别是在目前对教学方式和学习内容依赖性较强高校教育中,如何应用先进数据分析算法从海量数据中提取有价值的信息协助制定和完善教学决策,帮助学生获得更具针对性,更符合个人学习特点的教学信息是现代科学化教学的主要考虑问题。

数据挖掘技术是一种以海量数据为基础的有效知识挖掘和数据关系归纳技术,该技术被广泛应用与多个领域的数据分析于检索工作中,如市场营销、风险预测、产品质量分析等,但是在教育领域中,数据挖掘技术应用仍处于初级阶段。目前,高校教学管理普遍实现了信息化,学生学习过程中的多种信息都可以通过教务管理系统数据库查询得到,但是这些信息中有超过80%的部分只是停留在简单的查询、统计、打印、报表等应用阶段,其潜在特性并未被挖掘出来用于对教学进行指导和预测。为提升学生成绩的利用效果,适应现代高等教育的教学需求,可以针对现有的成绩数据库应用数据挖掘技术对其中的数据信息进行挖掘和处理。通过该技术的应用可以获得以下两方面效果:从数据库中查找影响学生学习成绩的多个因素并将其映射到具体问题中,帮助学生及时把握个人学习效果与学习方法、学习态度等之间的关系,明晰学生学习中存在的困难,对学生学业进行预警;通过数据挖掘帮助教师和学校明确教学中存在的问题,帮助教师分析确定教学难点,协助完善教学策略,以及帮助教师开展更具针对性的教学辅导工作。

1 高校学生成绩数据挖掘的内涵

对高校学生成绩进行数据挖掘主要是指对学生成绩数据库中存储的大量数据进行有效信息收集与转换,建立适当的模型对转换后数据进行模型化处理和分析,进而从中发掘感兴趣的知识关系与知识规律,并从中提取出可以辅助教学决策的关键性数据,帮助提升教学效率与管理效果。

如高校学生成绩数据库中包含了诸如学号、姓名、成绩、课程、教学安排等诸多内容,这些内容中哪些对学生成绩有影响,影响度是多少,哪些对学生成绩无影响都是经过数据挖掘分析与处理后得到的。这些分析结果可以帮助高校对现有的教学内容和教学计划等进行调整或重新规划,以便于让学生更好的利用教学资源,获得更高的教学质量。

需要说明的是,进行数据挖掘时所使用的数据信息必须是与挖掘目标相关的、使用者感兴趣的、真实有效的数据信息。

2 数据挖掘技术发展及其应用现状

数据挖掘技术融合了数据库、人工智能以及数据并行处理等诸多技术可用于对数据仓库中的数据进行隐含信息提取与挖掘,并根据算法需求进行知识学习与积累。该技术是在1989年被正式提出的。经过多年的发展与完善,目前国内外的数据挖掘技术研究与应用主要集中在以下几种算法:决策树算法、神经网络算法、粗糙集算法、遗传算法、关联规则算法以及人工智能相关算法等。

其中,粗糙集理论是由Pawlak于1982年提出的,理论以模糊性数据为基础,应用分类机制对数据样本空间中的不可分辨性关系进行分析与处理。基于粗糙集理论的粗糙集算法在进行数据挖掘时具有以下几点特性:(1)该算法对包含噪声的、分类不明确、具有模糊性的数据分类具有很好的应用效果。(2)相对而言算法更加注重挖掘隐藏在数据样本中的事实,故按照其进行的规则更具确定性与可能性。(3)该算法所构造的形式模型具有清晰的定义,可应用适当的数学分析方法对数据进行处理与分析。(4)算法支持并行运算,可应用于大数据信息挖掘。(5)算法的实现不需要附加信息的支持,可操作性强,实现过程简单。

3 数据挖掘的过程分析

在应用数据挖掘算法对高校学生成绩进行分析时需要经历三个阶段:数据准备阶段、数据挖掘阶段以及数据结果表达与解释阶段。

3.1 数据准备。该阶段用于提供可用于进行直接处理与分析的数据信息,故在该阶段中需要根据算法的数据信息使用需求对源数据进行适当的集成、筛选以及处理,以便于获得可信度较高的分析结果。该部分工作在整个成绩分析工作中占据了较大的比例。

(1)在高校学生成绩分析中,用于数据挖掘的信息可能涉及多个数据库或多个学科,这就需要将这些数据进行收集与整理,消除数据源与源之间的语义模糊性,处理其中存在的信息缺陷,整理为统一规范的数据格式。(2)由源数据汇集而成的数据分析空间中可能存在大量的无关数据,这些数据不为数据挖掘工作的开展提供支持,反而会增加工作量,故数据准备的第二个内容为数据的选择,选择后的数据应该是对分析有用的、可有效缩小处理范围的相关数据内容。(3)筛选后的数据中可能存在噪声问题、不完整问题或数据不一致问题等,此时还需要进行数据预处理操作,进一步完善和充实数据分析库内数据结构,确保分析结果的可靠性与可信度。(4)为便于算法分析,还需要将数据库中属性字段的信息转换为可识别、可处理的编码数据。

3.2 数据挖掘。该工作是整个学生成绩分析的执行部分。需要应用多种数据挖掘算法对数据库中的数据信息进行处理和分析,发掘可用的内在联系或知识图谱。

工作首先要确定挖掘目标或任务,然后再根据挖掘目标选用适当的挖掘算法构建数据模型和需要分析的具体参数,并利用该模型对数据库中相关参数进行挖掘与分析,查找出符合要求的关联规则、数据回归结构等,给出可用于评估与分析的模式表达式。

实际应用中,在算法选择完毕后可以直接选用数据挖掘工作自动化完成数据挖掘工作。

3.3 结果评估与解释。数据挖掘工作完毕后,用户需要对所得到的模式分析结果或模式表达式进行评估与判断,查看其是否具有有效性,能否满足成绩分析需求,若用户对挖掘结果不满意可以更改算法或重新执行数据挖掘过程。

4 粗糙集算法在高校学生成绩分析中的实现过程

以高校学生为例,学习兴趣、课堂前准备、课堂学习等因素作为衡量因素来判断与整理这些因素对学生成绩的影响。

(1)对学生信息进行采集。具体包括以下三部分内容:一是学生的基本信息,二是数据挖掘涉及的调查信息如学习兴趣、课前准备、课堂学习效率、课后复习等,三是学生的具体考试成绩,其中包括平时成绩、考试成绩以及综合测评成绩等。(2)对上述数据进行预处理和数据转换。既要对所收集的样本进行数据值补充完善,又要将其转化为可用于分析的离散化属性参数。(3)对数据进行分类挖掘。针对粗糙集算法,需要执行如下几步算法操作:数据属性约简、成绩值约减。(4)可以形成可直接用于信息分类与提取的分类规则,确定各属性因素之间的关联度。具体本例而言分类规则为:平时成绩属性AND课堂学习效果AND知识掌握程度AND课后复习。该分类规则下可以获得每一属性因素对应的学生成绩之间的关系。

5 总结

数据挖掘技术是一类可在海量数据信息库中查找与发现知识内在联系的一种数据分析方法,其在高校学生成绩分析中的应用仍处于初级阶段,应用粗糙集算法对学生成绩进行挖掘可以获得较为明确的分析结果,这对于指导开展教学改革,帮助学生制定更高效的学习计划,改进与完善现有教学中存在的问题具有非常实际的意义。为获得更好的数据挖掘结果,在后续的工作中可以根据粗糙集算法特性对其进行改进或与其他算法进行结合。

参考文献:

[1]刘宇阳.数据挖掘技术在高校学生成绩分析中的应用[J].交通科技与经济,2008,10(3).

第5篇:数据挖掘学习计划范文

关键词:远程教育;数据挖掘;个性化学习系统

中图分类号:G434 文献标识码:A 文章编号:1007-9599 (2012) 12-0000-02

目前网络远程教育的普及使得优质教学资源突破了时间和空间的局限性,使得终身学习成为可能。而当前网络教育的开展,也出现了种种弊端:技术方面,多以教学资料呈现形式的转换为主,只是书本搬家而缺少一定的交互模式;而其不同学习进度、不同兴趣、个性化的学习需要基本不能得到一定的满足,无法因材施教。因此,网络教育需要强大的技术力量帮助学生迅速高效地搜寻到满足其个性要求的教学资源,并对其学习整个进程进行正确指引与科学评价。本文试图设计一种系统模型,利用数据挖掘技术来改进当前的网络教育模式,对每一个学生都提供个性化的学习进程,达到一下学习要求:

学习系统可依照与当前登录学生相似的学生的学习步骤自动的对其后续目标知识进行预测和推荐

针对学生的学习过程进行过程性考核,并依据成绩动态改变学生的学习与练习进程,对此学生的掌握不好的地方进行再次督学

本文依据以上目标,构建了基于Web的个性化学习系统模块(Web-based Personalized Learning Core System 下文简称WPLCS)来满足远程教育中学习者个性化学习的迫切需要。

在该系统核心算法的选型上锁定了数据挖掘技术来构建WPLCS。下面图1便是基于网络的个性化学习系统核心模块(Web-based Personalized Learning Core System)数据挖掘引擎的基本架构:

数据挖掘技术是从多样的、无序的数据中,抽取提炼出有用的信息的过程。因此数据挖掘技术被广泛商用。但在教育领域中应用此技术,就不能简单的套用一些商用模式,因为电子商务中的服务器端在进行数据挖掘时只需知道大量的用户在访问了A页面后又去访问了B或者C页面,证明他们对B、C页面有潜在的兴趣,从而向访问过A页面的用户的客户端动态的推荐B、C页面,以此来达到个性化引导客户访问的目的。

而在网络教育中,若系统锁定学生感兴趣的知识和关注知识页面的时长等信息,不但可以依据此信息灵活地改变练习和考核进程,还可重构网站结构减少网络响应时长。与此同时,在设计网络课程的页面时,力图使嵌有某些特定知识页面和网络课程中的知识点形成映射关系,也就使得系统能够清楚标记出学生对于知识的掌握情况。从而在数据挖掘过程中能够做到以知识点为导向。

WPLCS利用数据处理模块将系统的用户访问日志文件和数据库构建出一个学生基本特征数据仓库,再在此数据仓库的基础上,利用多种数据挖掘算法进行挖掘从而形成学生个性化数据挖掘库。

数据预处理

本阶段首要找准挖掘数据源,本文遴选出系统服务器中的日志文件和系统数据库数据作为数据源。抽取数据源数据形成挖掘库,即学生特征数据仓库。

服务器访问日志的预处理

学生从登录到系统服务器开始,便在此服务器上留下相应的日志文件。它包括登录学生的IP、URL、Cookie等信息。首先抽取网络日志中的信息,再清洗数据缺值等脏数据,最后识别学生的IP及登录Cookie值,合并同一个学生的访问路径请求,将时间跨度大的URL进行相应的区分和记录。

构建数据挖掘库

匹配系统数据库预处理后的数据和服务器访问日志预处理得到的数据,构建出数据挖掘库,即学生特征数据仓库(学习者标识、个人信息、学业信息、偏好信息等)。

数据挖掘

综合考虑不同数据挖掘算法有不同的特点和弊端以及前文所述的个性化学习的要求,在选择数据挖掘算法时,本文选取了序列模式、聚类、关联规则发现等不同算法,并将其有机结合。为了精确匹配当前学生特征模式与规则前项,力争较高的推荐准确率,采取了基于关联规则的挖掘方式进行学习页面推荐;为了得到更高的推荐覆盖率,采用基于聚类分析进行推荐。综合了两种数据挖掘算法的优势,从而改善了推荐的测度。本文将学生特征数据仓库中的数据传送到数据挖掘核心模块来进行数据挖掘,得到的数据再存放到学生个性化数据仓库来完成整个数据挖掘的全过程。

关联规则发现

关联规则发现,即寻找数据项之间的联系规则。在服务器访问日志数据的预处理过程中,将学生访问的页面路径组成了学生访问session集,我们可以利用关联规则挖掘得到学生访问请求间的关联规则。其中比较简单的一种规则为:访问了A页面的学习者中,有60%又访问过B页面。得到这种初始化关联规则后,再通过用户访问页面与知识点的一一映射关系,我们就可以推理出更加实用的规则模式,即确定在学习过A知识点的学习者中有60%的人对B知识点表现出一定兴趣。得到这种有用规则后我们即可对所有访问A页面的学习者的页面上加上B页面的推荐链接,方便学习者导航。

聚类

聚类,即将数据划分到不同的类中,类间的差别尽可能的大,类内的差别尽可能的小,聚类分析实现并不知晓将要划分成几个类,而是利用系统服务器自动化、智能化的计算而得。产生出不同的类后,某学生的特征模式一旦符合某个类后,系统推荐引擎会自动将此学生未来可能访问的页面链接推荐给学生。由此就可以智能化地将处在不同学习阶段的学生匹配到此类本该获得的学习和考核进程。

序列模式

与关联规则发现相仿,序列模式是将数据间的关联性与时间相联系。在实际挖掘过程中,我们可以得到下列序列模式:在学习过B和C两个知识点的学生中有81%的学生在若干天后进行A知识的学习,并且在此过程中大量地频繁访问A2、A5、A7、B2等知识,而且对这些知识点的掌握情况开始下滑。因此我们可以及时干预在此时间段所有学习过C、B知识点的学生,将一定量的练习和测试推荐给他们,帮其熟练掌握上述知识,从而达到因时施教的目的。

作为一种新的教学手段——基于Web的网络教育,当前正方兴未艾。本文旨在通过计算机数据挖掘技术构建出一个智能化的基于网络的个性化学系统,以此来辅助完成对不同学生的个性化教学。从而充分发挥网络教育的优势。

参考文献:

[1]W.H.Inmon 《Building the Data Warehouse》 John Wiley & Sons,Inc. 1996

第6篇:数据挖掘学习计划范文

[关键词] web 数据挖掘 电子商务

一、引言

随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,使海量数据不断产生。随之而来的问题是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息。如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。

近年来,随着Internet/Web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,由于Internet/WWW在全球互连互通,可以从中取得的数据量难以计算,而且Internet/WWW的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,如何在WWW这个全球最大的数据集合中发现有用信息无疑将成为数据挖掘研究的热点。

二、Web挖掘概述

数据挖掘就是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。Web挖掘是将数据挖掘的思想和方法应用到Web页面内容、页面之间的结构、用户访问信息等各种Web数据中,从中抽取隐含的、以前未知的、具有潜在应用价值的信息。Web挖掘对在浩瀚的网络中发现有价值的知识、改进网站设计、提供更好的网上服务有重要的作用。

Web挖掘是针对包括Web页面内容,页面之间的结构,用户访问信息等在内的各种Web数据源。在一定基础上应用数据挖掘的方法以发现有用的隐含的知识的过程。Web挖掘与传统的数据挖掘相比有其自身的特点。Web本身是半结构化或无结构的数据,缺乏机器可理解的语义,Web挖掘的对象是大量,异质,分布的Web文档,对Web服务器上的日志、用户信息等数据所开展的挖掘工作也属于Web数据挖掘的范畴。Web信息的多样性决定了挖掘任务的多样性。按照Web处理对象的不同,一般将Web挖掘分为三类: Web内容挖掘,Web结构挖掘和Web使用记录挖掘。

1.Web内容挖掘

Web内容挖掘是指对Web页面及后台交易数据库进行挖掘,从Web文档内容及其描述中的内容信息中获取有价值的知识的过程。它是数据挖掘技术在网络信息处理上的应用,主要方法有IR(information retrieve)和数据库方法。它又可分为Web文本挖掘和Web多媒体挖掘两种数据挖掘方式。Web内容挖掘多为这种方式的挖掘,它和平常的平面文本挖掘的功能及方法比较类似。Web文档多为HTML、XML等自然语言,因此可利用Web文档中的标记,利用这些信息可以提高Web文本挖掘的性能。在对Web文档进行分类分析中,可以基于一组预先分好的文档为每一类文档赋予一个类标签。由于超链接里包括了有关页面内容的高质量信息,因此可以利用这些信息对文档进行分类,并且这种分类比基于关键字的分类更加准确。随着网络带宽的扩大,多媒体信息在网上迅速增加,这对Web内容挖掘提出了新的要求。Web多媒体挖掘的挖掘主要是指基于音频的挖掘、基于图片的静态图像的挖掘和基于视频的动态图像的挖掘。

2.Web结构挖掘

Web结构挖掘是对Web的组织结构和链接关系进行挖掘,从人为的链接关系中获得有价值的知识。由于文档之间互连,WWW能提供除文档内容以外的有用信息。Web结构挖掘通过分析一个网页链接和被链接的网页数量和对象,建立Web自身的链接结构模式。这种模式可以用于网页分类,并由此获得有关不同页面间的相似度和关联度的信息。Web页面除了包含页面以外还包括一个页面指向另一个页面的超链接。超链接里包含大量人类潜在的语义,它可用于分析出权威性语义。当一个Web页面的作者建立指向另一个页面的指针时,可以看作是作者对另一个页面的注解,即对另一个页面的认可。把一个页面的来自不同作者的注解收集起来,可以用来反应页面的重要性。这样,Web结构挖掘有助于用户找到相关主题的权威站点。

3.Web使用记录挖掘

Web使用记录挖掘是对用户访问Web时在服务器上留下的访问记录进行挖掘。它通过挖掘Web日志文件及其相关数据来发现用户访问Web页面的模式,主要技术有Cookies和远程Agent技术。Web使用记录挖掘的对象不是网上的原始数据而是从用户和网络交互过程中抽取出来的二手数据。服务器上的日志文件包括所请求的URL、发送请求的IP和时间,这些日志提供了有关Web动态的丰富信息。因此提取用户留下的这些日志文件进行Web挖掘,提取有关用户的知识,对用户的访问行为、频度、内容进行分析,得到关于用户的行为和方式的模式,从而改进站点的结构,或为用户提供个性化服务。对用户使用记录进行挖掘的方法主要有两种。一种方法是通过对日志文件进行分析,包含两种方式,一是访问前先进行预处理,即将日志数据映射为关系表采用相应的数据挖掘技术,如关联规则或聚类规则来访问日志文件。二是对日志文件直接进行访问以获取用户的导航信息。二是通过对用户的点击事件的收集和分析来发现用户的导航行为。

三、Web挖掘的主要技术

Web数据挖掘中常用的技术有路径分析技术、关联规则、序列模式、分类聚类技术等。

1.关联规则挖掘技术

该技术主要用于从学习者访问序列数据库的序列项中挖掘出相关的规则。在Web数据挖掘中,关联规则挖掘就是要挖掘出学习者在一个访问期间(Session)从服务器问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引(Reference) 关系。在网络日志数据的预处理过程中,将学习者访问的页面路径构成了学习者会话事务集,可以通过关联规则挖掘得到大量的学习者访问请求的URL之间的联系,并将挖掘出的规则按照不同的支持度和置信度进行取舍,从而保留一些有用的规则进行应用。

2.序列模式挖掘技术

序列模式数据挖掘就是要挖掘出交易集之间的有时间序列的模式。在网站服务器日志里,学习者的访问是以一段时间为单位记载的。经过数据净化和事件交易确认以后是一个间断的时间序列,这些序列反映了学习者一定的行为。在网络日志文件的预处理过程中,抽取了学习者对于每个URL浏览所耗用的时间,这种元数据从侧面描绘出每个学习者对于页面上承载的知识点的理解程度和思考难度,引用时间长的证明此页面承载的知识点比较难于理解。通过分析可以得出学习者对特定知识点的掌握程度。但由于网路线路的原因,致使学习者在提出URL请求后,很长时间才将相应的网页打开,所以这种由日志中记录的浏览时间所分析出的各种模式规则并不一定真实反映学习者的学习过程,所以我们利用序列模式挖掘方式预测出学习者后续要访问的页面集,然后将此页面集中的URL预先下载到本地计算机的缓存中去,从而降低了页面的打开时间,也就使得浏览时间的准确性和有效性得到了很大的提高。这种Web页面的预取技术是利用序列模式挖掘方法来实现的。

3.聚类分类技术

聚类技术可以将具有相同特征的数据项聚成一类。聚类分析模式就是将数据划分到不同的组或者簇中,组之间的差别尽可能的大,组内的差别尽可能的小,与一般认为通过学习者的固定信息进行的分类分析不同,聚类前并不知道将要划分成几个组和什么样的组,完全依靠服务器智能化的计算得出,因此聚类分析也可以称为无监督分类。通过聚类得出不同的类后,一旦某学习者的特征模式符合某个类后,推荐引擎自动将此学习者尚未访问的页面或者尚未进行的测试与练习推荐给学习者。这样就可以智能化地将处在不同学习阶段的学习者得到此类应该获得的学习和测试进程。

4.路径分析技术

用路径分析技术进行Web使用模式的数据挖掘时,最常用的是图。因为一个图代表了定义在网站上的页面之间的联系。图最直接的来源是网站结构图,网站上的页面定义成节点,页面之间的超链接定义成图中的边。其他的各式各样的图也都是建立在页面和页面之间联系或者是一定数量的学习者浏览页面顺序基础之上的。那么,基于Web使用模式的数据挖掘,就是从图中确定最频繁的路径访问模式或大的参引访问序列。

四、Web挖掘在电子商务中的应用

1.Web挖掘数据的来源

在Web挖掘中,一个关键性步骤是为Web挖掘提供合适的数据即挖掘对象。同样,把Web挖掘技术应用到电子商务中,也需要选择合适的目标数据集合。电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件和登记表。这些数据具体分为以下几种:

(1)服务器日志数据

Web服务器日志记录了用户访问电子商务站点的浏览行为,是使用Web挖掘的主要数据来源。日志文件格式中最常用的公用日志格式(Common Log Format)提供了关于访问者物理访问站点的信息。

(2)Cookie日志数据

Cookie日志是服务器为了自动跟踪电子商务网站访问者而为单个浏览器生成的标志。用于自动标记和跟踪站点的访问者,并由客户端持有。Cookie通常存储的是类似于购物手推车状态信息或者客户最近连接电子商务网站所访问的网页等信息。在电子商务网站,存储在Cookie日志的数据主要是交易信息。

(3)客户信息

在电子商务的交易过程中,须经过银行的信用授权才能进行交易。在这一过程中,大量有关客户的个人资料等信息会传到电子商务网站。把这些数据经过清洗,然后存入网站的数据仓库中作为长期趋势的分析数据,供数据挖掘之用。所需的数据类型取决于在线购物时的商业类型和所使用的数据本身。

(4)其他数据源

电子商务是基于Internet进行各种交易的,在其上面有大量的异质数据源,里面隐含了大量的有价值的信息有待挖掘。可以利用智能Agent来进行抽取而获得有用的信息,有助于电子商务活动的开展。

2.电子商务中Web挖掘的过程

在电子商务环境下,主要的挖掘对象是服务器日志。其主要步骤如下。

(1)数据预处理

由于本地缓存、服务器、防火墙的存在,使得Web日志中的数据并不精确,直接进行挖掘有可能出现错误结果。因此首先对日志数据进行预处理,它包括数据净化、用户会话和事务识别等。数据清洗主要是删除与挖掘算法无关的记录、判断是否有重要的访问没有被记录;用户会话是一个用户在一定时间内请求的所有Web页面;事务识别主要是将页面访问序列划分为代表Web事务或用户会话的逻辑单元。

(2)模式发现

模式发现阶段是采用统计法、机器学习法等成熟技术,从Web使用记录中挖掘知识。与电子商务有关的模式发现的方法有统计分析、聚类规则和依赖性建模。统计分析是抽取有关电子商务网站访问者的最常用的方法。可以利用特征选择方法来分析网页,就能分析出网页的某个特征的点击流次数,根据获得的结果调整网页的内容和链接结构。聚类规则是从一组数据项中聚集出相似特征的一个聚类。在电子商务中,大致可分为两类聚类:用户聚类和网页聚类。利用聚类的规则可以分析顾客的信息便以开展电子商务活动。依赖性建模的目标是开发出一种能表达Web域中各变量显著依赖性的模型。这种模型是根据已存在的Web数据,然后抽象出这些数据内在关系的模型。模型的建立对增加网上产品的销量和改进用户导航的便利性都有很大的作用。除此以外,还有关联规则、分类、序列模式等其他的模式发现方法在电子商务的Web挖掘中有较大应用。

(3)模式分析

模式分析主要是采用合适的技术和工具,进行模式的分析来辅助分析人员的理解。最常见的模式分析方法是采用SQL查询语句进行分析。另一种分析方法是先将数据导入到多维数据立方体中,再利用OLAP工具进行分析并提供可视化的结果输出。设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力是电子商务网站生存和发展的关键因素。

第7篇:数据挖掘学习计划范文

关键词:Web挖掘电子政务关联规则政府门户网站

一、引言

目前,Web挖掘已成为数据挖掘研究中的一个重要方面,而且已成功应用到银行、电信、保险、网络零售、电子商务等很多领域。随着网络社会的到来,政府的管理和服务模式不断变化,电子政务作为一种新型的政府工作形式近几年取得了蓬勃的发展,其中加强政务信息资源的开发与利用成为当前的迫切任务[1]。

本文讨论了Web挖掘在电子政务中的主要应用领域,并就关联规则Web挖掘算法进行了优化分析,对其在电子政务门户网站规划与建设的实践中进行了应用性的实证研究。

二、Web挖掘的基本知识

⒈Web挖掘的定义

从形式上看,Web挖掘就是从与WWW相关的资源和行为中抽取主体感兴趣的、潜在的有用模式和隐含的信息或知识。Web挖掘覆盖了多个研究领域,包括Web技术、数据库技术、数据挖掘、计算机语言学、信息获取技术、统计学、人工智能等[2]。

从更为一般的角度出发,对Web挖掘可以作如下形式化的定义[3]:

Web挖掘是指从大量Web文档的集合C中发现隐含的模式p。如果将C看作输入,将p看作输出,那么Web挖掘的过程就是从输入到输出的一个映射f:Cp。

⒉Web挖掘的主要类型

Web挖掘的研究主要有3种,即Web结构挖掘、Web使用挖掘和Web内容挖掘[4]。

⑴Web结构挖掘

Web结构挖掘主要是指挖掘Web上的链接结构,它有广泛的应用价值。例如,通过Web页面间的链接信息可以识别出权威页面、安全隐患(非法链接)等。

⑵Web使用挖掘

Web使用挖掘主要是指对Web上的Log日志记录的挖掘。Web上的Log日志记录了包括URL请求、IP地址以及时间等的访问信息。分析和发现Log日志中蕴藏的规律,可以帮助我们识别潜在的客户、跟踪Web服务的质量以及侦探非法访问的隐患等。

⑶Web内容挖掘

Web内容挖掘主要是对包含文本、声音、图片等的文档信息,以及Web链接结构信息的挖掘。其中,基于关键词的Web内容分析技术已经在文本挖掘(Text Mining)和Web搜索引擎(Search Engine)等相关领域得到广泛的研究和应用。

⒊Web挖掘的复杂性分析

面向Web的数据挖掘要比面向数据库和数据仓库的数据挖掘要复杂得多。这主要是因为Web上的数据结构是非常复杂的,Web挖掘必须面对下面一些关键问题[5-7]。

⑴海量、异构的数据源环境

Web网站上的各种数据信息构成了一个非常庞大、非常复杂的异构数据源。如果要利用这种异构数据源进行数据挖掘,首先,必须要解决站点之间异构数据的集成问题;其次,还要解决Web上的数据查询问题,因为如果所需的数据不能很有效地得到,对这些数据进行分析、集成、处理就无从谈起。

⑵半结构化的数据结构

Web上的数据更多是半结构化的。面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提,为此,寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外,还需要一种半结构化模型抽取技术。每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。

⑶动态变化的应用环境

研究表明,一个Web站点的数据可能只有不超过1%的信息对特定挖掘主题是相关的,这些变数也是Web挖掘必须面对的问题。这些问题主要表现为:首先,Web的信息是频繁变化的,而且这种高变化也体现在页面的动态链接和随机存取上,像新闻、股票等信息是实时更新的;其次,Web上的用户是难以预测的,用户具有不同的知识背景、兴趣以及访问目的;最后,Web上的数据环境是高噪音的。

⑷高度综合的网络信息内容

Web挖掘的研究对象是网络信息。由于网络信息涉及各个学科门类,因而内容具有较大的综合性,要在丰富的内容中挖掘有规律的知识,其难度相当大。因此,要注意各种专业领域知识的应用,同时综合利用各种挖掘方法,不断提高知识发现的有效性。

⑸模糊、多样的用户目标

基于网络信息Web挖掘的用户类型较多,用户目的各自不同。许多用户往往对所要挖掘的主题只有模糊的、粗浅的认识,不能提出明确的目标。这就需要基于Web挖掘的知识发现系统具有一定的智能性和学习机制,不断地发现和跟踪用户的兴趣,并且清晰地表示知识发现的结果,从而提高知识发现的可用性。

⒋Web挖掘的处理流程

从典型的Web挖掘处理流程(如图1所示)可以看出,该流程主要包括如下几个步骤[8]:

⑴查找资源

查找资源的任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。

⑵信息选择和预处理

该步骤的任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式,甚至是关系表。

⑶模式发现

模式发现自动进行,可以在同一个站点内部或在多个站点之间进行。

⑷知识生成

该步骤验证、解释上一步骤产生的模式,从而产生有一定规则的相关知识。这个过程可以是机器自动完成,也可以是与分析人员通过交互操作来完成。

另外,Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得(Information Retrieval,IR)和信息抽取(Information Extraction,IE)相当重要。信息获得的目的在于找到相关Web文档,它只是把文档中的数据看成未经排序的词组的集合;而信息抽取的目的在于从文档中找到需要的数据项目,它对文档的结构和表达的含义感兴趣,它的一个重要任务就是对数据进行组织整理并适当建立索引。

⒌Web挖掘的应用分析

目前,Web挖掘已经在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面,Web文档分类,Web Log挖掘,智能查询,建立MetaWeb数据仓库等;并且已经成功地应用到了银行、电信、网络零售、电子商务、客户关系管理等多个领域。

三、Web挖掘对于电子政务的必要性

电子政务作为一种新型的政府工作形式近几年取得了蓬勃的发展。但是,如何对大量的电子政务信息进行有效的组织利用,从中抽取用户感兴趣的模式,从而改进政府门户网站的结构或为用户提供个性化的服务,已经成为当前电子政务发展必须要解决的问题。这个问题的解决离不开一项重要的技术――Web挖掘技术。

Web挖掘在电子政务中主要用来为政府重大政策出台提供决策支持,例如,通过对网络各种经济资源的挖掘,确定未来经济的走势,从而制定出相应的宏观经济调控政策。再如,在经费拨款申请等类似问题上,容易出现欺诈行为,因此在各级上报的申请单据中,很难确定存在欺诈的单位以及具有欺诈倾向的因素;而利用Web挖掘可以收集相关申报数据,通过数据挖掘分离出导致欺诈和滥用行为的因素,制定规则来标识出最有可能具有欺骗性的记录和经费申请单据,这样有助于审核人员核查欺骗性,而且最大空间地调整经费申请。

另外,政府各部门自动化的实现产生了大量的数据,Web挖掘通过对这些数据进行收集和分析,可获得影响政府部门工作的关键因素,从而为政府部门的决策提供依据,帮助政府部门提高政府信息化的水平,促进整个社会的信息化。

总之,电子政务WEB挖掘是把数据挖掘技术折射到政府部门,使政府部门的内部信息与外部信息进行有效的整合,从而政府部门可以更好、更有效地服务公众。

四、电子政务中Web挖掘应用的主要领域

Web挖掘技术应用在电子政务后,可以为政府重大政策出台提供决策支持,并有助于政府门户网站的优化设计,还可根据挖掘出的用户访问模式对网站的搜索引擎、网站导航和网站地图进行重新规划。具体来讲,其主要应用领域包括以下几个方面[9]:

⒈数据分析和决策支持

电子政务数据挖掘对政务系统中的海量数据进行开采、挖掘和分析,从中识别和抽取隐含的信息,并利用这些信息为政府部门重大政策、法规的制定提供决策依据。如上文所说,通过对网络各种经济资源的挖掘,可以预测未来经济发展的走势,进而制定出相应的宏观经济调控政策;又如通过对政府网站、社会公众网站数据进行收集,然后用数据挖掘方法对其进行挖掘,从中得到对提高政府工作效率有益的知识,进而为政府部门工作人员提供科学、实用的辅助决策支持。

⒉政府门户网站的设计

Web挖掘技术对政府网站内容的设计,主要通过对文本内容的挖掘,来有效地组织网站信息,如采用自动归类技术实现网站信息的层次性组织;利用聚类技术对网站文本的内容进行自动划分类别,以便于文本内容的分类浏览与检索;同时,还可以结合对用户访问记录的挖掘,把握用户的兴趣,从而有助于开展网站信息服务及个人信息的定制,以吸引更多的用户。

⒊信息检索功能的优化

WEB数据挖掘是目前网络信息检索发展的一个关键,如通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索。同时,WEB数据挖掘通过对用户所使用的提问式历史记录的分析,可以有效地进行提问扩展,提高用户的检索效果。另外,运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,可以改善检索效果。

另外,电子政务WEB数据挖掘还能增强政府应对突发事件的快速响应能力,可以提高政府工作的创新能力和人员素质。例如,在灾害预警系统中使用WEB挖掘的关联分析和回归预测技术对历史数据进行分析,可以预测与灾害相关的因素、灾害发生发展的趋势,并制定急救措施及财政支出。

五、电子政务中Web挖掘应用的实例分析

Web挖掘的方法很多,如分类、聚类、决策树、神经网络、统计、粗糙集、关联规则、孤立点检测和分析、机器学习等。其中,挖掘关联规则在分析两个或者多个相关量之间关联性方面应用广泛,是Web挖掘中的常用手段。

为了研究Web挖掘在电子政务中的应用,本文利用布尔的运算方式改进了传统的分层关联规则算法――Multiple-level算法扫描多次数据库及内存空间的问题,优化选取了一种多层次、适用于电子政务环境下的关联规则挖掘算法――E-GMB,并选择了笔者正在研究的“省级政府门户网站规划与建设”项目作为对象,对目前已经存在的一些省级门户网站的结构数据、用法数据和用户数据进行了Web数据挖掘分析。

⒈算法描述

下面的算法1给出了E-GMB算法的简要描述。

算法1:E-GMB算法―电子政务环境下多层次的关联规则挖掘算法(部分)

Input: a database and a user defined minimum support

Output: E-GMB which contains all frequent itemsets

(1)for i form 0 to | ITk-1 |

(2)C[i]:=?k:=1

(3)E-GMB:=?(4)read database initial IT[i,j], TT[i,j], TTC[i,j]

(5)while ITk and TTCk1?(6)count C[i]

(7)if C[i]

(8)eliminate row IT[i], TT[i] and C[i]

(9)generate of frequent itemsets

(10)x:=i+1

(11)for i from 0 to | ITk-1 |

(12)for j from 1 to | ITk |

(13)ITk[i,j]:=ITk[i,j] OR ITk[x,j]

(14)TTk [i,j]:=TTk [i,j] AND TTk [x,j]

(15)count C[i]

(16)if C[i]

(17)eliminate row IT[i], TT[i] and C[i]

(18)k:=k+1

(19)generate of frequent itemaets

⒉实验数据

实验环境采用VISUAL C++设计,考虑通用性,硬件平台使用Celeron 850MHZ、内存512MB,仿真数据库采用IBM Almaden Research Center的synthetic databases,共产生4个仿真数据库T20I4D100K、T20I8D100K、T40I2D100K、T20I4D100K。

在实验中设定参数值为N=1000,L=2000,I=4、8,T=20、40,D=100K。

(其中:D代表原始数据交易纪录;T代表平均交易纪录;I代表平均可能频繁项目集合之项目个数;L代表可能频繁项目集合之项目个数;N代表数据库所包含的项目个数。)

实验结果数据如图2所示。从图2结果可以看出,Multiple-level算法在交易数据库变大时,其所花费的时间也会跟着快速增长,但E-GMB算法并不会随着交易数据库的成长而有太大的影响。

因此,从实验数据中可以得知E-GMB算法的效能比Multiple-level算法还要快。

⒊应用效果

笔者应用该算法对我国中部某省会城市的门户网站的Web行为数据进行了综合挖掘,并结合政府门户网站建设的实际发展需要,对其进行了重新优化设计。

该门户网站优化后,其应用效果得到了很大的提高,用户反映良好。在2006年一家权威部门对我国36家直辖市、省会城市、计划单列市的政府门户网站评比中,该城市的政府门户网站排名与2005年相比,一下子上升了多个名次。

六、结束语

本文介绍了电子政务中应用Web关联规则挖掘的必要性,优化了一种多层关联规则挖掘算法E-GMB。通过实验论证了该算法的有效性,并将该算法具体应用在电子政务门户网站规划建设中。可以认为,Web挖掘在电子政务中有着重要的作用。

笔者认为,今后一段时期,Web挖掘在电子政务中,尤其是在对政府门户网站优化设计方面,以下几个方面非常值得进一步分析和研究。

⑴通过对网络结构的挖掘,规范和重构政府门户网站的规划与建设;

⑵通过对网络用法的挖掘,分析政府网站用户的网络行为和访问习惯,以便提供最佳的个性化推荐优化方案;

⑶通过对网页内容的挖掘,实现政府网站网页的聚类、分类,实现网络信息的分类浏览和快速检索,并提高用户的信息检索速度。

参考文献:

[1]张蓉.Web挖掘技术研究[J].计算机工程,2006,32(15)

[2]王大玲.支持个性化推荐的Web挖掘关键技术的研究[D].沈阳:东北大学信息科学与工程学院,2003

[3]韩家炜,孟小峰,王静,等.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414

[4]徐甜,田有贵.数据挖掘在Web中的应用研究[J].福建电脑,2006(9):162-163

[5]陈恩红,徐涌,王煦法.WEB使用挖掘:从WEB数据中发现用户模式[J].计算机科学,2001,28(5):85-88

[6]孟小峰.Web数据管理研究综述[J].计算机研究与发展,2001,38(4):385-395

[7]王中海.基于Web的数据挖掘――网络挖掘[J].图书馆学刊,2006,28(3):35-36

[8]刘云,刘东苏.基于Web的数据仓库与数据挖掘研究[J].情报理论与实践,2001,24(4):289-290

[9]黄晓斌.网络信息挖掘[M].北京:电子工业出版社,2005

作者简介:

第8篇:数据挖掘学习计划范文

(天津职业大学经济与管理学院,中国 天津 300410)

【摘 要】本文以现代人才管理和现有的数据库挖掘理论为指导,研究基于数据挖掘和决策树技术,结合某高职院校毕业生管理数据,提出C4.5的决策树算法在毕业生管理系统中的应用。本文对实验过程中产生的毕业生特征分析决策树模型和分类规则做了详细的介绍,发现决策属性在毕业生就业特征类别的决定性作用,以此为高校领导层提供决策支持,提高业务水平、完善的培训机制,对高校课程的开设和毕业生管理指导工作具有一定的意义。

关键词 毕业生信息管理;分类挖掘;决策树

0 概述

数据挖掘的英文表示为Data Mining,其作用就是能够从很多不完整和接近模糊的数据中,提取有价值的数据和信息,这些信息其实就是蕴含其中但是又很难预先发现的有效信息。一般情况下,原始数据就是知识的源头,其分为结构化的,半结构化的,异构型的[1]。知识的获取可以通过多种形式来实现,知识获取之后的应用比较广泛,比如信息管理、信息查询等,甚至可以用来维护自身数据。数据挖掘涉及的学科众多,将多个领域的研究者集中在一起,因此,对数据挖掘进行研究具有较强的理论意义[2]。

1 毕业生就业特征分析

1.1 实验计划

本实验选择某高职院校2013年330名毕业生的存档信息,从中随机抽取264个训练样本作为分析对象,预计从毕业生的多种信息里面,挖掘出优秀毕业生的特征,从而为高职院校人才培养提供决策依据。

1.1.1 信息来源和数据集

分析毕业生的优秀特征情况,从海量数据信息中提取毕业生的基本信息,即毕业生学号、年龄、性别、所学专业、成绩、获奖情况等。数据集snapshottrainN.db,以下是该数据集的部分字段名:id. 唯一的识别号;age. 年龄;sex. 性别;jobs. 所学专业;income. 收入;unprofessiona. 非专业对口;winning. 获奖次数;party member. 是否党员;save_act. 是否低分;Educatione. 成绩;pep. (进行数据挖掘)是否为已经就业的毕业生。

1.1.2 总体分析步骤

数据挖掘为了得出隐藏在数据中的有价值的信息,一般来说,其最后结局是难以预料的,但是站在决策者以及设计者角度来说,要明确问题的方向性和结果性,数据挖掘一旦存在不可以预知性,则表示盲目行事,分析也就难以获得成功[3]。分类挖掘的目的是找出隐含的知识,以便明了化,本实验选择C4.5挖掘算法,对经过转换的数据进行挖掘,对结果进行分析、解释和评估。第一步是数据准备,将毕业生信息管理数据表合成,从中提取与绩效考核成绩相关性较大的特征属性,生成高职院校毕业生管理信息表;第二步是建立模型,包含分类原则和决策树的建立;第三步是对数据进行挖掘并得出规则;第四步是结果分析。

1.2 实验流程

1.2.1 实验准备

在数据源里,海量的历史数据,属性众多,定义繁杂,具有明显的非完整性,数据挖掘前期要从这些海量数据中提取有效的数据。该实验选择信息增益率的方式来明确属性选择,其默认方式选择最高信息增益率作为节点的测试划分标准,由此来保证在信息量需求最小的情况下,也能产生最简单的决策树[4]。在提取信息增益率的时候,利用相关计算公式,提取最高信息增益率的相关数据,将之作为给定集合S的测试属性,并创建出一个对应节点,然后创建分支,再对样本进行划分。

1.2.2 数据归纳

在数据归纳过程中使用面向属性的方法,即建立在数据库中的关系表上,并收集有效数据汇集成表,以分析和泛化各个属性,并将所有和决策规则相关的属性都查询处理,从而建立具有高效的、或压缩或泛化式的数据集合式分类样本模型,目的是减小数据规模,与属性值有关联,不与原始数据产生任何关系,从而更为有效地产生决策树。

对毕业生关系数据库进行相应的处理,提取出有用的信息,得到毕业生就业情况信息表,利用迎合算法对该数据进行转化。

1.2.3 建立决策树模型

分类是数据挖掘中的一个重要目标和任务,不同于聚类,被称为监督学习,对于现有的类别进行较为具体详细的类别性质的描述,对于新的观察值再进行类别性分类[5]。本实验采用决策树方法对毕业生特征进行分类挖掘,建立的训练集从实用角度考虑,并不复杂,故考虑选择ID3或C4.5算法,为了完成数据挖掘的任务,本实验选用C4.5算法对数据源进行挖掘和分类。

在330名毕业生的存档信息资料中,随机抽取264个数据,占总数据的八成,把它们当作训练样本S;剩下二成的数据作为测试集,按预定类别将毕业生分为普通毕业生、优秀毕业生两类。生成决策树必须遵循一定的算法,生成原则依据Generate_decision_tree从原始训练数据中生成一棵判定树;数据导入依据训练样本samples,是离散值属性,属性群为attribute_list;数据导出为一棵判定树。生成步骤如下:

(1)第一步需要根据训练数据来确定节点N;

(2)If samples同属于类C then;

(3)需要返回N当作叶节点,标记为C类;

(4)If attribute_list如果为空缺或者丢失 then;

(5)需要返回N当作叶节点,并标记。以samples中一般的类标记为其属性;

(6)抽取attribute_list中信息增益高的为首选;

(7)标记test_attribute为分类节点;

(8)For each test_attribute内已知值ai;

(9)N为属性再生成一个满足test_attribute=a.的分枝;

(10)假定Si为samples中test_attribute=a.的样本集合;

(11)假如Si为空值,then;

(12)附加一个条件树叶,标记为samples中一般类别;

(13)Else 加上一个由 Generate_decision_tree(s1,attribute_1ist_test_

attribute)返回的节点。

在数据挖掘过程中,决策树方法的本质是利用大量的分类数据进行筛选,根据筛选后的数据挑选出具有价值的信息。本实验利用C4.5算法创建决策树,决策属性信息增益率的计算方法如下:

在S中,有s个数据样本包含的集合,其中的个别属性分别获得m个不同的值,那么就会产生 m 个不同的类别Ci{i=1,2,……,m}。如果类别Ci中的样本个数为ri,那么期望信息量为I(Su,S2j,…,)=,其中Pi为任意一个数据对象属于类别 Ci的概率。在类别属性A中,包含了v个不同的值{ a1,a2,……,av}。那么集合S就可以这样来划分,在类别属性A的基础上,分解成v个子集{ S1,S2,……,Sv},其中Sj包含集合S中属性A取aj值的数据样本。如果测试属性是属性A(也就是用属性A划分当前样本集),如果子集Sj属于类别Ci的样本数为Sij,那么就可以用类别属性A对当前样本集合所需的信息熵划分,可以用此公式进行计算,对于给定子集 Sj,I,Sj中样本属于类别Ci的概率。信息增益为 Gain(A)=I(r1,r2,……,rm)-E(A), 信息增益率为Ratio(A)=Gain(A)-E(A)。

用上述方法计算每个属性得到各自的信息增益率,将集合S的测试属性新建节点,并标记该属性,继续创建分支,最后进行划分即可。

选取较具典型意义的数据,将其输入训练集,通过一个Table节点(Output\Table)与源数据连接,Excute(执行)Table结点即可。插入一个变项文件节点(Source\Var.File),双击该节点,在File框输入snapshottrainN.db的物理路径。

在建模之前,首先将一个类型节点Type Node加到目前的流程中,点击Read Values以读取数据。利用年龄、专业、性别、成绩、是否党员等因素分析优秀毕业生的特征,故将id的Direction设为“None”,将pep设为“Out”,其他字段设为“In”。通过一个Table节点(Output\Table)与源数据连接,Excute(执行)Table结点即可。

经过计算,可以得到属性里性别的信息增益最大,也就是说属性中性别提供的信息量最大,对于分类帮助最大,所以选择性别作为根节点,由此引申两个分支出来,把训练实例集分成两个子集,从而生成决策树,其中含有两个叶节点。选择学生所学专业的分裂性属性,把叶节点进行分裂,分成3个子集,依据收集用户的基本情况、在校期间的各项表现、基本工作状态意向等数据信息,其中这些数据有些是直接获得的,有些是调查获得的,有些是通过计算获得的。建立一个C4.5结点(Modeling\C4.5)与Type节点相连[6]。使用同样的方法,来分析其他节点,目的就是要产生整棵决策树。

1.2.4 连接模型

将得到的回归模型加入到Type节点,双击C4.5结点可对其进行编辑,这里取其Model name为默认值“Auto”(进入法),其他选项不做修改,Excute(执行)该节点。

1.2.5 分析模型

将模型图标与Type节点相连,再添加一个“分析”节点,执行Analysis节点显示预测值和真实值的匹配程度如何的信息。执行C4.5结点即可得到判断优秀毕业生取值的决策树模型,Browse查看模型结果。

1.3 优秀毕业生特征规则挖掘

在众多特征中,性别属性是具有强烈差异的信息增益率值,所以选择性别为根节点。任何一个分支都可以重复以上方法,生成决策树。

从数据挖掘结果来看,通过决策树的显示信息,能够直接提取分类规则(如果IF,那么Then):

(1)如果毕业生为男性,那么,毕业生至少一半为已就业的毕业生,而女性相对而言已经就业的毕业生较少。

(2)如果专业为热门专业,那么已经就业的毕业生较多。

(3)如果各科成绩为优秀,那么已经就业的毕业生较多。

(4)如果毕业生年龄小于或等于21岁,已经就业的毕业生并不多。

2 毕业生就业特征的决策分类模型的实现

在数据挖掘技术中,决策树是常用的方法,其运行方便,能够较快速地分析数据。在众多的决策树方法中,C4.5算法是应用最广泛的方法之一。本文先介绍决策树方法相关知识,然后介绍其主要算法,而且详细分析决策树在毕业生就业环节中的作用。本文以某高职院校的毕业生资料为原始数据,在海量资料和数据中,采用数据挖掘的方法,找出其关联性。整个分析过程,实际上就是不断去噪的过程,对毕业生就业特征进行分析,分析了毕业生就业的敏感规则[7]。

C4.5算法在毕业生特征挖掘中,第一步就是选择性别属性作出初次分类,即专业、学习成绩等各方面均产生相应决策树,可以看到学习成绩具有一定的说服力。

分析时,使用数据库里的相关数据,分析毕业生的各种类别性属性特点,然后再选取、清理、转换数据,通过使用决策树中的C4.5算法确定类别模型,并明确分类标准,从而观察分析归纳优秀毕业生的关键特点。研究发现,相对同种专业时,成绩好的毕业生表现更为优秀[8]。当非本专业的毕业生在表现上更为突出。无论是否为本专业,获奖荣誉多的,就业可能性更高。以上实验结果和已选参与研究的高职院校实际情况基本相符。

3 结语

本文建立了一个基于毕业生就业信息的关联规则挖掘模型,真正的将数据挖掘技术应用到毕业生就业发展行为中,并给出特定数据集下毕业生就业发展行为的决策树分类模型。将模糊数据挖掘技术应用于大学生发展中,挖掘出一些有用的规则信息,通过这些信息可以得出哪些信息对毕业生就业影响较大,从而为学校管理者制定培养学生计划提供参考。

参考文献

[1]张轲智. 基于web的数据挖掘系统设计与实现[D].电子科技大学,2013(03):31-35.

[2]牛胜利. 基于数据挖掘的商业银行客户关系管理研究[D].财政部财政科学研究所,2013(05):78-79.

[3]王惠中,彭安群. 数据挖掘研究现状及发展趋势[J].工矿自动化,2011(01):64-66.

[4]张秋菊,朱帮助. 基于自组织数据挖掘的电子商务客户流失预测模型[J]. 企业经济,2011(01):101-103.

[5]丁静,杨善林,罗贺,丁帅. 云计算环境下的数据挖掘服务模式[J]. 计算机科学,2012(06):32-34.

[6]刘大有,陈慧灵,齐红,杨博. 时空数据挖掘研究进展[J].计算机研究与发展,2012(12):45-47.

[7]王沛训.高职院校信息化建设的几点建议[J].华章,2011(05):162.

第9篇:数据挖掘学习计划范文

[关键词] 经济与管理;本科生;数据挖掘;教学探索

[中图分类号] G642.3 [文献标识码] A [文章编号] 1005-4634(2013)04-0082-03

0 引言

数据挖掘技术能从大量数据中发现和学习有价值的和隐藏的知识,因而近年来在国内外受到极大重视,在电信业、零售业和银行业等生产大数据的行业中正获得越来越广泛的应用[1]。因此,近几年数据挖掘这门课程已越来越多的走进了高校课堂。但是,数据挖掘又是一门综合性较强的交叉学科,它涉及到统计学、数据库技术、数据仓库、人工智能、机器学习和数据可视化等学科知识,对学生的专业知识背景和前期所学课程有较高的要求,这在一定程度上限制了数据挖掘作为一门既有理论价值又有实践价值的学科的应用和推广。笔者结合自己的教学实践研究经管类专业本科生开设数据挖掘课程的教学探索。

1 经管类专业本科生开设数据挖掘课程的必要性和可行性分析

从经管类各专业的培养目标角度分析。以南京邮电大学经管类专业为例,该专业包含信息管理与信息系统、电子商务、市场营销、经济学和工商管理等专业,这些专业的培养计划都把培养学生具备市场分析、经营和管理决策能力作为专业的基本培养要求之一。数据挖掘作为商务智能的核心技术,是辅助管理者进行决策分析的有效工具,在激烈的商业竞争中发挥的作用越来越大。因此,为经管类专业本科生开设数据挖掘课程可以更好地实现专业培养目标。

从经管类专业本科生的就业角度分析。经管类专业本科生毕业后,有相当一部分同学会从事营销岗位或者信息管理、网站设计与维护等技术岗位。对于从事营销岗位的同学来说,由于现在的市场营销概念已经发展到精细营销理念,即企业恰当而贴切地对自己的市场进行细分,对各种客户群进行深入的分析和定位,并根据不同的客户群特点,采取精耕细作式的营销操作方式,将市场做深做透,进而获得预期效益。数据挖掘技术是实现精细营销的重要工具;对于从事技术岗位的同学来说,学习数据挖掘课程,掌握数据挖掘的思想和方法对培养学生的系统思维和解决实际问题的能力、提高学生的信息素养很有必要。因此,学习数据挖掘课程对学生未来的工作也是非常有帮助的。

数据挖掘是一门交叉学科,课程理论性强,且对学生的计算机基础要求较高。经管类专业只有信息管理与信息系统、电子商务两个专业开设了较多的计算机课程。但是所有经管类专业都开设了统计学必修课程和数据库原理与应用必修或选修课程,这两门课程是数据挖掘的核心。因此,适当地调整教学目标,将数据挖掘作为一门选修课程为经管类专业本科学生开设是完全可行的。

2 教学过程中存在的问题

笔者在为经管类专业本科生开设数据挖掘课程的过程中,往往遇到两个问题。

1)课程较强的理论性与学生知识结构缺陷之间的矛盾问题。数据挖掘这门课程涵盖了统计学、数据库原理、机器学习、信息论和时间序列等众多内容,课程教材中有较多的公式推导和算法分析,因此课程的理论性较强。然而,经管类专业本科生之前只是学习了统计学和数据库原理与应用两门课程,机器学习等其他课程知识均没有涉及到,因此在学习数据挖掘课程时会感到内容难度较大,障碍较多[2]。

2)理论教学与实验教学学时合理分配的问题。由于数据挖掘课程通常是作为选修课安排在经管类专业本科生培养计划中,总学时数相比学位课程要少,只有32学时。正如前文所述,这门课程包含的内容多、难度大,因此必须要保证足够的理论教学学时数量。同时,数据挖掘又是一门应用性较强的课程,特别是对于经管类专业本科生来说,一定要安排足够的实验教学学时,让学生在实践中提高分析问题和解决问题的能力。在较少的总学时约束条件下,如何合理地分配理论教学学时和实验教学学时是课程教学遇到的又一个问题。

针对经管类专业本科生开设数据挖掘课程时遇到的矛盾问题,将这门课程的教学目标确定为:掌握数据挖掘基本流程和经典算法的基本原理,熟练运用数据挖掘软件工具,分析和解决商业应用问题。课程教学目标指出,为经管类专业本科生开设数据挖掘课程的目的是培养学生利用数据挖掘这种工具去分析和解决商业应用问题的能力,而不是要求学生具备数据挖掘算法设计能力。因此,对于经管类专业本科生来说,实验教学和理论教学同等重要。在课程教学大纲中应将理论教学学时和实验教学学时设置为各16个学时。

3 教学内容设计

用16个学时来介绍数据挖掘课程的理论知识点,这就要求教师能够为经管类专业本科生精心挑选知识点,“量身定做”教学内容。

1)以应用为目的设计教学内容。根据经管类专业本科生数据挖掘课程的教学目标,本门课程在教学过程中应注重培养学生应用数据挖掘分析问题和解决问题的能力,这就要求教师能够围绕数据挖掘的整个应用过程来安排教学内容。数据挖掘的应用过程包括数据收集、数据预处理、模型构建和知识评价四个主要步骤。数据收集步骤是指准备数据挖掘的对象——数据源,有的数据源是一个数据文件或者是数据库中的一张关系表,但对于具体的商业应用来说,数据源往往是来源于同一个或不同数据库中的多张关系表,或者是多个数据文件,这时需要对数据源进行集成,甚至是构建数据仓库;数据预处理步骤是指通过数据清洗、数据集成、数据变换和数据归约等操作为数据挖掘任务提供干净、准确和简洁的数据,提高数据挖掘效率和挖掘结果的质量,它是数据挖掘中非常重要的环节;模型构建步骤是指选用数据挖掘算法在预处理后的数据集上构建挖掘模型的过程,关联、分类、聚类和回归分析是数据挖掘中四个主要的挖掘任务,每个挖掘任务又对应了多个挖掘算法;知识评价步骤是指采用各种统计指标对挖掘结果进行评价,以发现有价值的知识。由于不同挖掘算法得出的挖掘结果表现形式不同,知识评价应针对具体挖掘算法进行,因此知识评价步骤要安排在每个挖掘算法介绍完之后。

2)重点介绍经典算法。针对经管类专业本科生在学习数据挖掘课程时感到内容难度较大这一问题,且考虑到课程的理论授课学时有限,笔者对原有的数据挖掘内容进行了适当的精简。数据挖掘包含数十种挖掘算法,删除复杂和难度大的数据挖掘算法,针对每种挖掘任务重点介绍其经典算法。例如,关联挖掘中的Apriori算法,实现分类挖掘的决策树算法,实现回归分析的最小二乘法以及聚类分析的k-means算法。对于神经网络、贝叶斯分类、时间序列挖掘和Web数据挖掘等难度较大或内容拓展性算法,在介绍相关章节时略提一下,并鼓励有兴趣的学生在课余时间自学。

3)增加商业案例。数据挖掘是一门技术性较强的课程,一般的教材往往注重理论,相关案例较少,因而不容易激发学生的学习热情[3]。为了帮助经管类专业本科生增加对课程中各种挖掘任务的感性认识,同时也是为了激发学生对本门课程的学习兴趣,笔者在讲授过程中增加了若干关于数据挖掘的幽默故事、经典案例和在各行业中的应用案例,通过分析案例加深学生对算法应用的理解。例如,在介绍关联挖掘任务时给学生们引入“啤酒与尿布”的故事;在介绍分类挖掘任务时讲解客户流失分析的应用案例;在介绍聚类挖掘任务时分析客户细分的应用案例。

基于上述分析,笔者为经管类专业本科生开设的数据挖掘课程教学内容具体如下。

第一章为绪论,主要是对数据挖掘技术作概括性描述,让学生对数据挖掘定义、与数据仓库的关系、研究热点以及发展趋势形成感性认识。本章内容分配2个理论教学学时。

第二章为数据仓库,主要内容包括数据仓库的定义与特征、数据仓库的数据组织、数据模型、总体结构和设计等原理性知识点,以及联机分析处理(OLAP)的基本概念和分析操作等基本知识。本章内容分配2个理论教学学时。

第三章为数据预处理,主要介绍数据清洗、数据集成、数据转换以及数据归约等数据预处理的基本步骤和常见方法。本章分配3个理论教学学时。

第四章至第七章围绕数据挖掘的4个重要任务——关联、分类、聚类和回归分析,在介绍每种挖掘任务基本概念的基础上,重点介绍经典算法的基本原理和挖掘结果评价方法,以及每个挖掘任务在具体行业的应用案例。第四章至第六章每章内容分别分配3个理论教学学时,第七章内容分配2个学时。

4 实验项目设计

数据挖掘是一门与实际应用结合紧密、实践性较强的课程。为了加深学生对数据挖掘理论知识点的理解,锻炼和提高学生的实际动手能力,必须结合实验进行教学。数据挖掘课程的理论教学和实验教学构成一个完整的整体,缺一不可[4]。实验教学要充分调动学生的主动积极性,而不是简单地让学生进行验证式的操作实验或仅仅局限于机械地使用、熟悉某种软件工具。

笔者针对课程知识点设计了4个实验项目,每个实验项目分配4个实验学时。

第一个实验项目为数据仓库构建,实验软件是SQL Server 2000,它提供了一套完全的数据库和数据分析解决方案,其中的Analysis Service 组件支持数据仓库的创建和应用,并提供OLAP联机分析操作。构建数据仓库的数据源来自SQL Server 2000的样例数据库Northwind,Northwind是一家虚构的公司,从事世界各地的特产食品进出口贸易。Northwind数据库包含有这家公司的销售数据,数据内容多,数据量大,数据结构贴近企业的真实数据,符合实验要求[5]。实验包含4个步骤:(1)理解业务数据,确定分析主题。Northwind数据库中的表非常多,需要理清各关系表的内容及其相互间的关联,在此基础上确定感兴趣的主题;(2)围绕分析主题,将主题相关的关系表通过企业管理器中的DTS进行清洗和转换,为数据仓库提供合适的数据;(3)使用Analysis Server向导,建立多维数据集;(4)基于构建好的多维数据集,对数据进行切片、切块、钻取、聚合和旋转等各种OLAP分析操作。

第二至第四个实验项目均是基于Clementine12.0等数据挖掘工具,通过构建数据挖掘模型分析具体商业问题。其中,第二个实验项目为关联挖掘的综合实践,要求学生运用关联挖掘经典算法Apriori分析移动产品交叉销售;第三个实验项目为分类挖掘的综合实践,要求运用决策树算法进行电信客户流失分析;第四个实验项目为聚类挖掘的综合实践,要求运用聚类经典算法K-means进行电信客户细分分析。上述三个综合实验项目都要求学生首先能够分析具体应用问题,然后进行数据预处理、构建数据挖掘模型,并对挖掘结果进行分析和讨论,以锻炼学生数据挖掘的思维体系和数据分析能力。

5 教学方案实施

在教学方案实施过程中,着重营造活跃的课堂教学氛围,重视对课后作业的指导,以期提高课堂教学效果。考虑到经管类专业本科生的知识背景和本门课程的特点,在每次课堂上都会抛出一个思考题,要求学生们运用所学理论联系身边实际展开讨论。例如,在介绍完第一章后设计了一个讨论题:如何运用数据挖掘帮助电信企业提高竞争优势?学生讨论得很热烈,也得出了多个答案。由于本门课程课堂讲授学时较少,为了帮助学生复习、巩固及应用所学内容,课程每章节后都安排了课外作业,并就其中的难点进行指导和讲解。实验过程中,着重培养学生的独立性和数据分析能力。首先向学生讲授清楚实验具体要求和注意事项,然后放手让学生自己去做,遇到问题先鼓励学生自己思考解决,实在有困难再稍加指点。实验结束后,要认真分析实验结果,完成实验报告。选择实验数据时要考虑到数据是否符合现实情况且能够突出所分析的问题。除实验以外,其它实验项目均采用SPSS产品培训过程中所用的相关数据,数据量大小适中,适合在实验课上使用,而且这些数据与真实数据的差异小,有助于提高学生解决现实问题的能力。数据挖掘课程的教学方案已实践了5年,其间不断进行经验总结和探索,无论从近几年选修本门课程的学生人数还是从课堂上学生的反映和学习气氛看,本门课程都取得了很好的课堂教学效果。

6 结束语

数据挖掘作为一门技术性和应用性较强的课程,对优化经管类专业本科学生的知识结构、扩展学生的专业应用领域有着重要的作用。笔者结合自己的教学经验,对经管类专业本科生数据挖掘课程的教学内容和实验环节等方面进行了积极的教学探讨和实践,学生反映非常好。在今后的教学工作中,要不断实践,不断总结,进而不断改进和提高数据挖掘课程的教学质量。

参考文献

[1]刘云霞.统计学专业本科生开设“数据挖掘”课程的探讨[J].吉林工程技术师范学院学报,2010,26(6):20-22.

[2]李志勇,王翔,喻军.信息管理专业数据挖掘课程教学探讨[J].管理工程师,2012,(4):66-68.

[3]刘昆宏.浅谈本科阶段数据挖掘课程设置[C]//In Proceedings of 2010 Third International Conference on Education Technology and Trainning,Wuhan,2010:4-5.