公务员期刊网 精选范文 数据挖掘课程设计论文范文

数据挖掘课程设计论文精选(九篇)

数据挖掘课程设计论文

第1篇:数据挖掘课程设计论文范文

关键词:任务驱动;探究式;课程改革

中图分类号:G642 文献标识码:A 文章编号:1009-3044(2014)06-1253-03

Applied Research of Task-driven Inquiry Teaching Model in Data Mining Course

HUANG Jian

(Zhejiang Wanli University, Department of Computer Science and Information Technology, Ningbo 315100, China)

Abstract: The task-driven inquiry teaching model is a teaching activities which students as the main body, teachers as the leading. It fits the data-mining course. Not only using task lead the student to inquiry learning, but also improve teachers during the teaching process. Based on the data mining course teaching reform practice, summarizes the task-driven inquiry teaching mode in general process and the specific content of the reform. Practice has proved, this teaching mode is good for improving undergraduate courses teaching quality.

Key words: Task-driven; Inquiry; Curriculum reform

数据挖掘是一门包括了数据库系统、专家系统、机器学习、统计学、模式识别、信息检索、人工智能等学科的综合性的学科,其目标是发现隐藏在大型数据集中的知识模式。此课程一般是在研究生教育阶段开设[1],但随着社会对应用型人才的需求越来越大,这就要求我们的学生毕业后不仅要有扎实的理论基础,更要有较强的创新能力和实践能力。

我校针对信息与计算科学及统计学两个专业开设了数据挖掘课程。该专业学生拥有较强的数学理论基础,并掌握了数学建模、统计学、数据库等相关学科。数据挖掘作为一门综合性课程,是融合学生各科知识,提高该专业学生应用实践能力,培养学生团队协作能力的很好的载体课程。

1 数据挖掘课程教学特点

数据挖掘技术是一个多学科交叉的综合研究领域。不过也正因为它涉及的范围很广泛,发展的时间也不是很长,因此要真正理解数据挖掘的本质并不是一件容易的事情。我校针对信息与计算科学和统计学两个理学专业开设此课程,并将此课程归类为实践类课程。经过笔者多年对传统教学方法的研究和改革,发现了在数据挖掘教学中存在的问题:

1) 理论教学困难:数据挖掘课程内容涉及领域广泛,如统计学、数据库、机器学习、模式识别等内容,并且所涉及的算法繁多。由于本科生的知识体系不健全,理论基础相对薄弱,造成了学习难度过大。此外,由于学时限制,无法在课堂中详细地讲述算法理论,导致了学生积极性不高,很难达到教学目标。

2) 实践环节无法让学生体会数据挖掘本质:数据挖掘是从数据获取、数据整理、预处理、数据挖掘分析、结果分析等一系列流程的综合。但由于课时关系,我们课程中的实践环节往往是针对某个特定的算法,让学生利用已经预处理好的数据进行算法的应用。数据挖掘成本很高,但是这个成本往往并不是金钱,而是时间,而数据整理和预处理的时间往往占到全部工作量的80%。不经过完整的数据挖掘流程训练,学生就无法体会数据挖掘的本质。

3) 软件应用缺乏:针对海量数据分析是必须要应用到计算机技术处理。当今针对数据挖掘应用的软件很多,如SAS公司的EM模块、SPSS的Modeler、WEKA、Matlab以及各数据库系统配套的OLAP功能等。在课堂中,不可能对任何一款软件都详细的进行讲解。这就使得学生很难进行算法的应用实践。

2 任务驱动探究式教学模式

针对目前教学存在的这些问题,广西大学梁斌梅提出了目标驱动的专业课教学法,利用导入课吸引学生、利用教学目标引导学生[2]。韩秋明等人编著的《数据挖掘技术应用实例》中采用了大量的行业数据,为数据挖掘教学模式的改革提供大量的应用实例[3]。结合本校的学生特点,参考国内的一些研究成果,该文提出了基于任务驱动探究式教学模式。课程整体主线由任务驱动,学生进行探究式自主学习。

任务驱动是基于构建主义教学理论基础上的教学方法,以学生为主体,以老师为主导的一整套教学新模式。而探究式教学是与直接接受式教学相对的,在任务驱动的同时,激发学生的好奇心,并驱使学生投入到知识获取的自主学习活动中。任务驱动探究式教学模式是将两者有机的结合起来,使学生能够明确学习目标、提高学习兴趣、提升学习动力,发挥学生的自主学习能力、创造能力,培养学生分析问题、解决问题的能力。通过自主学习,自行的完成阶段性的教学任务,以达到相应的教学目标。任务驱动探究式教学模式,适合操作性和应用性强的课程。任务驱动探究式教学模式的核心思想是在教学方面强调任务驱动,在学习方面则强调探究式学习。因此必须合理地设计课程教学方案,在“教”和“学”两个方面进行设计。老师必须在任务设计、实施进程管理、信息反馈等各方面做好衔接,保证学生能够时刻跟上任务进度,并保持足够的兴趣度。

3 基于案例驱动探究式教学模式的数据挖掘课程改革

任务驱动探究式教学模式是以学生为主体,教师主导的新型教学模式。教师的作用在于教学组织和任务布置的安排调度。利用任务引导学生学习相关知识,提高学生的学习主动性。因此,如何根据课程需要合理地进行课程任务设计,安排任务进度都是课程改革成功的关键。

3.1 课程内容重新整合

数据挖掘是一个由数据收集、数据预处理、数据分析挖掘、结论分析等各个步骤组成的整体过程。在现有的数据挖掘书中,针对数据收集、数据预处理部分往往比较简化,大部分篇幅都在讲述数据挖掘算法,如分类算法、关联算法、聚类算法。如果在课程内容设计时,仅仅对算法做重点讲述而忽略前期步骤,将会造成学生内容知识的脱节,无法体会数据挖掘整个流程,从而不能真正地理解数据挖掘思想本质。因此,本课程教学目标应该是重点培养学生分析问题、解决问题和团队协作能力,树立数据挖掘思维体系,了解数据挖掘基本算法,能够应用数据挖掘软件解决实际问题并得到结果。

根据这个教学目标对课程内容进行适当调整。首先,增加绪论内容并设置导入课。在导入课中增加生活中学生感兴趣的数据挖掘故事,经典案例以及各行业中的应用,从而提高学生学习的兴趣。其次,适当增加数据获取、数据预处理以及数据挖掘软件的介绍,使得学生能够明确数据怎么来、如何处理以及用什么工具处理等问题。最后,有选择地介绍基本的数据挖掘算法,所介绍的算法应该是常见、易懂并且能够很容易使用软件实现的,如决策树算法、K均值聚类算法、Apriori算法、朴素贝叶斯算法等。而针对比较难的算法,可以仅做介绍,让学生在今后遇到此类问题能够自主的进行学习。通过内容的调整,一方面使得学生不会因为数据挖掘算法繁多且复杂而惧怕,保证学生的学习兴趣,从而很好的引导其自主学习,提高教学效果。另一方面,数据挖掘算法在不断的改进,不可能在课程中覆盖所有。通过基本算法和工具的结合,能够很好地帮助学生从算法理论转变成算法实现,从而真正的进行数据挖掘工作。即使出现了新的算法,也能够举一反三,进行软件实现。

3.2 组织方式的改变

任务驱动探究式教学模式必须以课程任务为依托。改变以往以纯理论的教学方式,加入实践和课堂讨论环节,将理论知识讲解和课程任务有机地结合到一起。考虑到数据挖掘连贯性以及工程庞大性,可以考虑以项目化的方式进行。将学生6个人左右分为一组,自主的在老师所提供的数据共享平台中寻找感兴趣的问题进行分析研究。将整个项目分解成为数据搜集、数据预处理、探索性分析、数据挖掘、结果分析等一系列的小任务,安排阶段性的任务目标,层序渐进,逐步的建立学生完成项目的信心并最终完成整个项目。

学生是项目的负责人,在接受一个短期任务后,就要自主的开始进行任务的执行。老师仅仅在课堂中进行了基本知识的讲解,学生要完成任务就必须学习更多的课外知识。项目的研究内容是自己选择的,而且完成阶段性的任务并不是那么的遥不可及,所以学生有足够的兴趣和信心去完成。通过查阅资料、学习知识、任务分配、安排和组织实施等,完成教学任务的同时也锻炼了他们团队合作意识、沟通能力、自主学习能力。这些能力的培养才能使他们在知识不断更新的当今,紧密地跟紧前沿技术并更好的去解决实际问题。

3.3 任务进度控制和评价

课程的课堂教学时间是有限的,老师不可能在课堂中既完成理论教学,又给足时间让学生进行课程任务,所以项目的实施必须是在课后进行。学生要在课外进行大量的参考资料阅读、相互讨论及数据分析的工作。那么老师作为主导者,必须及时地了解学生阶段性任务的完成情况,对当前学生遇到的困难及时给出建议和意见,甚至在学生遇到真正的难题给予技术上的支持。所以本课程在理论课教学的同时,也开展了定期的讨论课,让学生定期汇报阶段性任务的完成情况,及时进行任务进度的控制。整个项目的实施流程和任务分解如图1。根据流程安排,理论引导学生任务的进行。通过学生任务的完成情况,老师在完成基本理论教学的同时,有针对性的对学生所遇到的问题进行讲解,最终目标是引导学生完成整个教学项目。一方面,学生自主学习能力提高,有足够的兴趣和能力去完成每个阶段的任务,并且会更加认真的在理论课中寻找自己想得到的知识。另一方面,由于学生自主寻找的项目多样性,选择的算法不可控性,同样促使老师不断的提高自身,教学内容不再一成不变,而是随时的更新。

图1 任务进度安排流程图

良好的进度控制需要一个完善的评价体系做辅助。只有做好每个阶段性的评价,引入一定的竞争机制,才能提高学生积极性和自信心。首先,必须做到极端性任务的目标和时间明确化。要完成什么,在什么时候完成,都必须事先和学生约定。对没有按时完成任务的组,必须做出相应的惩罚,如扣除本阶段的得分。除此之外必须分析原因,搞清为什么无法完成任务,有针对性地提出建议和意见,以便学生能够及时调整。其次,评价标准既要唯一又要区别对待。唯一标准指的是一样的进度,一样的任务,一样的要求。但是数据挖掘项目会根据研究领域不同、使用算法不同、数据质量不同而造成难度差异,一味的同等标准要求会造成选择难度较高项目的学生积极性下降。所以老师必须客观的分析每个项目难度,并区别对待。对于由客观难度造成任务进程落后的组,应当在解决问题后给予奖励。并且,在最终论文评定时,适当的加入一定的难度分,以鼓励学生培养自我挑战的精神。通过教师评价、组长评价、组间评价等评价方式,客观的合理的对整个项目实施作出最终的评价结果。

4 结束语

通过案例驱动探究式教学模式的改革,数据挖掘课程在教学效果上得到了实质性的提高。人才培养上卓有成效,老师也在教学过程中受益良多。通过教学模式的改革,使得原本枯燥、难懂的理论教学变得生动。学生的求知欲望得到了激发,课程的学习目标更加的明确,教学质量也有很大的提高。同时我们发现,学生的自主学习能力、汇报能力、论文撰写能力都有了明显的提高,并且有很多教学项目被用于毕业论文的研究。数据挖掘课程也因此被选为宁波市级的智慧产业核心引导课程。

参考文献:

[1] 胡建军.浅谈数据仓库与数据挖掘的本科教学[J].广西科学院学报,2007(3):29-210.

第2篇:数据挖掘课程设计论文范文

关键词:数据挖掘技术;交互课堂;特点

课堂教学是一个具有一定周期性的过程,作为授业者的教师,通过不断的教学实践,对教学设计不断地进行优化、更新、管理及评价的过程。本文探讨通过数据挖掘技术建立一个可以对课堂交互中的信息进行有效整理、合理分析的信息处理模型,从而有效促进教学设计的不断更新。

一、课堂互动中信息的特点

在课堂教学中的信息交互是通过师生人际交流、教学过程等实现的,这决定了这些信息具有以下基本特点:

1.信息采集工作量大

在课堂互动中由于交流过程中所表达的信息类型较多,包括教师的讲授、提问、指示等方面的信息、教师接受学生的意见信息、教师给予学生的鼓励表扬、对学生的建议批评、学生答问信息、学生之间的讨论、思考问题等信息,还有一些是课堂上与正常教学行为不相关的其他信息、课堂外有学生的作业、教师的批改以及自身学习与发展方面信息等。对这些信息数据的采集、处理工作量比较大。

2.可量化性低

课堂内外互动中的信息绝大多数是由言语、肢体语言来交互的,其中一些类似如学生对教学内容与方式的反应、学习中的兴趣爱好、教师与学生互动中交流信息等不容易进行定性量化,导致处理起来比较困难。

3.信息的包容性大

在教学互动过程中的各类信息,如教师的教学方式、教学风格、教学内容的组织、师生的个人思维动态等都包含了各种各类的信息综合体,非常难以从这些信息的表面就判断信息的类属。同时这些信息有些还属于生物信息范畴,难以分析。

4.信息的不确定性

在课堂互动教学过程中对学生当前学习状态、知识的掌握程度的判断是基于教师的个人理解,具有不确定性,是具有一定的误差的。而在教学过程中对提问中学生的反应,判定学生的回答正确与否,都具有教师的主观性。

正是由于课堂互动中的信息具有以上特征,从而使得数据信息采集工作量大,定性量化比较困难。所以很久以来从事教育信息整合的研究者常喜欢于用质的定性研究来评价,随着当前数据处理科学的进步,如何更客观地对课堂中的交互信息进行定性、量化、处理变得尤为重要。通过对潜在信息数据中有价值的内容的提炼、整合、处理,可以及时从里面发现有用的数据信息,从大量互动数据中找到教育规律,用以教师对教学的改进。归根结底,我们对课堂互动中信息的数据挖掘,是为了处理过后的信息反馈与我们的教学,从而更加有效地改进我们教学系统的设计、评价等系统。

二、数据挖掘及其技术

数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其目标是支持利用数据进行合理的决策。

根据信息存储格式的不同,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。其任务主要是关联分析、聚类分析、分类、预测、时序模式分析等。

数据挖掘的流程包括以下过程,这些过程不是一次完成的,其中某些步骤或者全过程可能要反复进行:(1)问题的定义;(2)数据准备;(3)数据挖掘;(4)结果分析;(5)知识表示。

三、交互课堂中数据挖掘技术的应用

在交互课堂的设计中我们可以根据课堂互动信息的相关特点,通过整合数据挖掘应用的数据处理优势,从包含海量信息的师生行动和语言互动中发掘并定性出有用的信息。然后通过对这些信息的统计等处理,让隐藏在自然语言下的信息变成电子信息数据,通过教师对数据挖掘规则的参与,有效利用这些信息,从而产生可以指导我们教学实践的数据挖掘结果。下面我们深入探讨一下课堂交互中的数据挖掘应用。

1.课堂互动中数据挖掘的主要任务

利用数据挖掘技术可从以下三个方面对零碎的、不容易识别的课堂互动信息进行挖掘。

(1)对教师教学信息的挖掘。①对教师教学风格、特点的信息挖掘:包括对教师语言特点、提问的比率、提问的开放性程度、与学生的互动能力等主观性因素进行量化,可视化。②对教学信息中可重复部分的挖掘:利用分类、统计、甄别等工具把一些共性的信息提炼出来,拆分教学内容,概括出课堂交互中所传递信息的共性点,分析交互的信息量,进行定性。还可以根据特定的课程进行分析。③教学设计、教学科目设置结构等信息:通过对不同的科目的教学设计的分析,可以了解科目类别之间的关系。通过数据挖掘后直观地分析表和图,系统可为教师提供教学设计对比,促进教学过程的改进。④教师对新技术应用的发现:随着社会的发展和进步,各种各样的信息技术手段在课堂交互中被利用,这些手段为改进课堂互动的效率提供了有效的环境。利用数据挖掘技术,对教师对新技术手段的应用效果及比例进行观察,对新技术手段对课堂交互的促进效果进行评估。⑤师生交互的模式:师生交互的模式有多种多样,数据挖掘利用课程、科目、交互的模式、交互的效果等等进行分析,找出各种因素之间的关联,为教师提供基于实际应用的合理模式推荐。⑥课堂互动过程变动信息:利用定性量化的课堂交互数据,通过数据挖掘得出所需评估科目在交互过程中的变化,以提高教师对交互课堂的教学进程的把握程度。

(2)学生相关信息的挖掘。可以从以下几个方面对学生的课堂反应和表现进行数据挖掘:①课堂参与的投入程度:首先观察学生的参与比例,其次定性参与学生的投入程度。可以对不同的参与程度定性为全部、大多数、少数等,对参与投入的定性可以为:积极、一般。②交互的状态:首先看交互中是不是有多方参与的信息互动,其次看互动中交互是否友善、是否合作良好。③思维反馈的状态:通过学生的反馈及主动性的互动,来看课堂交互的思维反馈状态是否良好。④情绪表现:首先看学生互动中是否有情感上的投入,比如紧张与愉快;其次看学生是否能根据课堂交互的进行及时转变状态,比如前一段谈论气氛热烈,转入后一段的静静聆听。⑤课程状态:首先看学生能否在课程进行中,感到有收获感;其次看学生对后续的课程交互是否抱有期待。

日常的教学实践证明,课堂交互中的学生投入与否,对交互的教学效果有着决定性的影响。假设学生的课堂交互状态不够,那么要找原因的话,就要从教师的教学设计或课堂气氛营造上来找。我们利用学生信息的数据挖掘技术,分析学生在交互的过程中的状态,形成直观的信息材料,为教师课堂教学的组织的改进提供支撑,同时也可以为教师教学效果评价提供依据。

(3)教师、学生课堂交互信息的挖掘。“师生交互”是教学设计实施中的关键环节,交互意味着师生有语言上的交流及行为上的互动。在课堂教学交互过程中一般互动是在授课者与听课者、课程设计与教学实际之间进行的。师生间的交互信息主要表现在师生的互动交流、教师为学生直接提供的课程内容、课程内容的问答和学生错误的反馈等。通过使用数据挖掘技术,深入挖掘教学中的交互信息,让老师改进自己的教学设计及课堂行为,提高实际教学效果,实现师生之间进行有效的互动。

2.挖掘课堂中互动信息的流程

建立课堂互动信息处理的数据挖掘系统现场记录或通过WEB在线应用收集交互信息信息的标准化和信息化处理课堂互动信息分类编码数据信息进行转换、处理数据挖掘挖掘结果分析反馈教学过程。

3.课堂互动信息数据挖掘方法

在数据挖掘方法的选择上,我们主要采用数据挖掘中应用广泛的统计学、关联分析等方法,同时通过数据库软件的数据技术对信息进行处理。在挖掘课堂互动信息的时候,我们需要对时序数据库和序列数据库进行数据挖掘,时序数据库中的数据是一些反映随时间变化的序列值或事件组成的数据库,这些值是等时间间隔采集的数据。利用统计类挖掘工具和数据库技术可以在时序数据和序列数据的挖掘中实现对课堂教育信息的趋势分析、相似性搜索、与时间有关数据的序列模式挖掘和周期性模式的挖掘。

4.基于课堂交互的数据挖掘系统设计

根据数据挖掘模型及课堂互动信息的特点,基于课堂交互的数据挖掘系统可由如下四个部分组成。

(1)数据采集模块:模块采集的信息主要包括课堂教学中教师、学生的各种行为、语言,师生间互动等信息。

(2)数据处理模块:解决语义模糊性,数据库按照元数据标准对数据进行清理、集成和变换,检查数据的完整性和一致性。

(3)数据分析模块:通过分析经过转换的数据,根据数据挖掘的基本策略,对数据进行分析处理,得出结果并输出。如,利用统计类数据挖掘工具对反映一般变化方向的教学趋势变化进行分析,采用加权平均或最小乘2法对时序图上的数据进行处理,以确定数据变化趋势,为后续的教学决策与评价提供依据。

(4)数据评价模块:对提取的信息进行分析,将结果与课堂教学的教育理论,学习理论相结合,根据起始目标的量规对课堂教学效果进行评价、反思教学。将有价值的信息区分出来,通过决策支持工具提交决策者。根据每个处理模块的结果可以决定是否重新进行某些处理过程,在处理的任意阶段可以返回以前阶段进行再处理。在数据挖掘技术实际运用过程中,教师可以根据自身对信息需求的不同,通过对数据挖掘的一些语义规则的选择和自定义得到不同的个性化结果。

第3篇:数据挖掘课程设计论文范文

高校在长期的教学管理过程中积累了海量的学生成绩信息,但是普遍的对于成绩的分析处理工作还停留在简单的查询、分析和统计阶段。本文利用关联规则Apriori算法,以学生成绩数据为研究对象,挖掘课程之间的相互关系,为科学的制定人才培养方案,提高高校人才培养质量进行了积极地探索与研究。

【关键词】成绩分析 关联规则 Apriori算法

1 数据挖掘

数据挖掘其实就是从大量、有噪声、随机性、不完全、模糊的应用数据中,提取并隐藏在应用数据中心、人们不知道但是有价值的信息和知识的过程,通过数据挖掘系统能够自动分析原有数据,并作出归纳总结,挖掘出数据原有的模式,为决策者提供参考价。数据挖掘包括数据仓库、预处理、分类聚类、关联分析等。关联分析是数据挖掘最贴近我们生活的一部分了,登录亚马逊网站,当我们挑选一本《Android4高级编程》时,网站会不失时机的列出你可能还会感兴趣的书籍,如Android游戏开发、Cocos2d-x引擎等,让我们的购物车变得更充实,而钱包又空了些。

数据挖掘是一门综合了统计学、信息技术、人工智能等多项技术。其中数据挖掘聚类和决策树则是机器学习理论知识。关联性规则挖掘技术对数据挖掘技术具有非常重大的意义,它进一步扩展了数据挖掘的研究,到如今已经成为了数据挖掘领域中的一个分支。关联性规则不仅体现数据之间的关联,更为重要的是关联系规则的表达简洁,便于理解,近年来已经成为数据挖掘技术研究领域的热点话题。

2 关联规则Apriori算法

Apriori算法是关联规则算法之一。Apriori算法的第一遍仅仅计算每个项目的具体指的数量,以确定大型1项集。随后的遍历,第k次遍历,包括两个阶段。首先,使用在第(k-1)次遍历中找到的大项集Lk-1和Apriori-gen函数产生候选项集。接着扫描数据库,计算中候选的支持度,从而得到中的支持度不小于最小支持度的k阶大项集。重复以上步骤,直到某一阶的大项集为空时,算法停止。

Apriori算法指导我们,如果要发现强关联规则,就必须先找到频繁集。所谓频繁集,即支持度大于最小支持度的项集。如何得到数据集合D中的所有频繁集呢?

用一种非常原始的办法来分析,就是对于数据集D,遍历每一条记录T,可以得到T的所有子集,然后计算每一个子集的支持度,最后再将结果与最小支持度比较。我们暂且不管数据集D中有多少条记录,就说每一条记录T的子集个数,{1,2,3}的子集有{1},{2},{3},{1,2},{2,3},{1,3},{1,2,3},即如果记录T中含有n项,那么它的子集个数是-1。计算量是非常大的,很明显这种方法是不可取的。

因此,Aprior算法提出了一个逐层搜索的方法,如何逐层搜索呢?包含两个步骤:

(1)自连接获取候选集。第一轮的候选集就是数据集D中的项,而其他轮次的候选集则是由前一轮次频繁集自连接得到(频繁集由候选集剪枝得到)。

(2)对于候选集进行剪枝。如何剪枝呢?候选集的每一条记录T,如果它的支持度小于最小支持度,那么就会被剪掉;此外,如果一条记录T,它的子集有不是频繁集的,也会被剪掉。

算法的终止条件是,如果自连接得到的已经不再是频繁集,那么取最后一次得到的频繁集作为结果。

3 教务管理系统中的学生成绩数据挖掘

学生的考试成绩不仅体现了学生阶段性的学习效果,而且是检验学校教学效果的重要依据。为了提高学校教学质量,所以必须对学生的考试成绩进行数据挖掘,挖掘出学生考试成绩背后的关键性因素,可以从学生的性别、专业、课程、入学成绩、老师对学生的考核评价等因素为切入点,分析这些因素对学生成绩产生的影响,并找出各个要素之间的潜在规律,从而分析出影响学生考试成绩的主要因素,并预测学生哪一部分成绩还需要进一步加强。采用关联系规则对学生成绩进行数据挖掘,通过数据仓库查看各个专业学生课程成绩单,并分析各个课程与其他课程之间的关联和影响,从而制定专业的人才培养计划。在制定计划的时候,依次从公共课、专业课到拓展课等方面设置相关课程。不同的专业开设课程的时间不同,开课时间次序对学生学习后续课程会产生一定的影响。但是过去很多高校在课程安排上比较随意,通常都是高校教务处的人根据过去的教学经验和主观认知,安排学生的课程时间。然而每一门课程都有它的特点,比如体育课学生可能需要大量的运动,消耗的体能比较多,运动过后学生无论精神上还是身体上都比较疲惫,这个时候上课的效果就不太好,所以在安排课程的时候,尽量将体育课安排到下午的时间段,这样不会学校其他课程的教学效果。通过关联性分析,找出每一门课程的影响因素,合理安排课程的先后顺序,为人才方案制定者提供科学的决策依据。

我们从教务管理系统中选取1000名软件技术专业学生的成绩,根据学生成绩进行数据挖掘,部分成绩数据如表1所示。

根据学生考试成绩表,分析学生不及格科目之间的关系,60分以下的设置最小支持度为0.04。设置关联规则的参数,将成绩范围设定为0至59,最小支持度为0.04。

使用Aprior算法对数据仓库中的相关数据进行关联规则分析,结果如表2所示。

通过对1000名软件技术专业的学生60分以下成绩进行数据挖掘,发现学生的电路分析和高等数学两门科目的置信度是0.51,C++程序设计这门课程的置信度是0.40。根据图表各个课程的置信度可以得出结论。如果学生在大一阶段的基础课程如高等数学学习成绩比较差,那么学生的电路分析和C++程序设计两门科目的学习成绩也会不太好,不及格的概率比较大。相对来说,如果高等数学和电路分析两门课程的置信度达到了0.35,那么对学生的电路分析和C++程序设计两门科目的学习成绩影响不大。那么可以得出这样的结论,电路分析课程开设在高等数学这门课程之后。通过以上分析,我们可以得出,将一些基础课程作为专业课程的前导课程,能够为学生后期学习打下坚实的基础;如果学生的基础知识学习不好,那么对专业课程的影响也很大,专业课程的学习和基础课程有直接关系。研究影响学生成绩优秀的课程之间的关系,80分以上设置最小支持度为0.04。设置关联规则的参数,设定分数范围80至100,最小支持度为0.04。

利用关联规则产生如表3所示的数据挖掘结果。

通过对软件技术专业考试成绩在80分以上学生进行数据挖掘,发现专业英语和大学英语两门课程的置信度是0.62,从中我们可以得出结论,如果学生的英语基础成绩比较好,那么学生的大学英语成绩也相对来说没有什么问题,学生的专业英语成绩分数也相对比较高。数据结构和C++程序设计两门课程是计算机专业的专业基础课堂,两门课程的置信度是0.64,从课程的置信度可以看出这两门课程对专业学习数据结果的影响,如果学生的数据结构这门课程学习成绩比较好,那么学生C++程序设计这门课程的学习成绩也比较好。从以上分析来网页设计和制作与photoshop图像处理两门课程的置信度是0.68,从中可以看出photoshop图像处理课程对网页设计和制作有很大影响。网页制作的时候,需要photoshop图形图像处理软件对图片进行处理和调整。所以photoshop图像处理课程可以设置在网页制作课程之前,以便学生在学习网页制作的时候,能够用photoshop软件对图片进行处理。

从上述内容我们可以看出,高校专业课程之间的关联性很强,从学生考试成绩就可以看出,因此在学校开设课程的时候,一定要考虑课程关联性影响,按照对学生影响大小制定开设课程的次序,并作为学校培养人才的重要依据。

此外在对学生成绩进行数据挖掘的时候,还要考虑到学生入学成绩和整体考试成绩,经学生的入学成绩录入系统,并对学生所有课程考试成绩综合分析,算出平均成绩,按照平均成绩划分优秀、良、差等不同等级,将入学成绩也分为优、良、差等不同等级,挖掘出入学成绩和考试成绩之间的关联。

成绩关联性数据挖掘结果如表4所示。

4 结论

从上述结果得出,如果学生的入学成绩差和考试成绩优的置信度是0.41,这就表明如果学生的基础比较差,那么在大学的考试成绩好的可能性不大。如果学生的入学成绩差和考试成绩优的置信度是0.65,那就表明基础成绩差的学生也可以考出良等的考试成绩,这样就能过去传统理论上入学考试成绩好的学生,在大学的学习成绩也会很好,如果入学成绩不好的学生,在大学的成绩肯定不好的这种理论。通过关联性分析,可以看出学生入学成绩的好坏与学生大学成绩的好坏并没有必然的联系。大学自由的学习气氛给学生的学习创造了良好的环境,如果学生抓住这个机会,自主学习,那么就能获得好的成绩,如果还是秉承按照高中阶段的学习思维,那么可能学生不利于学生的学习。

参考文献

[1]王少华等.关联规则在高校系统中的应用[J].福建电脑,2007(12):153-156.

[2]王能斌等.大学课表调度系统UTSS[J].计算机学报,1984(05):383-389.

[3]何炎样.关联规则的几种开采算法及其比较[J].小型微型计算机系统,2001(09).

[4]赵俏.高职院校教务管理中的数据挖掘[J].科技信息,2008(11):80,95.

[5]杨克松.论关联规则在高校选课系统中的应用[J].福建电脑,2007(10):166-168.

[6]周培德.算法设计与分析[M].北京:机械工业出版社,1996.

作者简介

周兴旺(1979-),男,江苏省扬州市人。工学硕士学位。现为南通科技职业学院讲师。主要研究方向为计算机网络技术、数据挖掘、教育教学管理等。

第4篇:数据挖掘课程设计论文范文

关键词:数据挖掘; 关联规则; 学生成绩; Apriori算法

中图分类号:TP392文献标识码:A文章编号文章编号:1672-7800(2013)012-0133-03

作者简介:岳超(1986-),男,西南科技大学计算机科学与技术学院硕士研究生,研究方向为教育技术与知识工程;范太华(1962-),男,西南科技大学计算机科学与技术学院副教授、硕士生导师,研究方向为数据挖掘和系统结构;姬亚利(1988-),女,西南科技大学计算机科学与技术学院硕士研究生,研究方向为网络教育教学设计;衣峰(1987-),男,西南科技大学计算机科学与技术学院硕士研究生,研究方向为网络教育与移动学习。

0引言

随着招生规模的不断扩大,教务管理系统中的数据急剧增加,普遍存在的问题是学生成绩数据量过于庞大,但目前对这些数据的处理还停留在初级的数据备份、查询及简单统计阶段,如何利用这些数据理性地分析教学中的成效得失以及找到有关影响学生学习成绩的因素是广大教师共同关心的问题[1]。 本文着重讨论了数据挖掘技术在学生成绩这一海量数据中的应用,发现成绩数据中隐藏的课程相关规则或模式,力图通过关联与分类,得出一些有用的知识,对教学质量的提高起到积极的促进作用。

1数据挖掘及关联规则

数据挖掘 (Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘是一个循环往复的知识发现过程,通过对挖掘结果的描述、分析与评价,不断优化数据挖掘模型和挖掘算法,最终获得最优化数据挖掘解决方案[2]。

1.1数据挖掘流程

(1)确定业务对象。清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。

(2)数据准备。①数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据;②数据的预处理:研究数据的质量,为进一步的分析作准备,并确定将要进行挖掘操作的类型;③数据转换:将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

(3)数据挖掘。对所得到的经过转换的数据进行挖掘。除了完善和选择合适的挖掘算法外,其余一切工作都能自动地完成。

(4)分析和同化。①结果分析:解释并评估结果,其使用的分析方法一般应视数据挖掘操作而定,通常会用到可视化技术;②知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。数据挖掘的过程如图 1 所示。

1.2关联规则简述

关联规则挖掘就是在海量的数据中发现数据项之间的关系,关联规则的支持度(support)和置信度(confidence)是规则兴趣度的两种度量。他们分别反映了所发现规则的有用性和确定性。 一般地,用户可以定义两个阈值,分别为最小支持度阈值(minsup)和最小置信度阈值(minconf)。 当挖掘出的关联规则支持度和置信度都满足这两个阈值时,就认为这个规则是有效的,否则,就是无效的。 这些阈值一般可由领域专家设定,也可以进行其它分析,揭示关联项之间的联系。

2基于数据挖掘的高校学生成绩分析

对学生成绩的正确分析,是保证教学工作顺利进行的关键,揭示一些“教”与“学”的现象和规则,能更好地指导教师的“教”与学生的“学”,为教育教学的计划和决策提供依据, 提高教学的效果和成果。

2.1数据采集

高质量的数据,是保证数据挖掘成功的前提保证。本研究所需数据取自计算机专业学生的期末考试成绩数据库文件,确定某门课程和其它课程之间的关联性。为减少不必要的影响因素,影响关联规则的产生,删除了英语类、思政类、体育类的课程,将数学类和计算机课程进行分析,最终随机抽取 385 名学生的《C&C++ 语言程序设计》、《线性代数》、《离散数学》、《计算机系统原理》、《计算机网络》、《计算机组成原理》、《软件工程》、《数据库原理》、《数据结构》等课程的期末考试成绩。

2.2数据预处理

数据预处理是数据挖掘的关键阶段,原始数据往往存在不完整的、含噪声的和不一致的数据,不能直接运用于数据的挖掘,需要对其进行数据预处理,包括数据清理、数据集成、数据变换等内容。

(1)数据清理。通过填充缺失值,光滑噪声并识别离群点,纠正数据中的不一致。从数据库中导出字段包括学号、课程名、成绩、备注等信息。对备注中显示补考、重修的成绩填充为50分。对缺失值的填充,我们运用了决策树归纳的方法,填写最可能的值进行填写,以便数据挖掘结果更准确。经数据清理的数据如表1所示。

(2)数据集成。将多个数据源合并到一致的数据存储,依据以往经验思政类和体育类课程对本研究的结果影响不大,予以删除。根据此类思想整理数据,并将所有数据集成到一个Excel中,最终数据包含4 065条271名学生的15门数据。

(3)数据变换。将数据转化成适合于挖掘的形式,如将属性数据按比例缩放,使之落入一个比较小的区间内。由于成绩是按照数值形式存储的,不利于数据的挖掘,需要对各科成绩进行离散化处理,将成绩分为优秀、良、一般、差4个等级,分别用A、B、C、D进行标识,规定85~100为A,75~85为B,60~75为C,60分以下为D。笔者运用Apriori算法对表1数据进行关联规则的挖掘,进行数据转化后如表2所示。

2.3Apriori算法的运用

采用SPSS Clementine工具进行数据挖掘,预处理的数据已满足Apriori算法对数据的要求,导入数据可直接使用Apriori模型进行分析。为了得到更有效的数据,笔者进行了反复的验证。设置条件支持度为0.15,最小规则置信度为0.75,挖掘结果如图2所示。

2.4结果分析

上面挖掘的关联规则并非每条都有现实意义,我们进一步进行处理,将关联规则模型导出,分析这些关联规则,得到主要知识如下:

(1) 学好计算机应用基础、C&C++程序设计、数据结构是学好数据库的基础,数据结构又是学好软件工程的基础。

知识发现过程如下:计算机应用基础=A =>数据库=A,支持度为32.32%,置信度为85.3%。计算机应用基础和数据库同时是A的人数占总人数的32.32%,计算机应用基础为A中85.3%的人数据库原理也为A,所以说要学好数据库原理先要学好计算机应用基础,C&C++程序设计=A =>数据库原理=A,支持度为42.35%,置信度为86.56%,同上解释,C&C++程序设计也是数据库原理的基础。数据库原理=A =>软件工程=A,支持度45.36%,置信度为81.02%,数据库原理也是软件工程的基础。

(2) 学好离散数学是学好数据结构的基础。

(3) 要把计算机操作系统学好,计算机组成原理、C&C++程序设计、数据结构、离散数学是基础。

(4) 计算机操作系统取得好成绩的人数中76%的人计算机网络也学的好。

(5)C&C++程序设计、数据结构和数据库原理又是学好软件工程的基础。

此处只列出了部分知识发现,管理者可以以此为参考,结合实际情况对所学的课程进行调整,并通过预警对学生的学习进行提醒和帮扶。学生可以结合自己的成绩及时预测某门课程的成绩,及时补救,加大课程的学习力度。

3结语

利用关联规则中的Apriori算法对计算机科学与技术专业的课程进行了挖掘,找出了隐藏在课程背后有趣的规律,发现偏离正常学习轨道的学生,及时进行预警和干预,帮助学生顺利完成学业,对学生课程的学习和管理者的决策提供参考,也为关联规则在其它学科的应用提供了思路。

参考文献参考文献:

[1]朱艳丽,高国.Apriori算法研究及其在学生成绩分析的应用[J].福建电脑,2010(1):47.

[2]韩家炜.数据挖掘概念与技术[M].北京:机械工业出版社,2010:41-43.

[3]王海容.数据挖掘在学生成绩分析的应用[J].电子设计工程,2013,21(4):54-56.

第5篇:数据挖掘课程设计论文范文

关键词:数据挖掘;院校教育;教学管理

中图分类号:G424文献标识码:A文章编号:1009-3044(2009)27-7591-02

Discusses the Application of Data mining Technology in the Colleges and Universities Education Informationization Shallowly

LI Yong

(The Computer Room of Bengbu College of Automobile Management, Bengbu 233011, China)

Abstract: As one kind of emerging data technology,the data mining obtains the widespread application in many domains.The article embarked from data mining's concept,has outlined the major function and the process of data mining,and expounded the application of data mining in the colleges and universities education informationization from the teaching management,the teaching appraisal,the curriculum,the teaching method choice and so on.

Key words: data mining; colleges and universities education; teaching management

现代计算机技术、信息通讯技术和网络技术在院校教育系统的整合应用,在一定程度上实现了教育教学、组织管理、校园生活服务等活动的数字化、网络化、自动化,提高了教育质量和效率,形成了适应信息社会要求的全新的教育和管理模式,即教育信息化。院校教育信息化带来的是信息量的急剧增长和对信息提取的更高要求,现在再依照传统方法在海量数据中寻找决策的依据是很困难的事情。数据挖掘是一个新兴的多学科交叉领域,利用数据挖掘技术可以帮助人们分析、理解存储在计算机系统中的海量数据,为决策提供支持,因此,可以借助数据挖掘工具去发掘院校教育数据中隐藏的规律或模式,为教育教学决策提供科学依据和更有效的支持。

1 数据挖掘

1.1 数据挖掘的定义

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、有用的信息和知识的过程。数据挖掘是对数据内在和本质的高度抽象与概括,是对数据从感性认识到理性认识的升华。它涉及对数据库中的大量数据进行抽取、转换、分析以及模型化处理从中提取辅助决策的关键性数据,因此数据挖掘就是深层次的数据信息分析方法。

1.2 数据挖掘的主要功能

具体来说,数据挖掘具有预测趋势和行为、关联分析、聚类、概念描述以及偏差检测等主要功能。

预测趋势和行为:数据挖掘可以自动在大型数据库中寻找预测性信息,以往需要由手工分析大量数据完成的问题如今可以通过数据挖掘迅速直接地得出结论。

关联分析:数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。

聚类:数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。

概念描述:概念描述就是对某类对象的内涵进行描述,并对其特征进行概括。

偏差检测:数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例等。

总之,数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,获取有意义的信息,归纳出有用的结构,作为决策者进行决策的依据。

1.3 数据挖掘的过程

数据挖掘一般包括以下几个基本过程:

1) 确定和逐步理解应用领域。清晰地定义出业务问题,这是数据挖掘的重要一步。

2) 数据选择。搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。

3) 数据预处理。研究数据质量,确定将要进行的挖掘操作的类型。

4) 数据编码、数据转换。将经过预处理的数据进行一定的格式转换,使其适应数据挖掘系统或挖掘软件的处理要求,形成一个分析模型。

5) 数据挖掘。利用各种数据挖掘方法对数据进行分析,挖掘用户需要的各种规则、趋势、类别、模型等。

6) 解释结果。将挖掘结果以可视化的形式展现在用户面前。

7) 管理发现的知识。

2 数据挖掘在院校教育信息化中的应用

院校教育信息化所产生和积累的数据,为我们进行数据挖掘提供了有效的数据。数据挖掘技术可以应用于院校教育信息化的多个方面,如教学管理,教学评价,课程设置,教学方法选择等等。

2.1 辅助教学管理

随着计算机在教学管理方面的广泛应用,学生和教师的学习、工作、奖励、处罚等。

信息被存储在教学管理数据库中,通过分别对师生数据库进行挖掘,利用得到的有价值的数据来制定正确决策。

2.1.1 合理制定教师培训、招聘计划

在院校教师管理中,传统方法是运用日常管理中积累表层信息实施决策,这样只能获得数据的表层信息,并不能获得内在属性和隐含的信息。如果转变理念,运用数据挖掘理论,采用新技术分析这些数据,就会使大量的数据信息得以有效利用。

利用分类算法对不同年龄、学历、职称级别的教师教学数据进行分析,确定哪些专业的人才可以通过内部培训产生,哪些专业人才短缺而且急需,需要通过引进解决,从而达到平衡内部人才和外部招聘人才的关系,进而制定教师进修、培训、招聘计划,以调整师资队结构,使专业教师分布均衡。

2.1.2 分析学生特征

学生入学后,在校学生管理数据库中存放有大量的学生档案,包括的内容有家庭情况、身体状况、入校前后的学习成绩、特长爱好、奖惩等信息。利用数据挖掘的关联分析和演变分析等功能,在学生管理数据库中挖掘有价值的数据,分析学生特征,掌握学生的状态,帮助学生修正自己的学习行为。通过对学生特征分析结果和事先制订的行为目标标准进行比较,使学生提高学习能力、完善人格,促进其综合素质的发展。

2.2 辅助教学评价

教学评价就是根据教学目标和教学原则的要求,系统地收集信息,对教学过程中的教学活动以及教学成果给予价值判断的过程。其内容主要包括对学生“学”的评价和对教师“教”的评价。目前,院校教育评价指标主要包括学生综合测评指标和课堂教学评价指标,这些评价指标多数是参考国内外相关评价指标体系并结合实际操作中的经验和调查问卷等制定的,对于各项指标之间的关系、重要程度以及指标存在的合理性等方面很难作出判断,将关联规则和粗糙集理论应用于各评价系统,可以对指标进行排序、约简等,在一定程度上对评价指标进行优化,可以找到比较合理且简单易行的评价指标体系。

首先,院校教育信息化产生了大量数据,如学生的学习成绩数据库、行为纪律数据库、奖励处罚数据库等。利用数据挖掘工具对这些数据库进行分析处理,可以及时得到学生的评价结果,对学生出现的不良学习行为进行及时指正。同时,还能够克服教师主观评价的不公正、不客观的弱点,减轻教师的工作量。

其次,将关联规则运用于教学评价数据中,探讨教学效果的好坏与教师年龄、职称之间的关系、学生各项素质指标之间的关系等,能够及时地对教师的教学和专业发展以及学生的学习和个性发展提供指导。

最后,将数据挖掘中的关联规则应用于分析试卷数据库,根据学生得分情况可以分析出每道题的难易度、区分度、相关度等指标,教师也可以据此对试题的质量作出比较准确的评价,进而可以用来检查自己的教学情况及学生的掌握情况并为今后的教学提供指导。

2.3 合理指导课程设置

院校的课程设置有其一定的规律性,先基础,后专业,学习是循序渐进的。如计算机专业的学生在学习数据结构这门课程之前,会先学习语言程序设计和离散数学等课程。如果先行课程没有学好,势必会影响后续课程的学习。此外,同一年级学习同一课程的不同班级,由于授课教师、班级文化的不同,班内学生的总体成绩也会有所差异。每学期安排课程的多少,也会影响学生的学习效果。我们可以利用学生的学习成绩数据库中存放的历届学生各门学科的考试成绩,结合数据挖掘的关联分析与时间序列分析等相关功能,从这些数据中挖掘出有用的信息,帮助分析这些数据之间的相关性、回归性等性质,得出一些具有价值的规则和信息,最终找到影响学生成绩的原因,并在此基础上对课程设置做出合理安排。

2.4 辅助选择适当教学方法

在教学过程中,教师通常采用多种教学方法完成对本门课程的教学任务,如讲授法、讨论法、案例法、演示法、实验对比法、参观学习法等等。这些大量的教学班次实践过的经验数据存放于教学数据库中,可以用数据挖掘的方法来挖掘数据库中的数据,判定当前的教学班应该采取什么教学方法才能满足教学需要,更有利于学生对知识的理解和吸收。课程结束后将每个学生的成绩和对教学方法的评价进行综合,运用回归线性分析、关联规则的方法来判断本次教学方法适合哪一类学生,对于分类、分层次教学具有推广和指导意义。

3 结束语

数据挖掘作为一种新兴的数据处理技术,在数据的利用和提取方面发挥着日益重要的作用。在教育领域的应用,为教学工作的决策、设计、实施以及评价等各项内容提供了新的途径和方法,随着数据挖掘技术在教育领域中应用功能及技术的不断发展和完善,必将发挥越来越大的作用。

参考文献:

[1] Insight into Data Mining Theory and Practice.范明,牛常勇,译.数据挖掘基础教程[M].北京:机械工业出版社,2009.

[2] 段向红,张飞舟.数据挖掘技术及其在职业教育中的应用探讨[J].职业教育研究,2007(7).

第6篇:数据挖掘课程设计论文范文

关键词:web数据挖掘 智能选课系统 学生培养

中图分类号:TP312 文献标识码:A文章编号:1007-3973 (2010) 02-068-03

1引言

随着教育信息化得发展,越来越多的高校开始使用智能系统对数据库进行管理,有利于实现对蕴含在数据里的信息进行挖掘,为相关工作提供理论依据。传统的选课系统是教师按照专业进行划分,学生只能在专业相关的层次上对学习的课程进行选择。而智能选课系统改变了传统的选课模型,能根据学生的不同兴趣和特点提供相应的学习课程选择,能充分体现出因人施教。文章把web数据挖掘技术应用到智能选课系统的模型构建中,利用关联规则发现学生的学习兴趣和特点,给出相应的学习课程选择,这将为高校针对性的对人才培养提供一个方法。

2数据挖掘的基本原理方法

数据挖掘是一种决策支持过程,主要基于人工智能、机器学习和统计学技术,从数据库的大量数据中提取出隐含的、先前未知的、有应用价值的、非平凡的模式。其中,模式指数据库之间的逻辑关系;而非平凡指在知识的发现过程中具有的不断定性和一定的自由度 。数据挖掘的过程主要分为三步:数据预处理、数据挖掘及结果的分析和评估 。数据预处理是数据挖掘过程中一个很重要的步骤,尤其是在对含有噪声、不完整、甚至不一致的数据进行数据挖掘时,需要进行数据预处理以提高数据的质量,并最终达到提高数据挖掘所获模式知识质量的目的。数据挖掘首先要确定挖掘的任务和目的,确定挖掘任务后,就要决定用什么样的挖掘算法。选择算法有两个考虑的因素:一是不同的数据有不同的特点,因此要用与之相关的算法来挖掘;二是要根据用户和实际运行系统的要求。在结果的分析和评估中,对一些可能存在的冗余或无关的模式,要将其剔除。如果挖掘出来的模式不符合用户要求,则需要重新选择数据,采用新的数据变换方法,换用新的参数值。数据挖掘的具体步骤如图1所示。

图1 数据挖掘步骤

Web数据挖掘是数据挖掘技术在web环境下的应用。它所处理的对象包括:静态网页、web数据库、web结构和用户记录信息等。一般基于web的数据挖掘主要分为三类:(1) web内容挖掘。对文档的内容进行挖掘或提取关联信息,并对文档的内容进行总结和概括。(2)web结构挖掘。从站点组织结构和页面结构中推导出知识,对web页面间的结构进行挖掘,找出数据链的结构进行分类、聚类,从而发现页面间的关系,找出重要的页面。(3) web使用记录挖掘。通过分析web服务器上的日志文件,从而挖掘出用户访问web的兴趣模式,分析用户行为的意义 。

Web数据挖掘的系统框图如图2所示,系统大致可分为四个模块:数据收集模块(服务器端数据、客户登记信息)、数据预处理模块、模式规则选择模块和应用接口模块。模式收集模块负责收集服务器端的数据和客户登记资料,然后以文本的方式将收集的结果返回;数据预处理模块对返回的信息进行预处理,去除信息冗余;模式规则选择模块则是从各个站点或站点间获取通用模式,同时还对获取的模式负责解释 。

图2Web数据挖掘系统框图

3智能选课系统模型构建与分析

构建的智能选课系统模型如图3所示:

图3智能选课系统模型

其中,学生信息库,用于记录学生的学习行为兴趣;学习课程推理机,通过人机交互,从学生信息库中获得信息,启动推理系统工作,为学生提供合理的选课课程范围。信息挖掘模块,用于控制、协调整个智能选课系统,用于描述关联、聚类分析等数据挖掘的方法并根据当前数据库中学生信息应用知识库中知识,按确定的推理规则进行推理,对学生的信息进行分析,从而给出学生选修学习课程的范围。领域知识库,用于存放相关知识的课程。

图4学生选课流程

Web数据挖掘技术在智能选课系统中的具体应用主要有:

(1)利用人工神经网络挖掘学生信息库中学生对以前课程学习的知识点的理解程度。人工神经网络在结构上模仿生物神经网络,是一种通过训练来学习非线性预测的模型。这个算法的学习过程,由正向传播和反向传播组成,在正向传播过程中,输入信息从输入层经隐单元层逐层处理,并传向输入层,每一层神经元的状态只影响下一层神经元的状态。如果在输出层不能得到期望的输出,则转入反向传播,将误差信号沿原来的链接通路返回,通过修改各层神经元的权值使得误差信号减小,然后在转入正向传播过程,反复迭代,直到误差小于给定值 。

(2)利用聚类分析对学生的学习兴趣和特点进行分类。信息挖掘模块从学生信息库中抽取学生特征,按照学生的学习兴趣进行分类,并赋予每个学生类标记,然后根据记录里每类学生的特点,给出相应的选修课程范围。聚类分析是数据挖掘中一种非常重要的技术和方法,聚类就是将一组相关集合按照某种相似度函数或相似性准则划分成若干类别,使同一类别个体之间的差异达到最小化,不同类别之间的差异达到最大化。聚类分析的问题可描述为:给定m维空间Rm中的n个各向量,把每个向量归属到S个聚类中的某一个,使得每个向量与其聚类中心的距离最小。聚类分析的实质是一个全局优化问题。此外,m可认为是样本参与聚类的属性个数,n是样本个数,S是由用户预先设定的分类书目或聚类个数 。

按照聚类结果表现方式的不同,聚类分析算法可以分为:基于群的聚类算法――这种算法可看做进化计算的一个分支,它模拟了生物界中蚁群、鱼群和鸟群在觅食和逃避敌人时的行为;基于粒度的聚类算法――聚类是无导师的学习,聚类的目的是发现样本点之间最本质的抱团性质的一种客观反映,聚类的操作是在一个统一的粒度下进行计算的;基于模糊的聚类算法――模糊聚类分析具有描述样本类属中间性的优点,能够客观反映现实世界,人类大多用一些模糊的词语来交流思想互通信息,然后进行推理分析、综合判断,最后做出决策。人们对客观事物的识别往往通过一些模糊信息的综合,来获得足够精确的定论 。

(3)利用关联规则发现学生的学习兴趣特点,进行相应的课程推荐。关联规则挖掘是从数据库中挖掘出那些支持度和置信都大于用户指定的最小支持度和最小置信度的关联规则。设I={i1,i2…,im}是由m个不同的项目组成的集合,D是针对I的事物集合,每一笔事物包含若干项目ii,ij,…,ikI。关联规则表示为XY,其中XI,YI,并且XY。X称作规则的前提,Y是结果。一般把一些项目的集合称作项目集。在项目集中项目的数量叫做项目集的长度。关联规则XY成立的条件是:(1)它具有支持度s,即事物数据库D中至少有s%的事物包含X和Y;(2)它具有置信度c,即在事物数据库D中包含X的事物至少有c%同时也包含Y 。

关联规则的挖掘是一个两步的过程:(1)所有频繁项集。根据定义这些项集出现的频繁性至少与预定义的支持计数一样;(2)频繁项集产生强关联规则。根据定义,这些规则必须满足最小置信度和最小支持度。

对关联规则的评价主要从两个方面进行:(1)系统客观层面――是指关联规则的有趣性是规则的具体结构和在数据挖掘过程中所依赖的数据决定的。支持度和可信度度量是系统客观层面评价关联规则的两个常用客观性指标;(2)用户主观的层面――只有用户才能决定规则的有效性和可行性,所以应该将用户的需求与系统更加紧密集合起来,形成用户主观层面的评价。可采用基于约束的数据挖掘方法,具体的约束内容有数据约束、限定数据的挖掘维和层次和规则约束 。

4智能选课系统关键算法实现

挖掘模型主要分为算法实现库、挖掘配置、知识库和数据呈现四个功能实体,且每个功能实体都以动态链接库的方式。

聚类K-means算法实现如下:

Procedure K-means(s,k)

S={X1,X2,…Xn}

m=1;

for j=1 to k//初始化聚类中心Zj

Do {for i=1 to n

for j=1 to k

{D(Xi,Zj)=|Xi-Zj|;

If D(Xi,Zj)=Min{D(Xi,Zj)}then Xi∈Cj}//归类

If m=1 then Jc(m)=∑kj=1∑|Xi-Zj|2

m=m+1;

for j=1 to k

Zj=()/n; //重置聚类中心

While |Jc(m)-Jc(m-1)|>

其中Xi为n个输入数据对象的集合;输出为K个聚类中心Zj及K个数据对象集合Cj。

关联规则的数据挖掘Apriori算法实现如下:

Input: 学生信息数据库D;

最小支持度 min_sup;

Output: 所有频繁项目集;

C1={candidate k-itemset};

L1={c∈C1|c.count≥min_sup};

for{k=2, Lk-1≠,k++}do begin

Ck=sc_canditate(Lk-1); /*生成所有长度为k的候选项目集*/

for all transactions t∈D do begin

C1=count_support(Ck,t);/*求数据库记录t包含的候选项目集*/

For all canditates c∈C1 do

c.count++ /*候选项目集支持度计数加1*/

end

Lk={c∈Ck|c.count≥min_sup};

end

Answer=UkLk

该算法利用一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。其中D表示数据库;k-itemset表示长度为k的项目集;Lk表示长度为k的频繁项目集;Ck表示长度为k的候选项目集;min_sup表示给定的最小支持度;Answer表示所有的频繁项目集。

5结语

基于web数据挖掘技术的智能选课系统采用聚类分析、关联规则、人工神经网络等方法,能从学生的访问、学习记录和测试中挖掘出有用信息,评估出学生的学习兴趣和特点,给出相关的页面和选修课范围,这样可以提搞学校教务选课系统的服务水平,为系统的决策提供智能化手段,也为高校合理的培养人才提供了一个方法。

(基金项目:湖南科技学院2008年科研项目(08XKYTC041)资助)

注释:

Borges J., Levene M.. Data mining of user navigation patterns[C]. Proceedings of workshop Web usage Analysis and user profiling. San Diego,2000, pp:31-36.

Jiawei H., Micheline K.. Data Mining: Concepts and Techniques[M]. San Francisco: Diane Cerra, 2006.

韩晓莉,李秉智.个性化Web推荐服务研究[J].计算机科学[J],2006,33(4):135-138.

赵东东.电子商务中的web数据挖掘系统的设计[J].微计算机信息,2007,10(3):168-170.

徐欣,徐立鸿.教学质量评价与预测的人工神经网络方法[J].统计与决策,2009,20:159-160.

刘立军,周军,梅红岩.Web使用挖掘的数据预处理[J].计算机科学,2007,34(5):200-204.

李明华,刘全,刘忠等.数据挖掘中聚类算法的新进展[J].计算机应用研究,2008,25(1):13-17.

第7篇:数据挖掘课程设计论文范文

关键词:数据挖掘;进阶课程;教学方法研究;本科高年级

学生在本科高年级学生中开设数据挖掘等进阶课程是十分必要的,以大数据、数据挖掘为例,其相关技术不仅是当前学术界的研究热点,也是各家企事业单位招聘中重要岗位的要求之一。对于即将攻读硕士或博士学位的学生,对于即将走上工作岗位的学生,了解并掌握一些大数据相关技术,尤其是数据挖掘技术,都是不无裨益的。在目前本科教学中,对于数据挖掘等课程的教学,由于前序课程的要求,往往是放在本科四年级进行。如何激发本科四年级学生在考研,找工作等繁杂事务中的学习兴趣,从而更好地掌握数据挖掘的相关技术是本课程面临的主要挑战,也是所有本科进阶课程所面临的难题之一。

1数据挖掘等进阶课程所面临的问题

1.1进阶课程知识体系的综合性

进阶课程由于其理论与技术的先进性,往往是学术研究的前沿,工业应用的热点,是综合多方面知识的课程。以数据挖掘课程为例,其中包括数据库、机器学习、模式识别、统计、可视化、高性能技术,算法等多方面的知识内容。虽然学生在前期的本科学习中已经掌握了部分相关内容,如数据库、统计、算法等,但对于其他内容如机器学习、人工智能、模式识别、可视化等,有的是与数据挖掘课程同时开设的进阶课程,有的已经是研究生的教学内容。对于进阶课程繁杂的知识体系,应该如何把握广度和深度的关系尤为重要。

1.2进阶课程的教学的目的要求

进阶课程的知识体系的综合性体现在知识点过多、技术特征复杂。从教学效益的角度出发,进阶课程的教学目的是在有限的课时内最大化学生的知识收获。从教学结果的可测度出发,进阶课程的教学需要能够有效验证学生掌握重点知识的学习成果。1.3本科高年级学生的实际情况本科高年级学生需要处理考研复习,找工作等繁杂事务,往往对于剩余本科阶段的学习不重视,存在得过且过的心态。进阶课程往往是专业选修课程,部分学分已经修满的学生往往放弃这部分课程的学习,一来没有时间,二来怕拖累学分。

2数据挖掘等进阶课程的具体教学方法

进阶课程的教学理念是在有限的课时内,尽可能地提高课程的广度,增加介绍性内容,在授课中着重讲解1~2个关键技术,如在数据挖掘课程中,着重讲解分类中的决策树算法,聚类中的K-Means算法等复杂度一般,应用广泛的重要知识点,并利用实践来检验学习成果。

2.1进阶课程的课堂教学

数据挖掘等进阶课程所涉及的知识点众多,在课堂上则采用演示和讲授相结合的方法,对大部分知识点做广度介绍,而对需要重点掌握知识点具体讲授,结合实践案例及板书。在介绍工业实践案例的过程中,对于具体数据挖掘任务的来龙去脉解释清楚,尤其是对于问题的归纳,数据的处理,算法的选择等步骤,并在不同的知识点的教学中重复介绍和总结数据挖掘的一般性流程,可以加深学生对于数据挖掘的深入理解。对于一些需要记忆的知识点,在课堂上采用随机问答的方式,必要的时候可以在每堂课的开始重复提问,提高学习的效果。

2.2进阶课程的课后教学

对于由于时间限制无法在课上深入讨论的知识点,只能依靠学生在课后自学掌握。本科高年级学生的课后自学的动力不像低年级学生那么充足,可以布置需要动手实践并涵盖相关知识点的课后实践,但尽量降低作业的工程量。鼓励学生利用开源软件和框架,基于提供的数据集,实际解决一些简单的数据挖掘任务,让学生掌握相关算法技术的使用,并对算法有一定的了解。利用学院与大数据相关企业建立的合作关系,在课后通过参观,了解大数据技术在当前企业实践中是如何应用的,激发学生的学习兴趣。

2.3进阶课程的教学效果考察进阶课程的考察不宜采取考试的形式,可以采用大作业的形式。从具体的数据挖掘实践中检验教学的成果,力求是学生在上完本课程后可以解决一些简单的数据挖掘任务,将较复杂的数据挖掘技术的学习留给学生自己。

3结语

数据挖掘是来源于实践的科学,学习完本课程的学生需要真正理解,掌握相关的数据挖掘技术,并能够在实际数据挖掘任务中应用相关算法解决问题。这也对教师的教学水平提出了挑战,并直接与教师的科研水平相关。在具体的教学过程中,发现往往是在讲授实际科研中遇到的问题时,学生的兴趣较大,对于书本上的例子则反映一般。进阶课程在注重教学方法的基础上,对于教师的科研水平提出了新的要求,这也是对于教师科研的反哺,使教学过程变成了教学相长的过程。

作者:刘峥 王俊昌 单位:南京邮电大学计算机学院

参考文献:

[1]孙宇,梁俊斌,钟淑瑛.面向工程的《数据挖掘》课程教学方法探讨[J].现代计算机,2014(13).

[2]蒋盛益,李霞,郑琪.研究性学习和研究性教学的实证研究———以数据挖掘课程为例[J].计算机教育,2014(24).

[3]张晓芳,王芬,黄晓.国内外大数据课程体系与专业建设调查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.

第8篇:数据挖掘课程设计论文范文

论文摘要:现有的网络教学系统,虽然自身信息量极其丰富,但教师对学生的学习情况缺乏了解,无法满足学生个性化的学习需求。Web日志全面记录学生网上学习的行为,是解决问题的有效方法,文章设计并实现了Web日志挖掘系统,从中发现相似的学生群体,以及浏览兴趣路径,帮助教师及时调整站点结构提供宝贵的建议参考。  

一、引言 

针对某课程的网络教学系统网站的服务器上每天记录了大量的学生网上学习的行为记录的,通过对Web日志进行挖掘可[1]以帮助任课教师了解哪些教学内容学生比较感兴趣,网站的使用情况,根据发现的信息对网站结构进行改进,以吸引更多的学生来进行网上学习,提高网站的服务效率。 

二、系统需求分析 

基于以上的目的,以某职业院校的某课程的网络教学系统为研究对象,设计并实现了Web日志挖掘系统,取得了较好的实验效果。系统主要是对该网络教学系统的日志数据进行采样、预处理[2],然后运用基于选择路径和浏览页面的聚类算法对处理后的数据进行模式分析,获得Web站点用户的浏览兴趣路径和用户聚类群。 

三、系统功能模块 

系统的功能包含管理员和用户两部分。管理员主要是设置采样时间、配置挖掘参数,修改网站拓扑结构信息;用户主要是实施Web日志挖掘,进行用户[3]识别、会话识别、事务识别、最后得到用户浏览兴趣路径。 

(一)管理员功能 

管理员主要是该网站的建设者以及该课程的实训指导教师负责设置采样时间、设置挖掘参数、添加网页改变网站结构。 

1.设定采样时间:实现从大量的Web日志数据中选取基于配置文件中的采样时间段的日志数据的功能,并将获取该时间段的日志数据存储到数据库中。管理员通过修改配置文件更改采样时间段(以天为单位)。 

2.设置挖掘参数:挖掘参数包括会话超时时间、选择路径兴趣度所占的权重wr、浏览页面兴趣度所占的权重wn、浏览兴趣[4]路径使用的阈值。会话超时时间前人实验得到的经验值为25.5分钟,管理员可重新设定;选择路径兴趣度所占权重与浏览页面兴趣度所占权重之和为1。默认设定为wr=0.5,wn=0.5,可进行更改。 

3.调整网站拓扑结构:包括调整页面顺序,添加新的页面,删除过时的页面等。 

(二)普通用户功能 

普通用户主要指该课程的任课教师、学生以及该系部的教务员。 

1.用户识别:依据规则从日志中识别不同用户,并保存用户访问信息。主要有2个规则:第一,不同的用户名(UserID)代表不同的用户;第二,不同的IP地址代表不同的用户。 

2.会话识别:根据会话识别规则,对用户数据进行会话识别,得到用户一系列的会话数据。同时提供了基本的会话信息,如用户的浏览路径序列。会话识别后,将会话信息保存会话信息表中,以备事务识别使用。 

3.事务识别:根据规则将用户会话序列分割为事务,并将事务序列信息存储事务信息表中,作为用户聚类的数据输入。 

4.用户聚类:依照聚类算法,把所有用户划分为不同的用户群,并将用户群信息存入用户群表中,作为系统的最终数据。 

5.浏览兴趣路径:找出用户浏览兴趣模式,同时得到浏览兴趣路径的相关信息,包括浏览兴趣路径序列。 

四、系统结果分析 

实验以某职业院校网络教学管理系统服务器上的日志为研究对象,搜集了8周的数据,作为系统的测试用例。从实验结果中可以看到,浏览兴趣路径的长度一般不超过5。这就表示在设计教学网站时网站深度不要太深,避免给用户访问造成不便。从总体来看,学生浏览的路径分为3大类,分别是查看作业、通知、课件。而教学大纲以及视频查看的人寥寥无几。本算法的执行时间与网站的URL数目n有关系,它的时间复杂度为O(n2)。因此在该网站中当不断的增加新的页面时,算法的执行时间也会随之增加。当网站的页面数目超过20时,该算法有待于进一步验证。 

参考文献: 

[1]胡迎松,宁海霞.一种新型的Web挖掘数据采集模型[J].计算机工程与科学,2007,29(2):36-39 

[2]陈峰.基于Web日志的用户兴趣聚类研究[D][硕士学位论文].合肥:合肥工业大学,2008 

第9篇:数据挖掘课程设计论文范文

关键词:数据挖掘;网络课程;决策树;C4.5算法;关联规则;聚类分析

中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)23-5561-03

Research on Application of Data Mining Technology in Network Curriculum Teaching Platform

LIU Yan-qing

(Center of Computer Network, Ningxia University, Yinchuan 750021, China)

Abstract: Aiming at the deficiency of the traditional network management method, a new scheme of data mining based on the C4.5 algorithm of decision tree are proposed,Firstly, In this paper it introduced the Data Mining Technology,Secondly, it analyzed the Application of Data Mining Technology in Network curriculum teaching platform,In the end ,With the application of students’ scores as example, it analyzed the Application of Data Mining Technology in Network curriculum teaching platform.

Key words: data mining; network curriculum; decision tree; C4.5 algorithm; Related regulation; clustering analysis

由于Internet技术的快速发展,远程网络教育获得了飞速的发展,网络学习逐渐成为人们关注的热点, 网络课程作为网络教育的载体,是决定网络教育质量的一个关键要素,每学期随着班级、专业以及课程的不同,所有课程信息必须更新,管理系统形成的海量数据为课程管理决策应用的效率并不高,难以适应远程网络教育的发展需要,因此,为了实现科学、高效的课程管理,文中将数据挖掘技术应用到网络课程管理中,通过对日常教学管理中的数据进行分类挖掘,找出隐藏在数据后面的信息,这些信息可以帮助学校更好地对学生的培养管理,可以帮助教师更加有效地开展教学活动,进而进一步提高教学质量。

1 数据挖掘技术在网络课程管理中的应用

网络课程管理系统通常由以下几部分组成:信息录入(含课程信息、院系部信息、教师教辅人员信息、学生信息)、信息查询(含院系部信息、教师教辅人员信息、课程信息)、统计分析(含部门统计、课程统计、学生学习情况统计、成绩统计)、导出数据(课程信息导出、学生成绩导出)、资源下载、课程展示、课程检索、师生互动、学生评价和系统管理。

网络课程管理系统中存放着大量的数据,根据各种需要,可以对这些数据进行不同的组合分析,从这些数据中发现隐含的、有用的模式或关系用于指导教学与管理。在网络课程管理系统中,数据挖掘技术可以应用在以下几个方面:

1)关联分析:如学习资料之间的关联及课程之间的关联,将这些关联分析应用于课程设置中,可以帮助教学管理人员合理安排课程,还可以根据学生查阅资料的特点将经常一起查阅的资料归类在一起,从而节省学生在课程网站上查找资料的时间;

2)聚类分析:通过聚类分析,把学生分组组成协作学习小组, 找出他们具有共同特点,针对不同的聚类,教师可以采用不同的教学方法;

3)分类与预测:可以利用C4.5分类算法构造综合素质测评分类器,评价指标有学习成绩、思想品德、参加活动、学习实践情况等,得出学习成绩与教师职称、教师学历、学生生源地及学生性别之间的关系,以改进综合测评的方法,促进学生全面发展。

4)时序模式:通过对学生访问数据统计,利用WEB挖掘技术,使用数据挖掘的序列模式挖掘方法对文档进行分类,提高学生检索信息的速度,可依据学生访问的数据进行挖掘分析,对访问数据进行聚类分析,了解学生感兴趣的内容,访问站点之间的关联,分析学生访问习惯及兴趣点,并在有关联关系的页面之间设置超链接等来改善网站的结构。

2 学生成绩数据挖掘过程

学生成绩是评估教学质量的重要依据,是评价学生对所学知识掌握程度的重要标志,通过对现有学生成绩数据库中的成绩数据进行数据挖掘,根据决策树的结果来判断各门课程的成绩与外在因素的关系,以及对发现的关系进一步量化,并把决策结果通过可视化软件显示给教辅人员查阅,以便他们根据这些问题对教学做出相应的调整,从而提高学生学习质量。

2.1 确定挖掘任务

传统的成绩统计方法,通常是计算均值、方差、信度、效度和区别显著性检验等,对成绩的分析处理方法通常是统计成绩为优、良、及格、不及格等级别的人数及比分比,而很少对影响学生成绩的因素进行全面的了解分析,这样不利于进一步提高学生的成绩, 因此,为了进一步提高成绩,需要对这些数据信息进一步挖掘分析,从而得出结论,供教学使用,而按照学生成绩属性的特征进行分类,采用决策树方法可以从一组无次序、无规则的数据记录中推理出决策树表示形式的分类规则;对于教师来说,了解学生的学习兴趣与差异对教学很重要,因此,本文将决策树分析应用在学生成绩分析中,通过挖掘分析,找出影响学生成绩的主要因素,以便在以后的教学活动中采取相应的改进措施。

2.2 准备数据

在学校每学期结束时,网络课程管理系统中,保存了学生所参与课程的成绩信息,而成绩是与学生关联最大的数据,每学期都有新的成绩数据产生,且随着时间推移,成绩数据库中的数据量将越来越大。因此,为了从学生成绩中提取有用的信息供教学参考,本文以历年来的学生成绩作为要分析的数据,希望从学生成绩信息中发现与提高学生学习成绩有关系的一些因素。如学生的性别,教师的学历高低,教师职称的高低,学生生源地是城镇还是农村等与学生成绩密切相关的属性。

2.3 C4.5算法设计

本文主要是对学生成绩进行分析,而成绩是数值型的数据,因此在分析时所用的算法是基于信息熵的决策树分类算法C4.5,C4.5是在ID3算法基础上改进的,其特点主要是根据属性集的取值选择实例的类别及各级决策树,C4.5主算法描述如下:

1)在训练集T中,使用计算方法选取属性作为子集T={T1,T2,T3,T4,……};

2)用C4.5 “建树算法”对子集分裂T={T1,T2,T3,T4,……}进行信息增益(嫡)计算,生成决策,并得到测试子集T1,Ti的信息增益,“建树算法”为:首先对当前训练集T数据计算每个样本子集的信息增益S={S1,S2,S3,S4,……},然后, 选择互信息S={S1,S2,S3,S4,……}中最大的特征属性Smax作为树(或子树)的根结点Tboot,接着将那些嫡值大于平均值的样本子集合并成一个临时的复合样本子集归于同一子集,该取值作为树的分支Tos={Tos1, Tos2, Tos3, Tos4,……},最后,对树的分支Tos={Tos1, Tos2, Tos3, Tos4,……}中分类结果不为同一类的子集递归调用建树算法, 若子集仅属于同一类分类结果,对应分支结束作为树的叶结点,返回调用处;

3)对训练集T1,Ti中所有属性进行类别判定,找出类别的分类;

4)若分类结果为同一类, 转到步骤2)进行,否则对子集T1,T2,T3,T4,……再分别进行属性分裂,取其子集T={Ti1,Ti2,Ti3,Ti4,……},转到步骤2)进行;

5)判定此决策树为最后结果。

2.4 属性选择度量

属性选择度量又称分裂规则,其是将给定的类标记的训练集元组的数据“最好”地划分成各种个体类的启发式方法,其中具有最好度量的属性被选作给定元组的分裂属性,其相关计算公式如下:

原来信息: (1)

期望信息: (2)

信息增益: G(B)=f(B)-E(B)(3)

分裂信息: (4)

增益率: GR(B)=G(B)/sf(B)(5)

上式中, 假设类标号属性具有k个不同值,定义了k个不同类集合U={U1,U2,U3,U4,……},Bi是Ui中的样本数, B 是 Bi个训练集的集合, Q(Bi)是Ui的概率。

3 算法实现

为了验证上述算法的正确性,文中从英语专业的专业课成绩中随机抽取400名学生的成绩组成训练集进行试验, 把其中的连续属性平均成绩经过分类转换为离散属性:S1=[85,100];S2=[70,85]:S3=[60,70];S4=[0,60],并将训练集中的数据进行简化如下:学生性别={男,女},教师学历:{ 博士研究生,硕士研究生,本科,专科 },教师职称={教授,副教授,讲师,助教},学生生源地性质:{ 农村,城镇},学生成绩={S1,S2,S3,S4},其中, S1有160个, S2有80个, S3有80个, S4有80个,

3.1 属性计算

学生的成绩期望信息为:

下面以性别属性计算为例:在400个数据中, 一共有220个女同学, 分别是:S1有80个, S2有40个, S3有60个, S4有40个,有180个男同学,分别是S1有80个, S2有40个, S3有20个, S4有40个;按照公式⑵计算期望信息,

于是,性别的信息增益为:G(B)=1.922-1.891=0.031;

按照公式⑷计算性别属性的分裂信息为:

按照公式⑸计算性别属性的增益率是; GR(B)=G(B)/sf(B)=0.031/0.993=0.0312;

按照此方法依次可以计算出,

教师职称增益率为 GR(B)=G(B)/sf(B) =0.0435;

教师学历的增益率为 GR(B)=G(B)/sf(B)=0.0403;

学生生源地的增益率GR(B)=G(B)/sf(B)=0.0278。

3.2 决策规则的生成

利用决策树形成的各种分类模型, 利用IF.THEN语法形成分类规则, 在IF.THEN分类规则中,从根到树叶的每一条路径都创建一条规则,THEN部分用该决策树中叶点所标记的类别表示,IF部分用决策树中一条路径所形成的属性值表示;决策树从一种表示形式到另一种表示形式的转换是非常简单直接的,就可以得到相应的THEN部分结论,就可以得知这个学生成绩是属性哪个分类。

从上面的学生成绩系统中抽取教师的学历、学生所学的专业、教师的职称、学生的性别、学生生源地性质和平均成绩进行建树分析,从构造的学生成绩的决策树中,可分析得知影响学生成绩的最重要的因素是教师职称,其次是教师学历,学生性别和学生生源地性质,这棵树的构成是很符合现实要求的。

4 结束语

数据挖掘技术已在多个领域得到很好的应用,学校各部门多年来积累了大量的数据,但这些数据只是简单的存储在数据库中,没有得到深层次地分析与利用。本文对数据挖掘技术在分析高校网络课程相关数据中的应用进行了讨论,并通过C4.5算法在分析学生成绩中的应用, 揭示了成绩背后的深层意义,找出了隐藏着的教学信息与规律,通过加强对这些教学信息与规律的教学管理,提高学生的学习成绩,有助于网络教学质量的动态管理。

参考文献:

[1] 周曦.数据挖掘技术在网络营销中的作用[J].电脑知识与技术,2011(11).

[2] 施晓华.数据挖掘技术在图书馆学科数据馆藏分析中的应用[J].情报杂志,2011(1).

[3] 廖燕玲.数据挖掘在学生职业能力分析中的应用[J].电脑知识与技术,2010(33).

[4] 李D琳.数据挖掘技术在教务信息挖掘系统中的应用[J].制造业自动化,2010(4).