公务员期刊网 论文中心 正文

浅谈多维数据挖掘和决策树粗糙集理论

浅谈多维数据挖掘和决策树粗糙集理论

摘要:随着信息技术和数据库技术的发展,数据存储被越来越多的企业使用,机构和部门,这需要更多的智能和数据挖掘的更准确的方法。多维数据挖掘技术,包括联机分析处理技术和数据挖掘技术的基础上,建立了日益完善的数据仓库技术和OLAP技术,使得用户可以更方便的选择和分析。本文主要研究和分析了粗糙集的多维数据挖掘,包括多维数据集的概念,决策树技术和粗糙集的集成,以及基于粗糙集数据挖掘的多维设计。

关键词:多维数据挖掘;粗糙集;决策树技术

1概念的多维数据和粗糙集

1.1基本的OLAP多维数据集的概念

多维数据库和多维数据集的多维数据库中提出的物流方式。多维是人们观察数据的特定。层次是指部门描述在不同程度的数据,例如,时间维度包括日,月,这样的水平,年度和季度。成员的价值观。数据单元数的多维数组的维数可以挑选出的成员,这些成员可以确定一个特定的值。度量,一般数值度量指标,用于描述数据。多维分析是一系列分析(切片,旋转等)的数据(以多维的方式获得)来观察和控制更加全面而详细的数据,并把信息和物质。数据层指的是多维数据集的一个子集,是由一个或几个维度的维度的成员有限的任命。数据旋转意味着改变尺寸的位置去观察用户从其他角度的多维数据。

1.2数据挖掘的概念

数据挖掘的功能是发现蕴含在其中的是很难找到的数据信息和技术。随着人们日益增长的对信息的价值的知识,数据挖掘是逐步发展。这种技术可以解决信息不完全的数据过多的问题,建立关系模型和做出正确的预测。它具有传统加工方法的特点和优势,如处理大型数据库;随机信息查询;有用的规则和合理的预测基于数据挖掘技术;及时响应和决心改变数据,包括寻找规律和管理,维护。这些规则是不断更新新的数据进入,他们并不适合所有的数据,因为数据库是非常大的,如果他们同意在一定范围内适用。

1.3数据挖掘过程

数据挖掘主要包括四个环节:业务对象的确定和主题分析;数据预处理包括数据选择,清洗,转换和加载;对选定的知识水平直接相关的数据挖掘;验证结果分析得到新的,可用的和可理解的数据;知识同化避免矛盾。

1.4粗糙集理论的基本知识

粗糙集理论已被应用于许多领域(机器学习,决策,流程分析,数据挖掘)。粗糙集理论是分类成集嵌入知识,并把它的一部分。在工业应用中,一些知识库可能是如此复杂和庞大,多余部分应消除为了简化知识。简化的过程包括还原两域。知识依赖也应该控制。在信息系统中的数据(决策表)的智能系统,可以以多种方式呈现,如语言形式和数字形式。不准确的数字形式会使获得的信息不完全和不均匀,这个问题需要通过知识表示方法解决。这表示一般的信息系统(信息表)在粗糙集理论。知道的知识表示系统的概念可以很容易地以表格的形式表示的系统,即知识表示系统或信息系统的属性值表。决策表,重要的和特殊的表,可以准确地描述一些复杂的逻辑和简洁。这一决策表可以连接独立的术语与几个动作直接得到明确表示。

1.5粗糙集理论的五大特征

第一,它能处理各种数据,包括零碎的数据和数据的多变量;其次,它可以处理不精确的、模糊的数据,包括确定性和非确定性;第三,它可以计算出知识和知识水平的不同粒度最小的表示;第四,它可以揭示出的管理模式与简单的概念;第五,它可以产生精确的规则易于检查和验证,特别适用于自动生成规则的智能控制。此外,粗糙集理论的最重要的优点是它能提供的先验信息,除了数据集需要解决的问题。当然,这个理论不是万能的。

2决策树

2.1概述决策树算法

数据分类是最常用的数据挖掘分析方法。具体地说,它是建立一个分类函数或模型图的数据记录到预先假定类和基于训练集的了解数据的预测。高高的可理解性和决策树方法简单的计算成本,使得它越来越受欢迎。不过,有一定的随机性和不确定性这一方法。决策树是一种用于计算净现值的期望值大于零,通过决策树和价值上的所有情况的概率是已知的前提下,其可行性概率决策分析方法。这是一个直观的使用概率分析的图解法。它被称为决策树由于其决策机构图看起来像一棵树。在机器学习中,决策树是一种表示对象的属性和对象值之间的映射关系预测模型。决策节点的几种可能方案的选择,即最终优化方案。状态节点代表的经济效应(期望值)的替代方案。通过比较所有节点地位的经济效果,最佳的方案可以在一些决策标准的选择。结果节点代表自然条件下各方案的损益值。评价指标具体包括以下五个环节:预测精度,分类意义地模型来预测新的数据类型的能力;简洁地描述,这一评价指标的决策取决于理解水平和对问题的描述方式;计算复杂,主要是指空间和实践地复杂性因为他们都是计算成本密切相关;模型的鲁棒性,这种评价指标是准确预测的基础数据分类互补的能力,尤其是当有噪声或数据不完整的治疗手段;可扩展性,准确性和能力建设(分类)模型数据库非常大的。

2.2基于粗糙集和决策树的数据挖掘算法设计的集成

2.2.1描述算法分类是预测和评估新的案件类型的相似性通过根据现有的类型以掌握客观事物存在的规则。分类主要是把相同的元素的特性(包括一些基本特征,在这种特征的对象的值)在一起。粗糙集离不开分类机制的支持。分类是一种等价关系,等价关系分类是这个空间的分类。决策树是一种用实例来提高分类,归纳算法预测未知数据的处理和挖掘。粗糙集理论的数据预处理和对海量数据的处理和消除冗余属性约简的生命比其他方法更容易。然而,粗糙集理论没有交叉验证的特点,所以它可能不是很准确。决策树方法具有高速,简单,易懂的分类规则,但它是适用于数据集的属性,可能会导致可怕的结构分类。总之,粗糙集和决策树相互受益,他们都是用来处理离散数据。所以他们可以集成来降低数据的粗糙集消除冗余,然后发现分类规则的决策树。

2.2.2算法程序基于粗糙集和决策树相结合的数据挖掘算法的过程是逐步选择的关键属性,形成一个新的条件属性集,并不断重复这个过程直到D组赶上。

2.3比较算法

决策树,也可称为分类解析,将通过递归集合训练直到所有的或大部分的记录在每一个子集都是同一类型。主要的决策树算法目前使用的方法基于信息理论和最小的基尼指数法。通常,归纳学习系统将得到一个决策树的应用具有几个优点:理解用户;生成决策树和处理大规模训练集的能力的时间少;决策树,也可称为分类解析,将通过递归集合训练直到所有的或大部分的记录在每一个子集都是同一类型。主要的决策树算法目前使用的方法基于信息理论和最小的基尼指数法。通常,归纳学习系统将得到一个决策树的应用具有几个优点:理解用户;生成决策树和处理大规模训练集的能力的时间少;生成算法简单的检查;明确规定顺序决策方法确定案件的类型;高精度。然而,有一些缺点和决策树很容易被不相关的属性的干扰。为了解决这一问题,粗糙集技术要求。根据决策树的评价标准,这两种技术的结合可以大大减少计算的复杂性和描述。

3基于粗糙集数据挖掘的多维设计

不断提高数据仓库技术和OLAP技术,多维技术(包括联机分析处理和数据挖掘)创建。下面的过程是通过粗糙集理论和决策树技术研究实现数据挖掘系统的设计。

3.1系统设计目标

本系统是通过在SQL服务器分析服务器环境VB.NET开发。应用该系统可以实现对数据的多维数据集,在这样的环境中建立数据挖掘。在用户选择数据的维度和维度的层次结构,他们将得到不同的和全面的决策树,通过本系统的内隐知识。此外,该系统还具有模型验证功能。据此,用户可以选择最合适的挖掘模型,得到高精度的信息。

3.2系统设计

该系统有6个数据挖掘:数据准备;数据抽取;数据筛选;数据预处理;训练数据集的决策树分析;通过检查数据集分析结果检验。数据准备需要建立多维数据集在SQL服务器分析服务器环境分析。ADOMD技术用于数据选择。在选择正确的尺寸和维度的层次结构和多维数据集的度量值,系统可生成MDX语句,得到相应的数据集。数据抽取是随机抽取数据的随机函数生成分析数据表,在前面的步骤中产生的数据是不准确的,足够短暂。在这一环节产生的数据是未经预处理的,所以其决策属性是连续的,有相当多的决策属性。数据预处理是离散和减少训练集。确保所有的连续属性离散的等频率离散化的措施。然后减少离散数据,并将数据集分成训练数据和检验数据集。进行决策分析,对预处理后的数据集,包括建立数据挖掘模型,该模型加载选定的数据集和分析这些训练集的决策树。

4结论

总之,基于粗糙集和决策树相结合的基础上,该系统可以通过对多维数据集的数据挖掘算法的数据分析产生更全面的知识,以提高决策者的决策的准确性。目前,多维数据挖掘是不完善的,需要改进。例如,在知识约简过程注意是不均匀的;该算法只适用于离散属性值;有很多算法(时序分析)可用于多维数据挖掘。

参考文献:

[2]高静,徐章艳,宋威,等.一种新的基于粗糙集模型的决策树算法[J].计算机工程,2008,34(3):9-11.

[4]罗秋瑾,陈世联.基于值约简和决策树的最简规则提取算法[J].计算机应用,2005,25(8):1853-1855.

[5]马秀红,宋建社,董晟飞.数据挖掘中决策树的探讨[J].计算机工程与应用,2004,40(1):185-185,214.

[6][德]M.巴斯蒂安.武森,高学东,译.数据仓库与数据挖掘[M].北京:冶金工业出版社,2003.

[7]翟俊海,王熙照,张沧生.基于粗糙集技术的决策树归纳[J].计算机工程与应用,2009,45(18):45-47.

[8]黄宇颖.基于粗糙集的决策树算法在体检系统中的研究[J].计算机工程与应用,2008,44(25):78—80.

作者:戴艳丽 单位:宿迁高等师范学校