公务员期刊网 精选范文 地理数据的基本特征范文

地理数据的基本特征精选(九篇)

地理数据的基本特征

第1篇:地理数据的基本特征范文

近年来,许多学者对传递函数的设计进行了深入的研究,也取得了不少令人瞩目的成果,大致可以分为3类:基于特征的传递函数设计,寻求友好的用户交互模式,利用硬件加速绘制过程.在基于特征的传递函数设计方面,Kindlmann等[1]根据一阶梯度和二阶梯度设计传递函数,给出了二阶梯度的计算公式,对于较为复杂的数据场,如脑组织,利用高阶梯度来设计多维传递函数能够得到较好的绘制效果.Lundstrm等[2]利用直方图采集邻域内的数据特征,从而让表征空间关系的特征指导传递函数设计.Correa等[3]利用表征可见性的高维直方图设计传递函数,使得用户在处理复杂数据时更加得心应手,其中使用的可见性直方图能够最大化地显示用户感兴趣的区域.Kindlmann等[4]还利用曲率进行多维传递函数的设计,通过对亮度进行卷积计算高质量的曲率并将其设计成多维传递函数,能够较好地解决表面光滑、非真实感绘制、等值面确定等多方面的问题;不仅如此,该方法还能够突出显示三维图像中各结构的山谷和山脊部分,使得这些结构的边缘和轮廓更加清晰.Caban等[5]提出了基于纹理特征的传递函数,引入了纹理描述子的概念,并为每一个体素计算多种纹理特征,包括一些基本特征、共生矩阵、游程矩阵等.医学图像中许多结构和组织都具有类似的亮度值,考虑了纹理特征之后,这些结构都能够得到有效的辨别.此外,Correa等[6]提出了基于尺度的传递函数设计,他们尝试在不同尺度下分析纹理特征,进而设计传递函数.对于一些一维或二维传递函数不能很好显示的数据集,在考虑尺度信息之后,如靠近骨骼的血管、脑血管包围的肿瘤等,用户比较关心的组织都能得到较好的突出和显示.

上述方法大都选择了一种或几种最具代表性的特征作为传递函数设计的核心,以此来改进仅仅通过亮度、梯度等基本特征来设计传递函数的方法.Chen等[7]研发了一项能够感知形状的体插图技术,能够根据不同的形状特点和绘制风格增强体插图的绘制效果,尤其是突出结构的整体形状,但该技术需要依赖人工绘制的插图.Prassni等[8]根据三维形状特征设计传递函数,利用管度、平面度以及球度分析局部的形状特征,通过计算骨架进行区域合并得到形状分类,并设计了一个简洁的图形界面辅助用户选取具有特定形状的结构.通过分析局部区域的形状特征,该方法能够区分不同类型的血管并且能够识别简单结构中的动脉瘤.由于选取的特征较为简单,对于复杂结构而言,尤其是具有相似球度或者管度的组织,文献[8]方法将遇到障碍,用户也很难迅速地选出感兴趣的结构.在寻求友好的用户交互模式上,Kniss等[9]设计了一种便于用户交互的多维传递函数,并且开发了一些小工具以便用户更自然地设定某些结构的颜色和不透明度.Bruckner等[10]提出了风格化的传递函数并且引入了一种更加灵活和便捷的操作模式,他们使用了基于图像的光照模型,利用球型映射实现非真实的绘制效果.

这种方法能够在绘制结果中同时体现不同类型的绘制风格,并且能够实时地输出高质量的体插图,从而具有很好的用户体验.Ropinski等[11]设计了一种基于笔触的传递函数,用户一旦通过笔触选择了感兴趣的区域,该方法便会自动地分析阈值并设计相应的传递函数;不仅如此,他们设计的交互界面还能将用户选择的结果存为不同的图层,从而将多种结果以任意组合的方式叠加显示.Reitinger等[12]以用户为中心设计传递函数,采用增强现实的技术让用户在一个模拟的环境中参与交互,并将采集到的尺度信息融入到传递函数的设计中.类似的方法在提高体绘制质量的同时更多地考虑用户的交互行为,从而更为便捷地得到用户想要的绘制效果.此外,Botha等[13]设计了一种能够实时反馈绘制效果的方法,其绘制结果相当于对切片进行预览,通过实时地观察切片状态,用户能够很方便地进行传递函数的调节.Lampe等[14]提出了面向curve-centric数据集的并行绘制算法,利用该算法,用户可以得到以弧长为轴的图像,从而实现并行的体渲染.对于稠密型数据,该算法还能得到曲线所在邻域由内至外的投影,从而帮助用户对曲线周围的数据进行检查.而Engel等[15]则提出了基于纹理特征并采用硬件加速的体绘制方法,即便体数据的分辨率不高,也能得到高质量的绘制效果.该方法利用可编程的硬件单元实现了基于多种纹理的体绘制算法,通过采用更高级的纹理读取和像素共享操作,让绘制时间不再依赖于等值面的个数以及传递函数的设计模式,从而极大地提升了绘制性能.

这些方法更倾向于利用一些最新的研究成果,尤其是硬件方面的支持来加速绘制过程,优化用户体验.从现有的传递函数设计方法不难看出,对纹理特征的研究已较为深入,而几何形状特征的挖掘却相对较少.在传递函数设计过程中,除梯度和曲率外,很多形状特征并没有被考虑进来.由于三维数据场中很多结构是和形状特征密切相关的,充分利用形状特征可以极大地增强传递函数设计的灵活性,因此本文提出了利用形状特征设计传递函数,它不仅提取形状特征加以绘制,还综合考虑多种具有代表性的基本特征,并利用聚类算法和GPU支持将绘制效率提升到实时,使用户能够灵活地选择绘制方式,迅速地找到感兴趣的组织和结构.此外,本文还将突出形状特征的传递函数添加到Stegmaier等[16]设计的渲染引擎spvolren中,搭建了一个突出形状特征、支持多维传递函数设计的体可视化引擎,极大地提高了体绘制质量.

2利用形状特征设计传递函数

2.1本文方法总体框架

所示为本文方法的框架,其由特征提取、分水岭算法、K均值算法,突出形状特征的传递函数计算以及体绘制5部分组成.利用分水岭算法可以将具有相似特征的体素聚成一类,在保持基本特征的同时减小数据的规模;之后采用K均值算法则能根据用户指定实时的进行聚类.这样,用户能够立刻观察到参数调节的结果,从而更快地锁定感兴趣的区域.其中,前3个部分构成了数据预处理环节,而后2个部分构成了绘制环节.

2.2体数据的预分割

1)基本特征

考虑到分割后的数据能够减小不同类别间数据的干扰,进一步提升绘制效果,因此本文提取了一些具有代表性的基本特征以便对体数据进行分割.中列举了本文中使用到的5种基本特征.由此可知,每一个体素vi分别对应一个5维的特征向量.为方便后续说明,本文将其记为Di=[d0d1…

2)分水岭算法

在提取出基本特征之后,本文利用分水岭算法[17]对数据集进行聚类.尽管该算法常常造成过分割现象,但它能够在削减种类达3个数量级的同时保持相邻体素的特征.而种类的减少也使得后续K均值算法的实时运行成为可能.由于分水岭算法中需要依据某一标准对各体素进行排序,为便于调节,本文引入权值数组Wws对特征向量进行加权,从而得到分水岭算法中的排序依据Fi,即Fi=Di•Wws=∑4j=0dj•wwsj.

3)K均值算法

普通的CT或MRI(如256×256×256的Head数据集)经过分水岭算法聚类后,种类数目一般会下降到105量级.因而,利用快速K均值算法[18]能够实现实时聚类.同样地,为便于调节绘制结果,本文引入权值数组Wkm对数据进行加权,从而得到实际聚类时使用的特征Gi=[g0,g1,…,g4]=[d0•wkm0,d1•wkm1,…,d4•wkm4].

2.3形状特征的提取

在传递函数的设计中,特征的好坏直接决定了体绘制效果的优劣.鉴于此,本文选取了7种(共5类)最具代表性的形状特征用于传递函数的设计,如所示.由可知,每一个体素对应一个7维(5类)的形状特征向量Si=[s0s1…s6].下面将详细介绍这5类形状特征的计算方法以及它们的功能.

1)梯度特征.梯度特征的计算较为简单,大部分传递函数设计软件均提供此类方法.根据常用的梯度算子对每一个体素的邻域进行采样,从而计算出3个方向的梯度,即一个三维的梯度向量(见中梯度的计算公式).最后,用梯度向量的模作为该体素的梯度特征.梯度特征反映了体素在邻域内亮度值的变化速率,能够表征形状的粗糙程度.

2)光滑度.光滑度的计算也较为简单.由基本特征中的标准差可以很方便地算出光滑度特征(见中光滑度的计算公式),它能够反映形状的连续程度.

3)分形特征.分形特征的计算比较复杂,需要对采样半径的对数以及邻域内亮度积分的对数做线性回归[19].对于给定半径r,求得邻域内亮度积分μ(B-(x,r))=∑x-y≤rI(y).实际计算时,给定尺度λ,对邻域内(2λ+1)3个体素可能覆盖的半径r都进行计算,最终用线性回归的方法求得维度D作为该体素的分形特征(见中分形特征的计算公式).分形特征反映了体素的自相似性,对于具有复杂形状的结构具有较高的区分度.

4)线状特征.Yang等[20]提出了二维图像线状特征的计算方法,李宗剑等[21]将线状特征的计算推广到三维.本文中线状特征的计算略有不同,在统计出每一类直线所具有的亮度积分之后,用各类亮度积分的二阶范数作为该体素的线状特征,如中计算公式所示.线状特征能够反映结构的连续性和一致性,能够强化连续结构的绘制效果.

5)三维不变矩.三维不变矩的计算较为繁杂,主要参考了文献[22].这3个二阶三维不变矩的计算需要使用其他的三维矩,其计算方法为μpqr=∑x∑y∑z(x-x-)p(y-y-)q(z-y-)q.该不变矩能够度量局部范围内的形状特性.Yang等[23]还提供了一种更为高效的三维不变矩的计算方法,由于本文只涉及邻域范围内的不变矩计算,因而复杂度较小,即使不采用加速算法也对复杂度影响不大.

2.4形状特征的突出

由于传递函数是一种从体素到颜色和不透明度的映射,本文设计了一种能够综合考虑物体亮度和形状特征的映射方式.对于每一个体素vi,本文引入权值数组Wtf对形状特征进行加权,从而得到形状特征值Hi=Si•Wtf=∑6j=0sji•wjtf.最终,物体的绘制依赖于参数Li,它由体素的亮度Ii与形状特征值Hi加权得到.对于结构分布均匀的数据集,采用线性加权效果较好,其计算方法为Li=Ii(1-αs)+Hi•αs.对于亮度变化剧烈的数据集,采用指数加权的映射方式能够更好的突出细节,相应的计算方法为Li=I1-αsi•Hαsi,其中αs为形状突出度.

3实验及结果分析

形状特征不仅能够强化绘制效果,而且因其自身具有的高区分度,还能作为预分割的标准.鉴于此,本文就形状特征的分类和风格化2类应用分别做了实验并对结果进行分析.

3.1利用形状特征进行分类

形状特征的分类结果,均为分类参数k=2时其中一类的绘制效果.a使用标准差和熵特征(1∶1混合)作为分水岭算法中的排序标准,而K均值算法中使用灰度计算距离;b使用分形特征作为分水岭算法中的排序标准,K均值算法中同样使用灰度计算距离.对比a采用的标准差和熵特征组合,b同样将肌肉(红色部分)和骨骼(黄色部分)从数据场中分离了出来,而基本特征则要组合在一起才能达到同样的效果.由此可知,分形特征具有很强的区分度.

3.2形状的风格化绘制

利用形状特征设计传递函数可以通过体绘制将指定的形状显示出来,实验结果证明了这种方法的有效性.事实上,用户仅需选择一些形状并指定形状突出显示αs即可让具有特殊形状的结构得到突出的显示.

1)利用三维不变矩设计传递函数所示为绘制效果随形状突出度变化的情况,可以看出,随着三维不变矩形状突出度的增大,类似牙齿等颗粒状的结构越来越突出.b,4c分别展示了突出线状特征(αs=0.75)和三维不变矩(αs=0.5)得到的绘制结果.对比a不难发现,c中结构的轮廓更加清晰.由此可知,三维不变矩能够突出结构的边缘部分,对结构致密且连续的组织较为敏感,因而具有较强的区分能力,即三维不变矩的性质是显著突出结构的边缘部分.

2)根据线状特征设计传递函数b,5c分别展示了线状特征(αs=1.0)和分形特征(αs=0.4)的绘制结果.对比a不难发现,b中结构的边缘更加光滑;而对比a同样可以发现,b中的骨头更为光滑.由此可知,线状特征的性质为:增强结构尤其是边缘部分的连续性.

3)使用分形特征设计传递函数所示为光滑度特征(αs=0.32)和分形特征(αs=0.3)的绘制结果.对比a可知,c中关节处的软骨部分更加明显;而对比a不难发现,b结构中内脏、血管、腿部肌肉等处均更为清晰.由此可知分形特征的性质:具有很强的分辨能力,能够区分结构复杂的组织.

第2篇:地理数据的基本特征范文

使用者请注明文章内容出处

(EI village已经收录本文)

李龙梅     张暴暴    冯辛安    刘晓冰

(大连理工大学CIMS中心  大连  116024)

 摘要:CAD/CAM是CIMS的核心,基于特征的产品建模是实现CAD/CAM集成的关键,本文通过分析典型CIMS中工程设计分系统功能模型,给出CIMS环境下CAD/CAM产品特征模型。

关键词:特征    产品信息模型   CAD/CAM

中图号:TP39

1.        CIMS集成产品模型与CAD/CAM基于特征的产品模型        计算机集成制造系统CIMS作为新一代工厂自动化模式之一覆盖了产品的整个生命周期。机械产品的生命周期包括从产品的市场需求分析、立项论证、生产决策、产品设计、工艺设计、加工制造、装配、测试到销售和售后服务的全过程。CIMS集成产品模型是产品生命周期中全部数据的集合,它是整个CIMS研究和处理的对象,所有类型的产品信息都集中储存在这个集成的产品信息模型中,信息的表达已将产品生命周期中的不同阶段都考虑进去,是整个企业在生产周期的任何阶段能共享的信息模型,它能在整体上和局部级上支持各种应用活动,使得面向制造、面向装配、面向质量等成为可能。集成产品模型是以用户需求、市场分析为出发点,以产品设计制造模型(CAD/CAM的模型)为基础,在产品整个生命周期内不断扩充、不断更新版本的动态模型。它应能克服以往仅从某一特定阶段的数据需求和数据处理的特点来建立数据模型,改善对产品产品生命周期中所有数据需求的全局分析的不足,而使得在产品生命周期中各阶段实现信息交换与共享。

 

    工程设计分系统CAD/CAM是CIMS的核心。 CAD/CAM就是按照产品设计-制造的实际进程,在计算机里实现应用程序所需要的信息处理和交换,形成连续的、协调的和科学的系统。实现CAD/CAM一体化的关键在于信息的集成。基于特征的产品模型,是实现CAD/CAM有效集成最佳方法,是CIMS集成产品模型的一个子集,是集成产品模型的基础模型,也是CAD/CAM系统中数据共享的核心。

    传统的基于实体造型的CAD系统仅仅是几何形状的描述,缺乏对产品零件信息的完整描述,与制造所需信息彼此是分离的,从而导致CAD/CAM系统集成的困难。将特征概念引入CAD/CAM,出现了产品特征模型。基于特征的建模是CAD建模的一个新的里程碑,它是CAD/CAM技术的发展和应用到达一定水平,要求进一步提高生产组织的集成化及自动化程度的历史进程中逐步发展起来的。基于特征的建模着眼于更好地表达产品的完整技术和管理信息,为建立产品集成信息模型服务,它使产品设计在更高层次上进行,设计人员的操作对象不再是原始的线条和体素,而是产品的功能要素,直接体现了设计意图,使建立的产品模型容易为非设计人员理解并便于组织生产,设计图样更容易修改,有助于加强产品设计、分析、工艺准备、加工检验各部门之间的联系,更好地将产品设计意图贯彻到下游环节,并及时得到意见反馈。因此特征建模是解决产品模型建立的可靠途径,于是出现了许多关于特征建模的研究。

    对特征技术的研究工作,主要可以概括为七个方面:特征的定义与分类、特征识别、特征建模、特征表达、特征检验、特征映射和特征数据库。特征的定义和分类的研究是特征技术研究的基础,但到目前为止,对特征定义和分类的研究还没有形成一个统一的标准,这是因为特征的定义和分类受到特征研究应用背景的制约。CAD/CAM的特征建模究竟应当包含哪些特征,各说不一。作者认为,作为CIMS的核心--CAD/CAM系统的开发应用,完全可以按照CIMS信息集成的概念进行,由于CAD/CAM最终要集成到CIMS中,基于特征产品模型最终要为CIMS中所有子系统共享,所以在研究特征造型时不仅需要考虑CAD/CAM本身的信息需求,而且需考虑其在CIMS中的地位、作用及其与CIMS中其它分系统之关系。本文就是通过研究典型CIMS中工程设计分系统功能模型各二级子系统的信息需求、本分系统与其它分系统信息联系,得出基于特征的建模应包含的特征定义与分类。

2.  CIMS中工程设计分系统的功能模型     一般可以将CIMS分为四个功能分系统和两个支撑分系统。四个功能分系统分别是工程设计分系统、管理信息分系统、制造自动化分系统和计算机质量保证分系统。两个支撑分系统分别是数据库和网络支撑分系统。

    图(1)所示为典型的工程设计分系统的功能模型图。工程设计分系统由产品数据管理(PDM)、产品设计、工艺设计和制造准备四个二级子系统组成。从这个图中我们可以清楚地看出系统内部数据信息的需求和流动。首先通过PDM将产品开发计划、生产经营计划管理等信息传到产品设计模块,将产品设计模块输出产品的技术报价、BOM表、图纸、技术文档等信息所形成的产品设计模型返回到PDM;工艺设计分系统从PDM中获取有关信息,完成工艺设计并将设计结果,如:工艺规程、专用工装图等技术文档返回PDM;制造准备模块从PDM中获得信息,编制数控加工、夹具需求计划等制造数据信息和各类技术文档返回PDM。产品设计、工艺设计和制造准备之间的信息通过PDM传送,改善数据的统一性和安全性。最后形成的基于特征的产品模型就存在于PDM中了。

       工程设计分系统的输入信息是市场信息和管理信息分系统传递的生产管理信息,输出O1将又成为质量保证分系统、制造自动化分系统、管理信息分系统的输入。在CIMS环境下,工程设计分系统应与生产管理、质量管理、制造自动化集成起来,因此特征建模时,应考虑这些分系统的信息需求。例如,质量保证分系统的功能是规划和执行企业的质量保证活动,它需要工程设计分系统提供有关产品几何数据、零件、原材料的基本数据、图纸、零件明细、产品结构、标准规范、加工、装配与检测规程和程序等,并从质量保证角度向CAD模块提出产品质量方面的要求和修改设计的意见,提出有关质量方面的要求和达到质量要求建议采取的措施,通过生产控制和维修实现质量控制。由于安排生产作业计划、物料需求计划、能力平衡计划、合同管理、仓库管理等需在管理信息分系统中完成,所以管理信息分系统与工程设计分系统之信息交换包括:供应商、用户基本数据,用户订单和车间下达任务的有关数据、图纸、零件明细、产品结构有关工具、消耗品数据、工艺规程等。

 

3.  特征的定义与分类   3.1特征的定义    在一个产品整个生命周期中产生的信息很多,其中包括:设计信息、制造信息、管理信息、质量信息、使用和维护信息等。这些信息又被CIMS中其它系统以不同的方式使用。产品设计初始特征模型是由设计人员建立的,然而在产品整个生命周期内,这个特征模型的不断完善需要设计师、工艺师、质量检测人员等的共同协作。

       本文对特征的定义是在CIMS环境下,特征是产品生命周期内信息完整描述的载体,特征是一种信息表示方法,包括几何信息和非几何信息。

  尽管特征的定义由于应用的不同而有差异,但特征的性质和作用是基本一致的。首先特征是低层的几何元素与零部件间联系的桥梁,特征将构成特征的几何元素有机地结合起来,形成能够表达特定功能或含义的形状结构,以体现面向应用的形状信息;此外,特征的组成元素可以作为尺寸 公差、表面粗糙度等加工信息的相关载体,使得工艺信息能完整地借助特征而得到表达。基于特征的产品模型不仅能支持各种应用所需的产品定义信息,而且能提供符合人们思维的高层次工程描述术语,并反映设计和制造意图,从而克服现行CAD/CAM系统中产品信息定义不完备性和低层数据抽象性的不足。为CAD/CAM信息的真正集成、及其向CIMS的集成提供保障。

       特征除了具有一定的几何信息以外,还包括在设计、工艺规划和制造过程中需要技术、功能等信息,即特征给各种数据赋予了一定的语义。特征建模所需处理的数据纷繁复杂,系统中的数据类型繁多,数据之间的关系也十分复杂,既包括反映产品形状几何拓朴信息的几何模型,又有反映设计结构功能的设计模型,还需处理具有加工特点和装配特性的制造模型,既要存储静态的产品标准、规范等信息,又要涉及动态产品设计、制造过程信息。

3.2特征的分类     在对CIMS工程设计分系统各子系统信息交换分析的基础上,从特征建模的角度出发可以将零件特征分以下6类:

    1)形状特征:零件上有一定拓扑关系的一组几何元素所构成的一个特定形状。它具有特定的功能及其特定的加工方法集。形状特征可以分为主形状特征和辅形状特征。其中主形状特征用于构造零件的主体形状(如圆柱体、圆锥体等),辅形状特征用于对主特征的局部修饰(如倒角、键槽、退刀槽、中心孔等)。辅形状特征附加于主特征之上,或附加于另一辅特征之上,根据辅特征的特点还可以将之进一步划分为简单辅特征、组合辅特征和复制辅特征。简单辅特征是指如倒角、退刀槽等单一特征;组合辅特征是由一些简单辅特征组合而成的特征如阶梯孔等;复制辅特征是同一辅特征按一定规律在空间不同位置上复制而成的特征,如周向均布孔、矩阵列孔等。也可以按获得形状的加工方法不同将形状特征分类。

    2)精度特征:用于表达零件各要素尺寸公差、形状公差、位置公差和表面粗糙度等精度要求信息。需特别指出的是,一般形位公差除公差项目名、公差值、基准外,还应包含公差检测原则(如包容原则、最大实体原则等)。精度特征是形成零件质量指标的主要依据。

        3)管理特征:用于描述零件的管理信息,如标题栏中的设计者、批量、一台份的件数、零件与其它产品的借用与通用关系、日期、编码以及生产管理中MRP-II所需信息,和设计过程管理,包括版本管理,使用者权限设定与管理,审定等,并为PDM提供所需的信息。

       4)技术特征:用于描述零件的性能、功能等相关信息。说明外观要求、搬运要求等图纸上无法在图上标注的要求,零件运行过程中工况条件(常规、极限),载荷与约束条件,为CAE提供模拟信息,为性能实验,分析计算、优化,有限元前处理提供条件。

   5)材料特征:用于描述零件材料的类型、理化指标及热处理等特殊要求、表面处理的信息集合。

   6)装配特征:用于表达零件在装配过程中所需用的信息,如与其它零件之配合、配作等关系,装配尺寸链信息、父项子项的信息。为装配工艺提供必要的信息。如组成产品的零部件之间在装配中的关系可分为:

   层次关系:机械产品是由具有层次关系的零部件组成的系统

   装配关系:包括描述实体模型几何元素之间直接的相互关系的几何关系,比如平面贴合、点面接触相切;描述零部件之间高于几何测层次的机械关系,如螺纹联接、键联接等;描述零部件之间运动关系(相对运动或传递运动),如相对转动,齿轮传动等。

   参数约束关系:设计中的参数分为两大类,一类是从上一层传递下来的参数,本层设计部门必须满足,而且无权直接修改,称之为继承参数,一类是设计中产生的新参数,它们有的是从继承参数中导出的,有的是根据当前设计需要制定的统称为生成参数。当继承参数改变时,相关的生成参数要随之调整。

        以上特征中,形状特征和精度特征是与零件建模直接相关的特征,而其余特征是CAPP系统选择毛坯、下料、制定工艺的依据,是质量保证系统制定质量检测规划的依据。特征之间的关系有反映主形状特征之间的空间相互位置关系的邻接关系;辅助特征从属于一个主特征或另一个辅特征时构成的附属关系;描述特征类之间关联属性而相互引用的引用关系;不同层次特征之间的继承关系等。

    以上特征是根据产品的对象定义的,支持产品生命周期多个阶段的通用特征,不同阶段之间的信息传递主要是通过基本特征这个信息载体,又可以称为基本特征。基本特征对不同应用领域具有不同视口、不同投影与继承,是特征模型支持下游操作和模型本身不断完善的途径。各个分系统结合各自不同信息,就形成了各自的应用特征,如工艺特征、制造特征、检测特征。所以应用特征,是面向具体应用领域或具体应用系统的专用特征,它满足具体系统的操作要求,同时它的信息是可以从基本特征中导出的。

 

          

图1 工程设计自动化分系统功能模型图

  

Feature-Based  Product  Model  In  CIMS 

Li Longmei, Zhang Baobao, Feng Xinan, Liu Xiaobing

(CIMS Centre of Dalian University of Technology, Dalian, P.R. China, 116024)

 

ABSTRACT:  CAD/CAM is a core element in CIMS, and hence the feature-based product modeling is the key to CAD/CAM integration. In this paper, a typical functional model of automatic engineering design system of  CIMS  is  analyzed,  and the definition and classification of features in CIMS-oriented and feature-based product modeling are discussed.

Keywords:  Feature, Product information model, CAD/CAM

 

参考文献

[1]冯辛安主编,CAD/CAM技术概论,北京:机械工业出版社.1995.

[2]贺建平、丁秋林、孙正兴,基于特征的产品信息建模技术研究,计算机辅助设计与制造,96(3).

[3]肖田元,CIMS与先进制造技术,工程设计CAD及自动化,96(4).

[4]唐荣锡、张关康、关红明,结合国情研究特征造型技术,计算机辅助设计与图形学学报,92(4).

第3篇:地理数据的基本特征范文

关键词:冲击地压;微震监测;流形学习;等距映射;支持向量机

DOIDOI:10.11907/rjdk.151280

中图分类号:TP391

文献标识码:A 文章编号:16727800(2015)006013804

基金项目基金项目:科技部“十二五”国家科技支撑计划项目(2012BAK04B06);山东省自然科学基金项目(ZR2013EEM019)

作者简介作者简介:邱涛(1990-),男,山东青岛人,山东科技大学信息科学与工程学院硕士研究生,研究方向为人工智能;贾瑞生(1972-),男,山东青岛人,博士,山东科技大学信息科学与工程学院副教授,研究方向为矿山灾害监测预警理论、信息融合与智能系统;吴春芳(1987-),女,山东临沂人,山东科技大学信息科学与工程学院硕士研究生,研究方向为数据挖掘、冲击地压前兆信息辨识。

0 引言

随着开采范围的扩大和开采深度的增加,应力集中程度越来越高,防冲难度越来越大,预防冲击地压事故,已经成为煤矿安全生产的重中之重。目前,通过微震前兆信息辨识冲击地压主要根据经验来确定,部分矿井采用单一能量和频次的阈值法来监测冲击地压的发生,预警准确率不甚理想。原因在于煤层岩体自身性质及复杂多变的力学响应特征,且对矿山动力灾害的发生机制还没有完全掌握,并且影响冲击地压发生的类型和因素多,针对采掘工作面冲击地压的微震信号都会有较大差异。目前对微震监测信息的分析处理手段还有待细化和提高,且预测预警冲击危险性识别方法亦较简单。因此,预测和识别冲击地压危险都没能很好地分析利用监测时空序列提供的丰富频谱信息[12]。对此,通过机器学习算法将微震信号中的丰富频谱特征进行提取分析,来作为辨识冲击地压前兆信息的有效手段。由于冲击地压成因复杂,微震监测信号表现为非线性、非平稳特征,使得冲击矿压前兆信息特征难以提取。针对传统时频分析方法的缺点,寻找一种实时性、准确性高的前兆辨识方法称为首要目标法,主要克服算法本身自适应性差,以及传统人工神经网络方法通过反复迭代计算目标值耗时较长等劣势[34]。寻找一种准确高效的前兆辨识算法成为科研人员的研究目标。等距特征映射(Isometric feature mapping, ISOMA)是TENENBAUM等[5]提出来的一种流形学习方法,主要特点是通过发现高维数据空间中观测数据的低维光滑流形数据结构,将最有代表性的特征数据从高维数据集合和大规模海量数据流中提取出来。现阶段,ISOMAP主要用于高维数据非线性降维[68]。

支持矢量机(Support vector machine,SVM)以统计学习理论的VC理论和结构风险最小化理论(SRM)为理论基础,能够得到现有信息下的最优解和避免神经网络方法中的局部极值问题,并灵活地解决了维数灾难问题,使其算法复杂度与样本维数无关[1013]。本文基于微震监测信号在固定大小的滑动时间窗口内进行时频域特征提取,组成多维向量表示冲击地压前兆信息;通过流形学习进行低维特征提取,得到训练样本集;基于SVM理论对这些数据集进行训练形成分类器,并应用分类器实现冲击地压前兆信息的实时在线监测预警。

1 等距映射算法

ISOMAP方法是Tenenbaum等[1416]根据使用最近邻图中的最短路径得到近似测地线距离,代替内在流行结构的欧式距离提出的一种非线性降维处理方法。通过对位尺度分析(MDS)进行处理,进而发现嵌入在高维空间中的低维坐标,从而实现数据降维。其主要步骤如下:

3 数据处理及分析

微震技术作为一种有效的监测预警手段[1921]。在矿山生产中,微震发生的频率、能量等信息作为发生冲击地压的判别前兆已经被越来越多的专家所认可,并且取得了丰硕的成果。微震能量以应力波的形式释放并传播,用拾震检波器接收能量较大频率较低的微地震信号。本文通过滑动拾窗从接收波形信息中提取有用的时频域特征信息,作为多参量预警冲击地压灾害前兆特征指标体系。

3.1 原始特征空间构建

将通过滑动时间窗获得的监测数据样本,通过机器学习算法,包括小波分析、时频统计、傅里叶变换等,进行样本特征提取构建初始训练特征空间,主要作为特征选择的原始特征集。对于井下岩石破裂产生的微震事件所反映出的信号数据,需要选择物理意义明确、具有应用价值和敏感的时频域特征参数指标。通过滑动时间窗对原始数据进行分割,将分割数据段作为时频统计分析的输入,得到观测样本。

其中,时域指标采用文献[22]提供的b值、η值Mm值峰值因子、峭度;频域指标采用A(b)值、频率重心Pc、频段能量E。

b值作为时域计算指标,能够反映震源区应力及介质条件,是震级-频度关系(G-R)中与区域有关的经验常数,可作为地震活动和岩爆的重要指示指标。分析历史微震监测数据发现,天然地震和矿震、冲击地压之间在震级和频度的关系方面,都遵守G-R关系,因而关于b值的应用研究颇具价值。

3.2 数据分析

在数据分析过程中,选取某矿工作面2011年5月份微震监测数据,采用波兰EMAG公司的ARAMIS M/E微震监测系统,配套软件根据震动事件生成日志文件,每月生成一个目录存放这些日志文件,并按年打包保存。将冲击地压危险程度定义为二分类状态:正常(NOR)、危险(DAN)。本文采用一对一法构造二分类分类器,使用图1给出的多类SVM分类流程,得到最终辨识结果。

基于采用时间序列的微震监测系统,取滑动时间窗口=24h,时间窗口向前滑移的步距设为3min。对内的微震监测信号进行时频域分析,提取表1中的10个特征指标,滑动时间窗口每滑动一次,即可生成一组10维的特征向量,则每小时可提取20组特征向量,一个月共提取向量14 400组,选取其中的2/3作为训练集,剩余的作1/3为测试集。采用Matlab小波包对信号进行6层多尺度分解,分别用表1中频段能量E1、E2、E3来表示微震信号3个频段的能量积聚情况。

3.2.1 降维处理

对时间窗所采集数据的原始特征空间X应用ISOMAP降维得到一个低维空间Y,其中N、K、d作为可变参数,分别代表的含义为:数据长度、近邻点数、空间维数。其中N为9 600,K=3~15,间隔为1,d=3~10。对不同的K、d分别进行计算。

3.2.2 SVM诊断结果

构造识别分类器并进行类别分类,讨论诊断正确率η随近邻点数K以及维数d 在取不同值时的变化情况。图2表示的是当N=9 600时,总体的诊断正确率η随近邻点数K和d的变化曲线。从图2可以看出,诊断率在7

图3表示K的取值范围为3~15,N=9 600,d=6时,辨识准确率随输出维数K的变化曲线,K=10时准确率最高,作为最佳输出维数。

为验证ISOMAP算法更适合处理微震监测信号,与局部线性嵌入(Locally linear embedding, LLE)、保局投影(Locality preserving projections, LPP)两种基于流形学习的特征提取方法进行了比较。分类器均采用Gauss-SVM,由于样本选取具有随机性,为保证测试结果正确,表2中对应的数据均为程序运行10次后求取的平均值。表2结果显示,诊断率达85.37%,说明采用流行学习提取特征集及作为分类器进行训练能够得到较好的结果。

4 结语

本文提出了将ISOMAP和SVM相结合的微震前兆辨识方法。利用非线性降维算法的数据投影过程中保持数据内在属性的特点,提取微震监测信号中的前兆敏感特征。结果表明,ISOMAP适应于非线性微震前兆信息特征的提取。

但对于降维算法参数K、d的选取缺乏自适应性,如要建立通用、可靠的前兆辨识方法,仍需大量的统计分析与研究工作。

参考文献:

[1]袁瑞甫,李化敏,李怀珍.煤柱型冲击地压微震信号分布特征及前兆信息判别[J].岩石力学与工程学报,2012(1):8085.

[2]吕进国,潘立.微震预警冲击地压的时间序列方法[J].煤炭学报,2010(12): 20022005.

[3]孙斌,薛广鑫.基于等距特征映射和支持矢量机的转子故障诊断方法[J].机械工程学报,2012(9): 129135.

[4]徐启华,师军.应用SVM的发动机故障诊断若干问题研究[J].航空学报,2005(6): 686690.

[5]TENENBAUM J B,SILVAVD,LANGFORD J C. A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290(5500):23192323.

[6]黎敏,徐金梧,阳建宏,等.一种基于流形拓扑结构的轴承故障分类方法[J].控制工程,2009(3): 358362.

[7]刘杏芳,郑晓东,徐光成,等.基于流形学习的地震属性特征提取方法及应用[C].兰州:2010年国际石油地球物理技术交流会,2010:144146.

[8]侯晓宇.基于流形学习的特征提取方法研究[D].大连:大连理工大学,2009.

[9]方瑞明.支持向量机理论及其应用分析[M].北京:中国电力出版社,2007:132135.

[10]徐启华,耿帅,师军.基于大规模训练集SVM的发动机故障诊断[J].航空动力学报,2011,26(12):28412848.

[11]徐丽娜,李琳琳.遗传算法在非线性系统辨识中的应用研究[J].哈尔滨工业大学学报,1999(2): 3942.

[12]黄江涛,王明辉,李武劲,等.基于动态权值的多分类器故障诊断系统[J].电子学报,2012(4): 734738.

[13]马笑潇,黄席樾,柴毅.基于SVM的二叉树多类分类算法及其在故障诊断中的应用[J].控制与决策,2003(3): 272276.

[14]刘海涛,汪增福,曹洋.基于流形学习的三维步态鲁棒识别方法[J].模式识别与人工智能,2011(4): 464472.

[15]程起才,王洪元,吴小俊,等.一种基于ISOMAP的分类算法[J].控制与决策,2011(6): 214122.

[16]刘粉香.线性及非线性特征提取人脸识别方法的研究[D].南京:南京林业大学,2009.

[17]张战成,王士同,邓赵红,等.一种支持向量机的快速分类算法[J].控制与决策,2012(3): 459463.

[18]丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011(1):12811286.

[19]赵善坤,李宏艳,刘军,等.深部冲击危险矿井多参量预测预报及解危技术研究[C].第十二届全国岩石动力学学术会议暨国际岩石动力学专题研讨会,2011:339345.

[20]陆菜平,窦林名,郭晓强,等.顶板岩层破断诱发矿震的频谱特征[J].岩石力学与工程学报,2010,29(5):10171022.

[21]赵毅鑫,姜耀东,王涛,等.“两硬”条件下冲击地压微震信号特征及前兆识别[J].煤炭学报,2012(12): 19601966.

[22]夏永学,康立军,齐庆新,等.基于微震监测的5个指标及其在冲击地压预测中的应用[J].煤炭学报, 2010,35(12):20112016.

第4篇:地理数据的基本特征范文

一、问题的提出

随着计算机技术与网络技术的普及和发展,数字图书馆在我国高校、政府以及科研机构都得到了有效发展。数字图书馆来源于图书馆馆藏的数字化从而充分地高效地利用图书馆信息资源。现有的图书馆资料主要是书籍、杂志、报刊、技术报告等。人们希望利用因特网把所有的数字化的资源站点连接起来,这样要管理的信息除了图书馆中的文本信息外,还希望管理博物馆、展览馆、档案馆、学术组织以及其它Web站点上千差万别的信息。

面对浩瀚无边的数字化信息使得数字图书馆关键核心技术之一的文本分类成为一个日益重要的研究领域。文本分类技术是人工智能和信息获取技术的结合,是基于内容的自动信息管理的核心技术。

二、文本分类技术的基本原理

数字图书馆是一个巨大的知识宝库。数字图书馆的服务重点是以人为主,而不是以馆以书为主。数字图书馆的特点使得其服务要深入到知识的层次,通过对信息内容的组织和加工的自动化,把资源组织成一个知识系统。文本的自动分类是为提高信息内容服务的质量而产生的文本处理技术。它们的出现使得信息内容服务出现了新的局面。

文本分类是指根据文本的内容或属性,将大量的文本归到一个或多个类别的过程。文本分类算法是有监督学习的算法,它需要有一个己经手工分好类的训练文档集,文档的类别已标识,在这个训练集上构造分类器,然后对新的文档分类。如果训练集的类别未标识,就是无监督的学习算法,无监督学习算法从数据集中找出存在的类别或者聚集。

从数学角度来看文本分类是个映射程,它将未标明类别的文本映射到已有的类别中,用数学公式表示如下:

f:AB其中,A为待分类的文本集合,B为分类体系中的类别集合

文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。但是由于大量的文本信息是一维的线性字符流,因此文本自动分类首先要解决的问题就是文本信息的结构化。在模式识别领域里,把文本信息的结构化称为"特征提取"。在文本信息内容处理领域,这项工作被称为文本的"向量空间表示"。其基本流程如图1所示:

系统使用训练样本进行特征选择和分类器训练。系统根据选择的特征将待分类的输入样本形式化,然后输入到分类器进行类别判定,得到输入样本所属的类别。

三、文本分类技术在数字图书馆中的应用分析

为了提高数字图书馆中分类准确率,加快系统运行速度,需要对文本特征进行选择和提取。两者的差别在于,特征选择的结果是初始特征项集合的子集,而特征提取的结果不一定是初始特征项集合的子集(例如初始特征项集合是汉字,而结果可能是汉字组成的字符串)。特征选择、提取和赋权方法对分类结果都有明显影响。

(一)文本特征项

文本的特征项应该具有以下特点:特征项是能够对文本进行充分表示的语言单位;文本在特征项空间中的分布具有较为明显的统计规律;文本映射到特征项空间的计算复杂度不太大。对于计算机来说,文本就是由最基本的语言符号组成的字符串。西文文本是由字母和标点符号组成的字符串,中文文本就是由汉字和标点符号组成的字符串。

概念也可以作为特征项,"计算机"和"电脑"具有同义关系,在计算文档的相似度之前,应该将两个词映射到同一个概念类,可以增加匹配的准确率。但是概念的判断和处理相对复杂,自然语言中存在同义关系(如老鼠、耗子)、近义关系(如忧郁、忧愁)、从属关系(如房屋、房顶)和关联关系(如老师、学生)等各种关系。如何很好地划分概念特征项,确定概念类,以及概念类的数量都是需要反复尝试和改进的问题。

(二)特征项选择

不同的特征项对于文档的重要性和区分度是不同的,通常高频特征项在多个类中出现,并且分布较为均匀,因此区分度较小;而低频特征项由于对文档向量的贡献较小,因此重要性较低。

文档频次就是文档集合中出现某个特征项的文档数目在特征项选择中计算每个特征项在训练集合中出现的频次,根据预先设定的闽值去除那些文档频次特别低和特别高的特征项。

信息增益方法是机器学习的常用方法,在分类问题中用于度量特征项在某种分类下表示信息量多少,通过计算信息增益得到那些在正例样本中出现频率高而在反例样本中出现频率低的特征项,以及那些在反例样本中出现频率高而在正例样本中出现频率低的特征项。

(三)特征值的提取

在文本分类中,我们称用来表示文档内容的基本单元为特征,特征可以是词、短语。目前,大多数有关文本分类的文献基本上采用词的集合来表示文档的内容。采用短语来表示文档存在两个缺点:第一短语的提取较困难,特别是准确的提取,需要较多的自然语言处理技术,而这些技术还不够成熟;第二采用词组表示文档在信息检索和文本分类中的效果并不比基于词的效果好,有时反而更差。

第5篇:地理数据的基本特征范文

关键词:微阵列表达数据;聚类分析;随机森林;K-均值

DOI:1015938/jjhust201702021

中图分类号: TP391

文献标志码: A

文章编号: 1007-2683(2017)02-0112-05

Abstract:In view of the complex correlation between gene and gene in the microarray data set, a weighted K mean gene clustering algorithm based on random forest variable importance score was proposed First, the proposed algorithm begins with training random forest classifier on the microarray data, using the samples as objects and the genes as features, variable importance scores were calculated for each gene; then, a weighted Kmeans clustering were performed with genes as objects, samples as features, and variable importance score as weighted value Experiments were carried out on Leukemia, Breast and DLBCL three datasets The experimental results show that the proposed weighted K mean clustering algorithm has an average of 177 percentage points higher than the original K mean clustering algorithm with respective to the ratio of the distance between the class and the total distance and has better homogeneity and difference

Keywords:microarray expression data; clustering analysis; random forest; Kmeans

0引言

聚类是将物理或抽象对象的集合分组为由类似的对象组成的多个集合的过程,其中属于同一个集合的对象之间彼此相似,属于不同集合的对象之间彼此相异[1]。聚类是机器学习和数据挖据中的重要研究内容,被广泛应用于经济、管理、地质勘探、图像识别、生物医学、生物信息学等领域中[2-6]。随着高通量测序技术(Highthroughput Sequencing)的迅速发展,各物种的基因表达数据(Gene expression data)出现了爆炸式增长,同时大量的基因表达数据能够在公共数据库(如由美国NCBI管理和维护的GEO数据库、由美国斯坦福大学管理和维护的SMD数据库、由欧洲EBI管理和维护的ArraryExpress数据库和由日本多所大学合作提供的CGED数据库等)中得到[7-11]。在基因表达数据分析任务中,基因聚类分析有着非常广泛的应用。当前,基因聚类分析方法主要有三类:基于基因的聚类(Genebased clustering)、基于样本的聚类(Samplebased clustering)和两路聚类(Biclustering)[12,13]。基于基因的聚类将基因看成聚类的对象,将样本看成描述基因的特征,表达模式类似的基因(即共表达的基因,Coexpression gene)通常被划分为同一类,一般具有相同的功能,因此可以根据聚类中已知基因的功能推断某些未知基因的功能;基于样本的聚类则以基因为特征,以样本为对象,通过样本聚类,可以发现样本的显性结构(Phenotype structure),自动对病理特征或实验条件进行分类;两路聚类是指同时对基因和样本进行的聚类,目的是找出在某些条件下参与调控的基因聚类以及与某些基因相关联的条件,从而更精确、更细致地探索基因和样本间的相互关系。

基因聚类的主要对象是基因表达微列数据。原始的基因表达微阵列数据中存在着大量的冗余基因、噪声基因和不相关基因,并且研究表明,对于某类疾病的发生发展,通常是多个基因共同作用的结果,亦即基因表达微阵列中多个基因之间存在着复杂的相互作用,所以一般的基于统计的度量标准,如皮尔森相关系数、信息熵等,难以准确地表达基因的相对重要性[14]。随机森林作为一种流行的机器学习算法,由于在训练决策树的过程中,既考虑了单个变量对于目标变量的影响,又考虑了多个变量之间的相互作用,其变量重要性分数被广泛应用于评价数据集征变量的相对重要性,尤其是应用在生物医学与生物信息学研究中[15-17]。当前,基于随机森林和K-均值聚类相结合的方法已经被应用在网络入侵检测[18]等研究中,然而在基因聚类任务中,基于随机森林变量重要性分数对基因进行加权聚类研究较少,仍然是一个值得探索的领域。本文主要针对基于基因的聚类分析任务,将随机森林的变量重要性分数引入到K-均值聚类的过程中,提出了一种基于随机森林变量重要性分数的加权K-均值聚类算法,能够提高基因聚类结果的质量。

1算法设计

12随机森林

随机森林(Random Forest,RF)[19]是一个由一组决策树分类器{h(X,θk),k=1,2,,K}组成的集成分类器,其中θk是服从独立同分布的随机向量,K表示随机森林中决策树的个数,在给定自变量X下,每个决策树分类器通过投票来决定最优的分类结果[5]。随机森林是许多决策树集成在一起的分类器,如果把决策树看成分类任务中的一个专家,随机森林就是许多专家在一起对某种任务进行分类。生成随机森林的步骤如下[20]:

1)从原始训练数据集中,应用Bootstrap方法有放回地随机抽取K个新的自助样本集,并由此构建K棵分类回归树,每次未被抽到的样本组成了K个袋外数据(outofbag, OOB)。

2)设有n个特征,则在每一棵树的每个节点处随机抽取mtry个特征(mtry

3)每棵树最大限度生长,不做任何剪裁。

4)将生成的多棵渥槌伤婊森林,用随机森林对新的数据进行分类,分类结果按树分类器的投票多少而定。

由于决策树算法在节点分裂过程中考虑了特征之间的相互影响,随机森林算法能够有效地揭示多个特征之间的相互作用,对于单个特征具有小的边际效应但多个特征的组合对目标变量有较大影响的数据集合,表现出优异的分类和预测性能,而且随机森林算法不需要先验假设[7]。目前,RF已经被广泛应用于各种分类、预测、变量重要性研究、特征选择以及异常点检测问题中,尤其在生物医学和生物信息学领域,随机森林由于能识别多个特征变量之间的相互作用而受到青睐[21-22]。

随机森林算法的一个重要产物是变量重要性分数,它可以很好地反映训练数据集中分类变量对于目标变量的影响程度,目前,随机森林变量重要性分数已经被广泛应用于各种数据挖掘任务中。随机森林提供了4种变量重要性分数供选择,本文采用基于置换的变量重要性分数[16]。基于置换的变量重要性分数定义为在袋外数据(OOB)上当变量发生轻微扰动前后分类模型的分类正确率的平均减少量,它采用了直觉排列策略,既考虑到每一个变量单独的影响,又考虑了多个变量之间的相关作用。

给定训练样本集合D,集合中的特征标记为Xj,j=1,2,,N,Xj的基于置换的变量重要性分数表示为IMj,则IMj的计算过程如下[20]:

1)对训练集D进行Bootstrap随机重采样B次,得到B个样本子集Db,b=1,2,,B;

2)设置b=1;

3)在样本集合Db上训练决策树Tb,袋外数据标记为Loobb;

4)在袋外数据Loobb上,应用决策树分类器Tb对测试数据进行分类,正确分类的样本个数标记为Roobb;

5)对特征Xj,j=1,2,,N,随机地扰动Loobb中每一个样本直到它与目标变量的原始关系被打断,扰动后的数据集标记为Loobbj;

6)在扰动后的数据集Loobbj上,应用决策树分类器Tb对数据进行分类,正确分类的样本个数标记为Roobbj;如果特征Xj与目标变量相关,那么分类器的分类性能将明显降低;

7)对于b=2,,B,重复第3)-6)步;

8)按照下式计算特征Xj的变量重要性分数:

IMj=1B∑Bi=1Roobb-Roobbj;

9)输出所有特征的重要性分数:

IM={IM1,IM2,,IMN}。

13基于随机森林变量重要性分数的加权K-均值基因聚类算法

基因数据通常以DNA微阵列表达数据形式存储。一般而言,微阵列表达数据集是一个N×(M+1) 的矩阵,矩阵中的每一行表示一个样本,除最后列以外的每一列表示该样本的一个基因,每一个元素gi,j是一个数值,表示第i个样本第j个基因的基因表达水平,最后一列表示第i个样本的类标签,如图1所示。

g1,1g1,2…g1,MC1

g2,1g2,2…g2,MC2

……………

gN,1gN,2…gN,MCN

2实验与结果分析

21数据集

为了验证本文提出的算法的有效性,在Leukemia(白血病)、Breast(乳腺癌)、DLBCL(弥漫性大B细胞淋巴瘤)等3个微阵列表数据集上进行了实验。这些数据集的基本信息如表1所示。

原始的微阵列表达数据集中通常包含大量的噪声基因,为了降低计算时间和存储空间需求,在执行基因聚类分析之前首先采用四分位距方法和单因素方差分析法来过滤掉明显不相关的基因和噪声基因,所有表达水平低于总体IQR 1/5的基因在这一步被过滤掉。基因过滤后的数据信息如表2所示。

23实验结果及分析

在3个实验数据集上对原始的K-均值算法和本文提出的基于随机森林变量重要性分数的加权K-均值算法进行了实验,指定聚类数目k=100,最大迭代次数T=60。采用类内离散度和J和类间加权距离和D指标来衡量算法的性能,10次实验结果的平均值如表3所示。

从表3可以看出,本文提出的基于随机森林变量重要性分数的加权K-均值聚类算法的J值明显低于原始的K-均值算法,说明类内基因表达模式高度相关;所提出的算法的R值比原始的K-均值算法平均高177个百分点,表明基于随机森林变量重要性分数的加权K-均值聚类算法得到的聚类划分中,类间差异比原始的K-均值聚类算法显著。

3结语

提出了一种基于随机森林变量重要性分数的加权K-均值基因聚类算法,相对于原始的K-均值聚类算法,该算法能够有效地提高类内相似度和类间差异度,即提高聚类结果的质量。如何针对基因表达数据的特点,选择或设计合适的聚类准则函数,利用本文提出的算法探索生物医学信息,有待于进一步研究。

参 考 文 献:

[1]周志华.机器学习[M].北京:清华大学出版社,2016:211-213

[2]刘帅,林克正,孙旭东,等.基于聚类的SIFT人脸检测算法[J].哈尔滨理工大学学报,2014,19(1):31-35

[3]吴娱,钟诚,尹梦晓.基因表达数据的分层近邻传播聚类算法[J].计算机工程与设计,2016,37(11):2961-2966

[4]陈伟,程咏梅,张绍武,潘泉.邻域种子的启发式454序列聚类方法[J].软件学报,2014,25(5):929-938

[5]黄伟华,马中,戴新发,徐明迪,高毅,刘利民.一种特征加权模糊聚类的负载均衡算法[J].西安电子科技大学学报(自然科学报),2017,44(2):138-143

[6]余晓东,雷英杰,岳韶华,王睿.基于粒子群优化的直觉模糊核聚类算法研究[J].通信学报,2015,36(5):1-7

[7]李霞,雷健波,李亦学,李劲松.生物信息学[M].北京:人民卫生出版社,2015:286-287

[8]李雨童,姚登举,李哲,侯金利.基于R的医学大数据挖掘系统研究[J].哈尔滨理工大学学报,2016,21(2):38-43

[9]高敬阳,齐飞,管瑞.基于高通量测序技术的基因组结构变异检测算法[J].生物信息学,2014,12(1):5-9

[10]李晟,程福东,孙啸.高通量DNA测序技术与疾病诊断及预防[J].生物医学工程与临床,2016,20(2):210-215

[11]吴林寰,陆震鸣,龚劲松,史劲松,许正宏.高通量测序技术在食品微生物研究中的用[J].生物工程学报,2016,32(9):1164-1174

[12]岳峰,孙亮,王宽全,王永吉,左旺孟.基因表达数据的聚类分析研究进展[J].自动化学报,2008,34(2):113-120

[13]张国印,程慧杰,刘咏梅,姚爱红.一种新算法在基因表达谱聚类中的应用[J].计算机工程与应用,2009,45(36):216-218

[14]王爱国.微阵列基因表达数据的特征分析方法研究[D].安徽:合肥工业大学,2015:1-5

[15]ALI Anaissi, PAUL J KENNEDY, Madhu Goyal1 Daniel R Catchpoole A Balanced Iterative Random Forest for Gene Selection from Microarray Data[J] BMC Bioinformatics, 2013, 14: 261P

[16]QI, Y Random Forest for Bioinformatics [J]. Ensemble Machine Learning, 2012: 307-323

[17]孙磊,许驰,胡学龙.一种基于随机森林的长非编码RNA预测方法[J].扬州大学学报:自然科学版,2016,19(4):50-53

[18]ELBASIONY R M, SALLAM E A, ELTOBELY T E, et al A Hybrid Network Intrusion Detection Framework Based on Random Forests and Weighted kmeans [J]. Ain Shams Engineering Journal, 2013, 4(4):753-762

[19]BREINMAN L Random Forests [J]. Machine Learning, 2001, 45: 5C32

[20]姚登举,杨静,詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报工学版,2014,44(1):137-141

第6篇:地理数据的基本特征范文

我国于2010年推出的《数字城市地理信息公共平台地名/地址编码规则》,为地名地址数据的标准化和共享提供了系统、科学的体系[1-3]。依据规范,地名数据可分为3种形式:地名、地址和POI(pointofinterest,兴趣点)[4]。地名是人们对各个地理实体赋予的专有名称,属于面状空间形态,空间指代性较模糊;地址是对地理实置的具体结构化描述,属于点状空间形态,空间指代性较具体;POI是人们对感兴趣点位的信息描述,一般为地名或地址+实体名称的形式。根据宁海县的实际情况进行补充和完善,本系统将地址要素分为9大类15小类,如表1所示。

2系统设计及实现

2.1系统总体设计

区别于传统的地名地址管理系统,本系统是一个融合测绘、规划、民政、公安、工商等部门资源,包括地理信息技术和分布式数据库技术的综合性工程,涉及地名地址、空间数据、GIS、网络分布式信息处理系统和大型数据库等复杂要素。系统设计在满足计算机软件工程的基本要求和原则外,还需要实现以下目标:1)地名地址分类标准化。2)民政、公安、工商、测绘等部门地名地址资源的整合。3)系统应结合目前主流的二维和三维开发平台,实现地名地址要素与二维地理实体(房屋面)、三维地理实体(建筑模型)的一体化。4)系统应保证各类数据成果的安全高效存储和管理,并方便地名地址数据的入库、查询、分析统计。按照上述要求,为充分发挥GIS的服务功能,系统采用C/S模式进行开发。二维基础地理平台使用组件式GIS软件——ArcGISEngine,ArcGISEngine封装了大部分ArcGIS底层功能模块和方法,具备强大的地理分析应用功能[5]。三维基础地理平台使用目前与ArcGIS结合最好的Skyline公司的TerraExplorer软件,TerraExplorer能够实现三维影像的交互式体验,并实现对ArcGIS数据格式的良好支持。系统按照架构分为硬件基础层、数据层、应用层和交互层,如图1所示。

2.2系统功能设计

地名地址管理系统集地名地址、二维系统和三维系统为一体,系统主要分为地名地址数据入库与编辑、POI数据入库与编辑、数据分析和系统管理4大组成部分。地名地址/POI数据入库与编辑功能主要包括要素的新建、编辑、查询和批量入库,要素与三维建筑模型数据的关联等;数据分析主要包括图面和属性查询、数据审核、数据导出和书签管理功能;系统管理主要包括用户管理和角色管理,用以实现不同人员的系统操作权限,从而保障系统的安全性,明确各部分的责任人。系统的功能结构如图2所示。

2.3数据管理

地名地址管理系统的数据种类多样,主要包括二维影像地图集、二维基础地理底图、三维地形文件、建筑模型、地名地址数据、POI数据等。按照数据的结构,可分为文件系统和数据库系统。文件系统主要存储二、三维基础地理要素。二维影像地图和基础地理底图采用瓦片切图的形式,利用ArcGISServer。三维地形文件由航摄影像和DEM叠合而成,通过TerraGate;三维矢量建筑模型和三维场景文件由IIS。数据库系统采用ArcSDEforSQLServer数据库,实现了关系数据库和空间数据库的一体化管理,主要存储地名地址数据、POI数据、模型点位数据、用户数据等。

3系统关键技术

3.1基于条件随机场的地名地址要素识别

地名地址数据管理中,如何整合已有的大量不同数据源和数据格式的地名地址数据是有待解决的一个重要问题。本系统通过地名地址分类标准化体系,实现了基于条件随机场的地名地址要素识别。条件随机场是由Lafferty在研究序列化数据标注的过程中提出的,它是对最大熵模型的改进,具备最大熵模型的一切优点,是近年来应用在自然语言处理和图像处理等研究领域的一种新的数学模型工具[6]。条件随机场模型建立的关键是参数估计和特征选取。参数估计是从训练数据中训练模型,求解每一个特征的权重参数,即权重向量λ={λ1,λ2,…,λn}的过程;特征的选取是筛选出具有表征意义的特征,关键在于根据具体任务抽象出合适的特征模板集。本系统中,为了能够应用基于字的标注方法来识别中文地名要素,使用4词位标注集来表示地址要素类别。根据中文地名的平均词长特征和于江德的语料测试,下文对识别性能的贡献比上文的贡献要高出6个百分点以上[7],系统选择非对称的地名要素上下文窗口,上文的宽度为3,下文的宽度为5,如图3所示。基于中文字符特性,在选取特征时主要考虑单个字符的信息,从而抽象出3类特征:原子特征、复合特征和词位转移特征。经实验,在20万条训练语料规模下,基于条件随机场的地名地址要素识别对各项分类字段的成功率达到84.39%以上,大大提高了地名地址分类的准确性,降低了人工成本。

3.2数据入库

地名地址管理系统的核心是数据的入库管理,按照数据的来源,可分为新建数据入库和已有数据入库两种方式。1)新建数据入库。新建数据入库是指在系统内通过新增地名地址/POI要素入库的方法。按照系统设计原则,新建数据须严格执行规范要求,依次进行位置信息匹配、完整性检查、重复性检查、邻接关系检查和管理员审核,审核通过后才能入库。2)批量数据入库。批量数据入库与新建数据入库流程相同,首先执行数据的完整性检查,然后进行数据的各项拓扑关系检查,最后由管理人员审核入库。

3.3二三维联动

二三维联动不仅包括二维与三维视图显示区域相一致,还表现在两个场景属性数据、分析结果的一致性[8]。二维和三维显示区域联动是基于两者统一的坐标系实现的。三维联动二维可通过TerraExplorer的ScreenToTerrain方法获取中心点坐标和四至,再由ArcGISEngine的Extent属性实现三维到二维的联动。二维联动三维较复杂,可通过建立二维比例尺和三维视点高度的转换系数,再利用二分法实现坐标转换。三维地名地址/POI图层采用流方式加载,与二维图层采用同一套数据,确保了二三维属性数据的一致性。同时,系统在查询和分析等操作时也要保证显示效果的一致性。系统的三维界面如图4所示。

4结语

第7篇:地理数据的基本特征范文

(1.西北工业大学电子信息学院,陕西西安710129;2.西北工业大学航海学院,陕西西安710072)

摘要:为解决噪声环境下瞬态声自动识别系统性能下降的问题,在自动识别系统前端采用Teager能量算子(TEO)和离散余弦变换(DCT)相结合的方法进行降噪处理,同时采取基于高斯混合模型(GMM)的缺失特征边缘化算法进行自动分类。实验结果表明,此方法可以显著地提高噪声环境下系统的识别性能。

关键字:Teager能量算子;离散余弦变换;缺失特征;高斯混合模型

中图分类号:TN911.7-34 文献标识码:A 文章编号:1004-373X(2015)12-0012-04

收稿日期:2014-12-22

0 引言

环境中存在这样一类特殊的声音:瞬态声,它具有持续时间短、短时平稳、能量集中、宽频带广等特点,如敲门声、汽车短促的喇叭声、舰船及其中设备的启动声等,这类声音很容易被环境噪声所污染。瞬态声识别在军事及民用领域有极其广泛的应用,如潜艇识别、道路脱空检测及医学上对新生儿的听力诊断等,因此,对其研究具有重要的实用价值[1]。

目前,对于瞬态声的自动识别在实验室环境中效果很好,但是在噪声环境下,其识别性能会明显降低。因此,如何减小噪声的影响,是构建自动目标识别(Auto-matic Target Recognition System,ATR)系统的关键环节之一。本文分别在ATR的前端和后端进行降噪和缺失特征处理,以进一步提高系统对噪声干扰的鲁棒性。

在ATR 前端,需要通过一定的降噪处理以提高系统的抗噪性能,如谱减法[2](Spectral Subtraction)、维纳滤波(Wiener Filtering)法、最小均方误差(Minimum Mean Square Error)法等,这些方法都是基于离散傅里叶变换方法。基于小波变换的降噪技术也可以达到很好的效果,如由Bahoura等提出的基于Teager能量算子(Teager Energy Operator,TEO)的小波去噪[3],其在不同阈值上的变化是自适应的,但它的计算量较大,且小波基和分解层数的选择不容易。基于Teager能量算子[4]的离散余弦变换(Discrete Cosine Transform,DCT)降噪相对于基于离散傅里叶变换(DFT)的降噪方法有以下优势:DCT相比于DFT有更好的能量压缩特性;在相同的窗条件下,DCT比DFT有更好的频率分辨率。

本文将DCT和TEO相结合实现瞬态声信号的降噪[5],既克服了离散傅里叶变换的缺点,也降低了计算量,该方法被称为TEO-DCT方法。

在ATR 后端,可以通过缺失特征(Missing Feature)方法,通过对不同时间或频率段的特征进行处理,进一步提高系统的识别性能。缺失特征技术[4]的主要原理是根据噪声对信号的不同时间、不同频带的影响不同,确定可靠特征和缺失特征,然后根据可靠特征进行识别或者通过其对缺失特征部分进行重构。

1 TEO-DCT 的阈值选择及其改进

传统的降噪方法[6-7]需要事先估计噪声幅值或信噪比,而基于TEO 的小波降噪算法在不同尺度上的阈值是自适应变化的,克服了固定阈值的不足,但是小波变换的计算量较大。DCT有相应的快速算法,可以有效降低计算复杂度,将其与TEO相结合,可以获得自适应阈值,并降低计算量。图1给出了实现TEO-DCT的框图。首先,对输入的含噪声的瞬态声信号进行DCT,然后根据DCT 系数计算TEO,再根据TEO 计算DCT 域的自适应性阈值。根据计算的阈值,对信号进行逆离散余弦变换(Inverse DCT,IDCT)就可以得到降噪后的信号。

(1)DCT模型

正如上面提及,相较于DFT,DCT 有更好的能量压缩性能,同时和小波变换相比,有更少的计算量。设y(n) 是一个长度为N 的含噪声信号,其一维DCT为:

式中:k=0,1,2,…,N-1;α 由式(2)定义:

(2)TEO的计算

对于离散信号,TEO的计算公式如下:

式中n 是离散信号的序列。DCT系数的TEO可以通过式(4)获取:

然后通过对其进行IIR滤波,获得其平滑效果:

不同于传统的DCT降噪的阈值选择方法,TEO可以有效地抑制噪声的DCT系数,而保留信号的DCT系数。

(3)阈值的获取

对式(4)获取的Tk 进行如式(6)的归一化处理,并将归一化后系数较小的部分视为噪声,而接近于1的部分视为信号,有:

为了将噪声部分的阈值设置的高,而将信号部分阈值设置的较低,需要对阈值的设置进行设置,自适应阈值可以通过式(7)得到:

式中τ 是由Donoho 和Johnstone 在1995 年提出的标准阈值[8],可根据式(8)获得:

式中:N 表示采样窗长度;σ 表示该帧信号的噪声估计值,其由式(9)获得:

式中:MAD 表示绝对中位差,即先求出给定数值中位数,然后再求取原数值和求出的给定数值中位数的绝对差值的中位数。

(4)DCT系数的获取

根据式(7)获得的软阈值threshk 对DCT系数Yk 进行处理,一旦获取threshk ,就根据软阈值函数得到经过降噪的DCT系数Yk′ :

此时,Yk′ 即是经过降噪处理后的DCT系数。

(5)信号的还原

对得到的DCT系数Yk′ 进行逆DCT,得到经过降噪后的信号帧yk′ :

图2 为截取的一段铝板敲击声信号的波形及降噪结果,其中(a)为原始信号波形;(b)加载噪声为高斯白噪声、SNR 为5 dB 的带噪信号;(c)为经过TEO-DCT 降噪处理后的波形。

2 基于异常点的缺失特征检测

对于经过降噪处理的声信号,它并不能完全消除噪声的影响,其识别性能有待进一步提高,因此可以通过缺失特征的方法进一步降低噪声的影响,进而提高ATR的性能。

缺失特征技术主要由缺失特征检测和缺失特征处理两部分构成。

缺失特征检测[9-10]是缺失特征技术的重点和难点问题,恰当的缺失特征检测准则可以有效提高缺失特征技术的效果。环境声鲁棒性识别中,人们提出了大量缺失特征检测方法:

(1)根据每个时频域的SNR 估计估计缺失特征的可靠性,如理想掩蔽和局部SNR掩蔽估计;

(2)对声目标特征进行建模,例如,提取声目标特征,然后据此训练分类器确定特征可靠性,如基于分类器的掩蔽估计及基于异常点的掩蔽估计方法。

缺失特征处理主要有2种方法:

(1)缺失特征边缘化方法,该方法主要通过舍弃缺失特征进行识别,其需要在识别段对分类器进行修改;

(2)缺失特征重构方法,该方法通过先验知识,根据可靠特征部分重构出完整特征进行识别,其不需要对分类器进行修改。

异常点的缺失特征检测:这里采用基于聚类的异常点算法检测出异常点数据并将之视为缺失特征,该方法首先对数据集进行聚类分析,然后根据一定的准则(距离、密度等)选择出一定数目的点,然后在对这些检测出的数据进行进一步的分析。

缺失特征边缘化:缺失特征边缘化方法主要考虑到缺失特征部分受到噪声的污染比较严重,如果直接使用,可能会对识别效果产生消极影响,所以仅仅依靠可靠特征,而舍弃缺失特征部分进行分类,这样可以排除受噪声污染比较严重的特征影响,在一定程度上提高识别性能。

本文将TEO-DCT降噪技术和缺失特征边缘化相结合[11]构造ATR 系统,图3 给出了所用算法流程。先用TEO-DCT 对噪声信号进行降噪处理,利用降噪后的瞬态声信号提取Mel子带特征,然后根据缺失特征检测技术,确定可靠特征和缺失特征,根据可靠特征进行识别。

3 实验结果及分析

本文以矩形板冲击声为声样本,通过TEO-DCT 降噪技术和缺失特征边缘化方法的结合,提高ATR 系统的性能。另外,将本文算法和基准系统和理想边缘算法进行对比,验证该方法的有效性。

实验中,基准系统是指未经任何处理的ATR 方法。TEO-DCT表示经过Teager能量算子和DCT相结合的降噪方法进行识别。边缘化表示直接进行边缘化识别的方法。本文算法是指将TEO-DCT和边缘化相结合的方法。

3.1 实验样本的获取

在消声室环境下分别录取不同尺寸(边长分别为42 cm,30 cm,22 cm),调节小球不同高度(分别距离敲击位置1 cm,2 cm),敲击不同位置(分别距边3 cm、对角线距角8 cm以及中心位置)的木板、玻璃板和铝板的敲击声,而噪声分别选取Noise-92噪声库中的高斯白噪声和粉红噪声,分别对消声室环境下的录音加载0 dB,5 dB,10 dB,15 dB,20 dB,25 dB,将之作为待识别的声样本。

3.2 理想掩蔽的估计

缺失特征理想掩蔽的阈值判决过程中,设置SNR阈值,把阈值之下的特征部分作为缺失特征,反之则为可靠特征。而阈值选取的不同会造成识别效果的差异,如果其设置过高,则会把特征可靠部分误判为缺失部分,从而对识别造成负面影响;阈值过低,又会把噪声部分视为可靠特征,同样对识别不利。此处通过设置不同的阈值验证在不同SNR 条件下对识别性能的影响,实验结果如图4所示。

3.3 结果分析

表1和表2分别表示在高斯白噪声和粉红噪声条件下的识别率,高斯白噪声在无限频率宽度上具有均匀的连续谱,在时域上幅度分布为高斯分布,粉红噪声作为是自然界中最常见的噪声,其频率分量功率主要集中在中低频部分。

由表1和表2可以看出,TEO-DCT降噪方法在高斯噪声和粉红噪声条件下可以有效地提高系统的识别率,但是在粉红噪声条件下且较低的SNR时,由于Teager能量算子对低频的保护作用,而粉红噪声的能量主要集中在低频区域,所以该噪声下的识别性能提高并不明显。边缘化算法在各种噪声条件下均可有效提高系统的识别效率。

而本文算法通过将两种算法相结合,在高斯白噪声条件下,其相比于单纯的降噪技术和边缘化算法可以显著地提高声目标识别系统的性能;而在粉红噪声条件下,本文算法在高SNR 条件下识别性能虽然比降噪方法好,但是却不如单纯的边缘化算法。造成这种现象的原因是:由于对粉红噪声的降噪处理在高SNR 时造成的特征矢量失真情况比带噪信号特征矢量的失真现象更为严重。

4 结语

本文首先利用TEO 与DCT 相结合,设计出DCT 的时间自适应阈值降噪技术,可以有效地提高系统的降噪性能,同时,该方法也不像谱减法那样需要对噪声进行估计且避免了基于DFT变换降噪技术的相位问题。在后端,又根据缺失特征边缘化算法,将受噪声污染严重的特征剔除出去,在一定程度上提高了系统的性能。实验结果表明,仅仅利用缺失特征边缘化算法可以提高瞬态声目标系统性能,但将之与TEO-DCT结合的方法可以有效地提高低信噪比下ATR的识别性能。

作者简介:李亚兵(1989—),男,河南许昌人,硕士。研究方向为声目标识别。

参考文献

[1] 陈克安.环境声的听觉感知与自动识别[M].北京:科学出版社,2014.

[2] 张雪英.数字语音处理及Matlab仿真[M].北京:电子工业出版社,2010.

[3] 高亚召,赵霞.基于Teager能量算子的自适应小波语音增强[J].电声技术,2009,33(1):58-62.

[4] SANAM T F,IMTIAZ H. A DCT-based noisy speech enhance-ment method using Teager energy operator [C]// Proceedings of5th International Conference on Knowledge and Smart technolo-gy. [S.l.]:Burapha University,2013:16-20.

[5] RAJ B,STERN R M. Missing -feature approaches in speechrecognition [J]. IEEE Signal Processing Magazine,2005,22(5):101-116.

[6] 李雪耀,谢华,张汝波.基于离散余弦变换的语音增强[J].哈尔滨工程大学学报,2007(2):198-202.

[7] 李潇,李宏.一种改进的基于DCT变换的语音增强算法[J].计算机仿真,2010(12):376-380.

[8] DONOHO D L. De - noising by soft - thresholding [J]. IEEETransactions on Information Theory,1995,41(3):613-627.

[9] SELTZER M L,RAJ B,STERN R M. A Bayesian classifier forspectrographic mask estimation for missing feature speech recog-nition [J]. Speech Communication,2004,43(4):379-393.

第8篇:地理数据的基本特征范文

【关键词】3D人脸识别;局部曲线特征;SURF

【Abstract】It’s difficult to find feature points in 3D facial meshes when there are missing parts on these face scans. This work proposes a new recognition method based on local feature curve. Firstly, we calculate the projections of 3D faces in depth, curvature and geodesic coordinate system, then apply SURF on these projections to find out feature points, finally, we use artificial neural network to analyze the curve between feature points and thus face scans are recognized. The result shows that the robustness and accuracy of our method is higher than the method based on landmark.

【Key words】3D face recognition; Local curve characteristics; SURF

近年来,3D人脸识别问题一直是模式识别领域的研究热点。在实际应用中,如果过分强调人脸采样的完整性,那么相应的,这种采样方法对采样者的侵犯性也就越大,应用的范围也更加局限。因此研究基于局部特征的3D人脸识别方法是非常有必要的。针对这个问题,徐等通过对到鼻尖点的等距线提取特征,来得到局部的特征描述符,对人脸的遮挡、噪声和表情变化有较好的鲁棒性[1]。王等使用Gabor变换直接抽取人脸的特征,把得出的人脸子模式进行特征融合,提高了人脸识别的正确率和性能[2]。基于局部曲线特征的人脸识别算法普遍是通过在人脸上标定特定点,进而获得人脸特征曲线,本文提出一种不依赖标定的特征曲线方法,引用仿射无关的SURF方法和多模式下的人脸数据,来提高基于局部曲线特征的人脸识别算法的鲁棒性。

1 人脸的预处理

3D人脸数据是以三维网格的形式存储的,在对人脸进一步的处理之前,先通过预处理保证人脸网格的质量是非常有必要的。类似处理二维图像的椒盐噪点,本文将中值滤波应用到三维网格,清理到采样过程中存在的噪点;由于网格的结点一般远远多与实际需要,而过于繁多的边和结点直接影响处理的复杂度,因此本文采用了顶点聚类方法,对网格进行删减。要计算3D人脸的投影,3D人脸的姿态直接关系到投影的正确性。因此本文使用鼻子区域作为参考点,计算鼻尖的法向量和鼻梁的向量,从而进行姿态校正[3]。预处理部分的结果如图1所示。

2 计算多模式人脸投影

本文提出的基于多模式局部曲线特征的人脸识别算法是通过分析人脸的深度、曲率和测地三种模式下人脸的信息得到的识别方法,因此在提取特征曲线之前,首先要计算这三种模式下的3D人脸投影。约定鼻尖点向人脸外侧的法向量为Z轴正方向;由鼻尖沿鼻梁的方向为Y轴正方向;然后通过Y、Z轴确定X轴正方向。深度投影可以通过求3D人脸在Z轴上的投影得出;人脸的测地投影由人脸上的各个点到鼻尖点的在人脸表面上的最短路径得出[4];在人脸的曲率投影中,每一点的值为该点的高斯曲率值,我们可以由下式近似得出[5]。

K=(1)

其中m为该点的邻接点个数;α为以该点为顶点和其相邻两邻接点所成的角;A为这三个点所构成的三角形的面积。对于四边形网格可以依次连接该点的邻接点来获得三角形的面积,如图2。

3 特征向量的计算

3.1 获得特征曲线

多模式局部曲线特征向量由三个元素组成,分别为人脸在深度,曲率,测地三种模式下的特征曲线加权距离值,分别用Dd,Dc和Dg来表示。

深度模式下的人脸上的特征点由SURF获得[6]。这种方法并不对特征点的位置和数量有任何假设,也不保证这些特征点是人脸上有特殊意义的部分(如眼窝、鼻尖、脸颊等),而是把这些也当作人脸特征的一部分。对数据库中每张人脸的每个网格图像都使用SURF提取,两两配对,使用RANSAC剔除较大误差。得到精确匹配的N个特征点如图3(a)所示,在对这N个特征点两两配对,得到C2 N个特征点对,将特征点对在深度投影上用直线连接,得到C2 N条深度特征曲线。将这些特征点以鼻尖点PNOSE作为参考点平移到曲率图像和测地图像上,就得到了曲率和测地特征曲线如图3(b)所示。

3.2 特征曲线对的距离计算

3.3 计算特征曲线的权值

在以标定作为人脸的特征点定位方法中,通常会选择眼角,鼻尖附近等有意义的点。在本文的方法中,虽然通过SURF和RANSAC自动寻找特征点,然而通过实验发现,大部分的特征点落在人脸上“有意义”的区域上,这间接的说明了,在使用以上步骤获得的特征曲线对于匹配人脸来说应该有不同的权值。

假设共有n张不同的人脸,用xi表示每张脸的ID,即xi∈(x1,x2,x3...xn);用表示yi人脸xi上的特征曲线,则集合为yj∈(y1...y1,y2...y2...ym...ym)。如果把人脸ID看成随机变量X,特征曲线看成随机变量Y,那么通过某一条特征曲线判断出人脸ID的概率可由香农信息熵给出。

4 实验结果

4.1 使用神经网络预测

定义多模式下的人脸曲线的特征向量为(Dd,Dc,Dg),其中Dd为深度投影下人脸上的某一条特征曲线对的距离差值;Dc为该条特征曲线对对应在曲率投影下的距离差值;Dg为该条特征曲线对对应在测地投影下的距离差值。

在GavabDB中,每个人采集了9份不同姿态不同表情的人脸,随机从中抽取一份用于验证,其他的八分人脸用于训练神经网络。对于采集到的同一个人的人脸样本,抽取数对人脸,计算这两张人脸之间特征曲线对的距离值,作为输入给入神经网络中,并且将这张人脸的ID作为教师信号。经过上面的步骤得到了训练好的神经网络。在测试时,计算待测定人脸和数据库人脸的之间的特征曲线对的距离差值,由于一张人脸有多条特征曲线,所以对于神经网络的输出也可能有不止一种结果,那么得到输出模式个数最多的则对应该待测定的人脸的ID。

4.2 实验数据

4.3 实验数据分析

根据表1中数据,本文采用的基于多模式局部曲线特征的方法的正确率高于基于标定的人脸识别算法,而且,相比基于标定的算法,本文的方法在残缺的人脸成像上也能获得良好的效果。数据表明,本文使用的多种特征的方法相比于只使用单一特征的三种方法,识别正确率有明显提高,说明综合多种特征是有必要的。

5 结束语

本文分析了3D人脸的深度投影,曲率投影和测地投影,将局部曲线特征的方法应用到这三种模式中。使用SURF和RANSAC提取特征点对。这使算法在人脸图像残缺的情况下也能稳定运行,保证了算法的鲁棒性。应用神经网络对得到的三个特征进行回归分析预测,提高了算法的正确率。

【参考文献】

[1]徐俊,达飞鹏.一种基于局部描述符的三维人脸识别方法[J].模式识别与人工智能,2012,01:45-53.

[2]王科俊,邹国锋.基于子模式的Gabor特征融合的单样本人脸识别[J].模式识别与人工智能,2013,01:50-56.

[3]孙圣鹏,宋明黎,卜佳俊,陈纯.鼻子区域检测与三维人脸姿态自动化校正[J]. 计算机辅助设计与图形学学报,2013,01:34-41.

[4]Gadacha W, Ghorbel F. 3D surfaces representation using geodesic computation and spectral analysis coupled approach: Application to 3D faces[C].Computer Applications Technology(ICCAT),2013 International Conference on. IEEE, 2013:1-5.

第9篇:地理数据的基本特征范文

关键词 地理信息系统;制图综合;方法原则

中图分类号:p208 文献标识码:a 文章编号:1671—7597(2013)051-058-01

地理信息系统的英文全称为geographic information system,简称gis,是一个用于分析地理空间信息的系统。它首先采集地球表层和内部空间的相关数据,然后通过计算机进行计算、分析、显示和存储,其中相关数据主要包括图像数据、空间信息数据、遥感数据等,利用计算机强大的运算能力分析和解决特定地理区域中的现象和问题。随着地理信息系统的发展,其对制图综合的要求越来越高,制图综合成为评价地理信息系统性能优劣的一个重要指标。接下来本文将从地理信息系统中制图综合的影响因素,基本过程及未来的发展方向等方面进行详细探讨。

1 地理信息系统中制图综合的影响因素

1.1 地图的比例

地图比例尺的大小严重影响着制图综合质量的好坏。在一幅相同大小的地图内,当比例尺较小时,同一块区域的面积会减小,同时这块区域内能够标记的物体数量和地图符号也会减少。随着地理信息系统的发展,比例尺逐渐被淘汰,取而代之的是数据库,通过数据库保存矢量化的地图数据,然而受到计算机内存容量的限制,数据库的容量不可能非常大,因此实际中不得不考虑地图的比例问题。

1.2 地图的显示效果

好的显示效果除了能够让用户清晰明白的看懂地图外,还应该满足制图规范的规定,保证地图内的物体之间的位置关系准确、合理,地图符号简单易懂。当将一个三维的立体事物反映在地图的平面上时,就需要考虑图层的设置问题,只有图层设置好了,图中才能反映出物体之间的正确位置关系,比如:行人位于高楼之下、船舶位于桥梁之下等,如果没有设置好图层关系,就会出现不正确的情况,导致物体之间的位置关系颠倒,因此在地图中出现物体互相覆盖的情况时,图层的设置问题是非常重要的。

1.3地域的特征

地域的特征是指该地域的地理特征,地球上不同区域具有不同的地理特征,比如:高原、平原、盆地、丘陵等,同时地球上不同区域还具有不同的文化、经济水平,因此,地理信息系统中的制图综合要选择最能反映该区域的特征的要素,抛弃那些不能反映该区域的特征的要素。在选择反映该区域的特征的要素时,要制定出合理的标准,使地图反映出的地理特征简单易懂。比如:在人口稀少的区域,比较小的乡镇是人口比较集中的地方,就应该选取该特征作为该区域突出的地理特征,而在人口密度比较大的地方,小乡镇是不重要的,应该抛弃。

2 地理信息系统中制图综合的基本过程

一般情况下,地理信息系统中制图综合的基本过程大致包含四个步骤:对区域的地理特征进行分类、对采集的地理信息数据进行精简、对突出的地理特征进行强调、对区域的地理特征进行符号标记。

2.1 对区域的地理特征进行分类

地理信息系统采集到地理信息数据后需要对其进行分类,分类既包含合并也包含拆分。比如:把集中在地面凹陷区域的水流合并为河流,但又把河流分为季节性河段和常流河段,前者是合并的过程,后者是拆分的过程。通常分类依靠两种依据,一种是根据地物的外形特征进行分类,比如:山川、高速公路、森林等,一种是根据地物的数量特征进行分类,比如:河流、湖泊、海洋等。

2.2 对采集的地理信息数据进行精简

通常地理信息系统采集到的地理信息数据含有大量的冗余数据,需要进行精化,删除重复以及不重要的数据。根据比例尺的不同,需要对地理信息的内容进行取舍,选择那些能够反映出该区域突出的地理特征的地理信息,抛弃那些与该区域的地理特征无关的某些内容,特别是当比例尺比较小的时候,需要删除大量的细节,只选取区域的全局特征,从而使地图清晰明了。

对地理信息的内容进行取舍主要表现在于:选取主要的类别以及主要的类别中的重要地物、舍弃次要的类别以及选取的类别中的次要地物。这里需要注意的是,主要和次要随着地域和比例尺的不同而不断变化,是一个相对的概念。地理特征的选取一般应该遵循以下原则:

①从大范围到

范围,先从大范围入手,再从小范围入手;②从大数量到小数量,例如高度、面积、长度等等;③从主要到次要,这需要根据地域和比例尺的不同而调整。

2.3 对突出的地理特征进行强调

在地理信息系统制图综合的整个过程中,必须对采集到的地理信息特征进行主次分类,突出最能反映该区域的特征的要素,地理信息系统制图综合不是对原始地域的重绘,而是制作出与原始地域相匹配的新地图,使用户能够从地图上获得该区域的重要信息。

2.4 对区域的地理特征进行符号标记

在对地理信息特征进行以上步骤之后,需要选择简单易懂的符号对其进行标记,选择的符号必须与地理信息特征相匹配。地图的所有信息都是通过符号体现出来的,地图符号能够反映出地物的位置、特征等重要的信息,制图综合的过程就是对地理信息数据进行符号化的过程。通常地图符号分为三大类:点状符号、线状符号还有面状符号。

3 结束语

随着计算机计算性能和存储容量的不断提高,地图制图技术得到飞速的发展,逐步从研究型阶段转向应用型阶段,为政府部门、商业公司和军事部门提供服务。如今,地图制图技术进入了新的发展阶段,不论硬件产品还是软件产品都已很成熟。其中软件产品分化为两大类:一类是专用的绘图系统,针对不同领域的绘图需求来开发和优化不同的绘图功能,并且在某些领域采用了智能化技术,实现了图形绘制的智能化;另一类是地理制图系统,地理制图系统是地理信息系统的一个子系统,利用地理信息系统强大的数据分析能力,使制图系统更加智能化,制作出图像更加清晰准确。

目前地理信息系统中的制图综合仍然存在着很多难题,例如:受计算机性能的限制,图形的显示速度还有待提高,特别是在军事领域需要实时显示的场合,另外,地图图像的分辨率以及高分辨率图像的存储都需要大容量的存储空间,如何对其进行压缩也有待解决。

参考文献

[1]时会省.地理信息系统中的制图综合研究[a].2009中国地理信息产业论坛暨第二届教育论坛就业洽谈会论文集[c].2009.

[2]孙艳军,张二林.地理信息系统中制图综合问题的探讨[j].科技信息,2009,07(20).

[3]马照亭,孙伟,殷勇,李成名.城市3维地理信息系统中场景的制图输出技术[j].测绘通报,2007,09(9).