公务员期刊网 精选范文 量子计算基本特征范文

量子计算基本特征精选(九篇)

量子计算基本特征

第1篇:量子计算基本特征范文

关键词:句子相似度;词语相似度;词序相似度;句法相似度;语义相似度

DOIDOI:10.11907/rjdk.161604

中图分类号:TP301

文献标识码:A文章编号文章编号:16727800(2016)009000402

基金项目基金项目:山东省自然科学基金项目(ZR2014FQ018)

作者简介作者简介:李秋明(1981-),女,山东济宁人,中国石油大学(华东)计算机与通信工程学院硕士研究生,研究方向为自然语言处理、句子相似度计算;张卫山(1970-),男,山东莱阳人,中国石油大学(华东)计算机与通信工程学院教授,研究方向为大数据处理和普适云计算;张培颖(1981-),男,辽宁盘锦人,中国石油大学(华东)计算机与通信工程学院讲师,研究方向为自然语言处理、未来网络架构和云计算。本文通讯作者为张培颖。

0引言

度量两个文本之间的语义相似度是自然语言处理领域中基础的研究课题。两个文本之间的语义相似度度量可以应用在许多自然语言处理任务中,例如:文本抄袭检测、查询结果评价以及自动问答系统等。

由于中文句法表达的多样性和中文标注语料库资源的缺乏,导致计算两个句子的相似度非常困难。研究人员只能利用有限的语料资源和句子的表层特征进行句子相似度计算。随着自然语言处理技术的迅速发展,学者对句子之间的语义相似度提出了许多计算方法。这些方法按照对语句的分析程度分为基于统计的方法和基于知识的方法。基于统计的方法借助大规模语料库计算句子中的词语或短语出现的频次,或者利用N-Grammar的方法计算短语出现的频次来度量两个句子之间的语义相似度。代表性方法有基于向量模型的方法[1]、句子相似模型和最相似句子查找算法[2];基于知识的方法主要是利用语义知识计算句子的相似度,比较有代表性的有:基于中文句子的依存关系计算句子之间的相似度[9]、多种层次融合的句子相似度计算模型[10]、一种改进的句子相似度计算模型[11]。

本文主要从中文句子所包含的多种特征角度出发,考虑中文句子的词形、词序、句法和语义4个方面特征,这4个特征在表达句子信息时各有侧重、互为补充。实验数据表明,该算法在计算句子相似度方面具有较高的准确率。

2实验结果分析

测试采用MSRP语料库中的句子。MSRP语料库中的句子是英文的,我们首先翻译成中文,然后利用本文方法进行句子相似度计算。

对比句子相似度算法有:TF-IDF方法、语义依存方法和本文方法,测试实验结果如表1所示。

从实验结果可以看出:本文提出的多特征融合句子相似度计算方法性能优于语义依存的计算方法,原因在于该方法综合考虑了中文句子中包含的词语、词序、句法和语义4种特征。我们对计算错误的13对中文句子仔细分析,发现产生计算错误的句子中包含未登录词,在进行句法分析时出现了错误。含有未登录词的句子在进行语义计算时出现错误,所以准确率也随之降低。

参考文献:

[1]张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2004,19(2):9399.

[2]吕学强,任飞亮,黄志丹,等.句子相似模型和最相似句子查找算法[J].东北大学学报:自然科学版, 2003,24(6):531534.

[3]XIONG JING,LIU YUN TONG,YUAN DONG.Dependency syntactic tree supported sentence similarity computing[J].Information Technology Journal.2013,12(20):56855688.

[4]张培颖.多特征融合的语句相似度计算模型[J].计算机工程与应用,2010,46(26):136137.

[5]刘群,李素建.基于知网的词汇语义相似度计算[C].台北:第三届汉语词汇语义学研讨会,2002.

[6]夏天.中文信息相似度计算理论与方法[M].郑州:河南科学技术出版社, 2009.

[7]江敏,肖诗斌,王弘蔚,等.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):8489.

[8]赵彦锋,周晓红.领域本体的语义相似度算法研究[J].软件导刊,2015,14(12):4952.

[9]李彬,刘挺,秦兵,等.基于语义依存的汉语句子相似度计算[J].计算机应用研究,2003,20(12):1517.

[10]南铉国,崔荣一.基于多层次融合的语句相似度计算模型[J].延边大学学报:自然科学版,2007,33(3):191194.

第2篇:量子计算基本特征范文

关键词:波达方向估计;TLS-ESPRIT;均匀圆阵;智能天线

中图分类号:TN911.25文献标识码:A

文章编号:1004-373X(2010)01-061-03

DOA Estimation Based on Modified ESPRIT Algorithm

YUN Caixia,LI Shan,BAI Yanxia

(North College,Beijing University of Chemical Technology,Langfang,065201,China)

Abstract:Applying classical algorithms of DOA estimation to UCA is an important research item.In order to apply spatial smoothing techniques to UCA,convert the array manifold form UCA to virtual ULA by pretreatment techniques.For solving the fluctuation of signal subspace caused by noise,two kinds of TLS-ESPRIT are proposed,then the mode-space algorithms of UCA are introduced.Based on proper mathematic model,the performance of those algorithms is simulated and compared.The simulation results verify that these two kinds of modified algorithms can get better performance then rudimentary ESPRIT.

Keywords:DOA estimation;TLS-ESPRIT;UCA;intelligent antenna

0 引 言

TD-SCDMA网络采用了上行同步和均匀圆阵(UCA)智能天线等新技术,因此服务基站可以方便地获得移动用户信号的到达时间(TOA)和到达角度(DOA)。借助这两个参数可以实现单基站对移动台的定位,其中对DOA的精确估计是该定位技术中的关键环节。基于均匀线阵(ULA)的ESPRIT等经典的DOA估计算法不能直接应用于UCA,如何把这些经典的DOA估计算法应用于UCA的阵列是一个重要的研究课题[1]。

ESPRIT算法是Roy等提出的一种基于子空间的高分辨力的DOA估计方法[2]。本文首先对应用于ULA的ESPRIT算法进行推导,并提出两种改进的TLS-ESPRIT算法,然后推广到UCA中,最后对上述各种算法的性能进行了详细的计算机仿真和对比分析。

1 基于ULA的ESPRIT算法

ESPRIT算法要求传感元件阵列可以分解为两个完全相同的子阵列,且两个子阵列每个相对应的阵元有相同的平移(不是旋转)。也就是说,阵列要具有平移不变性,本节以ULA为模型推导ESPTRIT算法[3]。

1.1 数学模型

考察M-元均匀直线阵列[4],构造两个结构相同的子阵,子阵1由前M-1个阵元组成,子阵2由后M-1个阵元组成。两组子阵对应的每个阵元有相同的平移Δx(Δx为相邻两个阵元的间距)。

接收模型中,子阵1中的接收信号的数据向量为:

X=As+n1

(1)

子阵2中的接收信号的数据向量为:

Y=AΦs+n2

(2)

式中:X,Y均为(M-1)×1的向量;A为(M-1)×D的矩阵;s为D×D的信号矩阵;n1,n2均为数学期望为0,方差为σ2的阵元间噪声,(M-1)×1的向量。由两个阵列的结构可以知,Φ是每个信号到达两个阵列相应的延迟相位,为D×D的对角阵,可表示为:

Φ=diag(ejβΔxcos φ0,ejβΔxcos φ1,…,ejβΔxcos φD-1)

(3)

在复数域,Φ只相当于比例算子,但在实数域,Φ相当于一个二维旋转算子。由式(3)可知,Y是由X旋转得到的。

1.2 基本ESPRIT算法

ESPRIT的基本思想为[5]:向量X经旋转后得Y,但是这种旋转却保持了X和Y对应信号子空间的不变性。利用矩阵的平移不变性,导出信号子空间的旋转不变性,这一旋转不变性结果可以用下面的定理表述。

定理 定义Γ为与矩阵束{CXX,CXY}相对应的广义特征值矩阵,若s是非奇异的,则矩阵Γ与Φ有下列关系:

Γ=Φ000

(4)

即Γ只是Φ中各元素的一个排列。

根据式(3)和式(4)可以得出波达方向φk的表达式为:

φk=cos-1arg(Φk)βΔx,k=0,1,…,D-1

(5)

综上所述,基本ESPRIT的算法步骤总结如下:

(1) 对两个子阵接收信号分别进行k次快拍取样,分别计算RXX和RXY;

(2) 对RXX进行特征分解,对M-1>D,最小特征值为噪声的方差σ2;

(3) 应用σ2,计算CXX和CXY;

(4) 计算矩阵对{CXX,CXY}的广义特征分解,得到位于单位圆上D个广义特征值,以确定子空间旋转因子Φ;

(5) 根据式(5)求解D个波达方向φk,k=0,1,…,D-1。

1.3 基于奇异值分解的TLS-ESPRIT算法

在实际存在噪声的情况下,测量的次数有限,使得在求解广义特征值时存在一些困难。把奇异值分解和总体最小二乘法应用于ESPRIT算法,可以将一个较大维数的病态广义特征问题转化为较小维数(D)的无病态广义特征问题[6]。

TLS-ESPRIT算法的步骤如下:

(1) 对两个子阵接收信号分别进行k次快拍取样,分别计算RXX和RXY;

(2) 对RXX进行特征分解,对于M-1>D,最小特征值为噪声方差σ2;

(3) 应用σ2,计算CXX和CXY;

(4) 对CXX进行奇异值分解,确定与D个主奇异值对应的U1,VH1和Σ1,并计算UH1CXYV1;

(5) 计算矩阵,对{Σ1,UH1CXYV1}的广义特征值分解,得到位于单位圆上D个广义特征值,可确定子空间旋转因子Φ;

(6) 根据式(5)求解D个波达方向φk,k=0,1,…,D-1。

第3篇:量子计算基本特征范文

摘要:为解决电子系统健康状态监测数据的冗余性和高维性问题,提出了一种将样本优化和特征优化相结合的监测数据优化算法。首先,采用特征空间样本选择算法对监测数据进行样本优化,找出最具代表性的样本;然后,采用核主成分分析—分布估计算法(KPCAEDA)对样本优化后的监测数据进行特征优化,在保证特征信息充足的情况下,保留更多的识别信息;最后,以某滤波电路为例进行了验证,仿真结果表明,该算法同KPCA等优化算法相比,在训练时间和识别率上能达到更好的平衡。

关键词:电子系统;监测数据优化;特征空间样本选择;核主成分分析;分布估计算法

中图分类号: TP18;TP216文献标志码:A

引言在我军装备跨越式发展过程中,电子系统在武器装备中的比重越来越大,在战争中的作用也越来越突出,一旦其健康状态发生退化,将会直接影响部队战斗力的发挥。因此,监测电子系统的健康状态对部队装备维护具有重要意义[1]。但是,在对电子系统健康状态进行监测时,通常需要采集大量数据,这些数据大多具有冗余性和高维性的特点,将其直接送入监测模型中会极大降低监测效率,并导致不准确的状态评估结果。因此需对监测数据进行优化,这是监测评估电子系统健康状态的第一步。文献[2]提出的主成分分析(Principal Component Analysis, PCA)算法是一种常用的将多个互相关变量转化为少量不相关变量的数据优化方法,该算法理论完善,计算方便,具有最优的线性重构误差,但是,该方法对主成分个数的确定没有明确的准则,而且不能用于处理非线性数据,因此限制了其应用范围;之后有学者对此方法进行了改进,提出了基于核空间的核主成分分析(Kernel Principal Component Analysis,KPCA)算法[3-4],通过引入核函数,在特征空间内对数据进行PCA处理,对非线性数据具有较好的处理能力,但是,该算法的性能依赖于核的选择,并且核矩阵的大小是数据中样本数的平方,若样本数量很大时,核矩阵的计算量较大。另外,无论是PCA算法还是KPCA算法,在优化数据过程中均将全部数据视为一个整体,寻求散度最大的方向,然而在很多情况下,散度最大方向与识别最有利的方向并不一致[5],这大大限制了其在数据优化中的应用。本文针对这两种算法的缺陷,提出了将样本优化和特征优化相结合的监测数据优化算法:首先,采用特征空间样本选择算法对样本进行优化,这不仅可以有效地消除相似样本,提高监测模型的泛化能力,还可以降低KPCA中核矩阵运算的计算复杂度[6];然后,对优化后的样本集进行KPCA分析,并采用分布估计算法(Estimation of Distribution Algorithm, EDA)对主成分特征信息进行选择,在保证状态特征信息充足的前分区图片图1监测数据优化策略提下,保留更多的识别信息,实现监测数据的特征优化。基于特征空间样本选择和KPCAEDA算法的监测数据优化过程如图1所示。1基于特征空间样本选择的样本优化算法针对监测模型大多在特征空间进行模式识别而以往样本选择在原始空间进行的矛盾,提出了基于核方法的特征空间样本选择技术,即利用核技巧将样本选择方法拓展到特征空间,在特征空间中选择最具代表性的样本来表征整个样本集,提高监测效率。基于特征空间样本选择的样本优化算法如下:

第4篇:量子计算基本特征范文

关键词:大数据 统计特征 情报关键词 关键词提取 方法

1 大数据的含义及特征

大数据即人们常说的非结构化数据,它借助计算机网络,可以存储大量数据,并保证数据的真实性。体量、速度和多样性是大数据定义中的关键内容。其基本特征主要有:第一,大数据数据总量增长规模非常大。同种类型的数据在传输过程中处于快速增长状态。第二,数据增长的速度非常快,以指数级持续增长模式为主。第三,新的数据来源渠道越来越多,新的数据类型也不断丰富。第四,大数据的价值不断上涨,大数据可以为企业发展带来更多商机,是现代企业发展过程中必不可少的内容。

2 相关研究现状及存在的问题

情报关键词是表述某个文件或者论文中重要内容的词语。本文中介绍的大数据时代基于统计特征的情报关键词是指以网页为主的关键内容,提取关键词的主要目的是分析语义和对核心词语进行统计。网页关键词在自动摘要、信息检索以及自动问答等形式中都存在较多不确定因素,导致大数据时代基于统计特征的情报关键词提取方法问题重重。

3 大数据时代基于统计特征的情报关键词提取方法

3.1 关键词提取方法的分类 关键词提取方法分四类:第一,基于语义的方法。以词典为依据,对词和句子进行分析,对词和句子进行分类标注,满足计算机对多重信息片段的实际需求,通过计算获得情报关键词。第二,基于机器学习的方法。利用机器对训练语料库进行训练,结合各项系数的实际状况,确立相关的参数、建立准确的模型。第三,基于复杂网络的方法。明确候选特征词之间的关系,以既定的规则为出发点,构建一个复杂网络,通过相关数据计算出节点权重系数和介数,最大的综合值即为关键词。第四,基于统计的方法。词语具有相关统计信息,以统计信息为基础,提取相关关键词。

3.2 关键词提取方法的构造

3.2.1 中文词语的特征及自动分词。中文词语通常由两个或者两个以上的汉字组成,句子具有连续性,要求研究人员利用大数据对中文句子进行分析之前,将句子划分为若干小部分。目前已经有自动标注词性的系统,可以自动过滤词和通用词语。

3.2.2 网页文本的结构特征及词语统计特征。MTML是一种标记语言,该标记语言的证书的目的是描述网页文档内容,以成对的标记符号为依据,明确显示网页的各个部分。词语统计的特征主要有:如果某篇文章中某个词语出现的频率比较高,在其他文本中出现的频率偏低,那么,这个词语即可作为候选关键词;同一词语在不同标记符号中对文章内容的反映结果不一样,也就是说词语出现的位置对关键词的选择有至关重要的作用。

3.2.3 词语过滤。文本中通常会存在大量噪声词。噪声词与文章的内容联系不大,噪声词在文本中和文本集合中出现的频率均比较高,噪声词通过词频和文本频率乘积的离散系数自动过滤。不同内容的文本长度不一样,噪声词在文本中出现的频率数受文本长度的影响,离散系数是指某个词语在文本中的波动程度,词语的离散系数与该次在文本中出现的稳定性成正比,也就是说,离散系数越大,该次在文本中的稳定性越差。

3.2.4 中文关键词提取流程图。本文以TfDf指标为依据,采用离散系数的方法将文本中存在的噪声词过滤除去,对候选关键词共现概率分布进行分析。确定TFIDF和候选关键词的位置信息,以TFIDF-SK为计算方法,以函数TFIDF-SK值作为关键词重要性的衡量标准。TFIDF-SK算法系统流程图如图1所示。

图1 TFIDF-SK算法系统流程图

TFIDF-SK算法将输入文本集合进行处理,处理工作中必须将文本集合中的噪声词过滤除去,做好词语统计特征;将收集到的信息计入特征计算模块,该模块的主要功能是计算TFIDF值、词语位置信息和偏度;进入关键词重要性衡量模块,计算出TFIDF-SK值;判断关键词重要性度量大小,输出文本中的情报关键词。

4 结束语

目前,国内外对大数据时代基于统计特征的情报关键词的提取方法均有统一评价,在实际发展过程中强化统计特征情报关键词的提取方法显得尤为重要。因此,研究人员必须在了解大数据含义及特征的前提下,针对大数据时代基于情报关键词提取方法存在的问题,对相关方法进行深入研究,保障情报关键词的稳定性。

参考文献:

[1]罗繁明,杨海深.大数据时代基于统计特征的情报关键词提取方法[J].情报资料工作,2013.

第5篇:量子计算基本特征范文

〔关键词〕图像检索;共词分析;知识图谱;研究热点

DOI:10.3969/j.issn.1008-0821.2013.11.023

〔中图分类号〕G254 〔文献标识码〕A 〔文章编号〕1008-0821(2013)11-0100-08

图像检索是信息检索的重要组成部分,从20世纪70年代开始,很多学者都对图像检索技术进行研究,先后提出基于文本的图像检索、基于内容的图像检索以及基于语义的图像检索技术。传统的文字搜索主要是以关键词匹配为基础,着重优化搜索路径算法,加强建立学习和反馈模型,比如百度和谷歌都取得了巨大的成功。但图像检索与文字检索存在很大的区别,存在很多问题,如图像内容描述、语义理解鸿沟、特征提取复杂等。这些问题制约着图像检索研究领域的进一步发展,也是图像检索研究的热点问题。

本文以CNKI近十年来发表的图像检索文献为研究对象,以文献关键词为研究载体,以共词分析方法为研究基础,采用聚类分析、多维尺度分析、社会网络分析等方法,结合可视化软件Ucinet,绘制近十年来图像检索研究图谱。笔者研究目的在于通过这篇研究论文,图像检索研究领域的学者或者是对图像检索感兴趣的人可以很清晰的发现近十年来图像检索研究领域过去的关注点、现在的热点以及未来的发展趋势。

1 文献来源及研究方法

1.1 研究文献来源

为了确保检索的文献符合笔者的分析需求,笔者检索条件设置为:数据来源为CNKI(中国学术文献网络出版总库),检索时间为2003-2012年,关键词中包含“图像检索”,检索策略为“精确”进行检索,共检索出期刊2 477篇。

1.2 基于研究样本的文献计量情况

论文载文量的变化,在一定程度上反映该学科的理论水平和发展速度[1]。笔者对国内图像检索相关的2 477篇文献进行统计,并利用Excel软件绘制出图像检索文献年代分布折线图,如图1所示。图1的数据表明,图像检索论文数量从总体上来看,是成上升趋势,在2008年达到顶峰。论文增长曲线呈现“S”型。根据普莱斯逻辑增长曲线规律,笔者发现图像检索研究是逐步发展的,并逐渐走向成熟的过程。图1 2003-2012年图像检索研究期刊发文量

1 通过文献计量软件SATI 2.2软件,对检索的2 477篇文章的文章进行统计分析,得到作者的总人数为3 917人(包括第一作者、第二作者等)。经过计算,笔者发现西安电子科技大学多媒体研究所的周利华教授和河南理工大学的孙君顶教授发表的文章最多,同为33篇,根据普莱斯计算公式,核心作者发文数m≈4.31,因此将文章数量为5篇及以上的著者定为核心著者,统计得到核心著者有153人,占全部作者总数的3.9%。笔者筛选出发文数量排名前20的作者及其单位,如表1所示。从表1中,我们发现图像检索研究机构以高校为主,并且相对集中。西安电子科技大学、西北大学、西北工业大学、河南理工大学等。高校是图像检索的主要研究机构,这也表明,图像检索的研究目前以理论研究为主,实际应用并不广泛。

表1 2003-2012年图像检索期刊发文量前20位作者及其单位

1.3 期刊分析

期刊载文分析主要反映学科研究文献的期刊分布情况,期刊的分布也可验证布拉德福定律。由于核心期刊的载文量水平较高,更能反映学科研究水平,因此本文的期刊分析,都以核心期刊为主。表2是排名前20位发文量超过15篇的核心期刊。

表2 载文前20种核心期刊表

1.4 研究主题分析

研究主题变化通过关键词词频变化来揭示。本文对2 477篇图像检索的关键词进行统计,在统计过程中,对一些关键词进行合并处理,如“基于内容的图像检索”、“基于内容”和“CBIR”;“纹理”和“纹理特征”等。为了能够清晰的揭示出研究主题的变化,笔者对每一年的论文关键词分别进行统计,统计结果见表3。

表3 2003-2012年论文关键词词频变化表

随着时间的推移以及研究的深入,图像检索领域的研究热点也在不断的变化中。笔者参考安徽大学储节旺教授将热点关键词进行分类的研究方法,将图像检索领域的热点关键词分为3种类型:恒星关键词、流星关键词和新星关键词[2]。(1)恒星关键词指的是那些一直处于研究热点的关键词,如“图像检索”、“基于内容的图像检索”、“相关反馈”、“特征提取”、“颜色直方图”等,这类关键词也是图像检索的核心内容。(2)流星关键词指的是那些研究一段时间后缺乏持续研究的关键词,如“图像数据库”、“医学图像检索”、“数字图书馆”等。这类关键词研究的内容深度不够,没有涉及到图像检索的核心内容,研究的是图像检索应用研究。图像检索研究本身存在很多技术有待突破,目前主要停留在理论研究层面,这些基于图像检索技术的应用研究明显研究深度和热度。(3)新星关键词指的是那些总体增长比较平稳并且在未来会受到重点研究的关键词,如“图像分割”、“小波变换”、“支持向量机”、“灰度共生矩阵”等。这类关键词涉及到图像检索的核心技术,也是未来提高图像检索速度和效果的关键所在。

1.5 高频关键词的确定

通过文献计量软件,统计得出2 477篇文章中共有关键词3 463个。通过对关键词进行认真分析,将一些表述相近意思的关键词进行合并,如“基于内容的图像检索”、“CBIR”和“基于内容图像索”;“纹理”和“纹理特征”进行合并,取词频大于20的关键词作为高频关键词,共有48个,如表4所示。表4 高频关键词表(部分)

关键词频次关键词频次图像检索1 190直方图48基于内容的图像检索488基于内容44相关反馈261灰度共生矩阵43特征提取210MPEG-743颜色直方图130数字图书馆37纹理特征94相似度37支持向量机86医学图像检索36颜色特征72图像特征35小波变换71图 像32图像分割65检 索31形状特征58信息检索30相似性度量56图像语义30图像数据库54图像分类29颜 色52颜色空间28聚 类49不变距27

为了进一步的分析关键词内部之间的联系,对48个高频关键词进行两两检索,形成48×48的共词矩阵,如图2所示。图像检索基于内容的

图像检索相关反馈特征提取颜色直方图纹理特征纹 理图像检索1 18910129104814942基于内容的图像检索103876341161916相关反馈12963261238310特征提取1044123210599颜色直方图81168513001图2 高频关键词共现矩阵(部分)

1.6 构造相关矩

通过对共词矩阵进行卡方检验,发现共词矩阵不符合正态分布规律,为了能够用更多的统计方法对数据进行统计分析,需要利用Ochiia系数对共词矩阵进行转换,构造相关矩阵和相似矩阵。用Ochiia系数将共词矩阵转换成相似矩阵,如图2所示。但是相似矩阵中的0值过多,统计时容易造成误差,为了方便进一步处理,用1与全部相关矩阵上的数据相减,得到关键词相异矩阵,部分数据如图3所示[3]。

图像检索基于内容的

在相似矩阵中,数值的大小表明了两个关键词之间距离的远近,数值越大表明关键词之间的距离越近,相关程度越大;数值越小则表明关键词之间的距离越远,相关程度越小。图像检索基于内容的

在相异矩阵中,数值越小表明关键词之间的距离越近,相关程度越大;数值越大则表明关键词之间的距离越远,相关程度越小。

1.7 知识图谱分析

科学知识图谱是显示科学知识的发展进程与结构关系的一种图形。它的悄然兴起,一方面是揭示科学知识及其活动规律的科学计量学从数学表达转向图形表达的产物,另一方面又是显示科学知识地理分布的知识地图转向以图像展现知识结构关系与演进规律的结果。基于社会网络的Ucinet软件,通过构建行动者节点及其联系网络的互动关系,解释社会网络的层次性、等级性、结构性等,并以网络图谱的形式揭示该研究领域的主题热点[4]。图5 关键词共现图谱

分析显示,网络密度为10.95%,中间中心度为19.62%,一致性指数为0.962,上述3个指数表明,关键词共现网络集聚程度不高。其中,图中节点大小由关键词频次决定,线条的粗细,由两个关键词共现的次数决定。线条越粗,表明共现次数越多,反之,表明共现次数越少。节点围绕图像检索、基于内容的图像检索、相关反馈、特征提取形成相对密集的圈层。图5,点的中间中心度排名前15位的分别是图像检索(982.269,1)、基于内容的图像检索(529.658,2)、相关反馈(365.832,3)、特征提取(343.531,4)、颜色直方图(160.999,5)、纹理特征(108.175,6)、支持向量机(95.334,7)、颜色特征(78.884,8)、小波变换(73.287,9)、图像数据库(57.513,13)、形状特征(46.640,11)、相似性度量(45.965,12)、聚类(44.494,15)、医学图像检索(40.030,22)、图像分割(34.788,10),括号内为关键词的中间中心度及频次排序。网络连线的粗细能反映节点的关联度,是识别意义类团的重要特征,如“图像检索——基于内容的图像检索——图像分割——相关反馈——纹理特征”、“图像检索——颜色直方图——颜色特征——兴趣点——颜色量化——特征匹配”、“图像检索——聚类——语义鸿沟——高层语义——图像索引”、“图像检索——特征提取——纹理特征——相似度——图像数据库——医学图像检索——图像检索系统”等。

1.8 多维量表分析

多维量表分析(MDS)是将一组个体间的相异性数据经过MDS转换成空间的构形,且尽可能保留原始数据的相对关系。在SPSS 19中文版中,选择“分析——度量——多维尺度(ALSCAL)”,得到空间二维图,如图6所示。图6 多维尺度分析结果图

从图6可以看出,关键词大体可以分为六大类。第一类,语义图像检索、多媒体数据库、纹理检索、图像匹配、空间关系、高层语义、主色调、纹理谱、位平面、粗糙集、纹理图像检索、商标图像检索、环形颜色直方图;第二类,纹理分析、边缘检测、图像检索技术、图像检索系统、兴趣点、搜索引擎;第三类,视觉特征、半监督学习、相关反馈、流形学习、多示例学习支持向量机、图像检索;第四类,图像特征、不变距语义、语义鸿沟、相似性度量、相似度、图像分类;第五类,数字图书馆、聚类、形状特征、颜色特征、特征提取;第六类,医学图像、图像数据库、医学图像检索、灰度共生矩阵、颜色距、图像语义、MPEG7、图像分割、颜色空间、图像标注等。

2 研究热点分析

通过上文对图像检索研究领域的多维计量分析(知识图谱分析、多维尺度分析)以及关键词词频的变化分析,笔者发现目前国内对图像检索的研究领域比较集中,主要集中在图像检索的算法研究、图像特征研究(如颜色特征,纹理特征,形状特征等)、图像语义研究等。具体分为以下几个方面:

2.1 图像算法研究

图像算法研究是图像检索的研究热点之一,不同的学者从不同的角度提出不同的图像检索算法,来提高图像检索的效果。鲁珂等提出基于支持向量机的理论提出了一种用于图像检索的半监督学习算法[5]。许相莉等提出一种基于粒子群的图像检索相关反馈算法,使得用户对检索目标的理解逐渐清晰,能够有效全面的搜索图片库,同时避免多次反馈造成的算法效率和检索效果之间的矛盾[6]。王崇骏等在IPSM模型对图像的语义分类特征进行描述和提取的基础上,提出并实现了基于高层语义的图像检索算法以及基于高层语义的相关反馈算法[7]。李健提出一种以曲波变换为基础,综合香农熵与频域子带能量特征的图像检索算法。该方法用香农熵进行预分类,用子带图像的能量特征进行相似度度量,并加入检索者的反馈信息,实现图像的精确检索[8]。牛蕾等回顾了早期的启发式相关反馈算法和近期的最优相关反馈算法,对现有的相关反馈算法进行了分析、总结和对比,并提出了今后相关反馈算法的发展方向[9]。因限于篇幅,不一一列举图像检索算法。

2.2 图像特征研究(颜色特征、纹理特征、形状特征、空间关系特征等) 特征提取是计算机视觉和图像处理中的一个概念,是图像检索的核心内容。它指的是使用计算机将图像信息进行分解、匹对,决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。目前,特征提取算法各种各样,算法计算复杂性和可重复性也非常不同。颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质,由于颜色特征不能反映颜色信息的空间分布等特点,因此基于颜色特征的图像检索存在一定的缺陷,影响图像检索效果。王向阳等提出一种鲁棒的多特征彩色图像检索新方法,实验结果表明,该方法不仅能够准确、快速的检索出用户所需图像,而且对光照、锐化、模糊等噪声攻击均具有较好的鲁棒性[10]。纹理特征也是全局特征,它和颜色特征不同,纹理特征不是基于像素点的特征,它需要在包含多个像素点的区域中进行统计计算,这样提高了模式匹配的成功率,但光照、反射情况对图像检索存在一定干扰。安志勇等在构造了具有旋转、平移和尺度不变的纹理特征的基础上,提出基于纹理特征的图像检索算法,该算法具有旋转、平移和尺度不变性,与其它方法相比,具有较高的检索率[11]。形状特征有两类表示方法:一类是轮廓特征;另一类是区域特征。图像的轮廓特征主要针对物体的外边界,而图像的区域特征则关系到整个形状区域。形状特征可以比较有效地利用图像中感兴趣的目标来进行检索,但图像形状本身存在容易出现变形的情况,而且人的主观意识对图像形状的判别也存在影响。何姗等提出一种基于兴趣点的图像检索新方法ACSM,利用兴趣点的位置信息,提取兴趣点周围局部区域的颜色矩特征和区域形状不变矩特征,由于将颜色和形状特征有机结合,ACSM算法有效提高了图像检索的准确性[12]。空间关系,是指将一幅图像进行分割,分割出来的多个目标之间的相互的空间位置或相对方向关系(邻接、重叠等关系)。空间关系特征的使用可加强对图像内容的描述区分能力,但空间关系特征常对图像或目标的旋转、反转、尺度变化等比较敏感。张伟等构造了在平移缩放旋转下保持不变的基于度量矩阵特征值的图像空间关系描述子。研究表明这种描述与人的主观视觉心理相一致,在平移缩放旋转下以及小噪声下具有较强的鲁棒性,具有较好的类别可分离性[13]。

2.3 图像语义研究

图像语义研究是图像理解的重点和难点,在现实生活中,人的视觉特征因人而异,人对同一副图像的情感认知也不尽相同,导致不同的人对同一副图像特征提取出现天壤之别。如何对一幅图像的特征(颜色、纹理、形状等)描述与视觉特征相吻合,进行客观的语义描述,实现基于语义的图像检索是国内学者研究的热点之一。图像语义研究包括语义鸿沟、高层语义、底层特征语义等角度。语义鸿沟是图像检索系统广泛存在的问题之一,它是人对图像相似性的判别依据与计算机对相似性的判别依据之间的不同,造成了人所理解的“语义相似”与计算机理解的“视觉相似”之间的“语义鸿沟”的产生。张菁等针对相关反馈和感兴趣区检测在弥补语义鸿沟时存在主观性强、耗时的缺点,提出了视觉信息是一种客观反映图像高层语义的新特征,基于视觉信息进行图像检索可以有效减小语义鸿沟[14]。高层语义主要涉及图像的场景语义、行为语义和情感语义。一般而言,高层的图像语义往往建立在较低层次的语义获得的基础上,并且层次越高,语义越复杂,涉及的领域知识越多,也是图像语义描述的难点之一。吴楠等利用图像的高层语义信息来进行图像检索,在深入研究图像高层语义的低层特征描述的基础上,提出了图像语义的层次划分,并对每个高层语义层提出了语义抽取和检索算法。该检索算法可以有效地对图像高层语义信息进行提取,并可作为新型高效图像检索系统的一个模型[15]。袁薇等指出了应用图像的高层语义特征和底层颜色特征作为图像检索的综合指标,将图像文本和视觉信息融合起来,给出了一种综合语义和颜色特征的图像检索系统的体系架构,以填补多媒体底层特征和高层语义之间的差异[16]。

2.4 图像检索技术研究

图像检索技术的发展是一个不断进化的过程,最初是基于文本的图像检索。基于文本的图像检索是首先对图像的特征进行文本描述,然后利用关键词进行检索图片,费时费力,而且检索效率低下,容易出现错误。为了克服基于文本的图像检索的局限性,提出了基于内容的图像检索系统,通过特征提取和高维索引技术进行检索,通过比较视觉特征的相似度来获得检索结果。洪俊明总结了图像数据库检索技术的发展轨迹和特点,针对基于内容的图像检索技术中的局限性,从计算机底层硬件的角度提出了基于内容检索的流水索引法[17]。但在现实生活中,人们往往习惯于对图像的语义进行检索,而不是图像的特征,如何建立从图像的低层特征到高层语义的映射,获取图像的语义概念,并在此基础上进行语义检索,是图像检索技术的一个新的方向,即基于语义的图像检索技术。陈久军等提出图像语义检索整体框架,系统采用XML技术,将图像内容层式描述、图像语义对象自动获取、图像语义相似测度等功能模块加以融合,实现语义层面的图像检索[18]。

3 结 语

国内对图像检索的研究热点主要集中在图像检索的算法研究、图像特征研究(如颜色特征,纹理特征,形状特征等)、图像语义研究等。当然,国内针对图像检索研究的热点还有,比如基于流行学习的图像检索技术、遗传算法、粗糙集理论在图像检索中的应用以及医学图像检索相关技术的研究等等,因限于篇幅,笔者主要列出国内学者研究比较集中的热点问题。通过共词分析法来展现国内图像检索研究的学科热点问题,这类文献基本没有。笔者的目的在于通过这篇研究论文,图像检索研究领域的学者或者是对图像检索感兴趣的人可以很清晰的发现近十年来图像检索研究领域过去的关注点、现在的热点以及未来的发展趋势。本文在研究过程中,也存在不足。在介绍图像检索研究热点问题,因限于篇幅,很多相关热点没有一一展示;在文献选取时,以期刊为检索源,忽略了硕博士论文,对研究结果会有一定的影响;高频关键词的设定、多维量表分析、知识图谱分析等都具有一定的主观性,这些问题是笔者下一步需要完善的地方。

参考文献

[1]张玉双.我国高校图书馆知识管理研究的文献统计分析[J].晋图学刊,2008,(5):45-48.

[2]储节旺,王龙.近十年国内知识管理研究热点——基于CSSCI数据库的词频分析[J].情报科学,2011,(9):1425-1429.

[3]Manfred Wettler.Reinhard Rapp Computation of Word Associations Based on the Co-occurrences of Words in Large Corpora[EB/OL].2005-10-09.

[4](美)林顿·C·费里曼.社会网络分析发展史[M].张文宏,刘军,王卫东,译.北京:中国人民大学出版社,2008:2-3.

[5]鲁珂,赵继东,叶娅兰,等.一种用于图像检索的新型半监督学习算法[J].电子科技大学学报,2005,(5):669-671.

[6]许相莉,张利彪,刘向东,等.基于粒子群的图像检索相关反馈算法[J].电子学报,2010,(8):1935-1940.

[7]王崇骏,杨育彬,陈世福.基于高层语义的图像检索算法[J].软件学报,2004,(10):1461-1469.

[8]李健,牛振山.基于曲波的纹理图像检索系统的设计与实现[J].计算机工程与科学,2011,(3):62-66.

[9]牛蕾,倪林.基于内容的图像检索中的相关反馈算法[J].计算机工程与应用,2004,(32):65-70.

[10]王向阳,芦婷婷.一种鲁棒的多特征彩色图像检索新方法[J].中国图象图形学报,2007,(10):1757-1760.

[11]安志勇,曾智勇,赵珊,等.基于纹理特征的图像检索[J].光电子·激光,2008,(2):230-232.

[12]何姗,郭宝龙,洪俊标.基于兴趣点颜色形状特征的图像检索方法[J].微电子学与计算机,2006,(3):40-43.

[13]张伟,何金国,桑佩罗布.基于度量矩阵特征值的图像空间关系描述[J].计算机应用研究,2010,(11):4376-4378.

[14]张菁,沈兰荪,David Dagon Feng.基于视觉感知的图像检索的研究[J].电子学报,2008,(3):494-499.

[15]吴楠,宋方敏.一种基于图像高层语义信息的图像检索方法[J].中国图象图形学报,2006,(12):1774-1780.

[16]袁薇,高淼.综合语义与颜色特征的图像检索技术研究[J].微电子学与计算机,2006,(10):36-39.

第6篇:量子计算基本特征范文

关键词:人脸识别;人脸特征;LBP;KNN

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)13-0184-02

人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部分析、验证等一系列相关技术,通常也叫做人像识别、面部识别。相对于指纹等其他生物特征,人脸识别有其独特的优势,应用前景广泛。适用于公园、工厂、超市、住宅区、商业街等公众活动和聚集场所的重要部位。目前在已经有大量系统中应用到了人脸识别技术,例如:出入管理系统、门禁考勤系统、监控管理、安全防范、照片搜索、来访登记、ATM机智能视频报警系统、监狱智能报警系统、RFID智能通关系统及公安罪犯追逃智能报警系统等都可以引入人脸识别技术。经过四十多年的发展,人脸识别技术取得了巨大的进步。在信息检索领域,可进行人物图片的检索;在安防系统中,可以达到实时监测的优良效果;在人工智能等其他领域,人脸识别的应用也有相当重要的意义。但是在进行人脸识别时,仍然有很多因素影响着识别效果。因此,人脸识别应用还有许多需要解决的关键问题。

本实验针对人脸识别技术中的特征提取步骤进行了改进,提取特征前对图像进行了区域分割,以消除人脸位置所带来的影响。识别过程如下,首先对需要识别的图片进行预处理,然后,提取人脸特征,与人脸数据库中的信息进行比较,得到正确的人脸编号,识别完成。

1 基本的LBP特征

人脸特征代表如何对人脸建模,并确定使用何种检测与识别算法。人脸特征在用于测量人脸之间的相似性中,是最为有效的。

目前,存在着多种从图片中提取人脸特征的方法。其中局部二进制模式(LBP)特征是比较优秀的一种。这种特征是Ojala在1996年提出的。使用LBP能够描述数字图像的纹理和形状。

某一位置的LBP特征是由当前区域内该位置周围的像素以二进制的模式组成的,把所有获取到的特征串联起来,形成一个直方图,并进行归一化,则这个直方图表示的就是当前的人脸。在人脸识别领域,LBP特征主要是计算当前位置八邻域的二进制模式值。按照顺时针的顺序,从左上位置开始比较,对于大于中心像素的,设置为1,否则设置为0。这就获得了一个八位的二进制数,通常情况下,将其转换为十进制数字,作为该位置的特征。

图像之间通过测量它们直方图之间的距离,来判断它们的相似性。在实验中,使用的是卡方距离。其中样本集用S表示,测试集用M表示:

2 区域改进的LBP特征

由上述基本的LBP可知,该特征与位置信息关系紧密,直接对两张图片提取特征,进行识别分类的话,则会因为“位置没有对准”而产生很大的误差。故在本次实验中,对直接提取进行改进,这里采用分块的思想,来消除位置的影响。首先将一张完整的图片划分为N*N个子区域,再对每个子区域内各个位置的像素点都提取其LBP特征,然后,在每个子区域内建立自己的LBP特征统计直方图。这样,就可以用一个统计直方图来进行描述一个子区域。最后,将所有直方图按顺序串联起来,并对其进行归一化,于是,一张图片便能通过一个归一化直方图来表示。

例如:有一张200*200像素大小的图片,取N为5,则该图片就被划分为25个子区域。在每个子区域内的每个像素点,提取其LBP特征,然后,建立统计直方图;这样便得到了25个子区域,即25个统计直方图,将它们串联起来并归一化后,就可以用这个归一化直方图来表示图片了。之后,我们利用各种相似性度量函数,判断两张图片之间的相似性。

3 KNN算法

在模式识别领域中,K近邻算法(KNN算法),是一种用于分类和回归的算法。在分类中,KNN算法输出的是分类的类别号。一个对象的分类是由其相邻的多个对象“多数表决”确定的,这里我们将这多个对象称之为“邻居”。我们给这k个最近邻居(k为正整数,通常较小)赋予不同权值,再把权值和最大的类别的编号,赋值给当前对象。若k = 1,则该对象的类别直接由最近的一个邻居赋予。在本次研究中,经过对不同k值的取值,最终取k等于5。

KNN是一种基于实例的学习,或者是局部近似和将所有计算推迟到分类之后的惰性学习。K近邻算法是所有的机器学习算法中最简单的之一。邻居都取自一组已经正确分类的对象。虽然没要求明确的训练步骤,但这也可以当成是此算法的一个训练样本集。

一般情况下,将欧氏距离作为距离度量,但是这是只适用于连续变量。通常情况下,如果运用一些特殊的距离来计算度量的话,K近邻分类精度可显著提高,在本次人脸识别研究中,使用卡方距离来度量,效果甚佳。

4 实验及结论

本次实验的样本数据库采用的是我们自己采集的大量照片,这些照片基本上是由双飞燕的PK-910H这款摄像头拍摄的。

样本数据库共有200张人脸照片,测试数据库共有100张人脸照片,识别率的计算方法是,识别正确的照片数量除以测试数据库的照片数量。

在本次实验中,需要建立人脸数据库,步骤如下:采集大量含有人脸的图片,对这些图片进行预处理,将图片灰度化并分割区域,之后提取人脸特征,把相关信息存入到数据库中。人脸识别阶段的前期步骤与建立数据库时相同,在提取特征之后,利用卡方距离以及KNN算法与数据库中信息进行比较,最终得到其正确的分类,识别完成。

基础的实验之后,为了研究区域个数对实验结果的影响,进而在划分不同子区域个数时进行了实验。

从实验结果可以看出,对整张图片划分区域后,识别率有明显的提升。另外,区域的划分个数对识别率是有一定影响的,既不是越少越好,也不是越大越好。所以,实际应用中要对每个参数的不同取值都尽可能进行尝试,以到达最优效果。本项目中的数据库而言,划分成25个区域取得的效果是最佳的。

参考文献:

[1] Ojala T, Pietikainen M, Harwood D. A comparative study of texture measures with classification based on feature distributions[J].Pattern Recognition, 1996(29).

[2] Altman N S. An introduction to kernel and nearest-neighbor nonparametric regression[J].The American Statistician , 1992,46(3): 175C185.

[3] 张翠平,苏光大.人脸识别技术综述[J].中国图像图形学报,2000,5(A):886-894.

[4] 江小辉.基于改进型 LBP 特征的人脸识别研究[D].金华:浙江师范大学,2009.

[5] 郑瑾.基于人脸识别技术的模拟考勤系统的研究与设计[J].福建电脑,2010(8).

第7篇:量子计算基本特征范文

【关键词】小波变换 改进的MALLAT算法 特征提取 墙地砖

纹理描述的是信号的局部区域特征,具有尺度性。当分辨率不同时,同一局部会表现出不同的纹理特征。由于小波变换在时空、频域同时具有良好的局部化性质,而且其多分辨率表示提供了图像纹理沿频率轴方向的基于尺度的信息分布。本文根据墙地砖纹理的随机性,对图像进行多尺度分解,并计算各个尺度上的能量,其得到的能量值是与图像行循环平移无关的特征。这些能量不但消除了原始图像旋转带来的影响,而且还使图像具有比例和平移不变量特性。

1 基于小波变换的图像特征提取方法

1.1 小波基的选择

在基于小波分解的图像分割方法中,小波基函数的选取至关重要。墙地砖的自动分类需要较强的实时性。为了快速和尽可能地去除分解数据的相关性,选择正交小波函数。同时,为了使矩阵变得更加稀疏以缩小计算量,选择具有高消失矩的小波和尺度函数。本算法中选用小波函数系中的db2小波作为基小波。

1.2 改进的Mallat算法

由于Mallat算法不具有平移不变性,变换结果不适合直接用于纹理特征的提取。因此,在本文中采用改进的Mallat算法,使之具有变换的平移不变性,从而有效的提取图像的纹理特征。

1.3 多尺度小波分解

根据改进的MALLAT算法对图像进行小波变换,利用小波变换的多尺度特性,提取不同精度的图像,得到近似细节分量、水平细节信号、垂直细节信号及对角细节信号。从小波分解子图像中提取纹理分析所需特征。其中能量是最为重要和常用的。由于细节子图像是原图像的高频分量,包含了主要的纹理信息,取各细节子图的能量作为纹理特征,能够反映沿频率轴关于尺度和方向的能量分布。

将小波分析应用于随机纹理墙地砖,即对图像进行二维小波分解并提取出其小波能量,计算出特征值,本文利用小波能量值来提取适宜墙地砖纹理分析的最佳分解尺度。其基本原理为:样本能量值可以反映信息量的多少,有利于纹理细节的充分表达与比较。不同尺度上LL、LH、HL、HH子图像的能量值与能量比例分布如表1所示。

表1给出了分解得到尺度j(j=1,2,3)上图像的能量值,分别对应各尺度上的四幅子图(LL子图、HL子图、LH子图、HH子图)。从表中可见,分解尺度数从1变化到3时,样本在LL子图的能量值基本不变或略微减少,说明纹理的宏观结构虽然经过各尺度的分解,但仍基本保持不变。因此,这些能量值按尺度信号的能量求解,按尺度顺序排列可以形成特征值。

由于对角细节的能量值所占比重较小,为了减小特征值的个数,又因为图像的纹理细节主要在高频部分显示出来,因此,本文舍去对角细节与近似细节能量值,只针对尺度1与尺度2的水平与垂直细节部分进行特征的提取,为4个特征。此外,根据提取图像特征的方法对墙地砖的峰度,标准差,灰度均值3个特征进行提取。表2中(a)-(e)为无缺陷、大面积缺陷、凹陷、裂纹、溶洞、水纹。

2 实验与结果分析

由实验可看出,小波分解尺度越多,总体的特征向量就越多,但在实际应用中,多尺度和多特征向量不仅会显著地增加计算工作量,而且随着尺度的增大,小波变换涉及到的边界像素和超出边界的像素增多,造成伪纹理的出现。经过小波分解后的图像虽基本保留了图像的缺陷信息,但是图像中大量的纹理信息也被消除了,如缺陷与纹理相似时,则也被消除,主要在于纹理信息大量存在于小波分解后的高频系数中,而小波变换只对近似分量进行分解,故纹理信息丢失。因此,样本能量值可以反映信息量的多少,有利于纹理细节的充分表达与比较。

3 结论

本文提出了一种基于小波变换的不变量纹理提取方法。首先利用改进的MALLAT算法对图像进行一种平移和比例不变的小波变换,构造出具有比例和平移不变性的图像多尺度能量图像,该图像反映了纹理图像在不同尺度上的能量分布特征。

作者简介

李孟歆(1972-),女,黑龙江省巴彦县人。博士学位。现为沈阳建筑大学信息学院教授,主要从事模式识别、图像处理、智能控制研究。

第8篇:量子计算基本特征范文

摘 要 随着信息技术的发展,基于内容的图像检索技术已经成为一个研究热点。文章提出了一种颜色和纹理相结合的图像检索算法。首先在rgb颜色空间中对已经分割好的图像块求其三个通道的颜色平均值,进行离散余弦变换后取其低频分量作为颜色特征。用边缘直方图提取其纹理特征。最后综合利用这两个特征进行图像检索。实验结果表明,本文的算法具有较好的检索效果,有效地提高了检索的查准率和查全率。 关键词 rgb颜色空间;颜色平均值;二维离散余弦变换;边缘直方图;纹理特征 1 引言 近年来由于互联网络的快速发展,数字信息正海量的增长。传统的以文本的查询方式远远满足不了人们的要求,因此,基于内容的图像检索越来越受到人们的关注,成为了研究的热点。在基于内容的图像检索中,颜色和纹理是人们使用的最为频繁的视觉特征。人们单一的对颜色或者纹理特征提出了各种各样的算法,但是一种特征的方法只能表达图像的部分属性,往往满足不了人们的视觉需求。因此本文提出了一种综合利用颜色和纹理的图像检索算法。实验表明,综合颜色和纹理这两种特征可以得到比使用单一特征进行图像检索更好的效果。 2 利用颜色特征进行检索 2.1 提取颜色特征 在国际标准mpeg-7中建议了一种描述符颜色布局[1],它表达了颜色的空间分布信息。在颜色布局描述符中,对分割好的8×8的图像取每一块图像的颜色平均值,形成一个颜色平均值矩阵,然后对其用二维离散余弦进行变换,取低频分量作为颜色特征。考虑到本文所选的测试图片都是bmp图片,以及减少计算量,提高检索速度的因素,本文的颜色布局描述符[2,3]的提取方法如下: (1)将整幅图像分成4×4块,计算每一块中所有象素rgb三个颜色通道的颜色平均值,并以此作为该块的代表颜色(主颜色)。 (2)将各块的颜色平均值进行离散余弦变换(dct),得到dct系数矩阵。dct是一种分离的变换,是国际静止图像压缩标准jpeg的基础。由于大多数图像的高频分量较小,相应于图像高频分量的系数经常为零,加上人眼对高频成分的失真不太敏感,所以可用更粗的量化。因此,在一般检索中可以利用部分dct系数作为特征向量。 (3)对dct系数矩阵进行之字形扫描和量化,得到dct系数。 (4)对于r、g、b三个通道,分别从dct系数中取出4个低频分量,形成12个参数,共同构成该图像的颜色特征向量。 2.2 相似度计算 国际标准mpeg-7中建议的颜色布局描述符在匹配时使用欧式距离公式,因此在本算法中匹配时也使用欧式距离公式,即为:

其中,各个分量的w为权重,ri,gi,bi分别为各个分量的第i(i=0,1,2,3)个dct系数。 3 利用纹理特征进行检索 3.1 提取纹理特征 在国际标准mpeg-7中建议了一种纹理特征描述符——边缘直方图[1]。边缘直方图是基于图像边缘的统计特征,能较好地反映目标的边缘和纹理特征,而且运算速度较高[4]。因此在本文中选取边缘直方图来提取图像的纹理特征。下面介绍一下提取的具体步骤: (1)将bmp图像转换成灰度图。每个象素的灰度值可以根据rgb颜色分量按下列公式计算得到: 。 (2)将整幅图像分成4×4块。 (3)分别对16块1/16子图像进行sobel边缘算子运算,得到边缘图像。 (4)统计子图像中的边缘直方图,该直方图包括4个直方条。(横轴为0,1,2,3四个边缘方向,纵轴为该方向上的象素数占子图像总的象素数的比率) (5)将16个子图像的直方条综合起来,得到包括64个直方条的整幅图像的边缘直方图。 下面介绍用sobel算子[5]提取图像边缘的具体算法: 首先介绍一下sobel算子中用到的4个核模板:

(1)将图像中的象素点的灰度值分别与以上四个方向的核模板相乘。 (2)比较四个乘积数值,取最大的那个数值,作为该象素点的新的灰度值。 (3)取适当的阈值t,若新的灰度值≥t,则认为该象素点为边缘点。 通过以上算法提取出图像的边缘。 3.2 相似度计算 仍然采用欧式距离公式作为相似度的计算公式,如下:

其中;qi,di为图像q,d在边缘直方图中对应的第i个直方条的值。 4 利用综合特征进行检索 对于以上三幅图像,假设它们是原图像的1/4图像(其余3/4图像与此1/4图像相同),如果按照本文中的利用颜色特征进行检索,那么将得出完全相似的结论,但是实际上这三幅图像给人的感觉是完全不同的。因此说单一的依靠提取一种特征来进行检索,得出的结果往往是不尽如人意的。在本文中,利用颜色布局描述符结合了颜色特征和空间关系的特点;利用边缘直方图作为纹理特征弥补了颜色特征缺乏空间分布信息的不足,考虑到图像中的边缘多对应目标的边界或轮廓,边缘直方图描述符在一定程度上还反映了图像中目标的形状信息。 因此这两种特征描述符达到了不同特征的优势互补的效果,而且,这两种特征在提取的过程中都归一化到了[0,1]区间,可以综合在一起进行图像检索。设颜色特征的权重为wc,纹理特征权重为wt,并且wc+wt=1,则综合特征的相似度计算公式为:

5 实验结果及结论 本文验证的系统的开发平台为microsft windows xp操作系统,赛扬2.0g的cpu,1g的内存。开发工具为vc++6.0。本文的实验图库为从标准测试图像库corel图像库中选取的由海滩、恐龙、大象、马、花等组成的102幅图片。表1、表2给出这几类图片的查准率和查全率。 表1 六类图片的查准率 利用颜 色特征 利用纹 理特征 利用综 合特征 海滩 0.583 0.500 0.833 恐龙 0.500 1.000 1.000 大象 0.417 0.333 0.583 马 0.583 0.833 1.000 雪景 0.167 0.250 0.333 花 0.500 0.667 0.833 表2 六类图片的查全率 利用颜 色特征 利用纹 理特征 利用综 合特征 海滩 0.350 0.300 0.500 恐龙 0.300 0.600 0.600 大象 0.250 0.150 0.350 马 0.583 0.833 1.000 雪景 0.100 0.150 0.250 花 0.300 0.400 0.500 从表1、表2中的数据可以看出,利用综合特征进行图像检索得到的查准率和查全率都要高于使用任何一种单一的方法进行图像检索得到的查准率和查全率。通过以上的实验结果图片和结果数据可以看出本文中综合利用颜色和纹理特征进行图像检索的效果比使用单一特征进行检索的效果更好,更符合人的视觉要求。因此,本文提出的综合颜色和纹理特征进行图像检索的方法是有效的,有意义的方法。 参考文献 [1]章毓晋.基于内容的视觉信息检索[m].北京:科学出版社.2003 [2]郑楚君,杨志勇,何惠玲,常鸿森.dct压缩域中图像颜色布局描述符的提取[j]. 计算机工程与应用,2005,35:167-168 [3]顾红飞,张佑生,江巨浪.基于颜色布局的压缩图像检索研究[j].合肥工业大学学报(自然科学版),2006,29(1):1-4 [4]f malgouyres,f guichard.edge direction preserving image zooming:a mathematical and numerical analysis[j]. siam journal on numerical analysis,2001,39(1):1369-1390 [5]刘彩.一种改进的sobel图像边缘检测算法[j].贵州工业大学学报(自然科学版),2004,33(5):77-79

第9篇:量子计算基本特征范文

关键词:

海量图片;快速去重;并行化;单机计算;图片特征

中图分类号: TP301.6 文献标志码:A

0引言

随着数据的指数级增长,企业面临的快速备份和恢复的时间点越来越多,管理保存数据的成本及数据中心空间和能耗也变得越来越严重。研究发现,应用系统所保存的数据中高达60%是冗余的,缩减数据占用空间,降低成本,重复数据删除技术此句不太通顺,请作相应调整。已成为一个热门的研究课题。所以,重复数据删除技术就成为了缩减数据占用空间及降低成本的重要手段之一。目前重复数据删除技术主要包含相同数据检测及相似数据检测两大类,其中相同数据检测[1-3]的方法主要有完全文件检测技术、固定分块检测等,这些检测方法主要通过hash技术进行数据挖掘;相似数据检测利用数据自身的相似性特点,通过shingle技术[4]、bloom filter技术[5]及模式匹配技术[6-7]等挖掘出重复数据。这些技术使得共享数据块的文件之间产生了依赖性,降低了系统的可靠性;同时因为数据检测对比等过程导致大量的计算开销,对系统的性能影响也很大。因此,为了提高检测速度,降低对系统的性能影响,很多学者提出了并行化处理方式[8-10]。

由于图片文件的数据量大且不易修改的特性由于图片文件的数据量大其不易修改的特性,若采用文件级去重则计算开销大,效率较低,而块级则容易导致图片读取不完整、删除错误、恢复图片困难等问题,在海量图片的情况下这些问题将更加突出。针对上述问题,文献[11]提出一种针对海量图片文件存储去重技术的方法,利用MD5(MessageDigest Algorithm 5)特性在图片文件上传存储过程中实现去重取得了较好的效果。本文则针对已存储的海量图片,提出一种并行化快速去重算法:主要提取图片本身具有的数据特征,根据特征进行重复检测,实现海量图片去重处理,其时间复杂度为Ο(n2)。进一步,为了降低算法时间复杂度,本文针对该算法进行改进,将时间复杂度降低为Ο(n log n),实现了海量图片的快速去重。

1.1颜色特征提取方法

颜色是图像最直观的特征,也是图像视觉重要的感知特征之一。HSV(Hue, Saturation, Value)颜色模型由色度H、饱和度S、亮度V三个分量组成,和人的视觉特性比较接近,所以选择在HSV空间提取颜色特征.为减少高维数特征对计算带来的不便,进行如下量化[12]:

再按式L=7H+3S+1V转化成一维特征量。传统颜色直方图只是每种颜色的量的统计,忽略了图像中每种颜色的分布方式。文献[12]提出一种环形区域划分的思想,将图片空间划分成M个同心圆环及区域,以(C,D)为图片几何中心,中心圆半径为R=[min(A,B)]/(2M),其中(A,B)为图片边长,其他圆形半径为MR,其中取M=2。本文同样选择M=2,将图片区域被划分为中心圆、圆环和外部3个区域。这样既能够不增加特征向量的维数和计算成本,同时与传统颜色直方图相比颜色空间分布信息得到充分利用。所以提取累加直方图作为颜色特征,每个区域提取58个,共提取174个颜色特征。

1.2纹理特征及形状特征提取方法

小波分析往往具有多尺度以及多方向性的特点,已经被广泛应用到图像纹理特征提取及形状特征提取方面的应用[13-14]。本文首先采用Mallat小波分解,得到分解层上的高频子带图像能量和低频子带上灰度共生矩阵统计量作为纹理特征特征向量;同时得到分解层上的高频子带图像均值、标准差和低频子带图像Hu不变矩的10个相对矩作为形状特征向量。Mallat在多分辨率分析中采用了离散框架小波变换。多次小波分解的分解系数是一组有关离散高通滤波U(n)和低通滤波G(n)的递推关系式,其计算方式如式(4)和(5)所示:

特征提取过程如下:

1)根据Mallat分解方法,对图片进行4个子带的分解。

2)继续对低频子图像进行小波变换,得到更多级别的分解子图像。第i级别j子带的能量表示为:

ENij=1n∑nk=1Cij(k)2(7)

其中:Cij(k)为该子带上的小波系数;n是j子带的小波的系数个数,将能量作为特征矩阵的元素构造特征向量。

3)继续对低频子图像进行小波变换,对每层低频子图像计算Hu不变矩的10个相对矩[14]:

4)在低频子带上依次按照0°、45°、90°和135°方向构造灰度共生矩阵[13],然后分别计算熵Entropyj、二阶矩ASMj、逆差矩DMj、对比度conj、相关系数corj作为特征参数,其中j=1,2,3,4,再结合之前计算出的各层子带的能量ENj成为纹理特征向量如下:

Wi=[ENi.j.k,Entropyi.j.k,ASMi.j.k,DMi.j.k,coni.j.k,cori.j.k]

其中k表示分解层数。

1.3度量方法

1.3.1颜色特征的距离度量

本文颜色特征的距离度量采用欧氏距离法,公式如式(9)所示:

其中:xi,xj(i≠j)为图片集中任意两幅图像;Eyk 、Ehk 、Ewk 分别为图片区域的圆心、圆环和外部区域所提取的特征;k是特征分量;N为特征数目;ay,ah,aw为各区域的权重,对于一般图片而言,图片的中心区域信息量多,而圆环部分和外部区域的信息量较少,所以本文分别取0.5,0.3,0.2代表各区域的重要程度。

1.3.2纹理特征和形状特征的距离度量

2并行化图片去重算法

2.1并行化图片去重算法

1)本文主要使用图片固有特征实现达到图片去重的目的,所以首先对图片集{xi}提取上述特征值,设图片集{xi}大小为n,将其分配给T个计算单元进行处理,则时间缩短至n/T,本文中实验取T=4。

2)对任意图片xi,xj(i≠j)计算距离D(xi,xj),由于重复图片所在位置具有任意性,若要找出所有重复图片则需要遍历整个图片集,计算量n2,采用并行计算则计算量为n2/T。

3)遍历相似度距离D(xi,xj),查找其中距离为0。若为0,则说明其为相同图片,标记并且删除后一张图片,仅保留前一张。

2.2实验结果

由于如果图片为重复图片则提取特征值相等,则距离必然为0,故本文主要使用运行时间作为衡量该算法的重要指标,使用Matlab软件编程实现对上述算法进行评价(注:以下时间均不包含图片特征的采集时间)。

本次实验选取1000及5000张图片进行处理,运行时间如表1所示。

按照上述算法进行5000张图片去重时,处理时间就达到22min。如果按照上述算法对万级、十万级甚至百万级图片处理时程序运行时间不可估量,本文对上述算法进行改进。

3改进算法及实验结果

3.1算法改进

针对上述算法主要影响运行时间的是在去重过程要遍历整个图片集,计算量为n2,即便采用并行处理方式,对最终结果的影响终究有限。针对此问题,本文对第2章中的算法进行改进,从图片集中任取一张图片x0,如果存在图片{xi,xj}(i≠j)使得D(x0,xi)=D(x0,xj),则{xi,xj}(i≠j)有可能为重复图片,需要进一步判断D(xi,xj)是否为0;若不为0,则{xi,xj}(i≠j)不是重复图片。利用这样处理方式,在距离计算过程中计算量为n;同时在计算过程中采用并行处理,最终计算量减小为n/T,相比n2的计算量大大减小。

改进算法具体步骤如下:

1)对图片集提取特征值,设图片集大小为n,将其分配给T个计算单元进行处理,则时间缩短至n/T,本文中实验取T=4。

2)从图片集中任取一张图片x0,分别与其图片集中其他图片进行距离计算,在计算过程中采用并行处理,计算量缩短为n/T。

3)对2)中计算得到的距离D(x0,xi)进行由小到大排序,得到排序后的距离D*i(i=1,2,…,n)。本文采用快速排序法。

4)遍历距离D*(x0,xi),查找其中相同的距离。由于在3)中已经对距离进行由小到大的排序,故每次只需要判断D*i+1是否与D*i相同,若D*i+1与D*i相同则进行第5)步,比较完毕后继续遍历剩下的距离,若遍历完成且没有相同距离则停止。

5)设{xi,xj}(i≠j)使得D(x0,xi)=D(x0,xj),则计算D(xi,xj)之间的距离,若为0,则说明其为相同图片,标记并且删除xj,保留xi;若大于0,则说明{xi,xj}对x0在特征上的相似程度一致,但并非相同图片,两张同时保留。

3.2查找重复图片的改进算法与第2章原算法运行时间的对比

如果图片量太大,第2章中对重复图片查找算法的计算量会急剧上升,导致运行时间过长,故本次选用300,600及900张图片分别用改进方法和第2章中方法进行重复图片的查找,对查找时间进行对比,如表2所示。

由表2中数据可知,采用遍历图片集查找重复图片的方式运算时间高于改进运算的10倍以上。同时改进运算在图片数量增加时运算时间增长并不明显,增长幅度仅在百分位,说明改进算法在海量图片去重上是有效的。

3.3改进算法在不同数量级与不同重复率时间对比

分别使用万级(1万)、十万级(10万)、百万级(100万和500万)级图片量进行测试;同时每种量级的重复图片分别占总数的30%、60%及90%,结果如表3所示。

由表3中数据可知:1)由万级到10万级运行时间增长在两倍左右,而10万级到100万级甚至500万级时按照本文图片量呈现线性关系,运行时间增长分别在10倍及50倍左右,这是由于处理数据大量增长,而实验用机在运行速度和处理能力上有限,导致在100万张及500万张图片的距离、比较等运算时处理能力不足,所以运行时间会呈现出与图片量增长倍数相同的情况,故适当提高硬件处理能力可以减少运行时间;2)由每种数量级不同重复率下的运行时间来看,随着重复率的升高运行时间略有下降,此情况出现是由于排序算法导致,重复图片越多,相同距离也就越多,故排序时间也就越短,所以在大数据量时选用合适的排序算法也是影响运行时间的重要因素。

综上所述,本文在改进算法中,从图片集中任取一张图片x0,分别与其图片集中其他图片进行距离的计算的方式相比遍历图片集计算距离的方式在运行时间效率此处是否应该是“运行效率”,时间上应该是减少,而不是提高吧?请明确。上提高10倍以上;同时针对不同重复率下不同数量级进行了测试,发现查询500万数量级中重复图片时运算时间也仅需10min左右,去重效率大幅度提高。故本文提出的算法为大数据量的图片快速去重工作提供了有效支撑。

4结语

面对目前数据的指数级增长,海量数据重复删除技术的研究在解决数据存储空间消耗大、数据备份及恢复成本高等方面具有重要的意义。本文利用图片固有属性特征,提出了一种海量图片快速并行化去重算法,使用该算法能够快速准确地对图片进行去重。实验结果表明,10min左右即可处理完500万图片集的去重工作,这为海量图片的去重处理提供了新的思路。同时,实验发现在大数据量时,对距离进行排序的时间对整个去重过程有一定的影响,排序时间越短,整个去重的时间也就越短,所以如何缩短排序时间作为本文将是该快速去重技术进一步的研究方向。

参考文献:

[1]

敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010,21(5):916-929.(AO L, SHU J W, LI M Q. Data deduplication techniques [J]. Journal of Software, 2010, 21(5): 916-929.)

[2]

CLEMENTS A T, AHMAD I, VILAYANNUR M, et al. Decentralized deduplication in SAN cluster file systems [C]// Proceedings of the 2009 USENIX Annual Technical Conference. Berkeley, CA: USENIX Association, 2009: 101-114.

[3]

ESHGHI K, LILLIBRIDGE M, WILCOCK L, et al. Jumbo Store: providing efficient incremental upload and versioning for a utility rendering service [C]// Proceedings of the 5th USENIX Conference on File and Storage Technologies. Berkeley, CA: USENIX Association, 2007: 123-138.

[4]

HAN B, KELEHER P. Implementation and performance evaluation of fuzzy file block matching [C]// Proceedings of the 2007 USENIX Annual Technical Conference. Berkeley, CA: USENIX Association, 2007: 199-204.

[5]

张星煜,张建,辛明军.相似性―局部性方法相关参数分析[J].计算机技术与发展,2014,24(11):47-50.(ZHANG X Y, ZHANG J, XIN M J. Analysis of related parameters based on similaritylocality approach [J]. Computer Technology and Development, 2014, 24(11): 47-50.)

[6]

陈芬.改进量子粒子群算法优化神经网络的数据库重复记录检测[J].计算机应用与软件,2014,31(3):22-23.(CHEN F. Database duplicate records detection using neural network optimised by IQPSO. [J]. Computer Applications and Software, 2014, 31(3): 22-23.)

[7]

梁雪,任剑锋,景丽.基于QPSOLSSVM的数据库相似重复记录检测算法[J].计算机科学,2012,39(11):157-159.(LIANG X, REN J F, JING L. Approximate duplicate record detection algorithm based on PSO and LSSVM [J]. Computer Science, 2012, 39(11): 157-159.)

[8]

江程,朱锐,张芳,等.一种低开销的并行重复数据删除算法[J].软件导刊,2015,14(8):96-99.(JIANG C, ZHU R, ZHANG F, et al. A parallel deduplication method with low overhead [J]. Software Guide, 2015,14(8): 96-99.)

[9]

刘厚贵,邢晶,霍志刚,等.一种支持海量数据备份的可扩展分布式重复数据删除系统[J].计算机研究与发展,2013,50(z2):64-70.(LIU H G, XING J, HUO Z G, et al. A scalable distributed data deduplication system to backup massive storage [J]. Journal of Computer Research and Development, 2013, 50(z2): 64-70.)

[10]

曹英忠.基于Hadoop的重复数据删除技术的研究与应用[D].桂林:桂林理工大学,2012:46-66.(CAO Y Z. Research on the technology of data deduplication by Hadoop [D]. Guilin: Guilin University of Technology, 2012: 46-66.)

[11]

孙有军,张大兴.海量图片文件存储去重技术研究[J].计算机应用与软件,2014,31(4):56-58.(SUN Y J, ZHANG D X. Research on deduplication technology for massive image file storage [J]. Computer Applications and Software, 2014, 31(4): 56-58.)

[12]

常哲,侯榆青,李明俐,等.综合颜色和纹理特征的图像检索[J].小型微型计算机系统,2011,32(1):161-164.(CHANG Z, HOU Y Q, LI M L, et al. Image retrieval based on combined color with texture feature [J]. Journal of Chinese Computer Systems, 2011, 32(1): 161-164)

[13]

费园园,孙劲光,陶志勇.基于小波分解和灰度共生矩阵的纹理图像检索[J].现代计算机,2007(10): 58-59.(FEI Y Y, SUN J G, TAO Z Y. Texture image retrieval based on wavelet decomposition and gray level cooccurrence matrix [J]. Modern Computer, 2007(10): 58-59.)

相关热门标签