公务员期刊网 精选范文 图像法论文范文

图像法论文精选(九篇)

图像法论文

第1篇:图像法论文范文

关键词:图论 图像 分割算法

中图分类号:TP391 文献标识码:A 文章编号:1674-098X(2014)06(c)-0049-01

1 图论相关背景知识

图论(Graph Theory),起源于18世纪欧拉研究和解决的柯尼斯堡七桥问题(Konigsberg),是研究顶点与边所组成的图形的理论与方法,20世纪50年代初刚刚开始发展,以图(Graph)作为研究对象,是离散数学的分支。近年来,计算机技术在各个领域的被广泛应用,使得图论其在电子、信息论等学科中的应用也取得了很大的进展。

2 基于图论的图像分割准则

基于图论的图像分割方法主要是利用分割准则实现的,到目前为止,基于图论的图像分割准则主要被分为基于特征向量分割准则、基于区域合并分割准则、与基于归一化割分割准则三类。

(3)利用步骤(2)中求出的第二小特征向量将图像分割为两部分。

(4)判断图像是否还需要做进一步的分割,若需要继续分割,则递归调用该算法完成图像的分割。通常,作者设定的最大允许SNcut值或分割区域所包含的最小像素数SArea作为是否需要继续分割判断依据,作为Ncut算法最终迭代停止条件。

3.2 具体分割实例

(1)本文涉及到测试用颅脑MR图像均为灰度图像,为了实现肿瘤图像的分割,衡量像素间相似度矩阵W选择如公式(4)所示:

(4)

在公式(4)中,F(i)用于表示图像像素灰度值,x(i)为图像像素按列元素从上至下重新排列后位置,在引入像素灰度信息的同时也引入像素坐标信息。、为控制像素点间值域差异与空域差异的敏感程度参数,r为两个像素点之间设定的有效距离。

(2)算法中设置迭代次数为1000,两个算法停止条件,sNcut表示Ncut所允许的最小值,sArea则表示Ncut分割区域允许包括的最小像素数,以先达到者为算法停止条件。

4 结语

本章内容首先对经典Normalized Cut所涉及到的理论及相关知识做了简要介绍,并利用matlabR2010a对Normalized Cut进行算法仿真,并将其应用到相关图像分割中,该算法基本可以将目标从背景图像中分割出来,但分割的精度有待于进一步提高,这与分割中相关参数的设定、权重矩阵的选取有关,将在以后做进一步的研究。

参考文献

[1] 孙惠泉.图论及其应用[M].科学出版社,2004:1-2.

[2] 刘建龙.基于图论的图像分割算法研究[D].哈尔滨工业大学,2006.

[3] 孙亮.基于图论的文档图像分割应用研究[D].山东师范大学,2009.

第2篇:图像法论文范文

关键词:新闻图像;视觉说服;ACTS模式

中图分类号:G20 文献标识码:A 文章编号:1000-2731(2012)03-0163-05

图像在现代传播中发挥越来越重要的作用。它能吸引全社会的注意,影响公众的舆论,甚至有时能改变国家政策、行为。越南美莱村大屠杀等照片的公布改变了美国公众对越南战争的看法,并促使美国停止了那场战争;美国士兵在伊拉克的虐俘照片公布后,使美国政府颜面扫地;2009年《华商报》刊登的《挟尸要价》照片,该照片夺得了2010年中国新闻摄影最高荣誉“金镜头”奖,也在全国引起了轩然大波,引起了人们对社会良知的反思。总体来说,传播从过去以文字为主时展到今天图文并重的多媒体时代,一场视觉革命正在蔓延。图像作为传播的一种重要方式,正潜移默化地影响着人们的思维模式和行为方式。本文将图像作为文本,基于符号学理论和阿恩海姆视知觉形式动力理论,提出视觉传播机制ACTS模式,即从吸引注意(Attention)、引向内容(content)、展现主题(Theme)和积淀为符号(Symbolic)四个层面来解析图像的视觉说服机制。本文以新闻图像为例,一方面向传播者揭示成功的视觉传播效能是如何实现的、可以怎样实现;另一方面也向受传者揭示视觉传播是如何影响人的态度、行为的。

一、新闻图像:从表征到说服

新闻图像是以视觉符号为载体对新闻事实进行的视觉报道。按照其表现形态可以分为静态新闻图像和动态新闻图像两种。前者主要是指新闻照片和新闻漫画、图表等,也被统称为新闻图片;而后者则包括电视图像和网络视频等动态影像。在新闻图像的生产过程中,无论是摄影(像)师还是观者,总是有意或无意地将自己的观念、情感、经验融入其中,从而使图像体现了权力和意识形态等社会文化内涵。因此,新闻图像是一种文化表征。在新闻图像形象性、纪实性、真实性的背后,隐藏的是视觉符号语言逻辑和文化意义。那么人们不仅要问,新闻图像的话语、权力以及意识形态等是如何通过视觉符号建构的?能不能为观者提供一种解读新闻图像的方法论?

英国伯明翰学派领军人物斯图尔特·霍尔引用罗兰·巴尔特《今日神话》中“一黑人士兵向法国国旗敬礼”的一个例子,运用符号学理论分析了视觉表象建构意义的方法。对我们分析新闻图像的意义建构有一定的借鉴价值。

有一天巴尔特去理发店,看到一本法国杂志《巴黎竞赛》封面上有张照片,照片上一个身穿法国军服的黑人青年正在敬礼,双眼上扬,可能注视着一面三色旗(法国国旗)。在第一层次上,……这产生了带有简单的字面信息或意义的一系列符号:一个黑人士兵正向法国国旗敬礼(直接意指)。但是,巴尔特论证道,这形象还具有更广泛的文化意义。……“法国是一个伟大的帝国,她的所有子民,没有任何肤色歧视,都忠实地在她的旗帜下服务,对于那些提出所谓的殖民主义的诽谤者,没有什么比这个黑人服务于他的所谓压迫者时所显示的热情更好的回答了。”……在第一个过程中,各种能指(形象的各种要素)和所指(概念——士兵、国旗等等)联合构成一个带有单纯的直接意指的符号:一个黑人士兵正向法国国旗敬礼。第二阶段,这个完成的信息或符号被联系到第二层所指——有关法国殖民主义的一个广义的意识形态主题。

之所以这样引用,是因为这个例子是我们接下来要探讨问题的起点。符号学方法是分析视觉表征的一个有效方法,其一层层有条理的分析,展现了意义的建构过程。但是,从第一层的“直接意指的符号”到第二层的所指是如何实现的?也就是说,对是什么让巴尔特从“一个黑人士兵正向法国国旗敬礼”产生了“法国是一个伟大的帝国,她的所有子民,没有任何肤色歧视,都忠实地在她的旗帜下服务”这种意识形态的?巴尔特和霍尔等符号学家认为这两者之间是自明的,没有对这个问题进行进一步阐释,这也许是符号学需要进一步拓展的方面。实际上,在第一层的直接意指和第二层的所指之间还有一个环节——视觉传播机制,即在这两者之间有个视觉传播机制在起作用。也就是说,从新闻图像的编码到其解码的过程中,或者说从视知觉形式层面到文化意义层面有一个视觉传播机制在起作用。下面将运用基于符号学理论和阿恩海姆视知觉形式动力理论的ACTS模式来剖析新闻图像的视觉传播机制。

二、阿恩海姆的视知觉形式动力理论简介

在介绍视觉传播机制ACTS模式之前,需要了解一下阿恩海姆视知觉形式动力理论(Visual Per-ception Form Dynamics),作者已经对此进行过较为详细论述。概括地说,该理论认为,视知觉形式动力一方面是视觉形式建构的动力机制,完形倾向是一种动力机制;另一方面表现为动态形式。从表现形式上看,视知觉形式动力就是我们在图像中感觉到的那种视觉力,是一种心理力,比如人们常说的“视觉冲击力”。我们在一张纸中随便画一个小圆圈,会发现它有向某方向运动的趋势,它有作用点、方向和强度,因此被阿恩海姆冠称为“视知觉形式动力”。该理论对于视觉传播机制主要有以下三个方面的应用价值:第一,只有视知觉形式动力才能被视觉所把握,视知觉形式动力是探寻表征(现)之门径;第二,运用视知觉形式动力把视觉形式与情感统一起来,从大脑的生理机制上讲,情感表现也是视知觉形式动力的活动,而且视知觉形式动力具有最自然、最深刻的象征意义;第三,揭示了生成视知觉形式动力的方法。它们是视觉传播机制ACTS模式的主要支撑理论。

第3篇:图像法论文范文

(注:作者简介:杜亚雄(1945― ),男,汉,河北人,加拿大不列颠哥伦比亚大学哲学博士,中国音乐学院音乐学系主任,教授,博士生导师,杭州师范大学音乐学院特聘教授,匈牙利科学院音乐研究所研究员,国际匈牙利历史学会副主席,美国印地安那大学民俗学研究所客座教授,中国世界音乐学会副会长,国务院“部级有突出贡献的专家”,享受国务院政府特殊津贴专家。研究方向:音乐学。)

摘 要:李玫发表文章对李荣有的著作《汉画像的音乐学研究》提出批评,并认为图像研究不应该是看图说话。本文不同意李玫的看法,指出图像研究应该是看图说话并对李玫文章进行了反批评。本文认为音乐学学术评论应当尊重创新精神,音乐学评论界应完成从“争取‘话语权’向充实‘话语能’”的转换。

关键词:图像学研究;创新精神;音乐学;评论

中图分类号:J50-05

文献标识码:A

Image Research Should Be Based on Images

-Discussing with Dr. LI Mei

DU Ya-xiong

李玫博士在2008年第五期《文艺研究》发表《图像研究还是看图说话》一文(注:参见李玫《图像研究还是看图说话》一文,载于《文艺研究》,2008年第5期,第138-146页。)(以下简称“李文”)对李荣有先生的著作《汉画像的音乐学研究》(注:参见李荣有《汉画像的音乐学研究》,京华出版社,2001年版。 )(以下简称“李著”)提出批评,指责李著不仅“理论缺失”、“方法错误”、“学术规范失守”,而且“把臆想当创新”,属于“学术泡沫”。李著曾是“九五”艺术类国家课题的结项成果,先后获得过浙江省第十届哲学社会科学优秀成果奖、中国汉画学会专著类三等奖和教育部第四届中国高校人文社科研究优秀成果奖艺术学类三等奖。李文作者对李著获得上述奖项不以为然,在文中要求“我们的社科学术评估机制”进行“反省”,写道:“仿佛整个机制为这样的学术泡沫铺上红地毯,使这样的学术泡沫前赴后继地涌来,欢天喜地地领取国家经费,喜气洋洋地为这些所谓的‘研究成果’包装了精致的外衣,再用这些精致的外衣获取更多的社会资源”。为了制止学术泡沫的产生,李文还把矛头指向了“社会管理机制”和“学术共同体”,并指出:“这并不是一本专著的学术质量问题,而是社会管理机制和学术共同体都需要认真思考的问题”。

笔者读过李著,认为它作为我国在汉画像的音乐学研究方面的第一部专著,很有创新性,李著首次对汉画中的音乐资料做了比较全面的辑录、整理和考释,并从历史音乐学和民族音乐学两方面阐释了汉代音乐文化的一些规律和特点,虽有一些缺点,但在理论上没有大的缺失、其研究方法也是正确的,应当加以肯定。我想这也是包括“中国汉画学会”在内的“学术共同体”和包括浙江省和教育部有关部门这样的“社会管理机构”的看法,否则他们就不会向李著颁奖了。

李文对李著的批评引起笔者的注意,拜读李文之后,想向李文作者请教一些问题,撰写此文,盼不吝赐教。另外,李文中的一些说法和观点,笔者亦不敢苟同,提出商榷,也望得到指正。李文分“理论缺失和方法错误”、“把臆想当创新”和“学术规范失守”三部分,笔者也想就这三个问题谈谈自己的看法。

一、关于理论和方法

李文中引用了欧洲艺术史学家欧文・帕诺夫斯基对图像学研究方法所作的阐释,并指出这位专家的话“已经清楚地概括了图像志、图像学的研究对像、方法和目标”。帕诺夫斯基把图像学的研究分为三个层次,第一是“在分析艺术品中的图像内容之前对整个艺术品的描述”,第二“是狭义上的图像分析”,第三“是对图画的内在意义或内容进行解释”。如果我没有理解错的话,帕诺夫斯基所说的三个层次就是“描述”图像、“分析”图像和“解释”图像,“描述”、“分析”或“解释”都必须以语言或者表示语言的符号文字为工具,因此可以通俗地把对图像的“描述”、“分析”或“解释”理解为“说”出研究者的观点。图像志、图像学的研究对像既然是图像,研究者一定要“看图”,依笔者之浅见,“图像研究”就是“看图说话”,而且必须“看图说话”。从李文的标题来看,李文作者似乎并没有看懂她所引用的这段话。这里,我想请教李文作者,如果“图像研究”不是“看图说话”,又该如何进行呢?李文中指出从李著的作者在拟定书名《汉画像的音乐学研究》“之初,就缺少学科方法论的思考,这直接导致了全书的基本框架设计出了问题。”那么,在李文作者在拟定标题之初,是不是也缺少学科方法论的思考,这有没有导致全文的基本框架设计出现问题呢?

李文中引用帕诺夫斯基对图像学研究方法所作的阐释后,接着就对李著中有关的音乐图像学的一段话进行批判。李著说:“音乐图像学的研究对象,是所有与音乐艺术相关的各类图像,具有可视性强的特征。音乐图像学的研究方法,强调观看、观察,充分利用人的视觉功能,激发人们更多的使用形象思维、直觉思维,可使人摆脱传统研究方法的禁锢、概念群的运转、至深而玄的思辨,最终达到‘以图出史’的目的。”李文中指出:“这既不是学科的定义也不是系统化研究方法,这里没有任何一句是定义,前一句见‘对象’,后‘一句’讲方法。但对象也没有讲全、讲确切,而‘方法’则是一句空话。从这段定义来看,作者对音乐图像学的概念、研究对象及方法显然并不很清楚”。笔者认为,李著不是《音乐图像学概论》之类的教科书,对汉画像进行音乐学研究即可,没有必要给出有关音乐图像学的定义,另外李著中也没有讲这段话是音乐图像学的定义,只是讲了它的对象和方法。李文作者为什么要把这段话当成音乐图像学的定义来读,笔者不得而知。另外,笔者认为李著中的这段话也是讲音乐图像学应当“看图说话”,和帕诺夫斯基的话精神基本一致,并无大错。笔者更不得而知的是,李文作者如何能从这段话看出李著的“作者对音乐图像学的概念、研究对象及方法显然并不很清楚”。

在讨论音乐学的时候,李文中说:“音乐学是一门成熟的学科,尽管在近两百年中,它的定义及疆域不断地被修正、补充并扩大,但它的基本内涵是指应用于音乐研究的社会科学方法,它的范围、目标及方法在历代的方法论激辩中越来越通透、具体。”这样说来,音乐学的基本内涵是采用“社会科学方法”。笔者不知道这是不是李文作者对音乐学方法的概括,如果是,这里也没有“讲全、讲确切”。众所周知,音乐学除了采用社会科学的方法之外,也会采用自然科学和人文科学的方法。如果有人仅根据这句话,讲李文作者对音乐学的“概念、研究对象及方法显然并不很清楚”,笔者不会赞同,我想她自己也不会同意。

二、关于臆想和创新

音乐图像学研究的最终目的与其他各种学科一样,是追求真理和创新知识,而要创新知识,就要允许研究者根据事实,充分发挥自己的想像力,提出带有一定主观推断性质的假说。如果研究者能根据长期的思考和观察,提出一个有待证明假说,本身就是一个学术成果。在音乐图像学的研究中,研究者看图说话,谨慎地提出假说,也应当被看成是推动学术研究进一步深入展开的引线。

在20世纪,民族音乐学倡导进行田野调查,并结合文化背景对音乐的本体进行更加深入的研究方法对历史音乐学及其他音乐学学科产生了很大的影响。音乐图像学的研究也逐渐强调到实地进行田野考察,反对仅“看图册”就开始“说话”。从李著中不难看出,李荣有先生曾经进行过大量田野考察,并在田野调查所得资料的基础上,提出了一些假说,其中有的虽然目前还得不到证明,但这些假说仍是可贵的,不能被说成“臆想”。

李文中指责李著“把臆想当创新”,并指出:李著“对于研究对象的性质、内容范围、历史价值的阐释,充满随意性”。然而李文作者在文章的这一部分中并没有指出李著在哪些方面的论述是充满随意性的,只以“南阳市纯丝竹弹弦乐器演奏图”为例,认为李著根据此图“推论出与‘房中乐’的关系,未免太草率”。既然李文作者提出了此图,我们就来看看李著中是如何讲的吧!

李著中有两处提到此图,第一处在136页,说明此图出自长100厘米,高37厘米的“南阳石”,介绍了画面的内容,并指出:“这种具有一定规模,而没有加入建鼓舞的丝竹弹弦乐器合奏图,在各地所见汉画像中目前仅有此例。它在我国汉代音乐艺术的各种展示方式中,属于一种特殊的表现形式,从其形式特征来看,可以认为近现代室内乐的渊源所在和原始形态之遗留,具有十分珍贵的学术研究价值。”第二处在181页,作者说:“从艺术形式特征上,它是没有融入表演性内容的纯器乐形式,在史料中唯一能够找到对应关系的,恐怕只有如高祖之唐山夫人在后宫设置的‘房中乐’。由于史料零星‘房中乐’的内容和实质不得而知。而纵观器乐艺术发展的历史,我国近现代的器乐合奏,外国流行的室内乐等,则很可能与此有着一种必然的联系。因此,可以说,此图虽无庞大的幅面,但无论从画面的内容、形式到其内涵的展示,从乐器的放置、组合到演奏的方式方法的描绘,均可视为汉代器乐艺术兴旺发展的珍贵历史遗存。”这里,李著作者只是说在史料中唯有“房中乐”和此图有“对应关系”,并没有讲此图画的就是“房中乐”。如果认为这段话便是“臆想”,大加指责,是否有点过于“草率”?

三、关于学术规范

学术规范是学术界达成的某种共识,它不是法规,而是对学者提出的带有自律性质的道德方面的要求。学术规范建立在尊重他人、推动进步的原则上,对所有的学者而言,学术规范都是有效的。

学术争鸣必须符合学术规范。伍国栋先生提出在学术争鸣要尊重别人,做到“在学术问题上人人平等”,他指出争鸣的对象应是“学术”,而不在其他方面。“将争鸣限制在特定的学术范围内进行讨论,不可将其扩大到学术范围以外的领域,更不可在论文中进行人身攻击、无限上纲、乱扣帽子,将正常的学术讨论变成一种脱离学术研究的口诛笔伐。”他还认为“学术论争研讨的是科学问题”,“不必带上强烈的个人感彩”,更不能“采用简单粗暴、嘲弄挖苦的语言或者采用断章取义、强词夺理的方式曲解对方原义”。(注:参见伍国栋《民族音乐学概论》,人民音乐出版社,1997年版,第255页。)曾遂今先生认为音乐批评可以分为感性和理性两个阶段,感性阶段是“听众的某种情绪状态和未成为逻辑语言形态的批评”,是一种“具有原始意义的‘音乐批评’”。感性的批评可以用“麻木不仁”、“嗤之以鼻”、“对牛弹琴”来说明,这种感性的批评应提高到理性阶段。(注:参见曾遂今《音乐社会学概论》,文化艺术出版社,1997年版,第305页。)

关于汉画音乐文物的分区,是一个见仁见智的问题,学术界向来有不同的看法,有学者按艺术风格划分,有学者按行政区域划分,有的粗分,有的细分,有共性,也有差异。对各个地区汉画风格的概括,不同学者也有不同的见解。我想这都是允许的,也是符合学术规范的。李著采用了一种新的划分方法,并对不同地区的风格进行了概括。李文作者如果不同意这种划分方法以及某些具体的概括,可以提出商榷。但李文中提到这些问题时,我们读到这样的词句:“这种刻画技法特征的总结概括,似乎不是作者的知识结构所能完成的。既然不注明出处,那么,文责自负,我们只好直言,《研究》(指李著―杜注)对苏鲁豫皖区的概括错了!”没有经过摆事实、讲道理,便主观地认为李著“作者的知识结构”不能完成“概括”,没有对论战对象表现出应有的尊重,而对李著中概括只讲“错了”,不讲为什么错,错在何处,是否符合学术争鸣的原则?学术规范是否“失守”?

李文中还有不少过于感情化的语言,如“此人出书之后,又连续发表多篇以‘音乐图像学’为关键词的文章,俨然已成为该领域专家”。就某一学术问题发表文章和个人的见解,是每一个公民的权利,并不是该领域专家特权。而且某人是不是某学术领域的专家,应当由学术界和有关部门认定,某一个人或某几个人并没有这个权力。李文中这些带有强烈个人感彩的语言,已经超出正常的学术讨论,带有歧视性。

音乐学学术评论是音乐评论的一个组成部分,因为其评论对象不是音乐作品或音乐表演,而是音乐学论文、论著及其他研究成果,所以它和一般的音乐评论又有所不同。它的任务是对音乐学理论、学说、观点和方法等方面的学术成果做出客观的、事实求是的评价,并以此来推动音乐学中各学科的健康发展,从而促进整个国家、民族或地区的音乐发展和音乐文化水平的提高。

音乐学研究的最终目的与其他各种学科一样,是追求真理和创新知识。因此,音乐学学术评论的出发点和落脚点都应当放在鼓励求真创新这方面。音乐学学术评论之所以要捍卫学术尊严,打击不良作风,遏止学术腐败,也是为了保护和尊重创新精神,最终的目的还是为了鼓励求真创新。

第4篇:图像法论文范文

论文摘要:分割的目的是将图像划分为不同区域。图像分割算法一般是基于亮度值的两个基本特性之一:不连续性和相似性。第一类性质的已用途径是基于亮度的不连续变化分割图像,比如图像的边缘。第二类的主要应用途径是依据事先制订的准则将图像分割为相似的区域。门限处理、区域生长、区域分离和聚合都是这类方法的实例。遗传算法具有简单、鲁棒性好和本质并行的突出优点。其在应用领域取得的巨大成功,引起了广大学者的关注。在图像分割领域,遗传算法常用来帮助确定分割阈值。

本文介绍讨论了几种目前广泛应用的图像边缘检测、图像阈值分割的各种算法,并给出了对比分析;对遗传算法的基本概念和研究进展进行了综述;给出了标准遗传算法的原理、过程、实验结果及分析. 实验结果表明,本文提出的遗传分割算法优于传统分割算法。

第一章 绪论 1.1 图像分割综述

图像分割就是指把图像分成各具特性的区域并提取出感兴趣目标的技术和过程。这里所说的特性可以是灰度、颜色、纹理等,而目标可以对应单个区域,也可以对应多个区域。图像分割是数字图像处理中的一项关键技术,它使得其后的图像分析,识别等高级处理阶段所要处理的数据量大大减少,同时又保留有关图像结构特征的信息。而且,在数字图像处理工程中,一方面,图像分割是目标表达的基础,对特征测量有重要的影响;另一方面,图像分割是自动目标识别的关键步骤,图像分割及其基于分割的目标表达、特征提取和参数测量等将原始图像转化为更抽象更紧凑的形式,分割中出现的误差会传播至高层次处理阶段,因此分割的精确程度是至关重要的。只有通过细致精细的图像分割,才能使得更高层的图像分析和理解成为可能。因此,图像分割是由图像处理进到图像分析的关键步骤,在图像工程中占据重要的位置。

1.2 图像分割的研究意义与发展现状

作为计算机视觉和图像处理中的难点和热点之一,图像分割的研究受到了研究工作者的高度重视,对图像分割进行了深入、广泛的研究。作为一种重要的图像技术,图像分割在不同领域中有时也用其它名称:如目标轮廓(object delineation)技术,阈值化(thresholding)技术,图像区分或求差(image discrimination)技术,目标检测(target detection)技术,目标识别(target recognition)技术,目标跟踪(target tracking)技术等,但这些技术本身或其核心实际上也就是图像分割技术。图像分割作为图像处理、分析的一项基本内容,其应用非常广泛,几乎出现在有关图像处理的所有领域,并涉及各种类型的图像。在工业自动化、在线产品检验、生产程控、文件图像处理、遥感图像、保安监视、以及军事、体育、农业等行业和工程中,图像分割都有着广泛的应用。例如:在遥感图像中,合成孔径雷达图像中目标的分割、遥感云图中不同云系和背景分布的分割等;在医学应用中,脑部 MR 图像分割成灰质(GM)、白质(WM)、脑脊髓(CSF)等脑组织和其它脑组织区域(NB)等;在交通图像分析中,把车辆目标从背景中分割出来等;在面向对象的图像压缩和基于内容的图像检索中将图像分割成不同的对象区域等。在各种图像应用中,只要需对图像目标进行提取,测量等都离不开图像分割。

自 20 世纪 70 年代至今,已提出上千种各种类型的分割算法。如:门限法、匹配法、区域生长法、分裂-合并法、水线法、马尔可夫随机场模型法、多尺度法、小波分析法、数学形态学等。随着新理论、新技术的发展,一些新的图像分割方法也随之出现,但这些分割算法都是针对某一类型图像、某一具体的应用问题而提出的,并没有一种适合所有图像的通用分割算法。通用方法和策略仍面临着巨大的困难。另外,还没有制定出选择适用分割算法的标准,这给图像分割技术的应用带来许多实际问题。

1.3 本论文所作的工作

据此,在本论文中只对常用的、并在实践中行之有效的边缘检测方法和阈值分割方法进行深入的了解,并对阈值分割方法中的灰度直方图双峰法和基于遗传算法的最大类间方差法进行详细的讨论,同时用Matlab对上述两种方法进行验证并给出结果。

1.4 本论文的论述内容

本文对图像分割的整个过程中的一些常用的,经实践检验行之有效的算法进行了讨论和 改进。全文共七章。第一章为绪论,主要介绍了现阶段图像分割技术的发展现状和研究意义。其他六章分别在以下几个方面介绍了本文所做的工作:

1.对本文所采用的试验测试工具Matlab 进行简介。

2.简介数字图像的基础问题。概述了数字图像的基本概念和特点,简介了各种图像格式的特点和应用,为全文的讨论作一铺垫。

3.详细讨论了图像分割中的基于阈值的图像分割方法,给出了直方双峰法的算法和验证结果,并简要介绍了普通最大类间方差法的算法过程。

4.对遗传算法理论进行简介。详细讨论了遗传算法的定义和标准遗传算法的流程和要素。为应用此方法对最大阈值进行迭代寻优打下基础。

6.应用遗传算法改进了最大类间方差法。给出了整个遗传操作的使用函数与具体进程,并对实例图片进行处理,得到处理结果并得到迭代最优阈值M。

本文研究了图像分割的相关理论和常用技术,并对遗传算法进行了介绍,对遗传算法应用于图像分割进行了验证.

第二章 Matlab简介 2.1 MATLAB的概况和产生背景 2.1.1 MATLAB的概况

MATLAB是矩阵实验室(Matrix Laboratory)之意。除具备卓越的数值计算能力外,它还提供了专业水平的符号计算,文字处理,可视化建模仿真和实时控制等功能。MATLAB的基本数据单位是矩阵,它的指令表达式与数学,工程中常用的形式十分相似,故用MATLAB来解算问题要比用C,FORTRAN等语言完相同的事情简捷得多.

当前流行的MATLAB包括拥有数百个内部函数的主包和三十几种工具包(Toolbox).工具包又可以分为功能性工具包和学科工具包.功能工具包用来扩充MATLAB的符号计算,可视化建模仿真,文字处理及实时控制等功能.学科工具包是专业性比较强的工具包,控制工具包,信号处理工具包,通信工具包等都属于此类.开放性使MATLAB广受用户欢迎.除内部函数外,所有MATLAB主包文件和各种工具包都是可读可修改的文件,用户通过对源程序的修改或加入自己编写程序构造新的专用工具包.

2.1.2 MATLAB产生的历史背景

在70年代中期,Cleve Moler博士和其同事在美国国家科学基金的资助下开发了调用EISPACK和LINPACK的FORTRAN子程序库.EISPACK是特征值求解的FOETRAN程序库,LINPACK是解线性方程的程序库.在当时,这两个程序库代表矩阵运算的最高水平.到70年代后期,身为美国New Mexico大学计算机系系主任的Cleve Moler,在给学生讲授线性代数课程时,想教学生使用EISPACK和LINPACK程序库,但他发现学生用FORTRAN编写接口程序很费时间,于是他开始自己动手,利用业余时间为学生编写EISPACK和LINPACK的接口程序.Cleve Moler给这个接口程序取名为MATLAB,该名为矩阵(matrix)和实验室(labotatory)两个英文单词的前三个字母的组合.在以后的数年里,MATLAB在多所大学里作为教学辅助软件使用,并作为面向大众的免费软件广为流传。1983年春天,Cleve Moler到Standford大学讲学,MATLAB深深地吸引了工程师John Little.John Little敏锐地觉察到MATLAB在工程领域的广阔前景.同年,他和Cleve Moler,Steve Bangert一起,用C语言开发了第二代专业版.这一代的MATLAB语言同时具备了数值计算和数据图示化的功能.1984年,Cleve Moler和John Little成立了Math Works公司,正式把MATLAB推向市场,并继续进行MATLAB的研究和开发.

在当今30多个数学类科技应用软件中,就软件数学处理的原始内核而言,可分为两大类.一类是数值计算型软件,如MATLAB,Xmath,Gauss等,这类软件长于数值计算,对处理大批数据效率高;另一类是数学分析型软件,Mathematica,Maple等,这类软件以符号计算见长,能给出解析解和任意精确解,其缺点是处理大量数据时效率较低.MathWorks公司顺应多功能需求之潮流,在其卓越数值计算和图示能力的基础上,又率先在专业水平上开拓了其符号计算,文字处理,可视化建模和实时控制能力,开发了适合多学科,多部门要求的新一代科技应用软件MATLAB.经过多年的国际竞争,MATLAB以经占据了数值软件市场的主导地位.

在MATLAB进入市场前,国际上的许多软件包都是直接以FORTRANC语言等编程语言开发的。这种软件的缺点是使用面窄,接口简陋,程序结构不开放以及没有标准的基库,很难适应各学科的最新发展,因而很难推广。MATLAB的出现,为各国科学家开发学科软件提供了新的基础。在MATLAB问世不久的80年代中期,原先控制领域里的一些软件包纷纷被淘汰或在MATLAB上重建。

时至今日,经过MathWorks公司的不断完善,MATLAB已经发展成为适合多学科,多种工作平台的功能强大大大型软件。在国外,MATLAB已经经受了多年考验。在欧美等高校,MATLAB已经成为线性代数,自动控制理论,数理统计,数字信号处理,时间序列分析,动态系统仿真等高级课程的基本教学工具;成为攻读学位的大学生,硕士生,博士生必须掌握的基本技能。在设计研究单位和工业部门,MATLAB被广泛用于科学研究和解决各种具体问题。在国内,特别是工程界,MATLAB一定会盛行起来。可以说,无论你从事工程方面的哪个学科,都能在MATLAB里找到合适的功能。

2.2 MATLAB的语言特点

一种语言之所以能如此迅速地普及,显示出如此旺盛的生命力,是由于它有着不同于其他语言的特点,正如同FORTRAN和C等高级语言使人们摆脱了需要直接对计算机硬件资源进行操作一样,被称作为第四代计算机语言的MATLAB,利用其丰富的函数资源,使编程人员从繁琐的程序代码中解放出来。MATLAB最突出的特点就是简洁。MATLAB用更直观的,符合人们思维习惯的代码,代替了C和 FORTRAN语言的冗长代码。MATLAB给用户带来的是最直观,最简洁的程序开发环境。以下简单介绍一下MATLAB的主要特点。

1. 语言简洁紧凑,使用方便灵活,库函数极其丰富。MATLAB程序书写形式自由,利用起丰富的库函数避开繁杂的子程序编程任务,压缩了一切不必要的编程工作。由于库函数都由本领域的专家编写,用户不必担心函数的可靠性。可以说,用MATLAB进行科技开发是站在专家的肩膀上。 更为难能可贵的是,MATLAB甚至具有一定的智能水平,所以用户根本不用怀疑MATLAB的准确性。

2. 运算符丰富。由于MATLAB是用C语言编写的,MATLAB提供了和C语言几乎一样多的运算符,灵活使用MATLAB的运算符将使程序变得极为简短。

3. MATLAB既具有结构化的控制语句(如for循环,while循环,break语句和if语句),又有面向对象编程的特性。

4. 程序限制不严格,程序设计自由度大。例如,在MATLAB里,用户无需对矩阵预定义就可使用。

5. 程序的可移植性很好,基本上不做修改就可以在各种型号的计算机和操作系统上运行。

6. MATLAB的图形功能强大。在FORTRAN和C语言里,绘图都很不容易,但在MATLAB里,数据的可视化非常简单。MATLAB还具有较强的编辑图形界面的能力。

7. MATLAB的缺点是,它和其他高级程序相比,程序的执行速度较慢。由于MATLAB的程序不用编译等预处理,也不生成可执行文件,程序为解释执行,所以速度较慢。

8. 功能强大的工具箱是MATLAB的另一特色。MATLAB包含两个部分:核心部分和各种可选的工具箱。核心部分中有数百个核心内部函数。其工具箱又分为两类:功能性工具箱和学科性工具箱。功能性工具箱主要用来扩充其符号计算功能,图示建模仿真功能,文字处理功能以及与硬件实时交互功能。功能性工具箱用于多种学科。而学科性工具箱是专业性比较强的,如control,toolbox,signl proceessing toolbox,commumnication toolbox等。这些工具箱都是由该领域内学术水平很高的专家编写的,所以用户无需编写自己学科范围内的基础程序,而直接进行高,精,尖的研究。

9. 源程序的开放性。开放性也许是MATLAB最受人们欢迎的特点。除内部函数以外,所有MATLAB的核心文件和工具箱文件都是可读可改的源文件,用户可通过对源文件的修改以及加入自己的文件构成新的工具箱。

2.3 MATLAB 遗传算法工具箱简介

鉴于Matlab强大的扩展功能和影响力,各个领域的专家相继突出了许多基于Matlab的专用工具箱。本文所采用的遗传算法工具箱,就是由英国谢菲尔德(Sheffield)大学设计推出的。相对于其他版本的遗传算法工具箱,如:美国北卡莱罗纳州立大学推出的遗传算法优化工具箱GAOT(Genetic Algorithm Optimization Toolbox),以及MathWorks公司最新的一个专门设计的Matlab遗传算法和直接搜索工具箱(Genetic Algorithm and Direct Search Toolbox),本工具箱的出现最早,影响较大且功能较为完备。文中所采用的所有遗传操作函数大部分出自本工具箱。 第三章 数字图像基础简介

图像处理的首要一步,就是要了解图像的基本性质与特点。只有充分了解和掌握了所要处理得图像的特点和性质,才能在接下来的处理中根据图像的特点获取所需的信息,并对其进行相应的处理。

本章将介绍数字图像的基础知识,以及图像在计算机处理中的信息表达形式,并对几种常用的图像文件格式Bmp, Jpeg以及Png等做简要的介绍。

3.1 图像的基本概念及其特点

要对图像进行处理,必须清楚图像的概念。一般来说,二维或三维景物呈现在人眼中的样子就是图像。图像具有以下三个方面的特点:

①图像带有大量的信息,一幅图像顶得上千言万语;

②图像种类繁多,包括照片、绘图视频图像等;

③人类从外界获得的大部分信息来自视觉系统。

人们看到的任何自然界的图像都是连续的模拟图像。其形状和形态表现由图像各位置的颜色来决定。可以用f(x, y)表示一幅模拟图像,其中x, y表示空间坐标点的位置,f表示图像在点(x, y)的某种性质的数值,如亮度、颜色等,f、x、y可以是任意的实数。而把连续空间的图像在坐标空间(X, Y)和性质空间F都离散化,以便于计算机进行加工处理的离散化的图像则称为数字图像。数字图像用I (r, c)来表示,其中:r=row为行,c = col为列,表示空间离散点的坐标,I表示离散化的图像f。I, r, c都是整数。实际中仍习惯用f (x, y)表示数字图像。图像存储画面的形式为栅格结构:即将图像划分为均匀分布的栅格(像素),显式的记录每一像素的亮度和颜色;而将像素的坐标值规则地隐含起来,其位置排列规则,通常为矩形排列。

3.2 图像的格式

组成数字图像的基本单位称为像素(Pixel),把像素按不同的方式进行组织和存储,就得到不同的图像格式;把图像数据存为文件就得到图像文件。图像文件按其格式的不同一般具有不同的扩展名。常用的图像文件格式有位图文件、JPEG文件、GIF文件、PNG文件等。每一种格式都有它的特点和用途,在选择输出的图像文件格式时,应考虑图像的应用目的以及图像文件格式对图像数据类型的要求。下面我们介绍几种常用的图像文件格式及其特点。

3.2.1 BMP图像格式

这是一种DOS和Windows兼容计算机系统的标准图像格式。BMP格式支持索引色、灰度等色彩模式。图像存储为BMP格式时,每一个像素所占的位数可以是1位、4位、8位或32位,相对应的颜色数也从黑白一直到真彩色。对于使用Windows格式的4位和8位图像,可以指定采用RLE压缩。BMP图像文件含文件头、调色板数据和图像数据三个层次。其中文件头由定义文件标识、大小即图像数据偏移量的BITMAPF工LEHEADER以及指定BMP图像自身的若干参数的BITMAPINFOHEADER两部分组成。这种格式在PC机上应用非常普遍。

3.2.2 JPEG图像格式

JPEG是由联合照片专家组(JiontPhotographic Experts Group)开发的一种图像文件格式。它采用有损压缩方式去除冗余的图像和彩色数据,在获取极高的压缩率的同时也能展现十分丰富生动的图像。也就是说,可以用较少的磁盘空间得到较好的图像质。另外,JPEG还是一种比较灵活的格式,当将图像保存为JPEG格式时,允许用户用不同的压缩比例对文件进行压缩,就是可以指定图像的品质和压缩级别。

3.2.3 TIFF图像格式

TIFF文件主要由三部份组成,包括文件头、标识信息区和图像数据区。T工FF文件的图像数据区以行扫描的方式存取图像,存储图像前先将图像分割成若干部分,压缩后再存储。存储时,单色图像一个字节存储8个点,16色图像一个字节2个点,而256色图像就是一个字节存储一个点。TIFF图像格式是一种应用非常广泛的位图图像格式,几乎被所有绘画、图像编辑和页面排版应用程序所支持。TIFF格式常常用于在应用程序之间和计算机平台之间交换文件。

3.2.4 GIF图像格式

CIF是Graphics Interchange Format(图形交换格式)的缩写,是由ComputerServe公司推出的一种图像格式。该种图像格式的特点是压缩比高,可以极大地节省存储空间。最初的GIF只是简单的用来存储单幅静止图像,后来可以同时存储若干幅静止图像从而形成连续的动画;同时,GIF格式支持透明背景,可以较好地与网页背景融合在一起。因此,GIF常常用于保存作为网页数据进行传输的图像文件,成为网络和BBS上使用频率较高的一种图像文件格式。但是GIF最多只能处理256种色彩,不能用于存储真彩色的图像文件。

3.2.5 PNG图像格式

这种格式称为可移植网络图像文件格式(Portable Network Graphics),由Thomas Boutell, Tom Lan。等人提出并设计。其特点是:①支持48位真彩色图像、16位灰度图像和颜色索引数据图像;②主要面向网络图像传输和图像编辑,其提供的二维交叉存储机制使用户在图像网络传输过程中能更快的观察到接近真实的近似图像;③对用户完全透明且无专利限制,用户可以从Internet上随时下载与PNG文件格式配套的图像数据压缩算法源程序代码:④ 具有比GIF高5-20%的压缩效率;⑤ 具有可扩展性。

作为目前最不失真的图像格式, PNG格式图像吸取了GIF和JPEG二者的优点。它可以把文件压缩到极限以利于网络传输,但由于采用无损压缩方式来减少文件大小,PNG格式能保留所有与图像品质有关的信息。同时,PNG支持图像背景透明,显示速度快。

本文的所有图像的处理都是对由JPG格式图像通过图像格式转化得来的Bmp格式的索引色图像进行的,其具体转换程序参见附录[一]。

第四章 图像分割 4.1 图像分割算法的定义与分类

在图像的研究和应用中,人们往往只对一幅图像中的某些部分感兴趣,这些感兴趣的部分一般对应图像中特定的、具有特殊性质的区域(可以对应单个区域,也可以对应多个区域),称之为目标或前景;而其它部分称为图像的背景。为了辨识和分析目标,需要把目标从一幅图像中孤立出来,这就是图像分割要研究的问题。所谓图像分割,从广义上来讲,是根据图像的某些特征或特征集合(包括灰度、颜色、纹理等)的相似性准则对图像象素进行分组聚类,把图像平面划分成若干个具有某些一致性的不重叠区域。这使得同一区域中的象素特征是类似的,即具有一致性;而不同区域间象素的特征存在突变,即具有非一致性。从集合的角度出发,图像分割定义如下:

设整个图像空间为一集合R 。根据选定的一致性准则P ,R 被划分为互不重叠的非空子集(或子区域):{R1, R2,L, Rn},这些子集必须满足下述条件:

(1) R =

(2) 对于所有的i和j ,当i ≠ j, =空集

(3) P(Ri) = True ,对所有的i

(4) 所有i ≠ j;Ri ,Rj相邻,P(Ri U Rj) = False

(5) 对i =1,2,L,n, Ri是连通区域

其中:P(Ri)为作用于Ri 中所有象素的形似性逻辑谓词,i, j =1,2,L,…n。上述条件

(1)指出分割后的全部子区域的总和应包含图像中的所有元素,或者说分割应将图像中每个象素都分进一个子区域中。

(2)指出各个子区域相互不重叠。

(3)指出分割后得到的属于同一区域中的元素应该具有某种相同特性。

(4)指出对于分割后得到的属于相邻两个区域中的元素具有某种不同的特性。(5)要求同一个子区域内的元素应当是连通的。

其中分割准则P 适用于所有象素,由它来确定各区域元素的相同特性。上述数学条件说明了图像分割算法的一些特点,凡不符合以上特点的图像处理算法则不能称为图像分割算法。

目前,在己提出的多种类型的分割算法中,大致可以分为基于边缘检测的方法和基于区域的方法。而在实际应用中,这些方法主要又可划分为三种类型: 边缘检测型、阈值型和区域跟踪型。本文的讨论正是基于阈值型图像分割方法展开的。

4.2 基于阈值的分割 4.2.1方法定义与特点

基于阈值的分割方法是一种应用十分广泛的图像分割技术。所谓阈值分割方法的实质是利用图像的灰度直方图信息得到用于分割的阈值。它是用一个或几个阈值将图像的灰度级分为几个部分,认为属于同一个部分的象素是同一个物体。它不仅可以极大的压缩数据量,而且也大大简化了图像信息的分析和处理步骤。因此,在很多情况下,是进行图像分析、特征提取与模式识别之前必要的图像预处理过程。它特别适用于目标和背景占据不同灰度级范围的图像。阈值分割方法的最大特点是计算简单,运算效率高,在重视运算效率的应用场合,它得到了广泛的应用。

4.2.2阈值的分割的描述

设(x,y)是二维数字图像的平面坐标,图像灰度级的取值范围是G= {0, 1, 2,…L-1 }(习惯上0代表最暗的像素点,L-1代表最亮的像素点),位于坐标点(x, y)上的像素点的灰度级表示为f (x, y)。设t∈G为分割阈值,B= {b0, b 1}代表一个二值灰度级,并且b0, b1∈B。于是图像函数f 1(x,y)在阈值t上的分割结果可以表示为:

阈值分割法实际就是按某个准则函数求最优阈值t的过程。域值一般可写成如下的形式:

T=T[x,y, f (x,Y),p (x,y)]

其中f (x, y)是在像素点(x, y)处的灰度值,p(x,y)是该点邻域的某种局部性质。4.3.3阈值分割方法的分类

通过上文的讨论,结合所给公式,可以将阈值分割方法分为以下3类:

1)

全局阈值:T=T[p(x,y)〕,即仅根据f(x,y)来选取阈值,阈值仅与各个图像像素的本身性质有关。

2)

局部阈值:T=T[f(x,y),p(x,y)],阈值与图像像素的本身性质和局部区域性质相关。

3)

动态阈值:T=T[x,y,f(x,y),p(x,y)],阈值与像素坐标,图像像素的本身性质和局部区域性质相关。

全局阈值对整幅图像仅设置一个分割阈值,通常在图像不太复杂、灰度分布较集中的情况下采用;局部阈值则将图像划分为若干个子图像,并对每个子图像设定局部阈值;动态阈值是根据空间信息和灰度信息确定。局部阈值分割法虽然能改善分割效果,但存在几个缺点:

1)

每幅子图像的尺寸不能太小,否则统计出的结果无意义。

2)

每幅图像的分割是任意的,如果有一幅子图像正好落在目标区域或背景区域,而根据统计结果对其进行分割,也许会产生更差的结果。

3)

第5篇:图像法论文范文

关键词:单片机;二值化;大津法;分辨率

1 概述

随着电子技术的发展,工业控制器的适应能力逐步增强。其中以单片机为核心,带图像处理的数字控制器因其体积小、成本低、功能强、简便易行而在航天航空、生物医学、通信工程、军事等领域得到广泛应用。在众多图像二值化处理算法中,阈值化方法因其算法简单,计算量小,性能较稳定而在图像二值化处理中应用最为广泛。

我们在STM32F103单片机上运用OTSU二值化处理算法,使系统能够在1s内完成图像的获取与处理,并且显示出来。

2 系统实现

2.1 软件系统

本系统采用全局阈值法中的OTSU法来实现图像的二值化。OTSU法的基本思想是求取最佳门限阈值,此阈值将图像灰度直方图分割成黑白(前景与背景)两部分,使两部分类间方差取得最大值,并使类内方差值最小,即类间分离性最大,而类内的相似性最大。对于某图像的灰度直方图,设 t为区分前景灰度与背景灰度的二值化阈值,设 w0为前景像素所占图像总像素的比例,令 u0为所有前景像素的平均灰度,设w1为背景点数所占图像总像素的比例,令 u1 为所有背景像素的平均灰度,则图像的所有像素的平均灰度为u=w0*u0+w1*u1。在进行程序运算时,t的取值可从图像的最小灰度值到图像的最大灰度值依次遍历,当t取某值时,类间方差公式b=w0*(u0-u)*(u0-u)+w1*(u1-u)*(u1-u)能取得最大值,此时t即为二值化的最佳阈值。

获取到阈值后,将原图与二值化处理后的图以BMP位图格式保存到SD卡中,并设有串口,以便适应不同系统的需求。

2.2 硬件系统

我们的图像采集系统由ILI9341显示屏、STM32F103主控芯片、山外鹰眼摄像头、串口、SD卡五部分组成。图像采集系统基本框图如图1所示。

3 测试与讨论

3.1 影响因素分析

为了测试光照、图像分辨率等因素对于算法的影响以及该系统对于不同图像处理的效果,我们做了一系列实验。

不同光照的效果如图2所示,不同分辨率的效果如图3所示。

经过一系列的实验与讨论,我们得出的结论是光照会严重影响图像二值化的阈值大小,而分辨率的大小只要在一定范围内对于阈值并无影响.对于不同的图像,应用我们的系统,与正确的二值化效果相同,所以该系统能够适应大多数的图像二值化处理.最终我们将芯片超频到最高频率128MHz且将图像的分辨率调整到不发生恶化的最低分辨率,使得系统在1s内完成了从拍摄到二值化显示。

在测试中我们发现只要分辨率的大小低于32*24,则阈值的数值会发生大幅度的波动。经过调查研究,我们认为这是一种类似香农采样定理理论与实践相结合的有力凭证。香农采样定理的定义是为了不失真地恢复模拟信号,采样频率应该不小于模拟信号频谱中最高频率的2倍。实验对图像二值化的处理是256级的灰度,而我们只要将图像的分辨率设置成不小于三倍的灰度级,那么该系统对图像的二值化没有影响。

3.2 性能分析

对于一个系统,我们需要了解他们的实效性,所以做了以下测试。在图像分辨率为320*240的情况下,处理一张图片所需的时间如表1所示,想要在1s内完成图像处理,理论上需要芯片频率达到500MHz.在分辨率缩小到最小(即32*24)时,处理一张图片所需的时间理论上是分辨率为320*240的0.01倍,与实际情况基本吻合。

经过数据分析,我们将拍摄到的图像分辨率减小到不失真的临界值,缩小处理时间,实现快速处理。

4 结束语

本系统以型号为STM32F103的单片机作为核心处理芯片,该芯片丰富的片上资源大大减少在数据传输上浪费的时间。摄像头采集的图像以及处理后的图像均以BMP位图文件格式保存在SD卡中或者通过串口发往下一级处理设备,以便适应其它处理系统的需求。

本系统的创新点:使用单片机作为二值图像的处理核心,用位图文件存储二值图像,发现了图像分辨率对图像二值化处理的影响,能够准确的求取阈值,在低速低成本处理器中,1s内完成从拍摄,处理,显示的过程。为单片机系统在图像处理领域的应用提供了一个借鉴。

参考文献

[1]张铮,王艳平,薛桂香.数字图像处理与机器视觉[M].北京:人民邮电出版社,2010:4.

[2]李宏,张冬生,林义刚,等.基于OTSU理论的灰度图像分割算法研究和改造[J].科学技术与工程,2010,10(22):5437-5440.

[3]童立靖,张艳,舒巍,等.几种文本图像二值化方法的对比分析[J].北京工业大学学报,2011,23(1):2-4.

第6篇:图像法论文范文

关键词:系统功能语法;再现意义;互动意义;构图意义;平面广告

一.引言

平面广告,若从空间概念界定,泛指现有的以长、宽两维形态传达视觉信息的各种广告媒体的广告;若从制作方式界定,可分为印刷类、非印刷类和光电类三种形态;若从使用场所界定,又可分为户外、户内及可携带式三种形态;若从设计的角度来看,它包含着文案、图形、线条、色彩、编排诸要素。对平面广告的多模态分析模式是建立在多模态理论的基础上的,由于平面广告一般包括的模态有图像模态和文字模态,所以平面广告的多模态分析主要包括对这两个模态的分析。

之前对于平面广告的多模态分析基本是根据多模态分析理论上对于个案的分析,而没有一个系统的完整的平面广告多模态分析方法和结构。这样在遇到新的案例或者素材时就没有可供使用的分析框架,分析者往往要进行各方面的知识学习和概括才能进行多模态分析。本文试图通过构建一个适合大多素平面广告的多模态分析的框架,使分析更加简洁和清晰,并且能够为一些分析者提供研究的切入点。

二.理论基础

克瑞斯和勒文的理论是建立在韩礼德系统功能语言学的基础上,系统功能语言学把语言功能分为三个方面,即概念功能、人际功能和语篇功能。概念功能是指我们利用语言来认识世界的功能;人际功能是讲话者运用语言参加社会活动的功能;语篇功能指语言用于组织信息的功能。而根据克瑞斯和勒文的理论模式图像的意义可以分为三个模块,即分析图像的再现意义,互动意义和构图意义。因此我们在研究图像模态时可以根据这三个模块来分析图像模态的意义和特点。

平面广告包含有图像和文字两种模态,Barthes认为,图象和文字说明是关联的,然而由于图象本身的意义飘忽不定,必须借助文字说明才能确定(Barthes1967, 1977)这种观点认为图像依赖于文字,而克瑞斯和勒文却认为,图象和文字说明是有联系的,但并不依赖文字说明,因为它本身既是有组织的(organized) ,又是有结构的( structured) ( Kress & Leeuwen 2006 )。虽然两种观点在文字和图像的关系上有所不同,但是他们都认为对于图像模态的分析,要结合文字模态,对于文字模态的分析,需要结合图像模块。

三.分析步骤

平面广告的多模态分析分为两个方面,第一是图像模态的分析,第二是文字模态的分析。

3.1图像模态的分析

图像模态的分析可以从三个方面着手:再现意义、互动意义和构图意义。

3.1.1图像模态的再现意义

系统功能语言学中指出,概念功能指语言对人们在现实世界(包括内心世界)中各种经历加以表达的功能。而克瑞斯和勒文提出的再现意义是在概念功能的理论上建立的,他们将再现意义区分为叙事和概念两大类。其中叙事的再现包括行动过程、反应过程及言语和心理过程三类。而概念的再现对应功能语法中的语义关系的关系过程和存在过程。

区分叙事再现和概念再现的方法是看图中有没有矢量的存在。有矢量的图属于叙事再现图像,而没有矢量的图则属于概念再现图像。

矢量是叙事图像的标志。在图片中,图像中的元素形成斜线, 通常是强烈的对角线,形成矢量。当参与者被矢量连接起来时,他们之间的关系被再现为相互作用,表现为行动过程和反应过程。在叙事再现的行动过程中,动作者(actor)即为发出矢量的参与者。在图像中,动作者通常是最为突出。而没有矢量的图则属于概念图像,概念图像的再现意义通过分类过程、分析过程和象征意义来实现。

在确定了图像模块属于何种再现图像之后,我们就可以根据两类图像的特点和结构来进行分析。如果图像中包含矢量,即属于叙事图像,那么就要按照分析叙事图像的方法,首先要分清图像中的动作者,参与者和反映者,然后再分析他们之间的相互关系以及是如何相互作用的。各方的相互作用也是通过矢量连接的。叙事图像的在现分为行动过程、反应过程及言语和心理过程。行动过程的元素和人物可以看作动作者,反应过程的元素和人物可以看作参与者,心理过程的元素和人物可以看作反映者。世博会的会徽可以被看做是一个叙事图像,可以明显的看到由图像中的元素构成的强烈的对角线而形成的向量。动作者并不是具体的某个人或者某些人,而是一个由图像构造出来的具有象征意义的整个群体。

如果图像中不包含矢量,即属于概念图像,那么就要按照概念图像的模式来进行分析。概念图像的再现意义通过分类过程、分析过程和象征意义来实现。分类过程即把图像中的各个元素按照一定的标准进行分类,将属于同一类的元素归纳到一起,而分析过程则是把已经归类的元素进行信息处理,将元素中的有效信息提取出来,象征意义是将从元素中提取的有效信息再处理,并且归纳总结出深刻的内涵概念。

3.1.2 图像模态的互动意义

互动意义对应于系统功能语言学中的人际意义。"互动意义是关于图像的制作者、图像所表征的事物(包括人)和图像的观看者之间的关系,同时提示观看者对表征事物应持的态度。"跟语言的人际功能类似,人际功能是指语言用来维持社会和人际关系的功能,而互动意义是用图像语言进行交流,使交流的各方能够有效的沟通。互动意义由四个要素构成,它们是接触、社会距离、态度和情态。我们可以从这四个方面来分析图像模态的互动意义。接触:很多图像表现画框中的人直接看着观看者,即他们与观看者"接触",从而与他们建立起(想象中的)关系。根据图像与观看者之间的接触关系,可以分为"索取"类图像和"提供"类图像。距离:图像可以使观看者靠近人物地点和事件,也可以将观看者挡在一臂之外。图像的距离要素类似于电影和摄影中的镜头距离,根据距离的长短,图像可以给观看者不同的感觉,例如近距离的特写可以让观看者身临其境,而长距离的画面则是强调的整体感觉。态度:当仰视/俯视/平视某物时,我们会对物体产生象征性的权势,平等的和不平等的,这之间还有很多不同程度的卷人或超脱的介人。最后分析的一项是情态,情态指的是"某种图画表达手段(色彩、再现的细节、深度、色调等)使用的程度,其中的每一个方面都可以看作是一个尺度,从没有细节到对细节最大量的再现,或者从没有深度到最大深度"。分析情态就是分析图像中的色彩运用,图像中的情态分为高、中、低三类:(1)高感官情态:图像自然主义地使用了高饱和度的色彩;(2)中感官情态:图像色彩不太饱和,如"水洗"的或飘逸的水粉;(3)低感官情态:图像只是黑白的。克瑞斯和勒文从色彩饱和度、色彩区分度、色彩调和度、语境化、再现、深度、照明和亮度等八个视觉标记探讨了图像中情态的现实意义量值的高低。所以在分析图像时,要结合美学对色彩的研究来分析图像色彩的运用及包含的意义。

3.1.3 图像模态的构图意义

构图意义对应的是系统功能语法中的语篇意义,正如对于语篇意义的分析一样,多模态分析把整个图片看做是一个语篇,而不同的是多模态分析注重的是图片内部结构和整体的关系。构图意义包含三种资源:信息值、取景和显著性。分析图片的构图意义就是对这三种资源的分析,同样的也需要借助美学的知识。信息值是通过元素在构图中的放置实现的。元素在图中的不同位置代表了不同的意义,在图像上方的元素是"理想的",而被放在下面的元素则是"真实的";放在图像左边的元素是已知的,而右边的元素则是新的信息。在功能语法中,已知信息是常识性的或显而易见的,而新信息则是补充到认知环境中的,可供讨论和争议的。取景指的是用取景手段(可通过造成分割线条、或实际分割框架的线条来实现)割断或连接图像中的元素,表示它们在某种意义上是属于还是不属于的。显著性值得是元素吸引观看者注意力的程度。显著性可以通过图片的前景或背景、相对尺寸、色调值的对比、鲜明度的不同等来实现。此外,文化因素也可以影响显著性,例如女人体现在图像中总是具有显著性。而很多的平面广告大多是借助人物来表现产品的,所以其中的各种因素所表现出来的显著性会有很大差别。

3.2文字模态的分析

广告中的文字部分通常对整个广告起到画龙点睛的作用,在广告中往往是必不可少的,文字模态和图像模态相互照应,共同作用以展示产品或宣传品。因此我们在分析完图像之后还要对文字进行分析,并且要结合图像的意义和特点来分析文字。

文字模态的分析主要是从两方面来进行。一方面要分析文字的构图模式,排版和色彩运用。像图像模态一样,文字模态也有其自身的构图原则和目的,我们在分析时要把握好作者的意图以便更好的结合文字来对整个广告分析。在平面广告中,文字说明能够更好的帮助把产品的精华和特点展示出来,让观看者更准确的把握住广告的意图。这种分析是把文字看做图像来分析的,与图像模态的分析有类似之处。

另一方面,要利用传统的系统语言学的方法来对纯文字部分进行分析。在分析完文字模态的构图方面的特点和意义之后,我们还要对文字模态进行再分析。因为传统的系统功能语言学分析的是单模态的文字语篇,所以我们在利用此理论来分析文字模态时要对语言的三大功能进行分析,即概念功能、人际功能和语篇功能。同时,要结合广告语的形式和特点分析语篇。广告语中包含有大量的转喻和隐喻,在分析时要把其中的隐含意义解释出来从而方便读者对整个语篇的理解。

四.结语

多模态的分析不仅仅依赖语言学这一门学科的知识,因为多模态不可避免的包含有图像或者视频,所以对于这些模态的分析还要借助于其他方面的知识,例如美学和社会学。多模态分析发展到现阶段,缺点还存在很多,最明显的一个,由于分析者在分析各个模态时虽然根据相同的理论和结构,但是分析仍然带有强烈的主观性。不同的人对于同一个图片分析的结果和侧重点就会有很大的差别。而对于文字模态和图片模态之间的互动关系和互补作用仍然难以确定,因此在对这两个模态分析时就难以准确全面的将二者结合。

平面广告只是多模态语篇的一种,并且是一般仅包含有两种模态的语篇,所以在分析的内容相对较少,结构相对较简单。但是分析要抓住图像所表达意义的本质却不是那么简单的,在分析者利用理论来进行实际分析时,往往无法把握好图像的各个元素的重要性顺序以及背后所隐藏的含义,这就会造成一种分析的失误,导致分析太流于表面,而无法深层次的挖掘其中的精髓。并且多模态分析往往要求分析者掌握多方面的理论和背景知识,仅仅通过一些简单的知识进行似懂非懂的分析结果会给人一种空洞和言之无物的感觉。

参考文献:

[1]Kress G. and T.Van Leeuwen. Multimodal Discourse Analysis. London:[2]Arnold, 2001

[3]Kress,G. and T.Van Leeuwen. Reading Images.1996. London: Routledge, 2006.

[4]Halliday, M. A. K. An Introduction to Functional Grammar.1985. London: Arnold, 1994.

[5]T.van Leeuwen Introducing Social Semiotics. London: Routledge, 2005.

[6]Hodge, R. and G. Kress. Social Semiotics. Cambridge: Polity Press, 1988

[7]胡壮麟,"社会符号学研究中的多模态化",《语言教学与研究》, 2007年第1期,1-10。

第7篇:图像法论文范文

关键词:数字图像处理 教学方法 信息科学类

中图分类号:G642 文献标识码:A 文章编号:1674-098X(2013)04(c)-0145-02

随着现代信息技术的快速发展,图像处理越来越广泛的应用于军事目标识别、智能交通、医学图像重建、社会事务管理、生物特征识别,以及互联网相关产业等诸多领域,越来越多的研究者更加关注图像处理领域的研究工作。而高等教育要与实际应用紧密联系,“数字图像处理”这们课程在高等学校信息类电子信息类专业也具有越来越重要的地位。

“数字图像处理”的教学目的是使学生了解和掌握数字图像处理的基本概念与主要内容,为今后的深入研究和开发工作打下良好的基础,基本教学内容包括图像增强、图像分割、图像复原、图像描述、图像识别等理论和方法[1]。该课程主要阐述了数字图像处理中的基本概念、基础理论和常用算法,介绍数字图像处理研究中的基本问题以及解决这些问题的原理和实现方法,使学生能够编程实现简单的图像处理算法,能够阅读利用图像处理文献以解决实际问题。

“数字图像处理”课程属交叉学科,其起点高、难度大,即有较强的理论性,又和实践结合紧密,历年来的教学效果及考试情况表明,学生对本课程往往心存畏惧,教学上存在许多问题。比如:学生兴趣不大、课堂效果不理想等等。因此,如何引导学生明确学习目的、转变思想观念,如何在教学过程中合理利用多重教学手段、灵活采用相宜的教学方法激发学生的学习兴趣,成为今后教学中必须解决的问题。

1 传统教学中存在的问题

总结过去几年的教学实践,笔者发现《数字图像处理》的传统教学模式存在着以下几个问题。

1.1 数字图像处理的课程体系尚不完备

图像处理学科本身为交叉学科。与信息编码、模式识别、信号分析多领域存在学术联系,而课程内在耦合性并不强,目前还没有一个完备的课程体系,许多教学实践难以组织。一般认为,数字图像处理包括图像增强、图像复原、彩色图像处理、图像压缩与编码、图像分割、图像描述与表达等章节,根据教材丰富程度的不同,可能还包括图像的数据结构、图像重建、图像识别、图像的小波分析,以及图像的数学形态学处理。图像处理内容庞杂,难度也偏大,在有限的教学时间内往往很难将全部内容讲透,传统的教学模式只能以理论介绍为主,忽视理论的实现步骤,造成学生在学习时普遍感到过于抽象,很难看到理论的实际应用效果。而且教师在课堂上讲授知识点时,由于和实践脱节,致使学生在一些繁杂的数学推导面前望而却步,从而逐渐丧失学习兴趣。

1.2 图像处理课程的理论讲授与应用实践难以兼顾

图像处理课程的许多内容,如图像变换、图像复原等章节,涉及到最优化问题、矩阵计算等相关理论。例如利用拉格朗日方法求矢量变量的条件极值问题、标量函数对矢量求导,虽然他们在高等数学、线性代数课程已学习过相关内容,但高等数学课程的教学实践中没有使用矢量表达方式。这些数学表达方式对于高年级本科生而言比较陌生,难以理解。而专业文献、教材中多使用矢量表达方式,对于这样的知识断裂带,本科生往往觉得相关数学知识过于深奥,从而产生畏难情绪,在教学实践中,往往需要连接相关的知识断点。

另一方面,图像处理的许多内容是与实际应用紧密结合的,如图像增强、图像分割等内容,其许多理论内容具有相当的抽象性,而相关算法实验结果却十分的直观,不仅有利于反映不同理论与方法的特点,也有利于学生对教授内容的理解。但在教学实践中我们发现,尽管学过相关程序编制课程,绝大部分学生仍不会编制程序,许多学生甚至没有掌握基本的编程概念。

因此,在“数字图像处理”的教学实践中,我们希望探索一种适合“数字图像处理”教学的、新颖的教学模式,引导学生通过课堂学习、课后练习,进行广泛的阅读、思考、讨论,并通过编程实践进行验证、实践,以掌握教学内容,从而进一步提高教学质量。

2 教学改革措施

针对以上的问题,笔者在教学工作中不断探索,分别从以下几个方法进行教学改革并在教学实践中取得了良好的效果。

2.1 将讲授内容与实际应用结合起来

目前,几乎不存在与数字图像处理无关的技术领域,而在其学科发展初始,就得益于实际应用的推动,可以说,数字图像处理是一门实践性非常强的学科,然而,在传统的工程技术人才的培养方式中,过分强调了专业知识的积累,使得学生形成了单一追求知识积累的习惯,对学习内容能够记忆,、理解并能模仿性地应用。毕业之后,能做一般性的科学技术工作,但创造能力较差。这种学习模式也使得学生对专业课的学习缺乏兴趣,从而产生厌学、逃课等学习现象。而我们知道,一切科学技术的探索和创新都起源于兴趣,因此,激发学生学习本课程的兴趣和热情是任课教师首先要解决的问题[2]。

数字图像处理这门学科与我们的生活结合的如此紧密,了解数字图像处理专业知识对于将来从事的工作的重要性,让书本上生硬枯燥的理论鲜活起来。比如,在数字图像处理绪论教学中,可以重点介绍数字图像处理在医学图像处理、智能交通监控、基于图像的工业检测、图像压缩在3G通信技术中的引用,不仅介绍其技术背景,还可介绍业内著名公司,简单说明其技术现状、发展前景以及薪酬水平等情况,以激起学生的学习兴趣。

另一方面,在讲授图像处理相关领域时,可结合相关应用,如在讲授图像压缩时, 可以将其与目前流行的3G通讯技术联系起来,介绍图像压缩在其中的应用情况及相关的技术特点;在讲授直方图均衡化时可以讲解它在相关技术领域,如指纹识别、人脸识别的图像预处理。课堂教学除了围绕基本理论和概念进行外,还可以穿插讲解在科研中需要注意的相关知识。

2.2 注意数字图像处理与先导课程的联系

数字图像处理是一门理论与实践结合紧密的课程,其学习研究需具备较为全面的数学基础,同时,我国目前的数学教学由于学时越来越少,内容愈来愈多,为完成教学任务,忽视了对现代数学表达的重要性,导致学生虽然能理解微积分、线性代数等工程数学的基本思想,但不熟悉不熟悉现代数学表达方法,从而不理解许多图像算法的理论推导,针对这一情况,笔者总结出以下的解决方法。

(1)在讲授需较深数学知识的相关内容时,预先讲述相关数学内容。尤其是许多数学表达方法与学生在大一学习的微积分、线性代数表达方法不一致的情形。例如,在讲述图像复原的过程中,我们发现同学们由于对向量变量操作的不熟悉,他们对基于多维向量的拉格朗日算法不理解,不理解其推导过程,也不明白算法的具体步骤。为此,我们通过对高等数学中偏导数、拉格朗日方法等数学知识的复习,并用向量形式重新表述,告诉学生对矢量求导,其实就是我们学习过的多元微积分的偏导数,对于标量对矢量求导的概念与方法,学生以前没有学习过,可以结合微积分与线性代数,通过数学推导的方法,让同学了解这种方法的实质与表达的便利。这种处理方法,不仅能充分说明图像复原的原理过程,同时也拓展了学生的数学视野,对学生进一步深造也有帮助。

(2)数字图像本身是一种二维数字信号,其里面的许多内容都可以在《数字信号处理》、《信号与系统》等先导课程里面找到相关的概念,例如在推导图像的退化模型时,我们发现其就是在信号与系统里面学习过的线性时不变系统,同时我们还能研究其物理意义,以及相关物理意义与数学抽象模型之间的关系,从而不仅更刻的理解《信号与系统》的相关内容,同时也学习了具体专业应用中,对影响模型表达的现实因素的取舍依据。

(3)对于某些内容可根据教学内容做适当取舍与调整,例如,对于数字图像直方图的表达,只需要理解直方图的定义与求法,对其繁琐的数学表达就不做要求了。对于图像分割,重点在于理解算法,对于其形式化表达就不做具体要求。

2.3 采用“互动式”教学方法

数字图像处理内容繁多,理论基础较深,存在较多的数学推导,传统“注入式”的教学方法使得课堂教学枯燥乏味,且收效甚微。为了解决这一问题,笔者在教学过程中不断摸索,总结出一种“互动式”教学法[3]。

一般来说,在课堂讲授中,可将整个课堂讲授分为若干相对独立的小节,每个小节讲授结束时,可要求学生提问,引导学生积极参与教学活动,给学生提供独立思考、亲身体验的机会,体验其中的乐趣和成就感,如果内容较为模型,学生提不出有价值问题是,也可以向学生提问,掌握学生的学习状态,再针对性的进行讲解。

其次,每次讲解新内容之前,以提问的方式对上一节的重点内容进行总结回顾,另外,在教学过程中根据教学重点有针对性的选取部分图像处理算法,如OTSU图像分割方法,鼓励学生毛遂自荐,在黑板上当堂完成伪码算法,同时可要求其余的同学对其算法进行点评,找出问题并给出修改意见。不仅活跃了课堂气氛,又锻炼了同学的编程能力,还加深了学生对重点和难点知识的理解和认识[4]。

3 结语

本文中,笔者根据《数字图像处理》的专业特点,针对传统教学中存在的问题,结合教学实践,提出了相应的教学改革的方法。有效的提高了学生的创新能力、科学研究能力,有助于扩大学生的就业面。以上对教学改革的一些探索和尝试,在教学过程中取得了良好的教学效果。但教学改革是一项系统工程,本文的探索还处于初期,在以后的工作中还有许多的问题有待解决,要在不断的探索与实践中得到完善和提高。

参考文献

[1] 冈萨雷斯.数字图像处理[M].3版.北京:电子工业出版社,2011.

[2] 刘咏梅,欧阳慧,张国印.“数字图像处理”双语教学中的几点体会[J].计算机教育,2009(6):32-33.

第8篇:图像法论文范文

关键词: SAR; 图像分割; 算法分类; 分割评价指标

中图分类号:TP79 文献标志码:A 文章编号:1006-8228(2017)05-01-04

Overview of SAR image segmentation algorithm

Song Guolei, Hou Wei

(School of computer and information engineering, Henan University, Kaifeng, Henan 475000, China)

Abstract: SAR image segmentation is one of the basic problems in SAR image analysis, and it is also the key step in the process of target recognition and detection. In this paper, the existing classical and mainstream SAR image segmentation algorithms and theories are studied, classified and analyzed based on a large number of literatures, and the SAR image segmentation evaluation indicators based on the overall segmentation accuracy are used to compare the experimental results of various algorithms.

Key words: SAR; image segmentation; algorithm classification; segmentation evaluation indicator

0 引言

图像分割是指将图像分成若干互不重叠的子区域,使得同一个子区域内的特征具有一定相似性、不同子区域间特征呈现较为明显的差异[1]。图像分割是图像识别、场景解析、目标检测等任务必须经过的预处理过程,是图像分析中一个基础的问题。其中SAR图像分割技术的发展可以追溯到20世纪80年代,经过几十年的发展,已经提出多种基于不同理论的方法[2]。

目前,SAR图像分割处理技术已经有较多的研究成果[3-5],但由于SAR地物场景的复杂性,致使各种分割算法都有较大的针对性,通用性不好。本文对现有的研究成果进行了详细的研究,综述现有的SAR图像分割算法,并根据SAR图像分割所使用的理论差异的特点,把图像分割方法分为基于阈值、水平集、模糊聚类和混合模型四类。

1 SAR图像分割算法

1.1 基于阈值的SAR图像分割

阈值法基本思想是通过设定一个阈值将图像分割成两个具有不同特性的区域。当区域中像素值大于阈值就设置为目标,区域中像素值小于阈值就是背景。根据像素灰度值与最佳阈值的关系,可以把目标从背景中提取出来,该方法的优点在于易于实现,给定阈值后分割速度非常快,但是对于灰度均匀性的图像来说,很难找到一个阈值将他们分割开来。经典的阈值法是OTSU。

OTSU算法分析如下。

大类间方差法(OTSU法),是由大津展之[6]在1979年提出来。该方法是在判决分析的基础上推导出来的,是一种自动的无参数无监督阈值分割方法。它是基于一维灰度直方图,且计算简单的一种阈值分割方法,因而应用广泛。Lee等人[7]分别使用错分概率,形状和均匀性度量作为准则函数评估了多种阈值分割方法的性能,结果表明,OTSU法是一种很好的阈值分割方法。原理如下:

设SAR图像的灰度级为L,灰度值为i的像素个数为ni,则总像素数为,并作归一化处理,各灰度值所占的比重为,则SAR图像的灰度平均值μ和方差σ分别为,。用灰度级 T 作为阈值,将图像分割为两类C1={1~T},C2={T+1~L},设ω1和ω2作为C1,C2出现的概率,μ1和μ2为灰度平均值,,为方差。有:

由上述可得出类间方差为:

当类间方差取最大值时,对应的灰度值T即为所求得的阈值。

1.2 基于水平集的SAR图像分割

基于几何变形模型的水平集方法由Osher和Sethin于1982年提出[8-9]。分水岭算法的思想主要运用地形学的思想,模拟了一个洼地积水的过程。主要有两个重要的步骤,一个是排序,就是把像素点按梯度值进行排序,具有相同梯度值的处于同一个梯度级;第二个是泛洪,就是将排序后的像素构成带有不同标记的积水盆地,这样来自不同积水盆地的水就构成了水坝,这样由多个互不重叠的区域构成的最终分割图像。

根据水平集模型能量函数所使用的图像内部信息,可以将水平集图像分割方法分成两大类:基于边缘的水平集分割模型和基于区域的水平集分割模型。

基于边缘的水平集模型主要包括Snake模型[10]。Snake由Kass等人于1988年提出,此模型通过建立参数化的曲线能量函数,并优化能量函数,使参数化的曲线向目标边缘收敛。

基于区域的水平集模型利用图像的区域信息构造能量函数,利用区域信息作榍动力使水平集轮廓收敛向目标边缘。基于全局区域的水平集模型主要包括Mumford-Shah模型[11]和Chan-Vese[12]模型。

水平集方法的一般步骤如下。

Stepl:初始化。将水平集Φ>0函数初始化成符号距离函数形式。

Step2:根据实际问题,构造解决问题的总的能量函数。

steps:求解水平集。利用变分法求能量函数的梯度下降流方程,根据离散化后的梯度下降流方程,计算更新后的水平集函数。

Step4:判断收敛性。如果已经收敛,则停止迭代,当前的水平集轮廓即为最终的边缘,否则返回Step3继续进行水平集的演化。

1.3 基于模糊聚类的SAR图像分割

模糊分割算法相比硬聚类分割算法能更多的对图像的原始信息进行保留,因此受到学者们的极大关注,特别是模糊C-均值(FCM)聚类算法作为一种无监督聚类算法,在图像分割领域得受到极大欢迎,引起广泛的关注。经过长期发展,已研究出多种模糊聚类理论和方法。

标准模糊C均值(FCM)聚类分割算法对数据稠密的球状数据簇有相对不错的聚类效果,其以欧式距离为相似性度量,不过现实中设定的簇的区域范围均存在不同,G.H.Ball等人首次提出C均值聚类算法。丁等[13]先对原始图像灰度直方图进行分析处理,以此划分峰值的类设其为初始的聚类中心、得到聚类;裴等人[14]结合有效性函数对图像进行聚类中心初始化;先用K均值初始化聚类中心;周涓等[15]用最大最小距离法计算聚类个数和聚类中心。此外,文献[14,16]对模糊指数m进行了研究,并通过物理解释,得出m=2时最为合理。Ahmed[17]将像素信息和其邻域信息综合考虑,取得了相对更好的图像分割结果;为削弱噪声对分割的影响Chen等[18]使用邻域均值达到简化邻域附加项节省了算法过程时间的效果。

1.3.1 FCM算法

设图像的灰度级为L,样本数目为N(图像的像素点数),将N划分成c类,则对应的有c个聚类中心C,每个样本j属于某一类i的隶属度为μij,且满足μij∈[0,1],那么定义FCM目标函数⑴及其约束条件⑵如下:

则μij和ci更新等式分别为:

FCM算法的一般步骤如下。

⑴ 确定分类数,指数m的值,确定迭代次数(这是结束的条件,当然结束的条件可以有多种)。

⑵ 初始化一个隶属度U(注意条件―和为1)。

⑶ 根据U计算聚类中心C。

⑷ 这个时候可以计算目标函数J了。

⑸ 根据C返回去计算U,回到步骤3,一直循环直到结束。

1.4 基于混合模型的SAR图像分割

不同的新算法和理论对跨学科的交叉实现产生深远影响,也使图像分割技术理论体系完善起来。倪维平等[19]构造了一种基于马尔可夫随机场(MRF)模型和形态学运算的处理方法。首先利用SAR图像邻域空间上的马尔可夫性以及像素灰度的高斯分布模型,以较少的迭代次数实现SAR图像的初分割;然后通过形态学运算进行处理,抑制干扰性分割,同时填充目标区域内部空洞,改善分割效果;文献[20]-[24]等在模糊理论中引入阈值法、水平集、分水岭、蚁群等方法来解决噪声抑制和运行时间等问题。

2 分割算法的性能评估及实测实验结果

实验采用数据为欧空局哨兵1号星载卫星获取的丹江口水库2016年10月份影像数据,图像大小为923×597,图像包括林区、植被区、水库区与居民区等不同区域。图1(a)为原始图像,图1(b)-(i)为文中所提到先关算法的实验结果。

采用文献[25]中所使用的评价标准,将文中算法与现有的分割算法从分割正确率、召回率和总体精度指标方面进行分析。

结合实验结果可以看出,OTSU算法、分裂合并算法、MRF算法在对噪声抑制上效果较差;二维OTSU在噪声抑制上较一维OTSU有明显改进;水平集与数学形态学算法虽在噪声处理方面有较好的效果,但对于局部区域的支流存在漏分割;FCM算法仅利用了图像中的灰度信息,因此算法本身对于噪声没有较好的抑制;OTSU与核聚类算法和自适应蚁群算法与聚类均产生误分割。对于不同的环境背景和不同的图像,不同算法的结果差异较大,也验证了上述的D像分割算法没有通用性之说。在了解不同的算法的优劣之后,要结合不同的实验数据与其实际的环境背景,才能最终选取最合理的分割算法。

3 结束语

本文对近年来国内外割及再利用边界追踪技术等对分割后的图像边缘轮廓进行描述,对SAR图像分割技术进行了综述性研究,归纳了SAR图像分割的性能评估方法,并给出了实验数据的分割结果和性能分析。从本文分析可以看出,不同的分割理论在SAR图像的分割中均具有重要意义,基于阈值的分割算法简单,且与其他理论可以很好的融合,具有较好的扩展性和适用性;水平集的分割利用的轮廓曲线的几何特征,可以很好的描述目标的边界轮廓。模糊聚类的分割方法在处理图像信息中不确定因素时,提供了一个好的解决方案。基于混合模型的方法则是取各家所长,在实际的应用中能够依据不同的分割场景应用最合理的分割方案。但是随着高分辨率SAR技术的发展,数据样本数量剧增,算法计算耗时过长等问题越来越成为SAR图像分割中的瓶颈。混合模型的扩展和分割算法的并行处理将SAR图像分割的必然趋势,能快速、准确的获得SAR图像的最佳分割是SAR图像分割的目标。

参考文献(References):

[1] 周莉莉,姜枫.图像分割方法综述研究[J].计算机应用研究,2017.7:1-11

[2] 冯籍澜.高分辨率SAR图像分割与分类方法研究[D].电子科技大学,2015.

[3] Cao Lanying, Zhang Kunhui, Xia Liangzheng. SAR image segmentation by 2-D fussy entropy[J].IEEE Proceedings of Geo-science and Remote Sensing Symposium,2004.6:3798-3801

[4] Xue Xiaorong, Zhang Yanning, Chen Yi, et al.ANewMethod of Sar Image Segmentation Based on Neural Network[C].ICCIMA,2003:149-153

[5] Xin XU, Deren LI, Hong Sun. Multiscale SAR imagesegmentation using a double markov random field model[J]. IEEE Proceedings of Seventh International Symposium on Signal Processing and Its Appli-cations,2003.1:349-352

[6] otsuNA.Threshold Seleetion Method from Gray-level Histogram.IEEE TraPs.1979.SMC-9:62-66

[7] SU Lee,etal.A comparative Perfonnance Study of SeveralGlobal Thresholding Teehniques for Seglnentation.CVGIP,1990.52:171-190

[8] Osher S.A Level Set Formulation for the Solution of the Dirichlet Problem for Hamilton-Jacobi Equations,1993.

[9] Osher S,Ronald P.Fedkiw.Level Set Methods:An Overview and Some Recent Results.http://mathe.ucla.edu/-images

[10] M.Kass, A.Wltkin, and D.Terzopoulos, Snakes, active contourmodel[J]. International Journal of Computer Vision,1988:321-331

[11] A LAIN, J FAN. Texture classifieation by Wavelet Paeket signatures[J]. IEEE Transaction on Pattem Analy,1993.15:1186-1191

[12] C,Xu and J.Prinee.Snakes,shapes,and gradient vector flow[J]. IEEE Transaction on Image Proeess,1998.7(3):359-369

[13] 丁震,胡钟山,杨静宇等.一种基于模糊聚类的图像分割方法[J].计算机研究与发展,1997.7:536-541

[14] 高新波,裴继红,谢维信.模糊C均值聚类算法中加权指数m的研究[J].电子学报,2000.28(4):81-83

[15] 周涓,熊忠阳,张玉芳,任芳. 基于最大最小距离法的多中心聚类算法[J].计算机应用,2006.26(6):1425-1426

[16] Kenneth R, Castleman. Digital Image Processing[M],2006:378-379

[17] Ahmed M N,Yamany S M,Mohamed N,Farag A,Moriarty T. A modified fuzzy c-means algorithm for bias field estimation and segmentation of MRI data[J]. IEEE Trans.Med.Imag,2002.21:193-199

[18] Chen Song-Can, Zhang Dao-Qiang. Robust image segmentation using FCM with spatial constraint based on new kernelinduced distance measure[J]. IEEE Transaction on Systems,Man,and Cybernet,2004.34(4):1907-1916

[19] 倪S平,严卫东,边辉等.基于MRF模型和形态学运算的SAR图像分割[J].电光与控制,2011.1:32-36

[20] 毛万峰,张红,张波等.基于模糊水平集的SAR图像分割方法[J].中国科学院研究生院学报,2013.2:238-243

[21] 朱逸婷.基于改进的模糊聚类的分水岭分割算法研究[D].安徽大学硕士学位论文,2013.

[22] 鲍义东,周改云,赵伟艇.自适应蚁群和模糊聚类的SAR图像分割[J].测绘科学,2016.8:121-124,120

[23] 赵凤,范九伦.一种结合二维Otsu法和模糊熵的图像分割方法[J].计算机应用研究,2007.24(6):189-191

第9篇:图像法论文范文

关键词:图像认证;双水印;混沌;篡改恢复质量;峰值信噪比

中图分类号: TP309;TP391

文献标志码:A

Chaosbased secure dual selfrecovery

watermark algorithm for image authentication

ZHANG Lei1, CHEN Fan2, GAO Hui3

1. College of Computer and Information Technology, Henan Normal University, Xinxiang Henan 453002, China;

2. Information Security and National Computing Grid Laboratory, Southwest Jiaotong University,Chengdu Sichuan 610031,China;

3. Research Institute of Petrochina Tarim Oilfield Company, Kuerle Xinjiang 841000, China)

Abstract:

To improve the security of dual selfrecovery watermark, a chaosbased dual selfrecovery watermark scheme for image authentication was proposed in this paper. In the proposed scheme, the chaotic map was first adopted to encrypt the dual watermark data, and then the data were embedded into the image block of less significant bits. And then the authentication data of each block was randomly generated with reference to its content and the recovery watermark embedded according to the chaotic mapping. Theoretical analysis and simulation results show that the proposed scheme can not only maintain the good tamper recovery quality and invisibility of dual selfrecovery watermark, but also improve the security against the onlycontent tampering attack and the dictionary searching attack.

Key words: image authentication; dual watermark; chaos; tamper recovery quality; Peak SignaltoNoise Ratio (PSNR)

0 引言

“眼见为实,耳听为虚”,但如今人们通过眼睛已很难分辨出数字图像的真伪[1]。因此,数字图像的完整性、真实性、可信性等问题已成为迫切需要解决的问题,基于数字水印的图像认证技术是解决该问题的有效方法之一[2]。与传统的数字签名技术相比,篡改定位与篡改恢复是基于数字水印的图像认证技术的突出的优点,也是衡量认证水印算法性能的重要指标。文献[3]首次提出了一种基于离散余弦变换(Discrete Cosine Transform,DCT)的分块自恢复水印算法,该算法利用图像块的重要DCT系数生成水印信息,将其嵌入在其他图像块的最低位以实现对篡改图像块的恢复。随后,出现了从定位方法[1]、水印生成[4]等不同角度对原算法进行改进的DCT自恢复水印算法。不过,由于DCT将图像分为8×8的图像块,因此导致DCT自恢复水印的篡改定位精度较低。为提高自恢复水印算法的篡改定位精度,文献[5-7]分别利用2×2像素的平均值生成水印信息。不过,这些算法在篡改比例较大时的篡改恢复质量不高,这主要是由于篡改块的相应水印信息丢失造成的。为提高自恢复水印算法的篡改恢复质量,文献[8]提出了一种用于图像篡改检测和恢复的双水印算法,该算法将一个图像块的水印信息嵌入在两个不同图像块的低位,当篡改块的一个水印信息丢失时,可以利用另一个水印信息恢复篡改块,有效提高了自恢复水印算法的篡改恢复质量。但是,文献[8]提出的双水印算法存在严重的安全隐患:认证数据(用于检测图像块的真实性)的生成仅与嵌入在图像块低位的水印信息有关,与图像块内容(高5位)无关,文献[8]不能检测保持低位水印信息不变而恶意改变图像内容的篡改(即内容篡改攻击)[3]。同时,文献[8]将基于“伙伴图像块”生成的水印信息公开地嵌入其映射图像块中,通过比较低位的水印信息有可能找到生成映射块的密钥,即算法易受文献[9]提出的类似于四重扫描的字典搜索攻击。

为提高自恢复双水印算法的安全性,针对文献[8]算法不能抵抗“字典搜索攻击”和“内容篡改攻击”,提出一种基于混沌的图像自恢复双水印算法。该算法将水印嵌入分为恢复水印嵌入和认证水印嵌入两个阶段。首先,利用混沌映射将图像块的恢复特征加密之后再嵌入其他图像块的低位,以提高双水印算法抵抗“字典搜索攻击”的能力。然后,结合图像块内容和嵌入在图像块低位的恢复水印信息,利用混沌系统随机生成用于检测该图像块真实性的认证数据,使算法能同时检测图像块内容和嵌入其低位的恢复水印信息的改变,从而提高自恢复双水印算法抵抗内容篡改攻击的能力。同时,本文还从理论和实验两方面分析了水印嵌入的不可见性。实验结果表明该算法在保持篡改恢复质量和水印不可见性的基础上,有效提高了自恢复双水印算法的安全性。

1 基于混沌的自恢复双水印算法

Ъ偕柙始图像X的大小为2m×2m(m为偶数),下面从水印嵌入、篡改检测和篡改恢复三部分描述本文提出的基于混沌的自恢复双水印算法。オ

1.1 水印嵌入

图1是本文的水印嵌入算法框图,包括6个步骤。

图片

图1 双水印嵌入算法框图

1)分块。将原始图像X分为2×2的图像块{Xi|i=1,2,…,N},其中N=m×m表示图像块的个数。图像块采用从上到下、从左至右的编号方式[8]。图像块Xi(i=1,2,…,N)中的四个像素描述为:

Xi = xi0 xi1 xi2 xi3 (1)

2)查找表生成。利用密钥k1和文献[8]提出“线性变+pushaside”操作生成查找表T={ti|i=1,2,…,N},其中ti∈[1,N]且ti≠tj(i≠j),该查找表用来确定图像块恢复水印的嵌入位置。

3)混沌序列生成。以密钥k2∈(0,1)为混沌初值s0,生成长度为10N的混沌序列S={si|i=1,2,…,10N},本文采用一维Logistic混沌映射[10]:

sn+1=4sn(1-sn)(2)

4)恢复水印生成。对每个图像块Xi按文献[8]的方法找到其伙伴图像块Xp(i),提取图像块Xi和Xp(i)高5位的平均值生成图像块Xi的10比特恢复特征Fi:

Fi=CiCP(i)(3)

其中:表示连接操作;Ci为5位二进制数,其值为图像块Xi内容平均值14∑3j=0(xij/8)的高5位;P(i)为:

P(i)=(N/2)+i, i≤N/2

(N/2)-i,i>N/2 (4)

然后,利用3)生成的混沌序列S加密图像块的双特征Fi生成图像块Xi的双恢复水印Wri:

Wri=FiRi(5)

其中Ri={rin|n=1,2,…,10}为根据混沌序列S按式(6)生成的10位二进制。

rij=0,

s(10i+n)≤0.5

1,s(10i+n)>0.5,n=1,2,…,10(6)

5)恢复水印嵌入。对每个图像块Xi,根据2)生成的查找表T找到图像块Xi的映射块Xi′,即i′=ti,将图像块Xi的10位恢复水印Wri={wrin|n=1,2,…,10}按式(7)嵌入图像块Xi′生成含恢复水印图像块Yi′={yi′j|j=0,1,2,3}。

yi′j=

xi′j+v-8,v≥5

xi′j+v,|v|

xi′j+v+8,v≤-5(7)

其中:

v=

4wri (3j + 1) + 2wri (3j + 2) + wri (3j + 3) -(xi′j mod 8),

j = 0,1,2

4wri(10) -(xi′j mod 8),j = 3(8)

6)认证数据生成与嵌入。对含恢复水印图像块Yi,以混沌序列S中的元素si为混沌初值生成长度M=max(yi0,yi1,yi2,Tyi3/4)的混沌序列SS={ssn|n=1,2,…,M},则图像块Yi的认证数据为:

Wai=Ryi0Ryi1Ryi2RTyi3/4(9)

其中:max()是取最大值函数,Ta表示不大于a的最大整数,Rn={rn1,rn2}是根据随机小数ssn按式(10)~(11)是生成的:

rn1=

1, ssn≥0.5

0,其他(10)

rn2=1,

2(ssn-0.5)≥0.5

0,其他(11)

通过修改含水印图像块Yi的元素yi3实现认证数据的嵌入:

yi3=yi3+2×wai1+wai2(12)

┑1期 爬诘:基于混沌的图像自恢复安全双水印算法研究

┆扑慊应用 ┑30卷

1.2 分层篡改检测

本文用被测图像Y*的篡改判别矩阵D={di|i=1,2,…,N}表示对应图像块是否被篡改。如果di=0,表示图像块Y*i是真实的;如果di=1,表示图像块Y*i被篡改。

1)第一层检测。根据式(13)生成被测图像Y*的初始化篡改判别矩阵D={di|i=1,2,…,N}。

di=|Wa*i-Wa′i|(13)

其中:Wa*i是根据密钥k2生成的随机序列S和图像块Y*i的高位,按式(9)计算得到的认证数据,Wa′i是从像素y*i3低位提取的认证数据。

2)第二层检测。如果di=0,根据其相邻像素的值更新篡改判别矩阵。设δi是与di相邻的8个像素dj(j=1,2,…,8)中不等于零的个数,则:

di=

1, di=1

1,di=0 且 δi>0

0,其他(14)

1.3 篡改恢复

如果被测图像的篡改判别矩阵D中的所有元素都为0,说明被测图像没有篡改,此时无需篡改恢复。如果被测图像中存在篡改图像块,则首先根据密钥k1按水印嵌入的步骤2)生成查找表T,然后对图像中所有被判定为篡改的图像块Y*i(di=1)实施以下两步恢复操作:

1)篡改恢复。首先根据查找表T,查找图像块Y*i的映射图像块Y*i′。如果di′=0,则利用该图像块低位的前5位恢复水印恢复篡改块Y*i,并标记该恢复图像块有效;否则,找到图像块Y*i的伙伴图像块Y*p(i),根据查找表T查找图像块Y*p(i)的映射图像块Y*p(i)′,如果dp(i)′=0,则利用该图像块低位的后5位恢复恢复篡改块Y*i并标记该恢复图像块有效;否则,标记该恢复图像块无效。

2)后处理。对标记为无效的图像块,利用其相邻有效像素的平均值修复改图像块。即该图像块中每个像素的值都等于其相邻的有效像素的平均值。

从上面的算法描述可以看出,本文的恢复水印和认证水印嵌入是分开的,认证数据的生成不仅依赖于图像块低位嵌入的恢复数据,还依赖于图像块内容。同时,混沌序列用于提高恢复数据和认证数据的保密性。这些策略能有效提高自恢复双水印算法抵抗内容篡改攻击和字典搜索攻击的能力。在分层篡改检测部分,文中采用的第二层检测能有效降低算法的漏警概率,这有利于提高算法的篡改恢复质量。

2 理论分析与实验仿真

2.1 不可见性

为了衡量水印图像与原始图像之间的差别,定义峰值信噪比(Peak SignaltoNoise Ratio, PSNR)[11]:

PSNR=10 lg (255×255)14N∑Ni=1∑3j=0(yij-xij)2(15)

为降低水印嵌入对含水印图像质量的影响,文献[8]提出通过调整像素值来减少含水印像素与原始像素的差别的方法。不过,文献[8]没有给出这种嵌入方法的性能分析。下面结合本文描述的水印嵌入过程,从理论分析和实验验证两方面来讨论该嵌入方法的不可见性。根据水印嵌入式(7)可知,含水印与原始像素差别平方的数学期望为:

E((yij-xij)2)=34×∑7yij=0∑7xij=0f(yij-xij)82+

14×∑7yij=0∑7xij=0|yij-xij|82=6.75(16)

其中:

f(yij,xij)=

|yij-xij|, |yij-xij|

8-|yij-xij|,|yij-xij|≥5(17)オ

为验证上述推导的正确性,分别以512×512的Lena和488×488的Cup为测试图像,随机选择500个不同密钥分别生成含水印数字图像。500个含水印Lena和Cup图像与相应原始图像的峰值信噪比(PSNR)如图2所示。同时,图2中还显示出了由式(15)计算得到的含水印图像PSNR的理论值。由图2可以看出,实验得到的PSNR以理论值为中心呈随机分布,验证了上述理论推导的正确性。

图片

图2 含水印图像PSNR的理论值与实验值比较

2.2 时间复杂度

由上述算法描述可知,水印嵌入和篡改检测与恢复是对称的,即水印嵌入与图像认证的时间复杂度相同。文献[8]的水印嵌入算法包括以下操作:查找表生成、图像块的恢复水印生成、认证水印生成和水印嵌入。为提高自恢复双水算法的安全性,文中采用混沌产生的伪随机序列加密图像块的恢复数据,增加恢复数据的保密性,从而提高了算法抵抗字典搜索攻击的能力。同时,利用混沌序列、图像块内容和嵌入在低位的恢复水印生成认证图像块的认证数据,使算法具有了抵抗内容篡改攻击的能力。同时不可避免地会增加算法的时间复杂度。表1列出了本文算法生成不同大小含水印图像所花费的时间。考虑到计算机执行时的误差,表中的数据是将每个含水印图像生成10次取其平均值得到的(水印嵌入时间是在Matlab环境下测得(P4 2.6GHz))。由表中数据可以看出,本文算法生成含水印图像的时间随图像尺寸的增加而增加,算法的执行速度还是可以接受的。表1中的数据是用Matlab程序测得的,如果用C或硬件实现,算法的执行速度更快。安全性是数字水印算法的核心要素,相对文献[8]的算法,本文有效提高了算法的安全性,用时间复杂度来换取安全性是值得的。

表格(有表名)

表1 本文算法生成含水印图像的时间

图像大小时间/s图像大小时间/s

256×2561.46728×72812.20

400×4003.60800×80015.60

512×5126.101B024×1B02424.30

2.3 字典搜索攻击

为降低图像块内容和相应水印信息同时被篡改的可能性,自恢复水印算法中图像块的水印信息不是嵌入在图像块自身的低位,而是基于密钥嵌入在其他图像块的低位[6]。字典搜索攻击的目标是通过多次比较图像块水印与图像中所有图像块低位嵌入的水印,从而估计图像块水印的嵌入位置或推断生成图像块水印嵌入位置的密钥,进而伪造能通过认证的含水印图像。

文献[8]算法中,每组伙伴图像块生成的恢复水印完全相同,且直接嵌入在其相应映射图像块的低位。因此,如果攻击者得到一幅含水印图像,通过计算“伙伴图像块”的水印信息,并在图像中“搜索”与水印信息相同的图像块,有可能估计出图像块的水印嵌入位置,从而使恢复水印算法存在安全隐患[9]。为避免字典搜索攻击,本文在恢复水印生成时,首先为每个图像块生成不同的恢复特征,然后利用混沌映射对其加密后生成图像块的恢复水印。根据混沌映射的特性可知,没有密钥很难得到图像块的恢复水印。同时“伙伴图像块”的恢复水印也互不相同,进一步提高了算法的安全性。为比较图像块水印在加密前、后的差别,定义差别评估函数(Difference Assessment Function,DAF)[11]:

DAF(B,B′)=∑ni=1bib′i(18)

其中:为模2加,n为二值序列B的长度。由上述定义可知,当DAF(B,B′)=0时,B与B′相同;当DAF(B,B′)=n时,B与B′相反;当DAF(B,B′)的值在n/2左右时,可认为B与B′的差别是随机的。对伙伴图像块Xi和XP(i),首先根据式(3)生成其长度为10的二值恢复特征Fi和FP(i),然后根据密钥k2按式(5)分别生成图像块Xi和XP(i)的恢复水印Wri和WrP(i)。根据式(18)计算DAF(Wri,WP(i))、DAF(Wri,Fi)和DAF(WrP(i),FP(i))的值。随机选择10B000个不同密钥k2,利用大小为512×512的Lena图像,i=1时DAF(Wri,WP(i))、DAF(Wri,Fi)和DAF(WrP(i),FP(i))的三个统计直方图,如图3所示。由图3(a)和(b)可以看出,图像块恢复特征与恢复水印之间的差别近似服从均值为5的正态分布,说明混沌加密能有效提高恢复水印的保密性,没有密钥很难得到图像块的恢复水印信息。由图3(c)可以看出,伙伴图像块的恢复水印也互不相同,从而彻底消除了“字典搜索攻击”的实施条件。

图片

图3 基于混沌加密生成恢复水印的DAF统计分布

2.4 内容篡改攻击

文献[8]算法中的认证数据仅与嵌入在图像低三位的水印信息有关,与图像内容无关,因此当攻击者保持图像的低三位不变而恶意篡改图像内容时,文献[8]不能检测此类篡改。相反,本文算法中图像块的认证数据是基于图像块内容、嵌入在其中的恢复水印和混沌序列一起生成的,不仅提高了认证数据的保密性,而且使算法具有抵抗内容篡改攻击的能力。

为比较本文算法与文献[8]算法在不同篡改条件下的篡改检测和恢复性能,以大小为488×488的Cup为测试图像,如┩4(a)所示。图4(b)是利用本文算法生成的含水印图像,与原始图像的峰值信噪比(PSNR)为39.86dB,与理论分析结果E(PSNR)=39.84dB相一致。图4(c)和(d)分别给出了两种篡改图像:

1)篡改图像Z1。利用图像编辑软件,在含水印Cup图像的右侧贴上四只茶杯,如图4(c)所示。与含水印Cup图像的峰值信噪比为15.27dB,篡改比例约为41%。

2)篡改图像Z2。含水印Cup图像低三位结合篡改图像Z1的高5位生成篡改图像Z2。由于篡改图像Z2和Z1的高五位相同,因此它与篡改图像Z1视角相似,如图4(d)所示。

图片

图4 含水印图像和两个篡改图像

图5、6分别为文献[8]和本文算法对被测图像Z1和Z2的篡改检测和篡改恢复结果。图5中文献[8]和本文的篡改恢复图像的峰值信噪比分别为31.71dB和33.11dB。从图5可看出:两种算法都能准确定位图像被篡改的位置并得到好的篡改恢复结果,但文献[8]的篡改恢复质量略低,这主要是由于文献[8]中存在少许漏检的篡改块(图5中白色区域内和边界存在的黑点),这些图像块没有执行篡改恢复操作造成的。

图片

图5 两种算法对篡改图像Z1的篡改检测与恢复结果

图片

图6 两种算法对篡改图像Z2的篡改检测与恢复结果

图6中文献[8]和本文的篡改恢复图像的峰值信噪比分别为15.43dB和33.13dB。图6(a)不存在非零点(文献[8]没有检测到篡改块,不执行篡改恢复操作),说明文献[8]不能抵抗内容篡改攻击。从图5、6可看出本文算法能有效地抵抗内容篡改攻击,且具有理想的篡改检测和篡改恢复效果。

3 结语

本文利用混沌对初值的敏感性和伪随机性,提出一种用于图像篡改检测和恢复的安全双水印算法。与文献[8]的算法相比,本文的突出特点是水印的生成和嵌入方法不同:

1) 利用混沌映射加密恢复特征生成图像块的恢复双水印;

2) 利用混沌映射并结合图像块内容和嵌入在低位恢复水印生成认证水印;

3) 水印嵌入分恢复水印嵌入和认证水印嵌入两个阶段。

此外,本文还从理论和实验两方面验证了本文算法的不可见性,并利用统计实验分析了本文算法抵抗“字典搜索”攻击和“内容篡改”攻击的能力。理论分析和实验结果表明该算法不仅具有好的篡改恢复质量和不可见性,而且有效地提高了自恢复双水印算法的安全性。

参考文献:[1] 和红杰,张家树. 基于混沌置乱的分块自嵌入水印算法 [J]. 通信学报, 2006, 27(7): 80-87.[2] ZHU B B, SWANSON M D, TEWFIK A H. When seeing isnt believing multimedia authentication technologies[J]. IEEE Signal Processing Magazine, 2004, 21(2): 40-49.[3] FRIDRICH J, GOLJAN M. Images with selfcorrecting capabilities [C]// ICIP 99: International Conference on Image Processing. Washington, DC: IEEE,1999,3: 792-796.[4] 张鸿宾, 杨成. 图像的自嵌入及篡改的检测和恢复算法[J]. 电子学报, 2004, 32(2): 196-199.[5] LIN P L, HSIEH C K, HUANG P W. A hierarchical digital watermarking method for image tamper detection and recovery [J]. Pattern Recognition, 2005, 38 (12): 2519-2529.[6] 和红杰,张家树,陈帆.一种高定位精度的可恢复水印算法[J].中国科学:E辑,2008,38(4): 533-552.[7] 刘泉,江雪梅.用于图像篡改定位和恢复的分层半脆弱数字水印算法[J]. 通信学报, 2007, 28(7): 104-110.[8] LEE T Y, LIN S D. Dual watermark for image tamper detection and recovery [J]. Pattern Recognition, 2008, 41(11): 3497-3506.[9] CHANG C, FAN Y H, TAI W L. Fourscanning attack on hierarchical digital watermarking method for image tamper detection and recovery [J]. Pattern Recognition, 2008, 41(2): 654-661.[10]