公务员期刊网 精选范文 计算机视觉研究现状范文

计算机视觉研究现状精选(九篇)

计算机视觉研究现状

第1篇:计算机视觉研究现状范文

【关键词】农产品 计算机视觉技术 品质检测

农产品品质检测工作中除了采取人工检测法以外,还可以采取半自动或自动检测法,如在水果分级检测工作中的质量分级检测法、光电分选法以及大小分级法等。然而农产品品质会受到自然生长环境或人为因素等方面的影响,农产品的色泽、大小及形状等并不相同,无法采取单一指标进行检测。因此充分应用计算机视觉技术,对农产品的品质进行检测,极为重要。

1 计算机视觉技术

计算机视觉技术又被称为机器视觉技术,指的是通过人类设计,在计算机环境下,达到再现或模拟人类视觉相关的职能行为的一种技术,包括了印刷和手写文字的识别技术,图像模式识别技术,物体三维表面形状识别技术、距离识别以及速度感知等技术。该技术是诸多学科的结合与交叉,涉及到数学、生理学、信息处理、物理学、光学以及计算机等多种学科。探究计算机视觉技术的目的在于实验人类视觉的再现及延伸,即再现高等动物的视觉系统,并对物体形状以及类别进行识别。

此外,计算机视觉技术处理的原始资料多是图像,所以该技术和图像处理以及模拟识别等有着紧密的联系。现阶段,计算机视觉技术在诸多领域有着较为广泛的运用,包括了医学辅助诊断、资源调查、卫星图像解释、军事指导、灾害监测、气象以及工业产品的外观筛选及检测等。同时研究该技术在农业工程领域中的应用,也成为了热门话题。

2 在农产品品质检测中,计算机视觉技术的具体应用

笔者在查阅相关文献资料的基础上,探究在农产品品质检测工作中,计算机视觉技术在产品表面缺陷以及损伤识别工作中的具体应用;果形识别工作中的具体应用;农产品尺寸以及面积检测工作中的具体应用。

2.1 在产品表面缺陷以及损伤识别工作中的具体应用

在对农产品进行分级的过程中,依然存在着一大问题,即农产品表面缺损以及损伤识别。而早在1984年就已经出现了采取线扫描和模拟摄像机针对苹果表面损伤进行检测的实验报道,实验结果显示,采取数据技术能够检测出苹果表面损伤,其检测结果完全能够达到人工分级的精度。与此同时,还出现了一种机器视觉系统,该系统将不规则的图像信息与正常的图像信息区分开来,在去除蔬菜内的杂物以及检测农产品的污点等方面能够取得较好的应用效果。此外,在1989年,国外出现了一种全新的计算方法,即运用红外线扫描摄像机,处理苹果表面的灰度图像,既能够确定苹果表面的损伤面积,还能够区分不同损伤区。然而还技术是以机械装置的设定为基础,需要消耗2s的时间,对一个苹果进行检测,苹果表面缺陷分级精度以及损伤分级进度并不高。

我国在1997年,出现了运用计算机图像处理技术对苹果损坏自动化检测的试验研究,该试验结果显示,该技术的损坏检出率较高,能够规避果梗区以及花萼区对于坏损区域识别的具体影响,且该检测技术的鲁棒性较强。

2.2 在果形识别工作中的具体应用

果形识别是影响水果质量的重要因素之一,对于水果品质检测有着重大意义。当水果成熟后,水果的外形将会发生巨大的改变,且无法采取数学方法进行鉴别,采取其他方式进行果形识别极为重要。

在1981年,有研究人员就针对形状识别中的图像特征进行了探讨,提倡采取结构分析法以及外形轮廓曲线检测法,针对水果外形进行识别。并在1985年,以数字图像分析技术以及模式识别技术为依据,针对番茄定向、番茄形状、表面缺陷以及尺寸进行分类的特殊算法,运用灰度梯度曲线,明确番茄表面缺陷以及花萼位置等。而我国则在2000年,按照果实形状分析,通过连续性指标、半径指标、连续指标对称性、半径指标对称性等特征参数,表示果形,并首次采取参数形状分析法。

2.3 在农产品尺寸以及面积检测工作中的具体应用

农产品分级中,以农产品外形尺寸为依据。在1987年,国外就已经开始研究机械视觉技术在牡蛎肉分级以及尺寸检测工作中的具体应用。并在1992年,针对人工检测以及机器视觉检测进行进行了对比分析,试验结果显示,和人工检测技术相比,采取视觉检测技术,能够提高检测的精确度,减少检测消耗时间;同时在评价以及推广种质资源中,准确的测量以及详细的记录种质形态的指标,有着极为重要的意义。为了能够精确、快速地计算出玉米种质尺度,在1995年,有研究人员就提出了自动化选择技术,该技术在处理玉米种质图像中,其辨别精度极高。

而我国在2002年,有研究人员就针对水果品质进行动态、实时监测的智能化分级生产线进行了研究,该生产线,首先通过水果输送翻转系统,利用滚筒式输送翻转装置,将水果往前输送,在输送过程中,以水平轴为中心,保证水果表面能够被系统检测到,以此获得图像信息。然后利用计算机视觉识别系统,对水果等级进行判断,明确图像信息。该系统具备了视觉识别功能。最终通过分级系统,完成水果分级工作。

3 结语

在二十世纪七十年代以后,计算机视觉技术就已经得到了较为迅速的发展,在我国,该技术在农产品品质检测中的具体应用也得到了人们的高度关注,同时也取得了一定的成效。计算机视觉技术作为人眼的延伸技术之一,其具备了人脑功能,运用该技术代替以往的人工操作技术,已经成为了农产品品质检测工作的必然发展趋势。

参考文献

[1]朱从容.计算机视觉技术在水产养殖中的应用[J].浙江海洋学院学报(自然科学版),2008,10(04):191-192.

[2]王勃,徐静.计算机视觉技术在苹果叶片营养诊断上的应用[J].农机化研究,2008,(03):887-888.

[3]李朝东,崔国贤,盛畅,等.计算机视觉技术在农业领域的应用[J].农机化研究,2009,10(12):667-668.

作者简介

陈超(1995-),男,福建省福州市人。现为北京交通大学在校学生。研究方向为电子科学与技术。

第2篇:计算机视觉研究现状范文

该文围绕基于内容的图像检索技术展开研究,对国内外基于内容的图像检索算法技术进行对比,概括了基于内容的图像检索算法技术的特点,在基于内容的图像检索算法技术中采用的相关核心技术进行了简要分析。

关键词:图像检索;图像特征提取;RGB

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)01-0206-02

1 概述

视频信息处理的基础是图像信息处理技术,我们生活在一个科学的信息时代,平时我们从外界接触到的信息主要都来至图像、文本、视频等,自然世界本来面貌的反应来至图像和视频,图像和视频是最贴近大自然的,图像信息在我们的信息处理领域中占有很重要的地位。

人们在计算机技术和互联网技术的发展中接触到大量的信息,人们之所以可以获得大量的多媒体信息主要依靠互联网,互联网具有动态发展和快速增长的特点。信息量的暴增,信息量的不断增加导致信息大爆炸,我们怎么样对信息快速而准确的查找,怎么更好地对大量的信息进行管理是一个关键性问题。视觉信息是人们获取信息的主要方式,视觉信息可以对人们周边的事物还原本来的面貌,给人自然贴切的感觉,人们对内容丰富、表达直接的多媒体图像信息很关注,我们每天的天气预报需要卫星云图,网上购物时候商品主要都是以图片的形式展现给消费者。面对人们对图片信息的需求,快速准确的检索出来我们需要的图片信息是急需解决的问题,图像信息比文本信息表达给我们的要更详细,更容易接受。

基于内容的图像检索技术是一个功能强大的技术,数字图书馆改变的传统图书馆的模式,数字图书馆用数字形式把多媒体和图像都表现出来,把信息收集和整理到一起,我们可以在网络的平台上运用基于内容的图像检索算法技术对图书信息进行检索,基于内容的图像检索算法技术成为数字图书馆应用的重要技术。在医疗上,各大医院在医疗诊断上也应用基于内容的图像检索算法技术,磁共振图像、CT图等图像,医生可以应用基于内容的图像检索算法技术对这些图像进行分析研究,帮助医生更好的工作。在互联网的电子商务时代,网上购物很大的替代了实体店,网上商品的展示主要是图片信息,用户要想找到符合自己需求的商品,也是要有基于内容的图像检索算法技术的支持。知识经济的发展知识产权被重视,对注册的商标的图片信息,要在图片信息库中进行检索,对比是否有重复的图片,确定商标是否可以被注册,这也是要有图像检索技术的支持。警察在对案件进行侦破的时候要有指纹的采集,这也是图像检索技术。服装设计、新闻广告需要的图片比较多,这就需要图像检索技术搜索出符合自己需求的图片信息。图像检索技术应用在社会的很多领域,军事、工业、教育等。

2 国内外研究现状分析

国外基于内容的图像检索算法研究技术主要是基于图像视频媒体,对查询接口和检索内容的管理,IBM早期应用基于内容的图像检索算法研究技术系统,支持WEB检索和图像数据库检索,根据颜色纹理特征对照片图像进行检索,系统查询和特征查询的界面直接面向用户,便于用户使用,随着计算机网络发展IBM现在基于内容的图像检索算法研究技术应用到了商业医学等图像检索领域,比较有名的是基于互联网的远程博物馆漫游计划。哥伦比亚大学的比较常用的基于网页界面的图像搜索引擎,采用图像色块的不同的特点进行对比匹配的多种查询方法,在互联网上建立一个用户查询,采用可视化对象的方式,并对图像的特征进行提取,为用户提供检索的接口。加利福尼亚大学早期采用对图像进行分割然后查找出相似的图像,特征表述法可以快速帮助用户对图像进行查询匹配。加州大学基于内容的图像检索算法研究技术系统是先把数据库样例图像进行分割,然后根据用户图像的需要对分割的图像的颜色形状等特点进行检索查询。

国内一些科研研究机构也开始对基于内容的图像检索算法研究技术方面内容进行研究,国内研究还是处于对图像颜色的查询,对于比较成熟的图像形状纹理技术的查询还需要研究,国防科技大学对图像数据库的体系结构,面向用户接口界面等技术有一定的研究基础,对理论比较重视。清华大学图像检索技术应用在对文物壁画的较多,对文物的年代的判断是基于壁画的主色进行判断,也开发了一个比较完整的基于内容的图像系统,这个系统对图像研究采用的检索技术是颜色纹理分布关键词来进行表述的。浙江大学对图像检索技术的研究是在1995年,对图像检索系统的研究主要是特点颜色形状的图像,图像检索系统查询主要是对关键字、颜色纹理布局、全局颜色纹理,拥有自己开发的图像检索系统,并应用于科研工作。

3 图像处理技术研究的特点

早期的图像处理技术是人工标注的图像检索,这种技术主要是对图像进行人工分析,对图像特征进行文字标注,建立文本文献索引数据库。在对图像数据库进行检索时候主要是得到图像编号,转变成文字检索。随着计算机和互联网技术发展,人们采用人工标注的图像检索技术已经不能满足对图像检索的需求,基于内容的图像检索算法技术是计算机图像处理技术和数据库技术结合的产物,分析和识别物理图像,用计算机来模拟人对图像的观察,把观察到的物理图像的特征进行标识然后组织管理,人们对图像的检索依据特征的标识在数据库图片信息中找到匹配的信息,从而在大量的数据库中检索出需要的图片信息。

1)基于内容的图像检索算法研究内容特点:基于内容的图像检索算法研究最初椒图像胡匹配,对图像内容和相同处采用全局方式去描述,简单、单一的图像采用这种方式;采用用户自己用计算机检索图像的方法,这种方法我们叫做图像检索反馈技术,用户在用计算机对自己需要的图像进行检索时,把图像按自己的需求分成需要的和不需要的,然后反馈给系统,这样系统会对用户检索的图像进行标识,这样通过反馈的标识进而返回用户满意的检索图像,对查询图像的特征进行查询直到用户满意为止,这种方式采用循环查找匹配;对图像检索采用区域的方法,对图像物体的提取之前先把图像用技术进行分割,把每个图像的自己的特征整合到一起编程图像的整体的特征,对图像的检索采用图像相识度进行对比。

2)基于内容的图像检索算法研究技术特点,基于内容的图像检索算法研究技术与传统的通过关键字进行检索技术不同,基于内容的图像检索算法研究技术是通过在数据库中的图像信息的特征进行检索,满足用户查询的要求,采用相识度的检索技术从大量的数据库中查找出和用户检索内容相似特征的图像,然后把检索出来相识特征的图像进行整理排列,用户在自己筛选最后检索出自己需求的图像信息,在数据库多媒体庞大的信息量时代,对图像特征进行匹配是一个很大的计算,需要快速的检索速度,基于内容的图像检索算法研究技术采用查询图像的界面面向用户。

4 基于内容图像检索技术

本文涉及的图像检索技术包括颜色模型技术,图像特征提取、图像纹理特征提取、图像形状特征提取、图像的相似度技术。

颜色模型技术,颜色模型是颜色空间的表现方式,基于视觉的视觉模型和基于物体的颜色模型是颜色空间的两个结构方式,我们对颜色认知上的RGB就是基于物体的颜色模型,视觉模型主要是研究图像相识度的。RGB颜色模型有R、G、B、三个坐标轴,颜色的分布和变化是根据坐标点在三个坐标轴的具置定的,图像的色彩可以用RGB三色的坐标轴来建立,RGB是颜色空间的显示。

图像特征提取,基于内容的图像检索技术的基础就是图像的特征提取,文本特征和可视化特征是图像提取的两种方式,图像特征提取包括图像的共同特征提取比如颜色纹理,和具体的应用在假设的基础上对图像内容比如人体特征提取两种,图像特征提取包括好多的专业性知识。颜色特征是图像检索中的关键因素,图像的物体和场景特征主要在颜色上体现出来,颜色图像特征是人们的视觉特征,蓝色体现大海的颜色特征,绿色体现草原的颜色特征,主要技术包括颜色矩、颜色直方图、颜色相关图等。

图像纹理特征提取,体现图像相同质地表面共有的内在的视觉特征,物体表面的组织信息和物理与周围环境的关系都通过视觉特征表现出来,人们可以采用局域内容的图像检索技术采用纹理特征把相同纹理特征的物理图像从数据库中检索出来,基于内容的图像检索技术主要采用的纹理特征技术包括小波变换技术和灰度矩阵技术等。

图像形状特征提取,图像形状特征和图像颜色、纹理特征不同,图像形状特征是基于图像物理本身划分的各个区域,是计算机视觉模式研究的基础,被应用到特殊的研究中,在物体形状的翻转拉伸等变化不影响图像形状特征,在计算形状的相识度上提出了高的要求。轮廓特征体现在物理的边界表面,区域特征体现在图像物理的整个形状,轮廓特征和区域特征可以很好地把图像特征表示出来,图像形状特征提取技术采用几何变换和傅里叶变换两种计算方法。

图像的相似度技术,传统的文本检索是基于文本的匹配,计算机对图像查询和数据库中图像的相似度是基于内容的图像检索技术完成对图像进行检索的主要方法,基于内容的图像检索技术关键是图像的匹配,图像的相似度计算包括特征向量的归一化、距离函数的相似性技术等。

5 总结

基于内容的图像检索算法技术在多媒体数据库中对图像进行检索,采用对图像内容进行分析归纳特征,根据分析出的特征在数据库大量的图像库中对特征进行匹配,找到相似的特征的图像并检索出来供用户选择,基于内容的图像检索技术的关键性是图像特征的提取,本文主要对图像特征的提取技术展开研究,本文技术创新在于基于平面颜色理论的RGB图像检索算法,使用RGB颜色空间,提出颜色的空间分布特征。基于内容的图像检索算法技术最终要实现的是把用户需要的检索结果返回给用户,是计算机图像检索技术的一个新的技术,在图像检索应用上有很大的应用空间。

参考文献:

[1] 廖倩倩.基于内容的图像检索系统的实现[J].电视技术,2007(2).

第3篇:计算机视觉研究现状范文

关键词:

俯仰角; 圆形目标; 透视投影; 测量方法

中图分类号: TP 242.6 文献标识码: A

引 言

在计算机视觉领域内,空间目标的位置和姿态是非常关键的参数,尤其是在视觉导航、目标识别以及人机交互等方面[1,2]。圆是物体的基本几何形状,在许多自然景物和人造物体中大量存在,并且圆形是一种几何特征明显且容易识别的形状,在图像处理中有着其它几何形状无法比拟的优点。圆形特征已经被应用在各种机器视觉相关的领域[3]。例如,使用圆形标志来进行移动机器人位置的精确估计,使用圆形标志物来进行三维物体的识别,以及使用圆形表面轮廓来进行目标的三维姿态估计等[4]。

作为姿态角的一种,俯仰角在许多领域起着重要作用。在火箭发射过程中,火箭的俯仰角等姿态参数是反映火箭飞行状态的重要参数,对于分析火箭的运动状态等有着重要的价值[5]。无人机及其它飞行器在飞行及着陆的过程中,也需要实时估计其姿态角等参数[6,7]。在头盔瞄准具中,射击目标的位置是依靠头部的运动来确定的,头部的俯仰角等姿态角测量,关系到射击的命中率[8]。而在计算机视觉领域,通过摄像测量获得距离等参数已经应用于汽车自动测距等,而摄像机的俯仰角参数直接影响着所测距离的精确度[9]。对于空间圆形目标的姿态角,国内外已经开始了相关研究。SafaeeRad等人[4]使用几何分析的方法,提出了一种圆形目标的三维定位问题的闭合分析解。魏振中[3,10]等人研究了中心畸变误差及空间圆姿态识别二义性的消除问题。现有的俯仰角测量方法,计算较为复杂。

现作为探索性研究,基于摄像机透视投影原理,对空间圆形目标的俯仰运动及俯仰角的测量进行研究,提出一种测量空间圆形目标俯仰角的方法。

1 圆形目标的俯仰运动及俯仰角测量

俯仰角最早出现在航空航天领域,定义为机体坐标系X轴与水平面的夹角。当X轴的正半轴位于过坐标原点的水平面之上时,俯仰角为正,俯仰角θ的范围为[-π/2,π/2]。

由于设定摄像机光心与圆形目标之间的距离相对圆形目标的直径来说非常大,并且圆形目标可在摄像机成像平面上完全成像,成像部位为感光器件中央或靠近中央位置,因此不考虑因摄像机镜头畸变等因素而带来的影响。结合运动分析的方法,现对圆形目标的俯仰运动进行研究。不妨设定圆形目标的初始位置,并根据俯仰运动的旋转轴是否通过其圆心,将俯仰运动分为以下两种情况来分别进行分析。

3 结 论

文中研究了空间圆形目标的俯仰运动,提出了一种基于摄像机透视投影原理的空间圆形目标俯仰角的测量方法。根据圆形目标的俯仰运动旋转轴是否通过其圆心,将俯仰运动分为两类。通过分析空间圆形目标在不同姿态时的透视投影成像,使用几何推理的方法,分别推导出了空间圆形目标两种俯仰运动俯仰角的计算公式,并通过实验进行了验证。结果表明,所提出的方法,能够很好地实现空间圆形目标俯仰角的测量。如何提高现场的测量和计算结果的精度,都将是进一步的研究工作。

参考文献:

[1] LU Y,LEINONEN T.Solution and simulation of positionorientation for multispatial 3RPS parallel mechanisms in series connection[J].Multibody System Dynamics,2005,14(1):47-60.

[2] FANTONI C.3D surface orientation based on a novel representation of the orientation disparity field[J].Vision Research,2008,48(25):2509-2522.

[3] 魏振忠,张广军.视觉检测中椭圆中心成像畸变误差模型研究[J].北京航空航天大学学报,2003,29(2):140-143.

[4] SAFAEERAD R,TCHOUKANOV I,SMITH K C,et al.Threedimensional location estimation of circular features for machine vision[J].IEEE Trans Robot Automat,1992,8(2):624-640.

[5] 于起峰,孙祥一,陈国军.用光测图像确定空间目标俯仰角和偏航角的中轴线法[J].国防科技大学学报,2000,22(2):15-19.

[6] 潘 翔,马德强,吴贻军,等.基于视觉着陆的无人机俯仰角与高度估计[J].浙江大学学报(工学版),2009,43(4):692-696.

[7] 赵世峰,张 海,范耀祖.一种基于计算机视觉的飞行器姿态估计算法[J].北京航空航天大学学报,2006,32(8):885-898.

[8] 王 超,魏生民,周继红,等.视频图像技术在头部位置跟踪上的应用研究[J].现代制造工程,2008(2):111-115.

第4篇:计算机视觉研究现状范文

关键词:计算机视觉技术;林业生产;运用

中图分类号:G623文献标识码: A

随着经济的快速发展,人们的生活质量得到了极大的提高是,人们对生态环境的要求也越来越高,受过去乱砍乱伐的影响,我国的林业生产效率很低,加上我国的林业生产技术比较落后,林业生产机械化程度不高,导致我国的林业发展十分缓慢。采用计算机视觉技术能实现我国林业生产现代化、机械化、智能化的目标,计算机视觉技术能有效的改善我国的林业生产落后的现状,对我国的林业生产有十分重要的作用。

1.计算机视觉技术

计算机视觉技术是在计算机应用技术的基础上研发的一种新技术,计算机视觉技术主要用于研究计算机模拟生物的外显功能或宏观功能,计算机视觉技术涉及到计算机技术、人工智能技术、神经生物学、图像处理技术、模式识别技术等多个领域,计算机视觉技术的核心是让计算机拥有“感知”世界的能力[1]。计算机视觉技术能在不接触被测物体的情况下,对物体进行检测;计算机视觉技术能在敏感器件下,对超声波、微波、红外线等人体无法察觉的能量进行检测,同时计算机视觉技术还能对被测物体进行长时间检测。计算机视觉技术在工业、农业、林业、电力系统等行业有十分广泛的应用。

2.林业生产面临的挑战

2.1 缺乏林业生产技术人员

目前,我国的人口老龄化现象比较严重,在林业生产中,技术人员的年龄普遍高,而年轻的技术工作人员比较少,出现青黄不接的现象,在我国的林业生产中,机械化程度不高,大部分作业靠人工完成,而林业生产缺乏技术人员和劳动力,严重的限制了林业的发展。因此,发展林业机械化、减少林业生产所需的劳动力成为当前林业生产面临的问题之一。

2.2 林业生产技术比较落后

随着全球资源的短缺,气候环境的逐渐恶化,可持续发展成为当前经济发展的主要模式,林业的可持续发展,能有效的改善自然生态环境,节省资源消耗,保护气候环境,在林业生产中采用高新技术能有效的提高林业机械化程度,提高林业的生产效率,确保林业的社会效益和经济效益。目前,我国的林业生产技术比较落后,不能实现林业生产的智能化、机械化,因此,如何将高新技术应用在林业成产中,是当前我国林业生产面临的另一个重要问题。

3.计算机视觉技术在林业生产的运用

3.1 农药使用中的视觉定位

农药的滥用不但对林业的发展造成一定的影响,还严重的污染了生态环境,在传统的农药使用中,有很大一部分农药不能发挥出功效,直接流失,据统计喷晒的农药只有25%-40%能沉积在树木的叶片上,只有1%的农药能用沉积在靶标害虫上,不足0.03%的农药能起到杀虫的效果,传统的农药使用不但造成了农药浪费,还极大的污染了周围环境。将计算机视觉技术利用在农药喷洒中,可以对需要施药的目标图像进行分析,准确的找出施药位置和用药量,这样就能有效的减少农药的浪费,极大的提高农药的利用率,采用计算机视觉技术进行农药喷洒,还能减少人体和农药的接触,能减少农药中毒事件的发生率[2]。

3.2 林木球果采集中的应用

在林业生产中,林木球果的采集是个难点,近年来,国外已经研制一些球果采集机械进行林木球果采集,如高空作业车、摇振采种机等设备,在我国林业生产中,林木球果的采集大部分仍是人工采集,人工采集球果过程中,需要折小枝甚至要砍大枝进行球果采集,这种方法不但劳动强度大,采集效果低,还对林木有一定的损害。利用机器人采集林木球果,能极大的提高采集效率,降低工作人员的劳动量,还能减少对林木的损害,但机器人采集过程中,需要进行人工操作,没有实现完全自动化。将计算机视觉技术应用在机器人采集中,对需要采集的球果进行图像采集,通过分析图像,确定球果所在的具置,并且知道机械手进行球果采集,这样能极大的提高球果采集的成功率,使得机器人采集更加自动化。

3.3 封闭植物反应的控制

对于温室花卉栽培、苗木生产等封闭植物生长系统中,需要及时的了解植物生长环境的温度、湿度、二氧化碳浓度、光照强度等环境因素,根据植物生长需要,适当的调节这些环境因素,从而保证植物的健康生长。在传统的环境因素探测中,采用侵入式方法,这种方法对植物生长系统会造成也很大的干扰,很难保证探测的准确性。研究表明,环境因素可以通过植物的外观形象表示出来,例如植物树冠的色调变化能反映出湿度的变化,植物气孔活动状况和二氧化碳浓度有一定的关系。利用计算机视觉技术对封闭系统的植物进行图像采集,然后对图形进行分析处理,从而得到植物的外形图,根据植物外形图对封闭系统的环境因素进行判断,然后根据判断结果进行环境因素调节。这种方法不需要侵入封闭系统中能准确的反映出植物生长环境因素的变化状况,能提高控制的针对性。

3.4 原木内部缺陷检测

一些原木的色彩鲜明,纹理形象能用于木质工艺、家具产品的加工中,如果原木内部出现缺陷,就会极大的影响这些产品的美观性。原木内部缺陷需要采用非破坏性技术进行探测,采用CT技术进行原木内部缺陷探测,能将原木内部的断层图反映出来,通过对断层图进行分析处理,能快速、准确的得出原木内部缺陷。

4.运用计算机视觉技术的注意事项

在运用计算机视觉技术时,为快速的完成图像处理,及时得出林业生产信息,可以在图像采集系统中采用图像处理采集卡,图像处理采集卡采用DSP技术进行数据采集,它能实现图像数字化的分析、处理、转换,极大的减少了图像处理时间,提高了系统的实时性。受自然光、林木背景的因素的影响,收集的林木图像、果实图像、叶片图像等边缘不清晰,边界轮廓特征不明显,因此,采用计算机视觉技术进行图像分析时,要注意用纹理分析法代替边缘检测,从而准确的对图像进行分析。随着科技的不断进步,各种高性能处理器的种类越来越多,这些处理器的价格也越来越低,因此,在运用计算机视觉技术时,在测距方面,要尽量采用普通的测距装置,这样能极大的降低计算机视觉系统的成本。在实际工作中,要根据当地的生产状况选择最合适的计算机视觉系统,争取做到投入少、产量高的效果。

5.总结

随着经济的快速发展,智能化、机械化、自动化已经成为林业生产的发展之路,计算机视觉技术是在计算机技术的基础上发展出来的一门新技术,在社会生产和生活中有广泛的应用,将计算机视觉技术应用在林业生产中,能有效的提高林业生产效率,促进林业现代化发展,确保林业生产的社会效益和经济效益。

参考文献

第5篇:计算机视觉研究现状范文

[关键词]行人检测;夜间行车安全;社会价值

[DOI]1013939/jcnkizgsc201615045

随着人们生活水平的不断提高,汽车已成为我国代步工具中的一大种类。据国家公安部通报,2013年,全国汽车增加1651万辆、驾驶人增加1790万人。方便之余,随之而来的交通安全问题,却成为威胁人们生命的不可忽视的关键。据交通部透露,交通事故在夜间行车中发生的概率较高。有数据显示,虽然40%左右的交通事故在夜间发生,但却有高达60%的事故死亡率。由此可见,夜间行车的危险指数远远高于白天行车。因此,夜间行车安全应该得到更多的重视。

1夜间行人检测研究的社会价值

产生夜间行车安全问题的因素[1]主要有两个:其一,也是夜间交通事故发生的主要原因,是由于夜间光线较暗,驾驶员视角窄,视线模糊,不能准确地对路况进行预判,对潜在危险的处理滞后;其二,根据人体生物钟规律变化,夜间驾驶员身体的各方面机能都有明显下降,加之行车过程视觉效果不好,可依赖的条件少,为了准确、快速地对速度和距离进行判断,行车过程中驾驶员必须注意力高度集中,更容易产生紧张情绪,易疲劳。而中国城市人口密集度高,行人、自行车、电动车交错穿行,机动车驾驶员稍有不慎,就容易产生碰撞冲突,造成事故伤亡。针对中国交通现状的需求,充分利用汽车安全辅助驾驶技术对路面行人情况进行全面、正确的判断和分析,缓解汽车驾驶员视觉范围有限、精力有限的缺点,是提高我国安全行车系数的重要保障。

近年来,国内外很多学者高度关注智能视觉监控领域,在理论知识和实际应用两个方面都取得了一定的进展。行人检测也因为在此领域有着广泛的应用而备受广大学者与研究人员的热衷。然而,目前的行人检测技术尚未达到人们预期的效果。运动过程中的行人检测是一项相当复杂的工程,涉及计算机视觉和模式识别,车辆定位技术,人体形态学等诸多学科,有许多技术难点有待研究人员攻克。进行行人检测研究不论在理论研究方面或者实际应用方面均具有较高的应用价值和经济潜力。

2研究现状

行人检测与识别研究开始于20世纪90年代中期,经过大量研究,目前已形成许多可行性方案,为后期的研究人员提供了一系列具有较高参考价值的理论体系和应用系统。

21国外研究现状

目前,国外学者在行人检测图像采集途径上可分为基于可见光图像和基于红外图像两种方法。可见,光图像作为人们日常生活中的常用图像采集手段,受光照程度的影响对图像中目标的识别存在很大的差别,光线不足的条件下,能见距离和能见度会明显下降,影响正常视频图像采集。而红外成像又称红外辐射,利用电磁波强大的“穿透”能力,可以通过黑暗、烟雾等外界因素,形成可见光下看不到的目标表面的温度分布图,但因为其图像层次感差、轮廓模糊等缺陷,在日常生活中使用较少。

在行人检测方法上现有两大类[2]:第一类是基于视觉传感器的行人检测方法,常用的方法有:基于小波和支持向量机的方法、基于运动特征的方法、基于立体视觉的方法、基于形状信息的方法、基于行人模型的方法等。早期的视觉传感器系统多借鉴基于静态摄像头的静态视觉监控技术,包括图像处理中的图像分割、边缘提取、图像匹配、光流、运动检测等技术及模式识别中的一些简单分类算法。随着智能化水平的不断提高,传感器也在不断更新中。目前较为前沿的行人检测方法是基于立体视觉的方法,即利用多部摄像机作为视觉传感器,在多方位同时进行图像采集,得到场景中行人的空间信息,但算法复杂、计算量大。多数使用的方法是利用多种传感器信息融合的技术。第二类是基于非视觉传感器的行人检测方法[3],常用的方法有:基于激光测距传感器的方法、基于微波雷达的方法、基于红外线成像传感器的方法等。两类方法均使用广泛,且结合适当的图像预处理技术和相关算法后均能用于夜间行人检测,为夜间行人检测的进行奠定了充足的基础。

现有的行人检测技术的两个主要侧重点分别为运动和形状。侧重于运动的检测方法是通过分析运动过程中人体行走的周期频率来进行行人检测。行走时,人体呈现出一定周期性的步态,处理过程中将先待检测图像序列的周期性与预先分析得到的行人步态的周期性进行对比,就可以判断出是不是行人。该方法的优点在于降低了光线变化和人体纹理产生的影响,但需要经过多帧对比才能得出判断结果,判断速度不及时,且只能检测运动过程中的行人。该方法的典型代表有基于光流法的行人检测。而侧重于形状的检测方法是通过对边缘、灰度、轮廓等信息的分析检测,达到对目标进行检测的目的。该方法既能检测运动的行人,亦能检测静止状态的行人,但易将不是行人的目标错认为行人而产生虚警信息。其典型方法有基于统计分类的方法、基于局部模型的方法和基于模板匹配的方法。但实际工程设计时,多采用两种方法同时使用,比如:Viola等人利用AdaBoost算法对人体的类Haar特征进行训练行人检测器[4],并融合进行人的外貌特征和肢体运动信息进行检测,取得了良好效果,在有行人、非机动车和运行汽车的环境下,能较好地检测出步行的行人。

此外,利用一些交叉学科的系统对人体进行建模,通过模型对运动物体进行识别检测也是目前较可行的方法。国际上现有的可以使用的行人检测系统[5]主要有:①2004年11月,在第38届东京车展上,三菱汽车公司(戴姆勒・克莱斯勒旗下)推出的以行人检测技术为支撑的三菱扶桑概念车,该车能在不超过150km/h车速的情况下,在多种天气条件下,对行人作出快速准确的检测,为驾驶者提供危险状况报警,并提供一定的安全应急措施;②2006年3月,在第76届日内瓦车展上,雷克萨斯LS460概念车集成了立体视觉近红线外加激光雷达的行人检测系统,能够以30~40km/h的车速,在距离车辆30~50m处检测出在人行横道上行走的行人;③2007年4月,在英国伦敦科学博物馆展出的无人驾驶汽车(德国大众汽车公司研制),能在不超过183米的范围内识别各种交通标识,并利用激光摄像机对汽车周围的行人和道路状况等障碍进行检测。

22国内研究现状

我国在行人检测技术方面,主要研究静止摄像机以及图像采集条件较好的行人检测,与此同时也在积极摸索运动摄像机情况下及夜间等受自然条件制约场景的行人检测。国内进行行人检测与跟踪研究的单位现有:浙江大学、中山大学、清华大学、哈尔滨工业大学、厦门大学、重庆大学、四川大学、长安大学、安徽大学、武汉理工大学等。浙江理工大学的徐振兴针对传统形状上下文特征在行人检测中区域划分较密的问题改进区域划分的方法,并在研究中引入随机森林分类器和点对比较特征进行行人检测。[6]苏州大学的王宝兴在单视点固定摄像头场景下提出了一种基于局部时空域模型的核密度估计行人检测算法,在单视点移动摄像头场景下提出了一种融合目标多特征的行人检测算法,并提出了基于卡尔曼滤波和显著区域检测的行人识别算法[7]用于处理由于高空视频细节模糊、背景杂乱等特点所导致的行人分割与识别困难问题。南京理工大学的陶建峰针对单特征辨识度较低和人体尺度多样性问题,提出一种多特征融合的行人检测方法。[8]

3主要存在的问题

近年来,国内外学者在夜间行人检测与运动跟踪领域的研究方面取得了一定的进展,但由于学科技术发展水平有限、实验设备性能不足、视频图像环境复杂等各方面因素的限制,至今仍然不能研究出一种方法能够在各种场景条件下都通用,其中,存在的主要技术问题有以下几点:

(1)动态视频图像采集的背景多样性问题。目前,行人检测研究多以静态背景进行,原因在于动态场景下检测目标及背景环境均在不断变化中,将出现多个不同类型复杂目标的遮挡问题。车身摄像机随车辆的抖动、偏转会发生拍摄角度及清晰度的变化,影响行人识别与检测的准确率。且对行人检测系统的鲁棒性(即应对“突然打击下”的适应能力)提出了更高的要求。

(2)夜间图像采集的复杂性问题。首先,夜间光线较弱,图像灰度值较高,色彩辨析困难,导致干扰因素多,阴影面积大;其次,现有的夜间图像采集多数使用红外线设备,红外图像分辨率低,层次感差,纹理信息少,轮廓模糊,导致夜间行人目标的检测难度更大。因此,目前进行夜间行人检测的研究项目的比重相对较低。

(3)行人外观和姿态的多样性问题。人体柔韧性强,具有多种形态,结合身材和衣着的差异,往往在行人识别检测中相差甚远。现有的行人特征有多种,但要获得较好的检测结果,既受到图像本身属性的直接影响,又取决于使用算法的选择,所以,通常不直接将特定的特征和通用的算法应用于行人识别检测。

(4)行人检测目标的快速准确判断。车载嵌入式系统随着车辆的行驶,行车速度、行车环境都在不断变化,相应采集到的图像信息复杂性高,且计算机运算速度有限,因此,如何快速地对采集到的目标进行分割、识别与检测成为实时检测系统的一大难题。

参考文献:

[1]田翠翠基于红外图像的夜间行人检测技术研究[D].重庆:重庆大学,2010.

[2]许腾,黄铁军,田永鸿车载视觉系统中的行人检测技术综述[J].中国图像图形学报,2013,18(4):359-367

[3]庄家俊,刘琼面向辅助驾驶的夜间行人检测方法[J].华南理工大学学报,2012,40(8):56-62

[4]陈志恒,姜明新基于OpenCV的人脸检测系统的设计[J].电子设计工程,2012,20(10):182-185

[5]单晓森混合交通中行人检测方法研究[D].哈尔滨:哈尔滨工程大学,2011.

[6]徐振兴基于机器视觉的行为检测和跟踪技术研究[D].杭州:浙江理工大学,2012.

第6篇:计算机视觉研究现状范文

关键词:虚拟现实;研究现况;发展趋势

中图分类号:f061.3 文献标识码:a 文章编号:1672-3198(2009)02-0279-02

1 虚拟现实

虚拟现实(virtual reality,简称vr),又译为临境,灵境等。从应用上看它是一种综合计算机图形技术、多媒体技术、人机交互技术、网络技术、立体显示技术及仿真技术等多种科学技术综合发展起来的计算机领域的最新技术,也是力学、数学、光学、机构运动学等各种学科的综合应用。这种计算机领域最新技术的特点在于以模仿的方式为用户创造一种虚拟的环境,通过视、听、触等感知行为使得用户产生一种沉浸于虚拟环境的感觉,并与虚拟环境相互作用从而引起虚拟环境的实时变化。现在与虚拟现实有关的内容已经扩大到与之相关的许多方面,如“人工现实”(artifi- cial reality)、“遥在”(telepresence)、“虚拟环境”(virtual environment)、“赛博空间”(cyberspace)等等。

2 国外虚拟现实技术研究现状

计算机的发展提供了一种计算工具和分析工具,并因此导致了许多解决问题的新方法的产生。虚拟现实技术的产生与发展也同样如此,概括的国内外虚拟现实技术,它主要涉及到三个研究领域:通过计算图形方式建立实时的三维视觉效果;建立对虚拟世界的观察界面;使用虚拟现实技术加强诸如科学计算技术等方面的应用。

2.1 vr技术在美国的研究现状

美国是虚拟现实技术研究的发源地,虚拟现实技术可以追溯到上世纪40年代。最初的研究应用主要集中在美国军方对飞行驾驶员与宇航员的模拟训练。然而,随着冷战后美国军费的削减,这些技术逐步转为民用,目前美国在该领域的基础研究主要集中在感知、用户界面、后台软件和硬件四个方面。

上世纪80年代,美国宇航局(nasa)及美国国防部组织了一系列有关虚拟现实技术的研究,并取得了令人瞩目的研究成果,美国宇航局ames实验室致力于一个叫“虚拟行星探索”(vpe)的实验计划。现nasa已经建立了航空、卫星维护vr训练系统,空间站vr训练系统,并已经建立了可供全国使用的vr教育系统。北卡罗来纳大学的计算机系是进行vr研究最早最著名的大学。他们主要研究分子建模、航空驾驶、外科手术仿真、建筑仿真等。乔治梅森大学研制出一套在动态虚拟环境中的流体实时仿真系统。施乐公司研究中心在vr领域主要从事利用vrt建立未来办公室的研究,并努力设计一项基于vr使得数据存取更容易的窗口系统。波音公司的波音777运输机采用全无纸化设计,利用所开发的虚拟现实系统将虚拟环境叠加于真实环境之上,把虚拟的模板显示在正在加工的工件上,工人根据此模板控制待加工尺寸,从而简化加工过程。

图形图像处理技术和传感器技术是以上vr项目的主要技术。就目前看,空间的动态性和时间的实时性是这项技术的最主要焦点。

2.2 vr技术在欧洲的研究现状

在欧洲,英国在vr开发的某些方面,特别是在分布并行处理、辅助设备(包括触觉反馈)设计和应用研究方面。在欧洲来说是领先的。英国bristol公司发现,vr应用的交点应集中在整体综合技术上,他们在软件和硬件的某些领域处于领先地位。英国arrl公司关于远地呈现的研究实验,主要包括vr重构问题。他们的产品还包括建筑和科学可视化计算。

欧洲其它一些较发达的国家如:荷兰、德国、瑞典等也积极进行了vr的研究与应用。

瑞典的dive分布式虚拟交互环境,是一个基于unix的,不同节点上的多个进程可以在同一世界中工作的异质分布式系统。

荷兰海牙tno研究所的物理电子实验室(tno- pel)开发的训练和模拟系统,通过改进人机界面来改善现有模拟系统,以使用户完全介入模拟环境。

德国在vr的应用方面取得了出乎意料的成果。在改造传统产业方面,一是用于产品设计、降低成本,避免新产品开发的风险;二是产品演示,吸引客户争取定单;三是用于培训,在新生产设备投入使用前用虚拟工厂来提高工人的操作水平。

2008年10月27-29日在法国举行的acm symposi- um on virtual reality software and technoogy大会,整体上促进了虚拟现实技术的深入发展。

 

2.3 vr技术在日本的研究现状

日本的虚拟现实技术的发展在世界相关领域的研究中同样具有举足轻重的地位,它在建立大规模vr知识库和虚拟现实的游戏方面作出了很大的成就。

在东京技术学院精密和智能实验室研究了一个用于建立三维模型的人性化界面,称为spmar nec公司开发了一种虚拟现实系统,用代用手来处理cad中的三维形体模型。通过数据手套把对模型的处理与操作者的手联系起来;日本国际工业和商业部产品科学研究院开发了一种采用x、y记录器的受力反馈装置;东京大学的高级科学研究中心的研究重点主要集中在远程控制方面,他们最近的研究项目是可以使用户控制远程摄像系统和一个模拟人手的随动机械人手臂的主从系统;东京大学广濑研究室重点研究虚拟现实的可视化问题。他们正在开发一种虚拟全息系统,用于克服当前显示和交互作用技术的局限性;日本奈良尖端技术研究生院大学教授千原国宏领导的研究小组于2004年开发出一种嗅觉模拟器,只要把虚拟空间里的水果放到鼻尖上一闻,装置就会在鼻尖处放出水果的香味,这是虚拟现实技术在嗅觉研究领域的一项突破。

3 国内虚拟现实技术研究现状

在我国虚拟现实技术的研究和一些发达国家相比还有很大的一段距离,随着计算机图形学、计算机系统工程等技术的高速发展,虚拟现实技术已经得到了相当的重视,引起我国各界人士的兴趣和关注,研究与应用vr,建立虚拟环境!虚拟场景模型分布式vr系统的开发正朝着深度和广度发展。国家科委国防科工委部已将虚拟现实技术的研究列为重点攻关项目,国内许多研究机构和高校也都在进行虚拟现实的研究和应用并取得了一些不错的研究成果。

北京航空航天大学计算机系也是国内最早进行vr研究、最有权威的单位之一,其虚拟实现与可视化新技术研究室集成了分布式虚拟环境,可以提供实时三维动态数据库、虚拟现实演示环境、用于飞行员训练的虚拟现实系统、虚拟现实应用系统的开发平台等,并在以下方面取得进展:着重研究了虚拟环境中物体物理特性的表示与处理;在虚拟现实中的视觉接口方面开发出部分硬件,并提出有关算法及实现方法。

清华大学国家光盘工程研究中心所作的“布达拉宫”,采用了quicktime技术,实现大全景vr制;浙江大学cad&cg国家重点实验室开发了一套桌面型虚拟建筑环境实时漫游系统;哈尔滨工业大学计算机系已经成功地合成了人的高级行为中的特定人脸图像,解决了表情的合成和唇动合成技术问题,并正在研究人说话时手势和头势的动作、语音和语调的同步等。

4 虚拟现实技术的发展趋势

随着虚拟现实技术在城市规划、军事等方面应用的不断深入,在建模与绘制方法、交互方式和系统构建方法等方面,对虚拟现实技术都提出来更高的需求。为了满足这些新的需求,近年来,虚拟现实相关技术研究遵循“低成本、高性能”原则取得了快速发展,表现出一些新的特点和发展趋势。主要表现在以下方面:

(1)动态环境建模技术。

虚拟环境的建立是vr技术的核心内容,动态环境建模技术的目的是获取实际环境的三维数据,并根据需要建立相应的虚拟环境模型。

(2)实时三维图形生成和显示技术。

三维图形的生成技术已比较成熟,而关键是如何“实时生成”,在不降低图形的质量和复杂程度的前提下,如何提高刷新频率将是今后重要的研究内容。此外,vr还依赖于立体显示和传感器技术的发展,现有的虚拟设备还不能满足系统的需要,有必要开发新的三维图形生成和显示技术。

(3)适人化、智能化人机交互设备的研制。

虽然头盔和数据手套等设备能够增强沉浸感,但在实际应用中,它们的效果并不好,并未达到沉浸交互的目的。采用人类最为自然的视觉、听觉、触觉和自然语言等作为交互的方式,会有效地提高虚拟现实的交互性效果。

(4)大型网络分布式虚拟现实的研究与应用。

网络虚拟现实是指多个用户在一个基于网络的计算机集合中,利用新型的人机交互设备介入计算机产生多维的、适用于用户(即适人化)应用的、相关的虚拟情景环境。分布式虚拟环境系统除了满足复杂虚拟环境计算的需求外,还应满足分布式仿真与协同工作等应用对共享虚拟环境的自然需求。分布式虚拟现实系统必须支持系统中多个用户、信息对象(实体)之间通过消息传递实现的交互。分布式虚拟现实可以看作是基于网络的虚拟现实系统,是可供多用户同时异地参与的分布式虚拟环境,处于不同地理位置的用户如同进入到同一个真实环境中。目前,分布式虚拟现实系统已成为国际上的研究热点,相继推出了相关标准,在国家“八六三”计划的支持下,由北京航空航天大学、杭州大学、中国科学院计算所、中国科学院软件所和装甲兵工程学院等单位共同开发了一个分布虚拟环境基础信息平台,为我国开展分布式虚拟现实的研究提供了必要额网络平台和软硬件基础环境。

5 结语

第7篇:计算机视觉研究现状范文

【关键词】 计算机;行为;视疲劳;体征和症状;学生

【中图分类号】 R 179 R 163 R 77 【文献标识码】 A 【文章编号】 1000-9817(2009)10-0919-03

21世纪已进入高速度、高效率的信息时代。随着计算机的普及,计算机已广泛进入了我们的工作、学习和生活中。据2007年中国互联网网络信息中心(CNNIC)的“第19次中国互联网络发展状况统计报告”显示,中国的网民已达 1.37亿,其中18~24岁年龄段的网民在全体网民中的比例达 35.5%[1]。青少年计算机使用者调节储备充足,但由于操作视屏显示终端(VDT)频率高、时间较长,屈光不正者较多,操作过程中不注意用眼卫生,以及精神因素的影响,可出现视力减退、视物模糊、眼发胀、头痛、眼干涩、肩背酸痛、四肢和手关节麻木、精力不集中等一系列临床症状,其中最常见的是对视功能的影响[2-4]。目前,我国大学生年龄多在18~24岁左右,伴随着高校多媒体教学的普及和计算机价格的降低,计算机已进入其工作、学习和生活中。高校学生这一特定人群的计算机终端视疲劳成为一个值得关注的新问题。笔者对北京市8所大学在校本科生和研究生进行问卷调查,以了解学生计算机使用时间、内容及视疲劳症状,为建立长期使用计算机人群的防护措施提供依据。

1 对象与方法

1.1 对象 采用分层随机抽样法。首先抽取北京市8所大学,调查前征得校方许可;然后按性别、年级、专业分层,随机对北京地区8所大学在校本科生、研究生进行调查。共回收调查问卷4 271份,其中有效问卷4 236份。平均年龄(21.6±3.3)岁。其中男生2 127名(50.2%),女生2 109名(49.8%);重点大学学生3 349名(79.1%),普通大学学生887名(20.9%);低年级本科生(大一及大二)1 418名(33.5%),高年级本科生(大三至大五)1 629名(38.5%),研究生1 189名(28.1%);文科生1 188名(28.0%),理科生2 248名(53.1%),医学生800名(18.9%)。

1.2 方法 采用自行设计的不记名问卷进行调查。问卷经预调查反馈情况及专家意见反复修订。内容涉及个人一般情况、每日计算机使用时间和内容、视疲劳症状及预防保健措施等,设有判定填写真实程度的质控题。调查员均具有专业医学背景,调查前经过严格培训,统一调查方法。调查员现场指导被调查者填写,对填写的内容进行全面核查,并赠送礼品以提高其依从性。调查后监督员对问卷进行审核,以保证调查资料的质量。数据录入整理后,项目负责人随机抽取8%的问卷进行复核,录入正确率在99%以上。

1.3 资料整理与分析 采用EpiData 3.02软件包建立数据库,进行数据的录入。数据统计分析采用SPSS 15.0数据包进行,首先进行方差齐性检验,数据呈正态分布,因此计数资料采用t检验、方差分析、LSD法,计量资料采用χ2检验。

2 结果

2.1 大学生每日计算机使用时间 被调查者平均每日计算机使用时间为(4.70±3.08)h,男生每日计算机使用时间长于女生,重点大学学生长于普通大学学生。每日计算机使用时间研究生>高年级>低年级本科生,LSD两两比较显示,研究生每日计算机使用时间长于高年级本科生,高年级本科生长于低年级本科生;每日计算机使用时间理科生>医学生>文科生,LSD法两两比较显示,理科生每日计算机使用时间长于文科与医学生,医学生长于文科生。差异均有统计学意义(P值均

2.2 大学生计算机使用内容 被调查者使用计算机最主要内容是工作/学习(86.2%),其次是看电影、听音乐(71.8%)与获取信息(65.4%)。男生用计算机玩游戏的比例(57.3%)高于女生(25.0%);重点大学学生用计算机工作/学习的比例(88.0%)高于普通大学学生(79.4%);研究生用计算机工作/学习的比例(94.8%)高于高年级本科生(85.9%)和低年级本科生(79.3%),低年级本科生用计算机聊天的比例(64.7%)高于高年级学生(54.7%)和研究生(47.7%);理科生和医学生用计算机工作/学习、聊天、看电影听音乐、游戏、获取信息的比例均高于文科生。差异均有统计学意义(P值均

2.3 大学生计算机终端视疲劳症状 视疲劳症状总发生率最高的是视力下降(29.3%),其次是眼干(28.7%)、视物模糊(28.3%)、眼痒(24.5%)、眼胀(24.4%)、视作业难以持久(22.1%)、流泪(19.6%)、眼痛(19.5%)、重影(16.5%)和异物感(14.6%)。女生视力下降、眼干、视物模糊、眼痒、眼胀、视作业难以持久、眼痛的发生率均高于男生,其中眼干、视物模糊、眼痛发生率差异有统计学意义(P

2.4 大学生用眼卫生状况 使用计算机过程中会特意休息的学生有1 369人(32.3%),通过做眼保健操和远眺休息的学生分别有529人和598人,使用缓解视疲劳眼药水的学生有1 612人(38.1%)。

3 讨论

眼的调节功能是为保持接近正常的有效视力而进行的一系列代偿活动。长时间近距离计算机操作容易引起眼的调节紧张。当眼紧张达到一定时间和程度,由于不能满足进行正常视作业的需要或调节到极限不能再坚持时,这种代偿可能会突然放弃,眼紧张转变为松弛而出现视力模糊、眼胀、眼干、甚至头昏烦躁等视疲劳症状[5]。

青少年操作计算机致视疲劳有多方面因素:操作者患有屈光不正矫正不良或没有矫正、调节异常、有影响视功能的器质性病变、营养不良,以及身体虚弱或有全身疾病等;计算机终端本身的因素,包括视屏闪烁、眩光、字符变幻、亮度、对比度、反射以及显示器放置的位置和座椅高度不适等;环境因素包括室内小气候不良,如温度、湿度不适,通风不良、室内空气污浊等[6]。多种因素共同作用更增加了眼的负荷,引发视疲劳[7]。操作计算机视屏终端致使视疲劳[8-9],需引起重视。

此次调查发现,北京大学生视疲劳症状发生率最高的前3位是视力下降(29.3%)、眼干(28.7%)和视物模糊(28.3%)。视疲劳症状的出现及轻重程度与每日计算机使用时间有关,使用时间最长的群体(重点大学学生、研究生及理科生)各种视疲劳症状发生率最高。李芳红等[7]研究发现,计算机作业2 h即可引起裸眼视力下降和泪膜破裂时间缩短。长时间的近距离用眼增加了视力负荷,调节不能完全放松,易出现调节紧张或痉挛;操作者注意力高度集中,瞬目间隔期暴露的眼表面积大且瞬目频率减少,泪液蒸发加速,易出现眼干、异物感等症状,空气干燥等不良环境则使症状加重。建议操作者滴用可湿润眼睛的滴眼液,显示屏与眼睛的距离一般以45~64 cm为宜,其顶端应略低于眼睛的高度,使眼球处在水平视线下10°~15°范围以内,这样可减少睑裂的宽度和眼球暴露的表面积,减少视疲劳的发生[10]。屈光不正使视网膜成像不清,造成辨认困难,眼睛为矫正这种缺陷努力调节,从而更易出现视疲劳。柯尝蕊等[11]报道显示,大学生在校期间的变化常表现视力低下程度的加深。本次调查中,北京市8所高校大学生屈光不正者达83.1%,接近《中国教育发展报告》公示 2004 年学生体质健康的监测结果(80%)。屈光不正、调节紧张、视力下降互相影响形成恶性循环,提醒大学生和验光师要及时准确矫正屈光不正。

加强对大学生管理和教育也是减少视疲劳发生的有效措施之一。本次调查发现,大学生计算机使用时间和内容与性别、学校、年级、专业均有关。大学生面临着学习、工作、家长的期望等多重压力,学习时间远远大于参与娱乐活动的时间。随着计算机教学的普及,计算机已成为大学生学习、科研的重要工具,尤其是重点大学学生学习任务较重且竞争激烈,研究生也需要用计算机完成查阅文献、分析数据、撰写论文等科研工作。计算机相关专业学生接触计算机密切,使用计算机已成为其学习生活必不可少的一部分,因长时间计算机操作导致的视疲劳值得关注。韦莹等[12]调查得到计算机系学生视疲劳发生率为85%,自觉视力下降达72.3%,高于本次调查的平均水平。另外大学生在生理上虽已是成人,心理上仍处于从不成熟到成熟的过渡时期,自我意识高涨,渴望交流和得到社会认同,而在现实生活又无法全部满足,所以愿意在网络虚拟世界里,重新塑造一个“新我”, 如通过网络聊天来释放这个“新我”[13]。本次调查中,男生玩游戏较多,低年级本科生聊天较多,这些活动能使其宣泄情绪,获得成就感,带来现实生活中没有的新奇和刺激等。应从社会、学校、家庭多方面入手,通过开展有益的集体活动等,限制网络游戏聊天成瘾者的计算机接触时间,帮助其建立良好的自我意识、学习沟通和交往的技能,以脱离对网络的过度依赖,让其得到现实的成就而感到满足,体会到快乐。

总之,鉴于计算机终端对眼健康的损害,高校保健部门应加强健康教育,提高学生对预防视疲劳工作的自我保护意识,并尽快开发一些适合高校群体,能由大学生作为自我保健手段实施的、简便易行的保护眼睛的新技术和新方法。

4 参考文献

[1] 中国互联网络信息中心(CNNIC),第19次中国互联网络发展状况统计报告[EB/OL].[2007-01-22].中国互联网络信息中心网站.

[2] YE Z, ABE Y, KUSANO Y, et al. The influence of visual display terminal use on the physical and mental conditions of administrative staff in Japan. J Physiol Anthropol,2007,26(2):69-73.

[3] MURATAA A, UETAKEB A, TAKASAWAB Y. Evaluation of mental fatigue using feature parameter extracted from event-related potential. Int J Ind Ergon, 2005,35(8):761-770.

[4] MPCCI F, SERRA A, CORRIAS GA. Psychological factors and visual fatigue in working with video display terminals. Occup Environ Med, 2001,58(4):267-270.

[5] 徐广第.屈光学:修订版.北京:军事医学科学出版社,2001:267-283.

[6] FOSTERVOLD KI, AARAS A, LIE I. Work with visual display units: Long-term health effects of high and downward line-of-sight in ordinary office environments. Int J Ind Ergon, 2006,36(4):331-343.

[7] 李芳红,杨杏芬,张桥,等.视屏终端作业对视功能及神经行为影响的调查.中国公共卫生,1999,15(1):65-66.

[8] 胡炎弟,白志鹏,刘香,等.大学生使用电脑及受其电磁辐射污染状况的调查.安全与环境学报,2005,4(2):36-39.

[9] MUTTI DO, ZADNIK K. Is computer use a risk factor for myopia. J Am Optom Assoc, 1996,67(9):521-530.

[10]孔祥柱,黄忠诚,曾普兰,等.视屏显示终端对操作者视觉系统的影响及防护对策的研究.职业与健康,2001,17(6):2-4.

[11]柯尝蕊, 王春兰.大学生视力状况调查分析.实用预防医学,2004,11(6):1 260.

[12]韦莹.计算机系学生计算机终端视疲劳调查.中国校医,2003,17(4):315-316.

第8篇:计算机视觉研究现状范文

>> 搜索引擎——图书馆的新工具 一种基于大数据的数字图书馆高效搜索引擎 数字图书馆个性化搜索引擎的用户建模 搜索引擎技术与高校图书馆建设 公共图书馆网站搜索引擎调查及优化研究 关于搜索引擎打造网上图书馆的思考 搜索引擎在高校图书馆信息服务中的应用 浅析图书馆如何搭建小型搜索引擎 移动搜索引擎的设计与实现 基于Lucene的图书垂直搜索引擎探析 搜索引擎的动力引擎 基于文本的图片搜索引擎的研究 基于Nutch的搜索引擎的研究 基于Nutch的搜索引擎的研究 基于语义的垂直搜索引擎的研究 购物搜索引擎的比较研究 商业主题搜索引擎的研究 元搜索引擎优化的研究 内网搜索引擎算法的分析与研究 基于.NET搜索引擎的研究与应用 常见问题解答 当前所在位置:.

[4] 国家自然科学基金委员会.“大数据驱动的管理与决策研究”重大研究计划2015年度项目指南[EB/OL].[2016-09-09]..

[6] Girod B,Chandrasekhar V,Grzeszczuk R,et al.Mobile visual search: architectures,technologies,and the emerging MPEG Standard[J].IEEE Multimedia,2011(7):86-94.

[7] L. Y. Duan,J.Chen,R.R.Ji,et al.Learning Compact Visual Descriptors for Low Bit Rate Mobile Landmark Search[J].AI Magazine,2011,34(2):2456-2463.

[8] 刘喜球,张兴旺.移动视觉搜索:“互联网+”时代数字图书馆信息检索新模式[J].情报理论与实践,2016,39(5):58-63.

[9] 张亭亭,赵宇翔,朱庆华.数字图书馆移动视觉搜索的众包模式初探[J].情报资料工作,2016(4): 11-18.

[10] 朱庆华.大数据环境下数字资源移动视觉搜索机制[J].情报资料工作,2016(4):5.

[11] 刘木林,朱庆华,赵宇翔.基于关联数据的数字图书馆移动视觉搜索框架研究[J].情报资料工作,2016(4):6-10.

[12] 段凌宇,黄铁军,高文.移动视觉搜索技术研究与标准化进展[J].信息通信技术,2012(6):51-58.

[13] 段凌宇,黄铁军,Alex C.K,等.移动视觉搜索技术瓶颈与挑战[J].中国计算机学会通讯,2012,8(12): 8-15.

[14] Norvig P.,Relman D. A.,Goldstein D.B.,et al.2020 Visions[J].Nature,2010,263(7):26-32.

[15] 于来行,冯林,张晶,等.自适应融合目标和背景的图像特征提取方法[J].计算机辅助设计与图形学学报,2016(8):1250-1259.

[16] 章夏芬,张龙海,韩德志,等.自适应书法字图像匹配和检索[J].浙江大学学报(工学版),2016(4):766-776.

[17] 陈继文,杨红娟,董明晓,等.基于本体语义块相似匹配的设计知识更新[J].机械工程学报,2014(7):161-167.

[18] 刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600.

[19] 高继平,丁遥潘云涛,等.国内外知识网络研究现状分析[J].情报理论与实践,2015,38(9):120-125.

第9篇:计算机视觉研究现状范文

摘 要:基于视觉的人体运动分析是计算机领域中备受关注的前沿方向之一,而人行为理解由于在智能监控、人机交互、虚拟现实和基于内容的视频检索等方面有着广泛的应用前景更是成为了未来研究的前瞻性方向之一。行为理解问题一般遵从如下基本过程:特征提取与运动表征;行为识别;高层行为与场景理解。着重从这三个方面逐一回顾了近年来人行为理解研究的发展现状和常用方法,并对当前该研究方向上亟待解决的问题和未来趋势作了较为详细的分析。?

关键词:特征选择;运动表征;行为识别;高层行为与场景理解?

abstract:human movement analysis from video sequences is an active research area in computer vision and human motion understanding is a future direction of prospective study as it has many potential application domains such as smart surveillance, human computer interface, virtual reality contend?based video indexing, etc. human action understanding is generally dividedintothreefundamental subprocesses:feature extraction and motion representation,activity recognition and higher level activity and scene understanding.this paper analyzed the state of the art in human action understanding in detail from three fundamental processes. at the end,provided and analyzed some detailed discussions on vital problems and future directions in human action understanding. ?

key words:feature extraction;motion representation;activity recognition;high level activity and scene understanding??

0 引言?

近年来,人运动视觉分析由于在智能监控[1]、高级人机交互[2]、虚拟现实[3]和基于内容的视频检索与解说[4,5]等方面有着广泛的应用前景和潜在的经济价值,激发了广大科研工作者及相关商家的浓厚兴趣,并成为了计算机领域中备受关注的前沿方向之一。目前,在世界范围内已经开展了大量的视觉分析研究项目。例如1997年美国国防高级研究项目署(defense advanced research projects agency,darpa)设立了视觉监控重大项目vsam(visual surveillance and monitoring)[6],主要研究用于战场及普通民用场景监控的自动视频理解技术;实时视觉监控系统w4[7]不仅能够定位和分割出人的身体部分以及实现多人跟踪,而且能检测人是否携带物体等简单行为;1999年欧盟framework5程序委员会设立重大项目advisor系统[8],旨在开发一个公共交通(如地铁、机场)的安全管理系统,它覆盖了人群和个人的行为模式分析、人机交互等研究;2000年,darpa又资助了hid(human identification at a distance)计划[9],其任务是开发多模式监控技术以实现远距离情况下人的检测、分类和识别,从而增强国防、民用等场所抵御恐怖袭击的能力;英国雷丁大学(university of reading)[10]先后开展了reason(robust methods for monitoring and understanding people in public spaces)、etise(evaluation of video scene understanding)、iscaps(integrated surveillance of crowded areas for public security)等项目以研究基于视觉的单人行为以及人与人之间的交互行为识别和场景理解等;此外还有能够对人进行跟踪与行为理解的实时系统pfinder(person finder)[11],由欧盟和奥地利科学基金会共同资助的大型视频监控技术研究项目avitrack(aircraft surroundings, categorized vehicles & individuals tracking for apron’s activity model interpretation & check)[12]等。国内在该领域的研究起步相对要晚,但也有许多大学和研究机构如中国科学院自动化所模式识别国家重点实验室[13]、亚洲微软研究院[14]、北京大学视觉与听觉信息处理国家重点实验室[15]以及清华大学等对人视觉分析关键技术进行了深入的研究。在学术方面,一些国际权威期刊如pami、ip、ijcv、cviu、ivc和重要的学术会议如cvpr、iccv和icpr等将智能化视频监控技术研究,尤其是人运动视觉分析作为主题内容之一。这些期刊为该领域的研究人员提供了更多的交流机会[1]。?

人运动视觉分析是利用计算机技术从包含人的图像序列中检测、分类、跟踪人,并对其行为进行理解与描述。其中运动检测[16~18]、目标分类[19]、跟踪[20~23]属于视觉分析中的底层和中层处理部分(有兴趣的读者可参考文献[24~28]);而行为理解和描述是经过对运动对象的连续跟踪观察,分析识别目标当前处于哪种行为模式,并利用语言进行描述,以及判断该行为是否属于异常行为,其属于高层处理部分。当前,人行为理解与描述受到了广泛关注,发表在上述权威期刊和重要学术会议上的关于行为理解研究的论文正逐年增加。由图1可见,关于人行为理解研究的会议文章从2002年起急剧增加,并且到2005和2006年每年发表的会议论文均保持在70篇以上;期刊文章从2003年也开始大幅增加,尤其是2007年前5个月的文章数量就超过2005年全年的数量并接近2006年全年发表的数量。行为理解已经成为了未来研究的前瞻性方向之一。因为人运动视觉分析研究的最终目标就是要让计算机能像人那样通过视觉观察和理解世界[29],也就是通过视觉观察来分析和理解人类活动及场景信息等。行为理解是跟踪器中像素测度与行为描述之间的桥梁,是使计算机向更加人性化(从?“looking? at people”向“understanding people”)转变的关键?所在。

通过对大量行为理解研究文献的整理发现:人行为理解研究一般遵从特征提取与运动表征、行为识别、高层行为与场景理解等几个基本过程[30~33](图2)。特征提取与运动表征是在对目标检测、分类和跟踪等底层和中层处理的基础上,从目标的运动信息中提取目标图像特征并用来表征目标运动状态;行为识别则是将输入序列中提取的运动特征与参考序列进行匹配,判断当前的动作处于哪种行为模型;高层行为与场景理解是结合行为发生的场景信息和相关领域知识,识别复杂行为,实现对事件和场景的理解。?

随着人行为理解研究的不断发展和深入,对该领域的工作及进展作详细的回顾和分析显得很有必要。尽管aggarwal[24]、gavrila[25]、moeslund[26]和hu[27]等人对行为理解的方法有所阐述,但他们都是简单性地总结分析其方法,并没有对当前行为理解的研究现状进行系统分析。为了使广大相关科研人员能更好地了解和掌握行为理解技术发展的新动向,促进行为理解技术的发展,本文从行为理解的一般性处理框架出发,对目前人行为理解的算法研究现状、存在问题及发展趋势等进行详细介绍。?

1 特征选择与运动表征?

在人运动视觉分析中,由于视角的影响,同一种行为可能有不同的投影轨迹,而不同的行为可能有相同的投影轨迹。此外,光照变化、遮挡等现实环境因素也都给行为理解带来了很大困难。所以从原始视频数据中提取何种底层特征(如形状信息包括侧影、轮廓,运动信息包括位置、速度、方向等)描述人运动,以及如何选择充分有效的描述方法表征人运动状态并且能够在时间分辨率和维数上减少计算量成为行为理解的关键问题之一。?

1.1 特征选择 ?

表1为2000—2007年400多篇关于行为理解研究的权威期刊与重要国际会议文章中使用特征的统计分析表。由表1可见,目前行为理解研究所采用的特征主要有如下四种:外观形状特征、运动特征、时空特征、形状特征与运动特征两者的混合特征。其中,形状特征和运动特征是两种最常用、也是最主要的特征,其比例均保持在30%以上。另外,时空特征在行为理解研究中开始得到越来越广泛的使用。?

基于外观形状特征[34~42]方法是先利用人体几何结构、轮廓或姿态以及区域颜色等信息来估计运动目标每时刻的静止姿态,然后用这些静止姿态序列来描述人体运动。外观形状特征容易获得且比较稳定,对纹理变化不敏感。基于运动特征方法[43~47]则没有利用有关人体结构的任何形状信息,而是直接从图像序列中提取出目标运动特性(时分)信息(如光流信息、运动方向、轨迹、位置、速度等)来表征运动状态。心理学研究表明,运动特征具有静态形状特征无法比拟的优势,即使是在远距离或恶劣的能见度情况下和最小运动系统——mld(moving light display)[48],人能够根据运动模式轻松地区别和识别目标的运动类型,而形状特征在此种情况下往往变得模糊不清。但目前的计算机视觉方法很难准确地提取运动特征,所以,为了充分利用形状特征和运动特征各自的优势,研究人员采用两者的混合特征[49~51]识别人的行为。此外,时空特征[52~57]是近年来行为理解研究中使用比较多的特征。时空特征通过采用二维形状在一段时间内形成的空时立体或差分图像来描述行为,集合了形状和运动特征两者的优点。由于时空特征考虑了运动信息,也有学者将其归类于运动特征。?

1.2 运动表征?

人运动表征是指从人的运动序列中提取合适的特征数据来描述人的运动状态,这是人行为理解中至关重要的一步。依据所用的特征,运动表征方法可分成基于外观形状特征的和基于运动特征的。?

1.2.1 基于外观形状特征的运动表征方法?

依据是否利用人体形状模型的先验知识,基于外观形状的运动表征方法又可分成基于模型和基于外观特征(或基于视觉特征方法)两类。?

基于模型方法的核心思想是首先建立描述空间中人体形状模型;然后利用目标的形态特征和关节位置等信息,将模型与输入图像序列在首帧匹配,在后续帧的跟踪过程中,定义损失函数描述输入图像数据与模型之间的近似关系,并采用人体运动参数限制条件和最优策略如最小平方[58]或随机采样策略如粒子滤波[59,60]等方法最小化损失函数来求得当前的运动姿态。常用的模型结构可以分为矩形框、棍棒形状[61]、二维轮廓[38]和3d立体模型[58]。基于模型方法集合了先验模型知识和当前输入,能够适合复杂行为的行为理解;但通常要求首先选择模型,初始化较难、计算量大,而且由于人运动的高自由度,容易产生局部最小值,很难找到全局最优且鲁棒的模型参数,此外由于在后续的跟踪中存在累计误差,不能分析、跟踪长序列运动。?

基于外观方法并不试图恢复人体运动的结构模型,而是直接从图像中提取物体的二维空间信息,如高度、宽度、侧影轮廓和颜色等,并用这些特征直接或通过与已经训练好的模型进行匹配来获得对当前运动的描述。在这类方法中,形状分析理论常用来描述运动目标的形状变化特征(有关形状分析请参考文献[62])。常用的形状分析方法有质心—边界距离[34,36]、傅里叶描述符[41]、形状上下文[42]和统计形状分析[32,35,63,64]等。其中,质心—边界距离方法使用一维函数编码从形状的质心到形状边界点的距离,这种描述符简单但不能精确地对非凸起形状进行编码,如质心与一个边界点之间的距离连线可能与另一个边界点相交,造成细节的丢失。poppe等人[41]提出用傅里叶描述算子恢复人姿态;其思想是用固定的边界采样点对人体二维侧影轮廓进行采样,并对采样点进行傅里叶变换,利用变换后傅里叶系数的低频部分描述形状的大体特征,用高频部分来反映形状的微观特征即详细特征。由于傅里叶描述算子只能描述单个闭环曲线,这种方法一般用于描述外部边界点;在噪声环境下,傅里叶转换性能不是很好。mori和malik[42]则提出用形状上下文[65]描述算子表征人体侧影形状来恢复人体运动的三维姿态。一个点的形状上下文算子就是试图捕捉点集中其他点相对于该点的分布,它是一种基于内部或外部边界采样点的局部描述算子。傅里叶描述算子和形状上下文算子具有平移、旋转和尺度不变性。与傅里叶算子和形状上下文描述算子不同的是,hu[66]提出一种基于区域的不变矩理论,并构造出共七个不变矩,它们具有平移、旋转和缩放不变性,目前已经广泛应用于图像的模式识别中。poppe和poel[67]对傅里叶描述算子、形状上下文和不变矩三种算子在侧影轮廓描述上的性能进行了比较,并且实验结果表明傅里叶描述算子和形状上下文直方图在形变侧影描述上比hu更具有优势。20 世纪70年代后期,dryden等人[63]提出的统计形状理论发展成一种用形状概率分布分析物体形状的实用统计方法,并且在图像分析、目标识别等领域得到广泛应用。文献[64]进一步讨论了投影形状和不变量,以及形状模型、特征和它们各自在高层视觉中的作用。jin等人[32]用统计形方法描述每帧中的目标轮廓,并用完全procrustes均值形状作为极点,构造一个与数据集近似的线性空间——切空间;然后用这个线性化的轮廓作为训练数据去学习动态系统、估计系统参数,从而识别人行为。?

此外,目标形状变化的动态特性也为目标识别和动作分类提供了重要信息。n.vaswani等人[68]提出用形状变化的动态特性来建模和分类动作;liu等人[69]提出在傅里叶描述算子的基础上建立自回归模型学习形状变化的动态信息;基于统计形状理论,veeraraghavan等人[35]提出用自回归模型(ar)和平稳自回归模型(arma)学习形状变化的动态特性,并用模型之间的距离量测作为两个形状序列之间的相似性测量,取得了较好的分类效果。?

基于外观特征方法不要求特定的模型,比较简单,能够适用于大量的环境条件下。但外观特征方法由于没有模型先验信息限制,很难建立连续帧之间的特征对应关系,并且很难区别信号和噪声,一般对噪声敏感。此外,外观特征受视角影响大,所以许多学者[58,70~72]研究基于多视角环境中人的行为分析和识别。?

1.2.2 基于运动特征的运动表征方法?

基于运动特征的表征方法可以细分为:?

a)基于预先确定区域(如腿、头)跟踪的运动轨迹分析方法。其关键是运动匹配[43,45,73],思想是在一帧图像中提取出兴趣点或区域、典型特征,并且在随后图像帧中进行跟踪,多帧之间的这些特定点或区域位置匹配就会产生一条运动轨迹;然后对轨迹进行参数化处理,如将轨迹转换成水平、垂直方向的速度以及时空曲率等来描述运动特性。?

b)基于非预先确定的目标区域运动分析方法。其最典型的代表是光流法[44,46,47,74]。与运动轨迹不同的是,光流法是计算空间运动物体表面上像素点运动产生的瞬时速度场。它通过计算图像序列中连续两帧亮度信息来得到,指的是图像亮度模式的表观(或视在)运动(apparent motion)。例如zhu等人[47]提出用光流直方图来描述动作的运动信息,然后用支持向量机作分类器识别运动员的击球动作。光流法在无须背景区域的任何先验知识条件下就能够实现对运动目标的检测和跟踪。光流计算的基本等式是假设相邻两幅图像中对应两点的灰度不变得到的。在这个假设条件下首先要求两幅图像相邻时刻之间的间隔是很小的(几十毫秒之内),并且要求场景光照均匀。此外光流法的计算量较大。?

时空特征不仅包含人动作姿态的空间信息(人体躯干和肢体的位置、方向等),而且还包含运动的动态信息(人体的全局运动和肢体的相对运动),从而避免了光流场计算可能遇到的问题(包括孔径、全局平滑性约束、奇异性等)和外观形状特征跟踪问题[75,76](自遮挡、重新初始化、外观改变、运动信息缺乏等)等。所以近年来时空特征在行为识别中得到了大量的使用[52~57]。bobick和davis[52]集合时空运动特征,提出了用运动历史图(mhis)和运动能量图(meis)来描述运动。其中运动历史图反映运动是怎么产生的,而运动能量图反映运动发生的位置。文献[53,54]则提出用迭代滤波(recursive filtering)和帧分组(frame grouping)来描述运动信息。用迭代滤波方法对视频序列中的每帧图像进行滤波处理得到一幅滤波图像,其反映当前帧的场景空间分布信息、相邻帧之间的时分关系以及短时间内的运动速度;帧分组方法思想是单独分类视频切片中的每个滤波图像,然后用多数投票方法分类这些已标志的滤波图像的运动类型。?

基于运动特征和外观形状特征表征的方法都有各自的缺点,基于运动特征能够描述人的近似运动方向和轨迹等,但很难准确、稳定地捕捉目标运动特性;另一方面,外观形状特征能够描述人的姿态信息,但由于没有运动信息,描述行为动作的能力有限。所以研究人员[56~58]通过采用融合两种特征的方法来对人行为进行建模和识别。?

2 行为识别?

行为识别问题可以简单地看做是时变特征数据的分类问题,即将测试序列与预先标定的代表典型行为的参考序列进行匹配,那么其关键问题是如何从学习样本中获取参考行为序列以及如何度量参考序列与测试序列之间的相似性。由于人动作执行的速度不一样,学习和匹配行为序列时还必须能够处理相似运动模式在空间和时间尺度上轻微的特征变化。目前,行为识别方法一般可以分成静态识别和动态识别。静态识别方法是把行为看做由一组按时间顺序串连起来的静态图像序列,其常用的方法有模板匹配方法;动态识别方法是定义每个静态姿势作为图模型上的一个节点或状态,这些节点或状态之间通过某种关系如概率联系起来。任何运动序列可以看做这些静态姿势的不同状态之间的一次遍历过程。常用的识别方法有隐马尔可夫模型(hidden markov models,hmms)、动态贝叶斯网络(dynamic bayesian network,dbn)等。这些方法可以总归为基于状态转移的图模型方法。?

2.1 基于模板匹配方法?

基于模板匹配方法是用从输入图像序列提取的特征与在训练阶段预先保存好的模板进行相似度比较,选择与测试序列距离最小的已知模板的所属类别作为被测试序列的识别结果。bobick和davis[52]将图像序列目标运动信息转换成运动能量图像(mei)和运动历史图像(mhi),采用马氏距离度量测试序列与模板之间的相似性;masoud等人[53]则采用无限冲击响应滤波器来描述运动,并将其投影到特征空间,然后用hausdorff距离度量测试序列与参考序列之间的相似性。此外,还有学者采用procrustes距离[50]来度量测试序列与模板之间的相似性。这些最近邻方法尽管在一定程度上反映了运动的时分关系,计算量小,但并没有对运动的时分限制条件进行建模,鲁棒性较差。为此,veeraraghavan等人[35]用动态时间规整(dynamic time warping,dtw)来匹配运动序列。dtw是一种时变数据序列匹配方法,常用于微生物学的dna匹配、字符串和符号的比较以及语音分析[77]。dtw算法的思想是给定参考模板特征矢量序列与输入特征矢量序列,寻找一个最佳的时间规整函数,使得输入序列的时间轴映射到参考模板的时间轴上总的累计失真最小。对dtw而言,即使测试序列模式与参考序列模式的时间尺度不能完全一致,只要时间次序约束存在,它仍能较好地完成测试序列与参考序列之间的模式匹配。dtw具有概念简单、算法鲁棒的优点,能够对图像序列进行分类。文献[35]在形状空间中用动态时间规整方法计算两个形状序列之间的距离来识别动作和步态,取得了很好的分类结果。然而,dtw算法计算量较大,缺乏考虑相邻时序之间的动态特性,而在实际中,运动序列中相邻序列在时间和空间上有高度的相关性。?

基于模板匹配方法计算复杂度低、实现简单,但缺乏考虑运动序列中相邻时序之间的动态特性,对于噪声和运动时间间隔变化敏感。?

2.2 基于状态转移图模型方法?

基于状态转移图模型方法[78,79]是将每个静态姿势或运动状态作为图中的一个节点或状态,对应于各个姿势或运动状态节点之间的依存关系通过某种概率联系起来,这样任何运动序列可以看做在图中不同节点或状态之间的一次遍历过程。常用于行为理解的图模型方法有隐马尔可夫及其改进模型[80~95]、动态贝叶斯网络[96~102]、人工神经网络[45,103]、有限状态机[104,105]和置信网络[106]等。本文对前三种常用方法进行总结分析。

2.2.1 隐马尔可夫及改进模型?

与dtw相比,隐马尔可夫模型是一种更加成熟的匹配时变数据的技术。hmms用马尔可夫过程建立相邻实例之间的相互关系,并假设观察序列由固定个数的隐状态构成的隐过程决定,是一种随机状态机。hmms的使用涉及到训练和分类两个阶段。训练阶段包括指定一个隐马尔可夫模型的隐藏状态数,并且优化相应的状态转换和输出概率,以便于产生的输出符号与对特定运动类别之内所观察到的图像特征相匹配。受hmms在语音数据分析[80]成功应用的影响,研究人员将hmms用于视觉识别[73,81~83]。bregler[81]基于人体动力学在不同抽象等级的统计分析,提出了用一个综合性的网络来识别人的运动:在底层处理阶段,以混合高斯模型来估计基于运动、彩色相似度和空间接近程度等小区域块,不同的身体部分区域在图像序列中被跟踪;在中层处理阶段,具有一致运动特性的区域被匹配为动力学系统中的简单运动(如行走被认为是两个简单运动的组成:一个是腿的支撑,一个是腿在空中的摆动);在高层处理阶段,hmms被用来作为这些中级动力系统的混合模型以表达复杂的运动,识别过程通过最大化hmms的后验概率来完成。实验表明,在学习能力和处理未分割的连续数据流方面,hmms比dtw有更好的优越性。?

hmms有很强的输出独立性假设限制,其信号处理过程是一个单路马尔可夫过程,不能处理多个且相互依存的序列,导致其不能考虑上下文的特征,限制了特征的选择;而且其拓扑结构是事先给定的,它的模型参数需要用em算法来估计(baum?welch 算法);对观测矩阵的初始值比较敏感,如果初始值选择不当,会造成概率函数的局部最大值。另外,分类模型不灵活,不能处理运动中分层与共享结构。为了识别复杂动作与人们之间的交互行为,brand等人[84]提出一种耦合隐马尔可夫模型(coupled hidden markov models, chmm)[84~86]来建模行为中两个相互关联的随机过程,并用chmm对手势进行识别。结果表明,与传统hmms相比,chmm具有更好的分类效果,计算速度快,而且对初始条件不敏感。fine等人[87]为处理自然序列中复杂的多尺度结构,提出了层级隐马尔可夫模型(hierarchical hidden markov model,hhmm)。hhmm具有多层隐马尔可夫模型的结构,所以能够更为清楚地表达出人运动中不同层次的行为细节。nguyen等人[88,89]采用hhmm识别人的行为,并取得了很好的分类效果。此外还有抽象隐马尔可夫模型(abstract hidden markov model, ahmm)[90]、可变长马尔可夫模型(variable length markov model,vlmm)[91]、熵隐马尔可夫模型[92,93]和分层隐马尔可夫模型(layered hidden markov model,lhmm)[94,95]等也被用于复杂行为识别。?

2.2.2 动态贝叶斯网络?

由于hmms不能有效处理三个或三个以上独立的过程[86],学者提出了hmms的推广方法——动态贝叶斯网络(dynamic bayesian networks,dbns)[96]。动态贝叶斯网络是一种对随机过程描述的有向图解,通过网络拓扑结构反映变量间的概率依存关系及其随时间变化的情况,不受马尔可夫链的链状结构约束,因此不但能够在每个时刻上对多个随机变量所对应的不同特征之间的依存关系进行概率建模而不仅仅是一个隐藏状态变量,而且考虑了各个时刻间的转移概率,能够很好地反映特征之间的时序关系,适用于不确定性和概率性事物。所以动态贝叶斯网络逐渐成为人行为理解研究中一个有力的数学工具[97~102]。park和aggarwal[97]提出用层级贝叶斯网络方法识别两个人之间的动作。该方法在贝叶斯网络的低层估计被跟踪身体部分的姿态;然后在贝叶斯网络高层估计整个身体的姿态;最后用动态贝叶斯网络处理综合多个身体部分组成的状态。muncaster等人[102]提出一个一般的d-层动态贝叶斯网络识别复杂的事件,在每一层用确定性的退火聚类算法自动检测观测层的状态。文献[98,99]则用贝叶斯网络识别停车场和地铁监控环境下的复杂行为。?

贝叶斯网络的主要优点是利用先验知识建立视觉特征之间的因果关系来处理视频处理中固有的不确定性问题。动态贝叶斯网络还可以任意改变拓扑结果或增删变量以反映变量间各种不同的关联关系,而不影响训练算法本身,因此具有良好的可解释性,其拓扑结构具有精确及易于理解的概率语义。相比马尔可夫链,贝叶斯网络训练比较复杂。?

2.2.3 神经网络?

人工神经网络是由人工建立的以有向图为拓扑结构的动态系统,它通过对连续或断续的输入作状态响应而进行信息处理,在分析时变数据时具有很大的优势。buccolieri等人[103]用神经网络对轮廓进行分析来识别人的姿态。由于神经网络通常需要用大量的数据来训练网络,研究学者在神经网络的基础上提出了时延神经网络(time?delay neural network,tdnn)。时延神经网络是在多层前馈感知器神经网络模型中引入时延单元使得神经网络增加记忆功能;同时,时变序列的前述值被用来预测下一个值。由于大量数据集成为可能,时延神经网络的重点就可以放在时分信息的表达,这样由此导出的神经网络模型适合应用于处理序列数据。yang和ahuja[45]应用时延神经网络于手势识别,并取得了较高的识别率。?

除了上述两类方法,支持向量机(support vector machine,svm)由于能够较好地解决常见的非线性分类问题中的小样本、非线性、高维数和局部极小点等实际问题,同时可以避免神经网络结构选择和局部极小点问题,成为20世纪90年代末发展最快的研究方向之一,并且在行为理解中也得到了充分的应用[47,54,107~109]。cao等人[54]用svm建立滤波图像分类器来对运动分类。文献[109]提出一种基于光流直方图运动描述算子,并用svm训练分类器识别运动员的动作。?

3 高层行为与场景理解?

尽管用上述行为识别方法能够识别较复杂的动作,但要理解“场景中在发生什么事情”等复杂行为与事件,不仅需要解释和理解视觉输入,还需要场景中相关信息与背景知识,尤其是对涉及人活动的场景理解更需要抽象且有代表意义的策略。高层行为事件与场景理解是在对场景图像信息的各种处理和分析的基础上,解释和描述场景图像的内容,包括场景中人与人、人与物体的行为以及它们之间的时空关系,这也称为高层视觉。目前研究较多的事件检测是对整个视频序列内容以及真实场景的总结分析过程。其核心思想是利用物体或环境知识去理解场景中发生的动作或将要发生的动作,广泛应用于停车场、超市、地铁以及机场等公共场所的智能监控中检测是否有异常行为发生并告警。vsam、pfinder和avitrack等系统都具有场景理解与事件检测的功能。目前高层行为与场景理解的方法包括基于规则推理网络[33,105,106,110~113]、随机文法(包括随机上下文无关文法:stochastic context free grammar,scfg)[114~116]、概率状态依存语法(probabilistic state dependent grammars,psdg)[117]、因果分析[118]等。?

badler[105]提出一种基于运动动词的分层框架来分析运动。一个运动动词就是一种行为,而这些动词是预先定义在静态图像的规则基础上,用自动状态机建立起行为之间的联系。这种系统理论上可以解释人行为中的复杂事件,但系统仅仅在人工环境中进行测试。kojima和tamura[111]则提出一种事件框架来识别单个人的动作。首先提取出人体头、身体和手的运动,定义事件帧(case frame)来描述动作规则,从而建立起人运动姿态、位置信息与运动概念之间的对应关系。hongeng等人[112]则提出事件是由动作线程构成,而且每个线程有单个角色执行,每个单一动作线程通过贝叶斯方法,利用角色的轨迹和运动块特性来识别,这样事件可以通过许多在时分限制上相关的动作线程来表达。robertson等人[113]组合运动轨迹信息与局部运动描述算子,借助图像特征数据概率搜索方法来描述和识别动作,并用编码场景规则的hmm平滑动作序列,这样通过计算当前动作序列下的hmm概率来识别高层行为。基于规则的方法在动作分析中显示了其优点,但由于某些行为的模糊性,基于规则推理方法很难给每个行为定义准确的规则,而且不同的应用领域定义的规则也不相同。?

随机文法由于能够从包括hmm不能同时处理的多个过程中提取出有意思的行为,被用来有效地描述真实场景。ivanov和bobick[115]提出两步策略来理解自动监控系统中的高层行为和事件。在低层处理部分用hmm检测和识别简单的行为模式,并将输出向量映射为离散语法字母表;在高层部分则采用随机上下文无关文法模型分析、理解低层输出,最终实现行为理解。但这种方法受其语法的上下文无关约束的限制。复杂的行为,尤其是有目的的行为,其状态通常是前后相关的,也就是下面的行为依赖于当前的状态,这样使得行为并不是上下文无关的。此外,两步识别策略不支持从低层数据到高层理解的在线无缝概率推理。基于这样的缺点,nguyen等人[119]提出用抽象隐马尔可夫记忆模型(abtract hidden markov memory model,ahmem)识别复杂室内环境中人的高层行为。park和aggarwal[118]提出一种事件语义学来表达和识别人之间的交互行为,并用语言学中的动词元结构按每三个运动目标一组的结构形式来描述运动。时空限制用于决策树来识别特殊的交互行为。在这个框架下,人的动作以“主语+动词+宾语”结构来自动表达,同时人的交互行为根据人动作之间的因果语义关系来描述。?

当前对高层行为与场景理解的研究还很不完善,高层行为与场景理解研究受一些视觉基础问题的束缚,如像素级的分割、遮挡以及处理可变性的能力。目前的研究都是针对特定领域应用的研究,有些只是提取场景信息高层的语义,不可能在任意图像中确定不同的景物。?

4 行为理解存在的问题与发展趋势?

尽管近年来利用机器学习工具构建人行为的统计模型、理解人行为的研究有了一定的进展,但由于动态场景中运动的快速分割、宽松的着装、遮挡、阴影和光照变化、运动的非刚性和高自由度[24,120]、行为发生的场景和人运动的模糊性(关于行为、事件、状态有着不同的概念)等因素的影响,使得人视觉行为理解成为一个复杂且极具挑战性的任务。相对于检测、跟踪等技术的显著发展,其行为理解的研究进展比较缓慢。目前行为理解的研究仍处于初级阶段,即原子动作[29]分析,也就是简单日常标准动作如行走、跳、站起、坐等[30~37]和以人行为为目标的简单事件检测等[97,102,121~123]。其亟待解决的问题和未来的发展趋势有以下几个方面:?

a)运动特征选择与表达。如何选择特征来充分表达运动成为行为理解的关键问题之一。一般是尽可能选择较多的特征或者是在连续特征的典型匹配过程中引入人运动模型的简化约束条件来减少、消除歧义性。但如果选取的特征过多、特征向量维数过大,则会增加计算的复杂度;而选择特征过少,又可能不足以识别与理解人行为,而引入人运动模型的简化约束条件与一般的图像条件却又是不吻合的[28]。因此,能否借鉴人类的学习、识别与理解机理,定义一个动态特征模型,首先提取有关行为的主要特征,当这些特征不足以完成识别与理解时,系统逐步提取候选的细节特征;另外一种更好的办法是使用行为的二维表达捕捉行为的视觉不变特征[49,124],那样对行为理解不会引起歧义。但是如何选择视觉不变特征却又是一项很困难的任务。此外,提取特征的不稳定性也为行为理解带来很大的困难,但多模特征融合将为行为理解提供一种很好的解决办法。例如在某些环境中,可视信息受干扰,变得敏感不可靠时,声音特征将为基于视频的行为理解提供一个很好的补充[125,126];在遮挡的情况下,基于多摄像机信息融合方法由于能够很好地解决遮挡问题,在行为理解研究[70~72]也将会得到快速的发展。?

对于运动特征表征来说,不同复杂程度的运动通常会采用不同的运动表达方法,即使是同一种动作在不同的场合,由于快慢速度不一致等都会产生不同的时空关系。如何表征这些细微的时空变化并没有一个很好的办法。一个可行的办法是采用多分辨率的方法[127]来表征和分析运动,但计算量较大。?

b)行为识别。目前人行为理解虽然取得一定的进展,但行为理解研究还只局限于简单、固定视角且已切分好后的动作,对不同动作连续变化的长运动序列的研究比较少[54],而且鲁棒差,在噪声、亮度和光照变化强烈以及视角变化的复杂环境中正确识别率大大降低。目前的行为识别方法如状态转移的图模型方法和模板匹配方法通常在计算代价和运动识别的准确度之间进行折中,而且都是先训练后使用,只能识别训练中预先定义好的动作,没有自动学习新行为的能力,缺乏考虑场景等背景知识,很难根据目标行为和场景的先验知识进行自动机器学习。例如hmms等方法被看成一个黑盒,它不解释某种行为是什么,只输出一种未知行为与认知的模式行为之间的概率。所以仍需要寻找和开发新技术,以利于在提高行为识别性能的同时,又能有效地降低计算的复杂度。?

c)高层行为与场景理解。行为本身具有很强的模糊性,同一行为、事件、状态在不同的场景有着不同的概念,当同一场景中有多个目标出现时其行为模糊性更加明显。所以,如何借助于先进的视觉算法和人工智能等领域的成果,将现有的简单行为识别与理解推广到更为复杂场景下的事件与场景理解,是将计算机视觉低、中层次的处理推向高层抽象思维的关键?问题。??

d)行为理解与生物特征识别相结合。在智能安全监控、智能人机交互中,行为理解与生物特征相结合显得更加重要,不但要求系统能够识别被监控对象的当前行为状态,而且能够识别当前被监控的对象身份。生物特征技术识别如步态识别[50]、人脸识别等[128,129]给对象身份识别提供了一个很好的解决办法。所以与生物特征识别相结合的行为理解将会是未来的研究方向之一。?

e)算法评价。一般而言,鲁棒性、准确度、速度是人行为识别的三个基本要求,要求能够快速准确地识别运动且连续地工作,对于如噪声、光照、天气等因素的影响不能太敏感。但目前的识别方法更多关注的是识别率,对鲁棒性和速度两个指标研究要求很少。另外,对行为识别方法没有统一的视频测试序列,大部分研究方法都是具体问题具体分析,是用各自选择的视频序列进行实验分析,无法对提出的算法进行统一评价。?

5 结束语 ?

人行为理解已经成为计算机视觉领域一个重要的研究方向之一,在智能监控、人机交互等方面的应用前景引起了广大科研人员的浓厚兴趣。本文从特征选择与运动表征、行为识别方法以及高层行为与场景理解三个方面总结了近年来人行为理解研究现状和进展。其征提取和运动表征可以归结为行为建模,即如何描述行为动作。目前的方法需要根据具体实际应用情况,在动作模型描述精确度和计算复杂度中折中,选择适当的方法来对行为建模。本文将行为识别算法细分成模板匹配方法、基于图模型的方法等,同时对各种常用的数据匹配方法进行逐一分析,并且讨论了目前的高层行为与场景理解的研究发展与现状。最后提出了目前行为理解存在的问题和未来的发展趋势。尽管当前行为理解研究取得了一定的进展,但依然处于萌芽阶段,需要提出新的方法来解决相关问题,提高行为理解的性能。?

参考文献:?

[[1]王亮,胡卫明,谭铁牛.人运动的视觉分析综述[j].计算机学报,2002,25(3):225-237.?

[2]jaimes a,sebe n.multimodal human computer interaction:a survey[c]//proc ofieee international workshop on human computer interaction in conjunction with iccv2005.beijing:[s.n.],2005.?

[3]nijholt a.meetings, gatherings, and events in smart environments[c]//proc of acm siggraph international conference on virtual reality continuum and its applications in industry.2004:229-232.?

[4]kittler j,ballette m,christmas w j,et al. fusion of multiple cue detectors for automatic sports video annotation[c]//proc of workshop on structural, syntactic and statistical pattern recognition.2002:597-606.?

[5]tjondronegoro d,chen y p p,pham b.content ased video indexing for sports applications using integrated multi?modal approach[c]//proc of the 13th annual acm international conference on multimedia.2005:1035-036.?

[6]collins r,lipton a,kanade t, et-al.a system for video surveillance and monitoring: vsam final report,cmu-ri-tr-00-12[r].[s.l.]:carnegie mellon university,2000.?

[7]haritaoglu i,harwood d,davis l s.w4: real?time surveillance of people and their activities[j].ieee trans on patternanalysis and machine intelligence,2000,22(8):809-830.?

[8]naylor m,attwood c i.annotated digital video for intelligent surveillance and optimized retrieval:final report[r].[s.l.]:advisor conortium,2003.?

[9]hid[eb/ol]./.?

[14][eb/ol]./asia/group/vc/.?

[15][eb/ol]./introduction.htm.?

[16]sheikh y,shah m.bayesian modeling of dynamic scenes for object detection[j].ieee trans on pattern analysis and machine intelligence,2005,27(11):1778-792.?

[17]elgammal a,harwood d,davis l.non arametric model for background subtraction[c]//proc of the 6th european conference on computer vision. dublin,ireland:[s.n.], 2000:751-67.?

[18]左军毅,潘泉,梁彦,等.基于模型切换的自适应背景建模方法[j].自动化学报,2007,33(5):467-473.?

[19]javed o,shah m.tracking and object classification for automated surveillance[c]//proc of the 7th european conference on computer vision.copenhagen:[s.n.],2002.?

[20]chen yun-qiang,rui yong,huang t s.multicue hmm?ukf for real?time contour tracking[j].ieee trans on pattern analysis and machine intelligence,2006,28(9):1525-529.?

[21]yang tao,li s z,pan quan, et-al . real time multiple objects tracking with occlusion handling in dynamic scenes[c]//proc of ieee international conference on computer vision and pattern recognition.san diego,ca:[s.n.],2005.?

[22]wang yong zhong,liang yan,zhao chun hui, et-al. adaptive multi cue kernel tracking[c]//proc of ieee international conference on multimedia & expo.2007:1814-1817.

[23]李培华.一种改进的mean shift跟踪算法[j].自动化学报,2007,33(4):347-354.?

[24]aggarwal j k,cai q.human motion analysis: a review[c]//proc of ieee nonrigid and articulated motion workshop.piscataway:ieee computer society,1997:90-102.?

[25]gavrila d m.the visual analysis of human movement: a survey[j].computer vision and image understanding,1999,73(1): 82-98.?

[26]moeslund t b,granum e.a survey of computer vision?based human motion capture[j].computer vision and image understanding,2001,81(3):231-268.?

[27]hu wei ming,tan tie niu,wang liang, et-al. a survey on visual surveillance of object motion and behaviors[j].ieee trans on systems, man, and cybernetics?part c: application and reviews,2004,34(3):334-352.?

[28]刘相滨,向坚持,王胜春.人行为识别与理解研究探讨[j].计算机与现代化,2004(12):1-5,27.

[29]buxtonh,gong shao gang.advanced visual surveillance using bayesian networks[c]//proc of the 5th ieee international confe rence on computer vision.massachusetts:[s.n.],1995.?

[30]bremond f,thonnat m,zuniga m.video understanding framework for automatic behavior recognition[j].behavior research methods journal,2006,38(3):416-426.?

[31]amer a,dubois e,mitiche a.a realtime system for high level video representation:application to video surveillance[c]//proc of spie international symposium on electronic imaging, conference on visual communication and image processing.santa clara:[s.n.],2003:530-541.?

[32]jin ning,mokhtarian f.human motion recognition based on statistical shape analysis[c]//proc of ieee conference on advanced video and signal based surveillance.2005.?

[33]elbasi e,zuo long,mehrotra k, et-al. control charts approach for scenario recognition in video sequences[j].turk j elec engin,2005,13:303-310.?

[34]fujiyoshi h,lipton a j.real time human motion analysis by image? skeletonization[c]//proc of the 4th ieee workshop on applications of computer vision.1998:15-21.?

[35]veeraraghavan a,roy?chowdhury a k,chellappa r.matching shape sequences in video with applications in human movement analysis[j].ieee trans on pattern analysis and machine intelligence,2005,27(12):1896-1909.?

[36]chen h s,chen h t,chen yi?wen,?et al.?human action recognition using star skeleton[c]//proc of the 4th acm international workshop on video surveillance and sensor networks.2006.?

[37]wang liang,suter d.learning and matching of dynamic shape manifolds for human action recognition[j].ieee trans on image processing,2007,16(6):1646-1661.?

[38]ju s x,blacky m j,yacoobz y.cardboard people:a paramete rized model of articulated image motion[c]//proc of international conference on automatic face and gesture recognition.1996:38-44.?

[39]mittal a,zhao liang,davis l s.human body pose estimation using silhouette shape analysis[c]//proc of ieee conference on advanced video and signal based surveillance.2003:263-270.?

[40]correal p,czyz j,marquest, et-al. silhouette based probabilistic 2d human motion estimation for real?time applications[c]//proc of international ieee international conference on image proce ssing.2005.?

[41]popper,poel m.example based pose estimation in monocular images using compact fourier descriptors,trctit-05-49[r].enschede:university of twente, 2005.?

[42]mori g,malik j.recovering 3d human body configurations using shape contexts[j].ieee trans on pattern analysis and machine intelligence,2006,28(7):1052-1062.?

[43]cedrasc,shah m.motion based recognition:a survey[j].image and vision computing,1995,13(2):129-155.

[44]black m j,yacoob y,ju s x.recognizing human motion using parameterized models of optical flow[m]//motion based recognition.[s.l.]:kluwer academic publishers,1997:245-269.?

[45]yang m h,ahuja n.recognizing hand gesture using motion trajectories[c]//proc of ieee international conference on computer vision and image understanding.1999.?

[46]efros a,berg a,morig, et-al . recognizing actions at a distance[c]//proc of ieee international conference on computer vision.nice,france:[s.n.],2003.?

[47]zhu guang?yu,xu chang?sheng.action recognition in broadcast tennis video[c]//proc of the 18th international conference on pattern recognition.2006.?

[48]johanssong.visual perception of biological motion and a model for its analysis[j].perception and psychophysics,1973,14(2):201-211.?

[49]niu feng,abdelmottaleb m.view invariant human activity recognition based on shape and motion features[c]//proc of the 6th ieee international symposium on multimedia software engineering.2004.?

[50]wang liang,ning hua zhong,tan tie niu, et-al. fusion of static and dynamic body biometrics for gait recognition[j].ieee trans on circuits and systems for video technology,2004,14(2):149-158.?

[51]fantic,zwlnikmanorl,peronap.hybrid models for human motion recognition[c]//proc of ieee conference computer and pattern recognition.2005:1166-1173.?

[52]bobickaf,davisjw.the recognition of human movement using temporal templates[j].ieee trans on pattern analysis and machine intelligence,2001,23(3):257-267.?

[53]masoudo,papanikolopoulos n.a method for human action recognition[j].image and vision computing,2003,21:729-743.?

[54]cao dongwei,masoudot,boley d.on line motion classification using support vector machines[c]//proc of ieee international conference on robotics and automation.new orleans:[s.n.],2004.?

[55]laptev i,lindeberg t.local descriptors for spatio temporal recognition?[c]//proc of international workshop on spatial coherence for visual motion analysis.prague:[s.n.],2004.?

[56]doll’ar p,rabaud v,cottrell g, et-al. behavior recognition via sparse spatio?temporal features[c]//proc of the 2nd joint ieee international workshop on visual surveillance and performance eva luation of tracking and surveillance.2005.?

[57]blankm,gorelickl,shechtmane, et-al. actions as space time shapes[c]//proc of ieee international conference on computer vision.beijing:[s.n.],2005.?

[58]gavrila d,davis l.3d model?based tracking of human upper body movement: a multiview approach[ c]//proc of international symposium on computer vision.1995:253-258.?

[59]isardm,blakea.condensation-conditional density propagation for visual tracking[j].international journal of computer vision,1998,29(1):5-28.?

[60]deutscher j,blake a,reid i.articulated body motion capture by annealed particle filtering[c]//proc of ieee computer society conference on computer vision and pattern recognition.1998.?

[61]niyogi s,adelson e.analyzing and recognizing walking figures in xyt[c]//proc of computer vision and pattern recognition.1994:469-474.?

[62]loncarics.a survey of shape analysis techniques[j].pattern recognition,1998,32(8):983-1001.?

[63]drydeni l,mardia k v.statistical shape analysis[m].[s.l.]:wiley,1998.?

[64]dryen i.statistical shape analysis in high level vision[c]//proc of ima workshop on image analysis and high level vision.2000.?

[65]belongie s,malik j,puzicha j.shape matching and objects recognition using shape contexts[j].ieee trans on pattern analysis and machine intelligence,2002,24(4):509-522.?

[66]hu m k.visual pattern recognition by moment invariants[j].ieee trans on information theory,1962,8(2):179-187.?

[67]poppe r,poel parison of silhouette shape descriptors for example based human pose recovery[c]//proc of the 7th ieee international conference on automatic face and gesture recognition.southampton:[s.n.], 2006.?

[68]vaswani n,chowdhury a r,chellappa r.activity recognition using the dynamics of the configuration of interacting objects[c]//proc of ieee conference on computer vision and pattern recognition .2003.?

[69]liu che bin,ahuja n.a model for dynamic shape and its applications[c]//proc of ieee conference on computer vision and pattern recognition.2004.?

[70]park s,trivedi m m.a two stage multi view analysis framework for human activity and interactions[c]//proc of ieee workshop on motion and video computing.2007.?

[71]tyagi a,potamianos g,davis j w, et-al. fusion of multiple camera views for kernel based 3d tracking[c]//proc of ieee workshop on motion and video computing.2007.?

[72]zouba n,bremond f,thonnat m, et-al. multi?sensors analysis for everyday activity monitoring[c]//proc of the 4th international conference on sciences of electronic, technologies of information and telecommunications.2007.?

[73]bashirfi,khokhara a, schonfeldd.object trajectory based activity classification and recognition using hidden markov models [j].ieee trans on image processing,2007,16(7):1912-1919.?

[74]robertson n,reid i.a general method for human activity recognition in video[j].computer vision and image understanding,2006,104:232-248.?

[75]yacoob y,black m j.parameterized modeling and recognition of activities[j].computer vision and image understanding,1999,73(2):232-247.?

[76]carlsson s,sullivan j.action recognition by shape matching to key frames[c]//proc ofworkshop on models versus exemplars in computer vision.2001.?

[77]rabiner l,juang b.fundamentals of speech recognition[m].[s.l.]:prentice hall,1993.?

[78]murphy k p.an introduction to graphical models[r].2001.?

[79]stengel m.introduction to graphical models,hidden markov models and bayesian networks[eb/ol].(2003-02-07).http:puter vision and image understan ding,2001,81(3):398-413.?

[92]sminchisescuc,kanaujia a,li zhiguo, et-al. conditional models for contextual human motion recognition[c]//proc of the 10th ieee international conference on computer vision.2005.?

[93]brand m,kettnaker v.discovery and segmentation of activities in video[j].ieee trans on pattern analysis and machine intelligence,2000,22(8):844-851.?

[94]oliver n,horvitz e,garg a.layered representations for human activity recognition[c]//proc of the 4th ieee international conference on multimodal interfaces.2002:3-8.

[95]zhang dong,gaticaperez d,bengios, et-al. modeling individual and group actions in meetings with layered hmms[j].ieee trans on multimedia,2006,8(3):509-520.?

[96]murphyk.dynamicbayesiannet works:representation,inference and learning[d].berkeley:university of california,2002.?

[97]park s,aggarwal j k.recognition of two?person interactions ?using? a hierarchical bayesian network[c]//proc of acm sigmm international workshop on video surveillance.berkeley:[s.n.],2003:65-76.?

[98]du you tian,chen feng,xu wenli, et-al. interacting activity recognition using hierarchical durational state dynamic bayesian network[c]//proc of pacific rim conference on multimedia.2006:185-192.?

[99]moenneloccozn,bremondf,thonnat m.recurrent bayesian network for the recognition of human behaviours video[c]//proc of icvs. graz:ieee computer society press,2003:68-77.?

[100]gong shao gang,xiang tao.recognition of group activities using dynamic probabilistic networks[c]//proc of international conference on computer vision.2003:742-749.?

[101]luo ying,wu t d,hwang j n.object based analysis and interpretation of human motion in sports video sequences by dynamic bayesian networks[j].computer vision and image understanding,2003,92(2):196-216.?

[102]muncaster j,ma yun?qian.activity recognition using dynamic bayesian networks with automatic state selection[c]/proc of ieee workshop on motion and video computing.2007.

[103]buccolieri f,distante c,leone a.human posture recognition using active contours and radial basis function neural network[c]//proc of conference on advanced video and signal based surveillance.2005.?

[104]hong peng?yu,turk m,huang t s.gesture modeling and recognition using finite state machines[c]//proc of ieee conference on face and gesture recognition.2000.?

[105]badler n.temporal scene analysis:conceptual description of object movements,no.80[r].toronto:university of toronto,1975.?

[106]intille s,bobick a.representation and visual recognition of complex, multi?agent actions using belief networks,no.454[r].[s.l.]:mit,1998.?

[107]mori t,shimosaka m,sato t.svm?based human action recognition and its remarkable motion features discovery algorithm[c]//proc of international symposium on experimental robotics.2003.?

[108]laptev s i,caputo b.recognizing human actions: a local svm approach[c]//proc ofinternational conference on pattern recognition.2004.?

[109]zhu guang yu,xu chang sheng,gao wen, et-al. action recognition in broadcast tennis video using optical flow and support vector machine[c]//proc of eccv.2006.?

[110]cutler r,turk m.view?based interpretation of real time optical flow for gesture recognition[c]//proc of the 3rd international confe rence on face gesture recognition.1998.?

[111]kojima a,tamura t.natural language description of human activities from video images based on concept hierarchy actions[j].international journal of computer vision,2001,50:171?184.?

[112]hongengs,nevatia r.multi agent event recognition[c]//proc of international conference on computer vision.2001:84-91.?

[113]robertson n,reid i.behavior understanding in video: a combined method[c]//proc of the 10th ieee international conference on computer vision.2005:808-815.?

[114]pynadathd v,wellman m p.generalized queries on probabilistic context free grammars[j].ieee trans on pattern analysis and machine intelligence,1998,20(1):65-77.?

[115]ivanov y,bobick a.recognition of visual activities and interactions by stochastic parsing[j].ieee trans on pattern recognition and machine intelligence,2000,2(8):852-872.?

[116]ryoom s,aggarwal j k.recognition of composite human activities through context?free grammar based representation[c]//proc of ieee computer society conference on computer vision and pattern recognition.2006. ?

[117]pynadathdv,wellmanmp.probabilistic state dependent grammars for plan recognition[c]//proc of the 16th conference on uncertainty in artificial intelligence.san francisco, ca:[s.n.], 2000:507-514.?

[118]parks,aggarwal j k.event semantics in two?person interactions[c]//proc of international conference on pattern recognition.cambridge:[s.n.],2004.?

[119]nguyen n t,bui h h,venkateshs, et-al. recognising and monitoring high?level behaviours in complex spatial environments[c]//proc of ieee computer vision and pattern recognition canference.2003.?

[120]kambhamettuc,goldgofdb,terzopoulosd,et-al.nonrigid motion analysis[m]//handbook of prip:computer vision.orlando:academic press,1994.?

[121]ferryman j,borgm,thirded, et-al. automated scene understanding for airport aprons[c]//proc of the 18th australian joint conference on artificial intelligence.sidney:springerverlag,2005.?

[122]bird n d,masoud o,papanikolopoulosnp, et-al. detection of loitering individuals in public transportation areas[j].ieee trans on intelligent transportation systems,2005,6(2):167-177.?

[123]lusi jun,zhang jian,fengdd.detecting unattended packages through human activity recognition and object association[j].journal of the pattern recognition,2007,40(8):2173-2184. [124]ogalea s,karapurkar a,alomonos y.view?invariant modeling and recognition of human actions using grammars[c]//proc of international conference on computer vision.beijing:[s.n.],2005.?

[125]gaticaperezd,lathoudg,odobezjm, et-al. audio visual probabilistic tracking of multiple speakers in meetings[j]. ieee trans on audio, speech, and language processing,2007,15(2):601-616.?

[126]cristani m,bicegom,murinov.audio visual event recognition in surveillance video sequences[j].ieee trans on multime dia,2007,9(2):257-267.?

[127]li hong,greenspan m.multi scale gesture recognition from time varying contours[c]//proc of the 10th ieee international conference on computer vision.2005:236-243.