公务员期刊网 精选范文 地理信息系统基本概念范文

地理信息系统基本概念精选(九篇)

地理信息系统基本概念

第1篇:地理信息系统基本概念范文

【关键词】本体;语义检索;元数据

1.引言

随着互联网与信息技术的发展,信息化的越来越深入到工作与生活的各个层面,随之而来的是信息量的急剧膨胀。由于信息处理技术的发展,如何从海量的信息中高效快速、准确地检索到所需信息已经成为计算机领域研究的一个热点问题。信息检索就是从信息集合中找到用户所需信息的过程。在实践中,传统的基于关键词的检索方法主要通过把表征用户查询请求的关键词与表征信息内容的索引词进行严格机械匹配进行的。由于一义多词和一词多义现象的存在,缺乏语义理解能力,致使表示查询请求的关键词和用户的真实需求之间,关键词和索引词之间会存在多重表达差异,从而导致查询结果检准率低、误检率高。为此,本文将研究研究面向本体的智能信息检索技术,并以此为基础构建一个系统模型,通过建立本体库与元数据库来准确映射信息资源,实现了对查询条件进行了语义层面的处理,从而提高检索效率。

2.信息检索与本体

2.1 信息检索

信息检索Information Retrieval)这个术语产生于Calvin Mooers1948年在MIT的硕士论文。信息检索是指将信息按照一定的方式组织和存储起来,并针对用户的需求找出所需信息的过程,又称为“信息存储与检索”[1]。从广义上讲,信息检索包括存储过程和检索过程,对用户来说,往往仅指查找所需信息的检索过程。 信息的存储主要为对一定专业范围内的信息进行选择, 并在此基础上进行信息特征描述、加工并使其有序化,即建立数据库。检索是借助一定的设备与工具,采用―系列方法与策略从数据库中查找出所需信息。在现代信息技术环境下,信息检索从本质上讲,是指人们希望从一切信息系统中迅速、准确地查找到自己感兴趣的有用信息,而不论它的出现形式或媒体介质[2]。

伴随着Internet的广泛应用,网络上的资源呈现出海量、无序的特点,给传统基于关键词匹配的信息检索带来了局限性:对所需检索的目标不能准确描述;无法量化检索目标与候选者间的符合程度。为此,本文提出的基于本体的语义信息检索,利用本体描述语义检索模型中的语义信息,对信息资源进行准确的语义标注,实现语义层面的检索,从而有效提高查全率和查准率。

2.2 本体

2.2.1 本体基本概念

本体(Ontology)是指对世界上事物的基本描述其概念起源于哲学领域 它在哲学中的定义为对世界上客观存在物的系统地描述,即存在论,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质,后来随着计算机科学技术的发展,本体的概念被引入计算机工程。从本体的哲学内涵出发,结合计算机工程领域的特点,斯坦福大学知识系统实验室(KSL)的Gruber于1993年在概念化(conceptualization)这一重要的定义基础上提出了第一个广泛被接受的定义:本体是一个明确定义的概念化规范[3]。Gruber把本体解释成共享概念化的明确的形式化规范。共享体现了本体获取领域知识,能够被多个人和系统共同接受:概念化是一个的结构,D是领域、R是D上的集合和相应关系,是现实世界的抽象模型;形式化是指本体能够被机器理解和学习;明确则是要清晰地定义概念和概念之间的关系。1998年,Guarino修订了Gruber的定义,引入了统称为概念关系的内涵关系,将本体定义为“本体论是一个逻辑理论,用来说明一个正规词汇表的逻辑含义[4]。2001年,Zuniga折中了两种定义,提出信息系统本体论应该是“特定的形式化语言产生的清晰公理理论[5]。关于本体,在信息系统理论界还有很多代表性的定义,但总体来说,本体都是用于表示信息系统中隐含或不明确的信息,以便使知识的共享和复用成为可能。

2.2.2 本体的构建

构建本体时,根据各自问题域和具体工程的不同 形成了不同的构建方法。这些方法有TOVE法、METHODOLOGY方法、骨架法、KACTUS工程法、SENSUS法、IDEF5方法和七步法[6]。其中最具参考价值的方法是骨架法。构建本体的核心在于严格确定领域内的术语、属性、关系和规则等,确立术语间的语义网络,建立术语库和关系库,并用规范化、形式化的语言进行描述和存储,使计算机能够识别和处理[7]。其主要步骤是 确定构建本体的目的和范围;构建本体(分为本体获取、本体编码和本体重用本体评估);使用本体语言对本体进行描述。

目前用于构建本体的工具很多,比较常见的有Ontolingua、Ontosaurus、WebOnto、protege、OntoEdit等。其中Ontolingua和WebOnto均只支持在线编辑 而且必须是注册用户才可以使用Ontosaurus是一个可以对用Loom编写的知识库和本体进行浏览的Web浏览器,其文库中只有少量可以使用的本体,对初学用户不易使用;protege则是一个可以免费下载的、具有图形化用户界面的、可在本地运行的本体构建工具;OntoEdit也是一个在本地运行的免费程序 但必须注册后由网管人员给用户提供用户名和密码。在这5种工具中protege有它明显的优势,因而现在的本体构建大多都是使用protege来实现的[8]。

2.2.3 本体的描述语言

OWL(Web Ontology Language)是W3组织推荐的本体描述语言,基于XML、RDF和RDF Schema建立。OWL相对XML、RDF和RDF Schema拥有更多的机制来表达语义,从而超越了XML、RDF和RDF Schema。OWL是最新的Web本体语言标准。2002年7月,W3C组织公布了网络本体描述语言(Web

Ontology Language,OWL)的工作草案1.0版,2003年8月该工作草案发展成 W3C的候选建议,在2004年的2月10号,OWL成为W3C正式推荐的标准。

OWL 已经发展成公认的未来的Web本体语言标准。OWL增加了更多的词汇用于描述更多的语义特征:如类之间的关系;基数;相等关系;更丰富的属性类型;属性特征和枚举类。OWL提供了比XML、RDF和RDF模式更强大的功能,在它们的基础上增加了自己的带有形式语义的词汇[9]。

3.语义检索系统模型模型

3.1 基于本体的语义检索系统设计

本体系统模型主要分为三个模块:用户查询模块、本体管理模块、元数据管理模块,其系统结构如图1。

本系统模型的建立步骤的基本步骤可归纳如下:

(1)利用本体编辑器工具建立相关领域的本体。

(2)对收集的信息资源进行本体元数据标注:各种信息资源如PDF、Web网页等,根据已建立的领域本体实体进行元数据标注。使用RDF或OWL语言对信息资源进行语义层面表示和描述,然后将其按照一定的格式存储在元数据库中。

(3)根据用户检索界面提交的概念,在理解用户需求的基础上,语义检索引擎借助解析推理工具对用户请求进行概念分析和语义相关性推理,然后检索并对已进行本体元数据标注的信息资源库进行检索,最后将检索结果通过反馈给用户检索界面输出。

(4)设计用户检索界面:对用户的检索输入并进行概念提取,并将分析结果传递输出给语义检索引擎;在本体的帮助下匹配出符合条件的数据集合,把检索结果经过定制处理后返回给用户。

3.2 本体库的构建

一个本体可由概念、分类层次、关系、函数、公理和实例六种元素组成。本体中的概念是广义上的概念,除了可以是一般意义上的概念以外,也可以是任务、功能、行为、策略推理过程等等[10]本体中的这些概念通常构成一个分类层次本体中的关系表示概念之间的关联,这种关联表现了除分类层次关系之外的概念之间的所有联系 本体中的函数是一种特殊的关系 公理在许多领域中,表示函数之间或关联之间也存在着关联或约束 实例是指属于基本概念类的基本元素,即某概念类所指的具体实体,特定领域的所有实例。根据本体的形式化描述,构建领域本体库的步骤如图2所示。

本体的建立可以通过调用本体本体编辑器工具建立相关领域的本体,创建相应的本体类和属性。应用本体可看作领域本体在数据源上的映射,是将数据源中的异构数据转换成由OWL来描述的本体实例得到的,具体实现时,可以首先创建一个OWL文档,然后每取得一个元数据信息,就将其作为一个子结点插入到 OWL 文档中,并且插入元数据的属性信息。然后,通过本体解析工具,把应用本体存入到数据库中(比如MySQL)。另外,还可以将OWL描述的本体转化成RDF三元组,并存入RDF三元组库中。一个复杂的由OWL定义的类或属性可以表示成一个或多个相应的RDF三元组。

3.3 语义匹配与语义推理

构建了查询本体后,为了进行有效的语义推理,可以根据领域本体和应用本体所定义出的语义关系,并根据相关的存放在知识库中的语义规则集进行相似度匹配推理计算本体相似度的方法有很多,基本上都是以分别属于不同本体(查询本体和应用本体)的实体之间配对比较

来实现,常用的方法如下:

(1)根据聚类原理及空间向量夹角的余弦公式进行本体之间概念、属性等相似计算。

(2)从图论和树的角度来比较两个本体的异同,如WordNet[11]就是基于概念图的本体表示方法。

(3)根据数据库领域模式匹配的理论,基于字符串匹配或字符串之间的编辑距离来比较两个本体的异同。

(4)依据谓词逻辑及机器学习的理论进行本体的相似度匹配,如使用一阶谓词逻辑的描述逻辑进行匹配。

(5)根据语法和语义进行比较,如借助于类似于WordNet的词典进行同义词的判定,根据领域、需求及粒度的划分定义好本体之后,需要用本体相似度的匹配理论进行本体之间相似度的计算,主要考虑本体之间概念 属性及关系的相似度时,可以使用本体推理机辅助计算。语义推理模块接受上一步中标注的检索词,结合推理规则,利用推理机进行语义推理,查询本体库,同时利用推理引擎进行语义推理,得到检索词之间的语义关系,最终产生标准的查询语句用于进一步的信息查询。目前常用的推理机有Jena、Racer和Jess[12]。

3.4 元数据库

建立元数据,就是通过对各种非结构化得信息资源进行语义描述,使信息资源在语义理解上避免歧义、多义,使其具有规范性和可操作性。国际上应用广泛的元数据标准是都柏林元数据核心(Dublin Core Metadata)[13],而国内元数据标准有《DA/T46-2009 文书类电子文件元数据方案》。

建立元数据库的基本过程就是使用本体元数据标注,根据一定的规则和程序,对文档内容进行分析,然后给每篇文档赋予一定数量的内容标示,作为存储与检索的依据。为了便于检索,可以使用RDF或OWL语言对信息资源进行语义层面表示和描述,然后将其按一定的格式存储在元数据库(关系数据库、知识库等)中,从而建立了元数据库。

在本系统中,引入元数据机制,在概念层的下层形成元数据层。这样,概念层可以直接引入元数据模式作为特定概念类的属性集,也可以在某概念集中引入某个描述性元数据模式及其定义作为概念类。通过这种元数据引入机制,可以将特定应用的语义元数据集成到语义层次模型中。以设备资源为例,其设备资源信息包括名称、类型、所属企业、规格等元数据信息,可以根据设备类型将这些元数据分配到其所对应的概念节点下,作为此概念节点的一个资源实例。如果这个概念同时还与企业信息存在关联,那么也可以将其中相关的元数据作为其概念的数据实例。这样,元数据库中信息可以作为本体类的一个实例映射到上层的本体库中,从而使非结构化信息资源可以利用本体的语义方面的特性实现在语义层面的查询。

本文针对传统的基于关键字的信息检索中缺乏知识表示和语义处理能力的缺陷,提出了一个基于本体的语义检索系统模型。本体在智能信息检索系统中提供了必须的元语,该元语能够生成有效的查询与资源表述,使用语义标签对非结构化的信息进行描述,生成元数据,并且利用元数据库对为元数据进行统一存储管理,使检索系统可以使用语义层面的检索,并且利用语义推理机制,为终端用户的检索返回更有效的结果。总之,基于本体的语义Web信息检索技术可以使Web信息检索能更加个性化、人性化、智能化、多样化,在将来一定会得到进一步的应用和发展。

参考文献:

[1]李梅,王庆林.中文全文检索技术的研究及实现[J].情报学报,2003,22(1).10-17.

[2]孙建军,等.信息检索技术[M].北京:科学出版社,2004.

[3]TRGruber A transation approaeh to portable ontology speeifieations,Stanford University,TeehReP:Logic-92-1,1993.

[4]邓志鸿,唐世渭,张铭,杨冬青,陈捷.Ontology研究综述[J].北京大学学报,2002(9).730.

[5]李善平,等.本体论研究综述[J].计算机研究与发展,2004(7).

[6]杜文华.本体构建方法比较研究[J].情报方法,2005(10).24.

[7]Mariano Fernandez Lopez. Overview of methodologies for building Ontologies[C]. In Proceedings of the IJCAI-99 Workshop on Ontologies and Problem Solving Methods, 1999.

[8]杜文华,董慧本.本体建设工具比较研究[J].情报杂志,2005(02):5-7.

[9]OWL Web Ontology Language Overview.省略/TR/owl-features/.

[10]石静,肖航宇,熊前兴.基于SWRL规则与本体相似度的语义检索模型研究[J].计算机应用与软件,2010(7):236-273.

[11]WordNet 3.0 Reference Manual. wordnet.princeton.edu/wordnet/Documentation.

第2篇:地理信息系统基本概念范文

遍布全世界的主机和服务器,错综相联的超媒体资源,这是互联网为我们所构建的一个巨大而丰富的电子信息空间。它无疑是现代社会最重要的信息获取手段,但是它的开放性、分布性、无序性以及惊人的发展速度也为人们对信息资源的利用带来了困难。正如在大海中行驶的船只需要导航系统确定方位一样,要想在茫茫的信息海洋中有效获取有用信息,也必须拥有便捷有效的信息导航技术。一般来说,www网络中常用的信息导航方式有三种:一是利用门户网站的分类索引;二是利用网络搜索引擎;三是利用网站的相关链接。但是目前这三种信息导航方式的效果都不尽如人意。分类索引所覆盖的网络站点范围太小,更新较慢,难以适应网络的快速增长,而且分类标准的不统一和不规范常常影响到用户对站点所属的判断,造成导航失败。搜索引擎虽然是目前主要的网络信息检索工具,但是通过简单的逻辑运算检索到的结果往往是数量庞大且鱼目龙杂,充斥着大量的无用和重复信息。网站的相关链接是指符合当前网站内容主题的内部和外部信息资源的超链接,这种导航方式虽然简单直接,但是信息量非常有限,而且对外部信息的链接常常出现错链和假链,即使是内部信息,也常常因为组织和描述方式的影响,造成用户的“资源迷向”。

用户在信息空间中的“迷航”会使他们感到厌倦而丧失获取信息的信心,分析其原因,主要包括以下几个方面[1,2]:

(1)网络的巨大信息量使人们必须依赖于自动化的处理技术。但是目前因特网的各个网端的技术支持环境比较复杂,信息资源的内容范围、组织结构和存储方式各不相同,呈现出分散、无序、变幻多端的特点,这使自动信息处理技术的应用困难重重。因此要提高信息导航的效率和质量,必须先解决资源异构的问题。

(2)网络信息空间中的数据大多以半结构化和非结构化的形式存在,对信息资源的内容缺乏形式化的语义描述,而且大部分资源间的链接也没有反映语义关系,这使得机器很难对网络信息空间进行深层次的理解和处理,对信息的自动导航也无法像人工操作那样准确有效。

(3)目前的网络导航系统缺乏个性化的信息服务。由于知识背景的差异和一词多义等方面的原因,不同的网络用户之间、用户与系统设计者之间对于问题和信息内容可能会具有不同的理解与认识,当用户按照自己的思路查找信息时,他所选择的导航路径可能是错误的或者低效的。因此信息导航必须考虑具体用户的特殊性,有针对性地提供导航服务。

(4)网络导航系统的设计缺乏规范。门户网站各自依据不同的标准建立自身的分类导航系统,网站的划分随意性较大,常常引起用户的困惑。一些著名的信息搜索引擎也各自采用不同的检索规则,有些系统不能利用历史信息或者不提供二次检索,给用户的使用带来不便。另外,在网站内部的导航系统设计上,也存在着导航结构不合理,导航要素不完整,导航界面不统一等问题。这些都可能造成用户的导航障碍。

由此可见,造成信息“迷航”问题的主要原因在于缺乏信息空间的合理组织和有效的导航机制,这也是第二代web网络技术难以克服的困难。为此,人们正在研制第二代web网络——SemanticWeb,它以结构化信息表示为主,为网络导航研究开辟了新天地。

2SemanticWeb技术

TimBernersLee在1998年提出了SemanticWeb的概念。2001年2月,W3C组织正式推出SemanticWebActivity,使网络环境下的语义处理技术研究渐入佳境。SemanticWeb研究活动的目标是开发一系列可由计算机理解和处理的语义表示语言和技术,通过显式的语义表示和领域本体将网络信息空间编织成为一个巨大的机器可读的知识网络,以支持自动化的信息访问和知识管理,实现高质量的网络信息服务。目前关于SemanticWeb的研究主要集中在网络信息资源及其内容的语义和语义关系表征,基于语义的数据自动分析、理解和处理,不同应用领域和系统间的数据自动交换、转换和复用[3]。SemanticWeb虽然是现有web网络的延续,但在信息导航方面具有许多普通web没有的优势。SemanticWeb中的节点既可以代表物理页面,也可以代表知识实体;SemanticWeb中网页的内容不但可以被人理解,而且可以被机器理解;SemafiticWeb中的链接不再是任意的,而是遵循一定的语义关系。通过SemanticWeb技术,可以改变现有网络松散的数据结构,将信息资源结构化并赋予含义,使网络信息的整合和自动处理都变得更加容易[4]。

2.1本体

所谓本体(Ontology),实质上是描述特定应用领域知识的公认的术语集。关于奉体的定义,比较著名的观点是“本体是概念模型的一个显式的规格说明”和“本体是共享概念的一个形式化的规格说明”,其中,“概念模型(Conceptualization)”是指通过对某个客观现象的相关概念进行辨析和提取而获得的关于该现象的抽象摸型;“显式(Explicit)”是指对所使用的概念的类型,以及这些概念在应用上的约束都给予明确的说明;“形式化(Formal)”表示本体以计算机可读的形式存在;“共享(Share)”表示本体中反映的是共同认可的知识”[5]。

本体通常表达为一组对象(概念)、关系、函数、定理和实例。本体中的对象类按照等级关系组织成基本的结构体系。等级关系包括例化(is-a)关系、类属(kind-of)关系和整部关系(part-of)。上层的对象类为父类,下层的对象类为子类。对象类具有各自的属性,并可依据父子关系继承。对属性的取值对象、取值范围、取值基数等都可以加以限制,还可以对属性的交换性、对称性、传递性、唯一性等进行定义。除了等级关系,本体中的对象类间还可以具有其他语义关系,形成语义网络形式的概念模型。本体是机器自动推理和智能化高级信息服务的基础,对网络而言,一个简单的本体的典型例子就是网络的分类索引(如Yahoo!的分类目录)。本体的应用对于提高网络导航的精度和效率具有重要的意义[1,4)。

2.2RDF和RDFS

RDF是由W3C开发的元数据描述机制,其目的主要是为元数据在网络上的编码、交换和重用提供一个基础。它允许在XML的基础上以一种标准化的、互操作的方式对数据语义进行定义[4],提供了一个描述web资源的数据模型。RDF包含描述资源的属性和关系的声明。资源是任何用URl(UniformResourceIdentifier)唯一标识的实体对象。资源具有属性,属性则具有一定的值,该值可能是简单的字符串或数字,也可能是自身也具有属性的其他资源。这样,资源、资源属性和属性值构成了RDF声明中的三元关系模式,任何本体或描述性元数据都是这种三元关系模式的具体体现”[1,7]。

为了描述元数据元素间的复杂语义关系,W3C进一步定义了RDFS(RDFSchema)。它可以看成是一个本体定义语言,用来建立概念类体系结构、属性层次和类关系。

3基于SemanticWeb的智能导航机制

SemanticWeb的出现为网络信息导航提供了新的研究思路,SemanticWeb技术是解决无序网络空间中“迷航”问题的关键技术。基于SemanticWeb的智能导航是一种以结构化、语义化的概念知识网络为基础,自动形成个性化导航结构的方法。它分为两个方面,一是基于SemanticWeb的信息组织,即利用参考本体对各信息源进行语义描述和整合;二是基于SemanticWeb的个性化导航结构模型的构建,即在有序语义组织的基础上,构造用户语义模型,并据此建立导航结构。图1显示了基于SemanticWeb的智能导航机制的概念结构[8]。

3.1基于SemanticWeb的信息组织

基于SemanticWeb的信息组织的基本思想是,将来自于多个异构信息源中的数据整合到一个语义统一的参考本体中。参考本体是通过分析领域中的各个信息资源集合,提取公共概念、属性和关系而构建的本体,它为所有信息资源提供统一的概念集合和通用语义。

信息整合的方法是先分别将各个信息源中的数据转换为通用的数据模型,然后建立各个数据模型和参考本体之间的映射关系。网络中的信息源具有各种各样的数据格式,其中大部分是HTML页面,有的包含表格和列表。另外还有XML文档、RDF文档以及关系数据库文档等。为了解决分布式异构信息源的语法相异问题,需要将数据转换为公用的数据模型格式,例如RDF。对于非RDF格式的信息数据,可以利用外覆包(wrapper)技术将其自动地转换为基于RDF的数据模型。外覆包对特定格式的数据文档进行解析,并采用RDF声明对其内容进行标注。下面是三种常用的外覆包:

(1)HTML外覆包。由于HTML页面属于半结构化的信息数据,因此HTML外覆包采用的是半指导性的标注方法。即预先手工标注一组HTML页面,然后对新的HTML页面进行结构分析,将新页面与标注页面进行比较,从中提取相关信息。HTML外覆包还可以处理异构的XML文件[1]。

(2)XML外覆包。根据DTD和Schema所定义的XML文档的内容结构和内容元素,建立概念集与DTDSchema之间的映射关系,从而自动地将XML文献中的DTD内容元素标记转换为对应的概念集元数据标记。

(3)关系数据库外覆包。将关系数据库中的数据元素和二维数据关系映射到概念集中,形成语义基础,以便从关系数据库中自动创建RDF声明。

由于不同的信息提供者可能会使用不同的词表来标注数据,因此在建立通用数据模型后,还必须在信息数据源和参考本体之间建立概念和关系的映射,以消除语义差别。根据RDF声明,在参考本体中注册相关内容的来源,使参考本体成为一个知识内容的集成文件。另外,采用基于本体的元数据发现和漫游技术,探测相关的RDF声明,可以自动地添加新的信息资源[8]。

3.2基于SemanticWeb的个性化导航

通过建立参考本体以及进行信息整合,无序异构的网络信息数据通过语义概念及语义关系被组织到一起,形成一个有序的公共语义知识模型。但是对于具体网络用户的信息导航,并不直接在全部公共语义模型上进行,而是依据用户语义模型有针对性地进行。

3.2.1用户语义模型

用户语义模型是反映用户观点的概念集合和概念关系。概念集合的确定可以由用户直接提交或者根据用户的注册信息(用户的兴趣、爱好和知识背景等)按照一定的规则计算选择。而构建用户语义模型的关键步骤在于建立用户概念集合与参考本体间的语义映射,寻找参考本体中与用户相匹配的概念和关系。

为了将参考本体映射到用户语义模型,需要预先对参考奉体和用户概念集合进行数据训练,方法是为每个本体概念和用户概念各标注一定的相关资源作为训练数据,然后利用向量空间模型为每个概念生成向量,并计算其标准权重。

建立语义映射的过程通过计算用户概念集合中的概念向量uc与参考奉体中的每个概念向量间的匹配度来完成。假设在n维向量空间中,用户概念向量uc中第i项的权重为的匹配度为[9]:

首先将计算结果中匹配度高于阀值的若干概念向量与uc建立映射,形成从用户概念集合到参考本体的一对多的对应关系。如果参考本体的一些概念被重复映射,则需要选择其中匹配度最高的映射,以保证从参考本体到用户概念集合的一对一关系,即一个本体概念只能和一个用户概念相关,但一个用户概念可以和多个参考概念相关。在建立用户概念集合与参考奉体对应关系的同时,用户概念也继承了本体中的概念层次结构和其他语义关系,成为一个独立的语义模型。

原则上应该将参考本体中的所有概念都映射到用户语义模型中,但是由于用户语义模型是范围相对较小的概念集合,因此参考奉体中的概念实际上不可能被完全映射。为了保持映射的完整性,可以在用户语义模型中设立一个“其他”概念类,参考本体中的所有没有被映射的概念将成为它的子概念[9]。

举例来说,假设用户提供的信息表明其在体育领域感兴趣的概念为“足球”、“足球世界杯”、“足球亚洲杯”、“NBA”、“围棋”、“奥运会”,图2显示了这些用户相关概念经过映射后形成用户语义模型的过程。

用户概念集合中的每一个概念都在参考本体中找到了与之相对应的一个或多个概念,将这些概念从参考本体中提取出来,并根据其语义关系重新组合,就形成了用户语义模型的结构。例如:用户概念“NBA”的对应概念为“篮球”、“篮球赛事”和“美国篮球职业联赛(NBA)”,因此这三个概念都被包含在用户语义模型中,且它们之间的父子关系(即等级关系)保持不变。又如,虽然参考本体中的“其他赛事”概念和用户概念集合没有直接对应关系,但由于该概念和“足球赛事”与“篮球赛事”两个概念间有语义关系,且这两个概念均与用户相关,因此该概念也被包含在用户语义模型中。另外,“世界杯足球赛”概念实际上与“足球”和“足球世界杯”两个概念间都具有对应关系。但由于它与后者的匹配度比前者高,因此将它映射到后者。

3.2.2个性化导航结构模型

导航结构模型显示了导航系统组织、关联和显示信息内容的方式。站点地图就是一种最简单直接的导航结构模型。个性化导航结构模型是基于用户语义模型创建的针对特定用户的导航结构,是个性化导航服务的实现。

导航结构的设计需要考虑三个基本要素:卡片、页面和链接。一张卡片只包含一种类型的信息内容,是导航结构模型中的最小组成单元。页面与物理的web页面相对应,一个页面上可以包含若干个卡片。链接则用于连接各个页面中的卡片以形成整体结构[8]。通常,导航结构模型总是从一个缺省的根页面开始,每一级页面都包含了到下一级页面的链接,信息内容通过卡片和页面进行分类和聚合,导航通过链接来进行。在个性化的导航结构建模中,导航结构是根据用户语义模型来确定内容和链接关系的。图3显示了一个导航结构的部分示例,它是在图2中的用户语义模型的基础上建立的。

导航结构的建模过程就是对各级贞面中的卡片的内容、类型和表示样式的确定过程。卡片的内容根据触发点和用户语义模型来选择,不同的用户将获得不同的信息内容。

导航结构中的卡片被分为两种类型:静态卡片和动态卡片。静态卡片的内容独立于数据源,主要包含静态文本、图片等。导航结构中的根页面通常都包含静态卡片,具有预先定义的锚点,指向下一级的页面。动态卡片的内容视数据源而定,如果数据源改变,则卡片的内容必须重新计算生成。动态卡片还可以细分为四种类型,每一种都代表了对信息进行结构化的一种典型方法:

(1)列表型(List)卡片:显示实体的实例列表,每一条实例都可具有指向该实例具体内容的链接入口。列表中的实例可以按照某种属性排序或索引。图3中的页面P2、P3、P4、P5都包含了列表型卡片。

(2)事实型(Fact)卡片:详细地显示一个实例的具体内容,如图3中的页面P4包含的“新闻内容”卡片和页面P5包含的“赛事内容”卡片。

(3)幻灯片型(Slide)卡片:顺序显示一组实例的具体内容,每次一个实例,且具有浏览附近实例的超链接,待显示的实例可以按照某种属性排序或索引。图3中的页面P6包含该类型的卡片,其中每个足球俱乐部的相关信息将被依次显示。

(4)查询型(Query)卡片:要求用户先填写一组实体属性的值,然后查询符合该值的实例并显示,通常该类型的卡片用于导航系统中的信息检索,如图3中的页面P7包含的卡片[8]。

另外,不同的卡片具有不同的表示样式,表示样式描述各种表示元素的属性,例如字体、颜色、布局等。表示样式可以根据用户喜好确定。

个性化导航机制的导航方法采用用户语义模型的查找与语义链的触发相结合的方式。当导航结构中的一个链接被触发时,该链接将被赋予一个查询式Q(C,T,S),式中三个变量的含义分别代表卡片的内容、类型和表示样式,在用适当的值填充变量后,即可利用查询式计算生成链接末端的卡片。例如在图3中,当链接L1被触发后,L1的查询式为:Q(“体育”,List,Stylel),其计算结果为页面P2中的卡片。Q中的变量C的值为L1的触发端点的概念“体育”,Q在计算时将检索用户语义模型,获取此概念的相关概念或相关资源作为卡片的内容。Q中变量T的值为List,因此Q生成的卡片将具有列表型的信息结构。同时,由于Q中变量S的值为Stylel,因此Q还要读取样式表中名称为Stylel的表示样式,并据此决定卡片的外观。同理,链接L2的查询式为Q(“足球俱乐部”,Slide,Stylel),其结果是生成一个信息结构为幻灯片类型,表示样式为Stylel,内容与足球俱乐部相关的卡片”[11,12]。

导航机制采用SemanticWeb技术,揭示和整合网络信息资源的深层语义知识模型,能有效解决无序、异构网络信息空间中的“迷航”问题。它利用映射方法建立用户语义模型,可以充分表达用户需求的语义知识,以提高个性化导航的效率。

4结束语

网络信息的利用状况不容乐观,迫使人们努力探索更为先进更为成熟的导航理论、方法和技术。第二代web技术——SemanticWeb在信息服务中的应用,促进了网络导航新技术的发展。它作为导航系统的信息组织框架,能够使复杂的信息空间变得有序、清晰和直观,它采用机器可读的形式化的知识表示方式,有利于知识内容的自动获取。目前,SemanticWeb技术正获得越来越多的应用,相信经过不断地研究和优化,以SemanticWeb为基础的高级网络信息服务将逐步成熟,智能、高效、个性化的导航系统将成为开发网络信息资源的主流工具。

【参考文献】

1丛敬军,阎辉.数字图书馆的知识信息导航技术研究.中国图书馆学报,2003,29(145):51~53

2马瑞民,衣治安.Web上超文本数据导航方法的研究.情报学报,2001,20(5):538~544

3张晓林.SemanticWeb与基于语义的网络信息检索.情报学报,2002,21(4):413~420

4刘柏嵩.基于知识的语义网:概念、技术及挑战.中国图书馆学报,2003,29(144):18~21

5MikeUschold,MichaelGruninger.Ontologies:Principles,MethodsandApplications.KnowledgeEngineeringReview,1996,11(2):93~155

6JeffHeflinetal.Requirementsforawebontologylanguage./TR/webont-req/

7张平,郭金庚.语义网描述语言分析.电脑开发与应用,2003,16(4):31~33

8OntoWebberModel-DrivenOntology-BasedWebSiteManagement.www-db.stanford.edu/pub/gio/2001/Ontowebber01.pdf

9Ontology-BasedPersonalizedSearchandBrowsing.ittc.ku.edu/~sgauch/selectedpapera/WLAS2003.pdf

10毕强,刘早学.QUIC——一个智能超文本导航系统.情报学报,2002,20(12):1277~1281

第3篇:地理信息系统基本概念范文

关键词:和谐哲学;信息概念;功能不守恒;组合性爆炸;层次态 发展

“和谐哲学”是个新名词,和谐哲学是指用于分析、解释、指导建设和谐社会,构建和谐世界的理论体系。如,为什么通过和平、发展、合作的途径便能建成和谐世界?未来的和谐世界将会是怎样的世界?具体来说,由于当前世界并不和谐,目前全球最大的不和谐就是经济危机、地球环境危机与国际恐怖主义三大危机,人们将怎样克服这些“不和谐”。更具体的问题是:如何使全球经济平稳较快地发展;如何解决越来越庞大的失业大军队伍;如何在全球范围内消灭贫困,以消除恐怖主义;如何解决一系列地球环境问题,以达到天人和谐?等等。

以上这些问题如果单个来解决,几乎每一个都是天大的难题,故必须综合起来,上升到哲学的高度,这个哲学便可称之为“和谐哲学”。再用和谐哲学为指导,这些问题便得以迎刃而解。

构建和谐世界,是胡锦涛主席在信息时代的2006年才提出的时代最强音,那么和谐哲学必须是信息时代的哲学。但现有成熟的哲学都是 工业 时代的哲学,工业时代与信息时代是不同质的时代,工业时代的哲学用于指导信息时代犹如牛顿力学进入微观领域,便英雄无用武之地了。wwW.133229.coM故必须以 科学 发展观为指导,与时俱进地发展工业时代的哲学体系,方能构建和谐哲学。创建和谐哲学的体系,基本概念的突破是基础,是出发点。

一、基本概念的突破

从科学史和哲学史中可见,理论体系的重大突破需要以基本概念的突破为前提。如爱因斯坦突破了时空概念,得出了相对论;马克思发展了物质概念,建立了辩证唯物主义。那么创建和谐哲学需要突破的基本概念便是信息概念。

信息完全不同于物质。其最大的区别在于物质不生不灭,是守恒的,但信息却不守恒。信息可以无中生有、可以湮灭、可以放大缩小、可以畸变失真、可以无限扩散。这样,以信息为本源的科学技术也就可以无限扩散,可以学习、共享。但以物质为本源的各种工农业产品,由于物质是守恒的。故物质产品只能分享不能共享。一件物质产品,你拿去了,我就没有了。工业时代以生产物质产品为主,为争夺物质产品,剥削产生了。这时阶级斗争就不可避免,故工业时代的哲学只能是斗争哲学。

20世纪下半叶,高新技术蓬勃发展,科学技术和科学管理成为推动社会前进的两大车轮,人类社会开始进入信息时代。信息时代快速发展,还不到半个世纪,当前社会正向更高层次的知识社会跃进。在信息社会和知识社会,社会生产力基础发生了质变,从以物质生产为主向知识生产转变。从争夺物质产品,到共享知识产品,使人类社会从斗争向和谐转化。

我们的宇宙是一个特大系统,它是由无数个子系统构成的。各个子系统义是由更小的子系统构成。小到分子、原子、基本粒子都是一个系统。而构成系统的三基元是物质、能量、信息。这样,由于信息的加盟,使物质的概念发展到系统的概念:宇宙间万事万物都构成系统,而系统是由物质、能量、信息构成。

二、和谐哲学的三条基本规律

我们的世界为什么是现在这个样子的?宇宙大爆炸理论告诉我们,宇宙大爆炸伊始,宇宙间只有能量。这验证了古代思想家们的直觉。古希腊哲学家柏拉图提出“从一发散”;

第4篇:地理信息系统基本概念范文

关键词:信息检索技术;基于关系;ir

一、引言

在众多的文本信息处理技术中,ir技术是最常用,也是大规模文献数据挖掘技术中的重要部分。随着社会发展,ir几乎涉及到了每一个人的每一天,如使用web搜索引擎或查找邮件。ir技术在巨大需求下迅猛发展,压倒传统的数据库搜索方式,成为占统治地位的信息获取途径。

二、基于语义的ir技术

随着科学技术和通信技术的发展,人们开始重视符号背后代表的语义信息。现实世界中每一个事物总存在着基于广泛共识的本质的区别于其它事物的特征和属性,即一个事物的概念,用概念代表事物而不是用符号,可以避免通信或科研中由多词同义和一词多义带来的歧义问题,有利于人们对事物达成统一的认识。事物、概念和符号的联系和区别。

概念一般是公认的准确全面的描述,却不易使用,如果给每个概念一个唯一的id标识,则会带来极大的方便。基于语义的ir技术使用umls, wordnet等本体库作为语义的基础和标准,在语义层面上理解和处理查询或文本。例如,在一次信息检索过程中,用户输入的查询是:计算机(符号),可知他的查询本意是查找名叫“计算机”或“电脑”(符号)的“用来计算的仪器,尤指可进行高速数学或逻辑运算或汇编、存储、整理或处理信息的可编程的电子机器”(概念)对应的相关文本。如果上述概念有一个公认的唯一的概念id: 1234(概念与概念的id的对应关系一般由本体库收录),则用户输入“计算机”作为初始查询时,系统确定对应的概念id,并应用这个唯一id进行检索。

三、改进的基于关系的ir技术

传统的ir用词汇项表示文本,后来改进为基于语义的方法,用概念(concept)表示文本,近年来的基于关系的ir技术有了重大突破,考虑了概念间的关系,把ir技术提高到新的层次。但是这种被称为基于关系的ir技术不是真正意义上的“基于关系”,因为系统根本不能提取出“关系”本身。关系获取(capture)是极富挑战性的。事实上,我们所有的工作都是基于对关系(relationship)的以下认识:

1)关系分为固有关系或长久关系(intemal/permanent relationship)和临时关系(temporaryrelationship)。

2)ir领域的关系抽取有别于ie的关系抽取,由于二者的功能和目的不同,后者偏重于固有关系或者长久关系,在抽取出的实体的基础上,在脱离文本的情况下,通过一定的手段,如知识库或机器学习,获取实体间的关系,其中关系的类型可采用ace测评给出的预先定义。

3)在ltmls, wordnet中记录的一般为固有关系,不同于文本中出现的概念之间的直接关系(一般由动词表达),是经过专家论证过的确实存在的知识。umls中的关系是定义在语义类型上的关系(如:isa);wordnet中定义的关系是相对于词性的(例如名词存在反义、上下位、部分整体、属性关系)。

4)在文本中多数的概念对(指在一个句子中的两个概念)间的直接关系(指与概念在同一个句子中的关系)为临时关系,这类关系还未得到专家的验证,还未固化为长久或固有关系。ir主要用于发现和检索后这一种关系,固有关系可以作为有益的补充。

(一)基于关系的查询与文本的表示

(1)查询与文本的类型

1.查询具有多样性:

1)项查询(term query):这种查询方式还在普遍使用,其特点为多个(>=1)查询项(term) 组成一个查询,项之间可能会存在较强的关联。

2)问句查询(question query):问句查询是近年来应用的趋势,很多解释叙述型查询都可以转化为问句形式。

(2)查询与文本的三元组表示

1)概念的表示:鉴于基于关系的ir系统要在概念的基础上定义关系,所以应该支持对概念的表示格式,其中cui (unique identifier of concept)是概念的唯一识别码, tui(unique identifier of semantic type)是概念的语义类型的唯一识别码,str(string)记录文本中出现的字符串,attribute记录文本中概念的属性(不同于umls定义的attribute), location用来记录概念在文本语句中的偏移量,用以定位概念对(concept pair)之间的关系;是需要检索的未知(unknown)信息,未列出的概念和关系的参数取值为空。

2)关系的表示:其中关系是原子关系(atomic relation),即关系中无并列成分,是保证完整语义的最小单位;rcui(unique identifier of relation)是关系作为某种意义上的概念在wordnet中的唯一识别码,@rcui(unique identifier of relation'shypernymy)。

(二)关系的抽取与整合

1、抽取关系

首先,动词也存在同义词和近义词,但是对于名词的同义词和近义词,某些领域本体库已经给出了它们对应的概念及其编号(umls中记为cud,大大减少了多词同义、多词近义而词形不同带来的麻烦,但是这些本体库并不涉及动词;其次,有些其他词性的词,如某些特殊的名词代表某种动词的涵义。如果将此类情况忽略,一定会影响检索性能。但是,如果可以根据同义近义将关系归类编号,压缩为数量不多(umls中有50多个)的语义关系,就可以很好的解决上述问题,这也是处理体现关系的动词的最实用的方法。幸运的是wordnet提供了可以解决以上问题的机制,我们的系统就是将领域本体库umls和广泛本体库wordnet结合起来用于概念和关系的抽取。

2、表示关系

获取关系的工作完成后就要用适当的方式表示关系,关系表示的正确性和简便性直接影响了irir系统实现的复杂度,也关系到检索的性能。

(三)关系的整合

首先计算概念对的中心位置;关于概念配对,我们采用关于实体一实体关系生成的方法。概念对(concept pair)与关系列表(relation list)中第n个的关系组合形成三元组,即表明该关系与概念对在同一个句子中,并且距离概念对的中心位置最近。在得到triple三个分量的值以后,就可以应用不同的策略界定与triple对应的文字段(passage)的偏移量和长度了。文字段的界定策略有多种,本文使用的是以句子为最小单位组成文字段的策略,即文字段的起始(offset)是关系所在的句子的偏移量,文字段的长度(length)是该句的长度。

(四)相关判定一排序机制

相关判定一排序原则:1)匹配最佳优先原则:文本triple匹配上查询triple的分量越多排序在前:2)概念匹配优先原则:概念包含的专业信息更丰富,因此匹配时概念较多的文本triple排序在前,只有关系分量匹配上的不判定为相关;3)当topic处理为多个triple,每个triple按相同权重(=1)分别进行检索。

相关判定一排序(judginges ranking)方法将第k个文本triple比对第i个topic的第j个查询triple,根据匹配上的分量类型和数量打分,概念分量匹配上多的分值较高(=文本triple[k]分值*加权值0.4,文本triple分值即为该triple在语料库中出现的次数),关系分量匹配上的分值较低(-文本triple[k]分值*加权值0.2):对于查询triple中关系是多义的情况,首词义(a)或次词义匹配上时文本triple的排序计算公式(见算法2中式((1))的加权值((weight)分别为1和0.4,对于关系是单义的情况,排序计算同(a);合并处在同一文字段的不同triple,累加其排序权值(rankvalue),最后按分值高低提交triple对应的文字段(即triple表达式中的passage部分)。

第5篇:地理信息系统基本概念范文

关键词:领域本体;SSH架构;树木知识; 数字化校园

中图分类号:TP311.52 文献标识码:B 文章编号:1673-8454(2012)07-0052-03

一、引言

北京林业大学校园内植被充沛、树木种类繁多,一直是学校林学、园林等专业的实践场所和实习基地。然而由于缺少相关校园树木信息资源的支撑,老师和学生不得不在上课期间奔波于教室与校园各个角落之间,认知难以全面,学习效率较低。本文旨在在数字化校园中研究并建立一个北京林业大学校内树木知识系统,提供林业大学校内树木资源和知识的查询和共享,方便相关专业师生的教学实践活动,帮助提高学习和认知效果。

数字化校园是现代教育的理想和必然目标,而以教学应用为核心的应用系统和资源库是数字化校园的基础,是校园信息化建设的重要组成部分。本文提出的北京林业大学校内树木知识系统,底层以树木领域本体组织和存储林业大学校内树木知识体系,以实现信息资源共享;上层以Web主流技术架构SSH架设网站,以实现友好方便快捷的用户交互体验。该系统提供以目录树的形式展示树木知识的功能;提供按不同类别、地点准确搜素和按关键词模糊搜索植物信息的功能;提供系统管理员对校园树木信息进行管理的功能。

该系统具备多重的社会价值和较高的经济价值,系统后可以:

(1)方便校内林学、园林等相关专业师生的教学实践,提高教学效率和效果;

(2)在全校师生和社会范围共享绿色校园信息和知识,推广和发扬北京林业大学自身的学科和资源优势;

(3)辅佐学校绿化部门掌握校园内树木的生长分布情况,提高生产效率。

二、系统架构

1.树木知识本体的构建和存储

随着信息量的增大,专业领域的智能检索变得越来越重要,领域本体因为所具有的良好的概念层次结构和对逻辑推理的支持,因而在知识检索系统中得到了广泛应用。领域本体是某个领域内概念以及概念和概念之间语义关系的集合。本项目底层基于北京林业大学树木领域本体,在已有树木植物概念的基础上,分析概念之间的语义关系是树木知识本体的构建和存储的基础。设计合理的数据库模式是高效数据读取的关键。

2.业务需求分析和系统架构设计

基于本体的知识检索呈现, 是指通过一定的知识表示技术, 将领域知识按照一定方式, 清晰有序地在一个统一的界面上展示出来, 以供方便地查询与获取知识。

本知识系统中将知识检索分为概念浏览和概念搜索两种方式。概念浏览主要实现领域本体概念的分类导航。分类导航可对领域本体的分类知识树进行逐次浏览,实现方法为对存入数据库中本体的各项根据父子关系分层,展示时从数据库中读出各项的名字以及层次、父子关系,生成一棵可以展开、收缩的本体树,将复杂的领域知识清晰地展示在用户面前。概念检索主要包括分类检索和关键词检索。分类检索指在特定的范围内(根据特定的条件)搜索信息,可辅以搜索词。如在本项目里,可以选择门、纲、目、科、属、植物名、地点、花期、果期等植物属性作为搜索类别;关键词检索则是在知识库全范围内检索,系统可根据关键词在后台数据库的各个表里搜索。

系统架构严格遵守当前流行的MVC模式,分为表示层、业务逻辑层和数据持久层,如图1所示。

3.基于MVC的树木知识网站研发

MVC是所有面向对象程序设计语言都应该遵守的规范。一个应用分成3个基本部分:Model(模型)、View(视图)和Controller(控制器),这三个部分以最少的耦合协同工作,既分工明确又相互协作。首先由控制器接受用户的请求并调用某个模型来处理该请求,再将处理的结果交给某个视图,呈现给用户。

三、关键技术

1.知识本体库的存储设计

本系统采用垂直存储方案将领域本体映射到底层数据库中。将拥有相同谓语的三元组存储到同一张表中并将谓语列去掉,仅保留两列分别对应主语和宾语。如“纲的上级是门”,在纲表中,纲Id是主语,门Id是谓语;“植物分布在某个地点”,在植物分布表中,植物Id是主语,校内地点Id是谓语。这样,知识本体库中E-R概念结构可以设计成如图2所示。[1][2]

2.功能需求分析与设计

本项目可分为系统用户管理模块、植物相关信息管理模块、分类导航模块及检索模块。总体功能结构如图3所示。

(1)系统用户管理模块:方便地进行系统用户的管理,如系统用户后台登录,登录成功后浏览系统用户列表,新增、修改、删除系统用户信息。

(2)植物相关信息管理模块:可对门、纲、目、科、属、植物基本信息、植物名称、校内地点、植物分布、花期、果期进行浏览、新增、修改、删除操作。

(3)分类导航模块:前台首页分类导航区以目录树的形式展示给用户,用户可通过点击来控制目录树的伸缩,点击某一个节点时,所属该节点的相关植物会以列表形式在主页面上显示,单击某一植物列表,可浏览该植物的详细信息。

(4)检索模块:可分为分类检索和关键词检索。用户可选择将门、纲、目、科、属、植物名称、校内地点、植物分布、花期、果期中的任一项作为搜索范围,在搜索框内可辅以关键词,是一种比较精确的搜索。而关键词搜索则属于一种模糊搜索,根据用户的关键词在多个表中进行模糊匹配,因此将该检索称为“手气不错”。

3.基于SSH的系统架构实现

Java EE中的SSH(Struts+Spring+Hibernate)框架中的三种技术 “强强联手、各司其职、协调互补”,是大型Java Web应用程序开发的强有力的解决方案,是目前热门的主流组合技术架构。在系统实现中,严格遵守SSH框架的MVC模式,模型与持久层由Hibernate负责,JSP与Struts标签库则担当视图展示层,Struts2作为控制中心,负责实现控制层,Spring则负责是进行Bean实例资源的统一配置和管理。

以用户检索模块中的地点检索模块为例,基于SSH的系统架构实现如图4所示。

四、小结

以教学应用为核心的应用系统和资源库是数字化校园的基础,是校园信息化建设的重要组成部分。本文提出的北京林业大学校内树木知识系统,底层以树木领域本体组织和存储林业大学校内树木知识体系,以实现信息资源共享;上层以Web主流技术架构SSH架设网站,以实现友好方便快捷的用户交互体验,系统首页面如图5所示。本系统现已开始为北京林业大学师生提供服务(plant.bjfu.省略),获得了校内外使用者的一致肯定。

参考文献:

第6篇:地理信息系统基本概念范文

论文关键词:知识管理;本体;教育

知识管理在发展早期仅是基于数据库或文档管理的初级技术,但随着信息技术的发展,知识管理已经成为一个非常活跃的领域并拥有很广泛的发展前景。目前知识管理越来越多地被企事业用来提高技术和竞争等,但在知识经济时代,知识管理应紧紧和知识活动联系在一起,首当其冲的便是教育。

1研究背景

知识管理是指将可得到的各种信息转化为知识,并将知识与人联系起来的过程。它包括:1)对信息的管理,通过智能化的信息深加工实现信息的知识化增值、发现、组织、共享和使用;2)对人的管理,实现隐性知识的发现、组织、共享和使用。知识管理的基本活动包括对知识的识别、获取、开发、分解、使用和存储。当前知识管理中的问题是:如何把信息以统一的方式组织并避免对同一知识的不同描述影响理解和共享?如何提高计算机的查全率和查准率并利用有组织的信息获取知识?

引入本体与知识管理结合可以很好地解决这些问题。本体源自哲学的概念。Gruber给出目前非常流行的本体定义:本体是概念模型的明确的规范说明。本体提供了目标世界的公共词汇,为信息的描述和交换提供适当的数据结构。本体最大好处是明确了概念与概念之间的关系,因此在教育领域的知识管理中引入本体,使知识对象化,必定会给知识的集成和重用带来益处,而且可以使与之匹配的知识对象的关系和属性得到完整和清晰的描述,通过这些,用户可以获取更适合自己的知识。

2基于本体的教学知识管理系统框架

本体是构建知识管理系统的有效方式,对于具体的项目而涉及的工作包括概念定义和资源组织2个方面。每个概念的定义要包括它的含义、子概念、父概念、每个类的实例概念问的各种关联、概念与外部资源的关联。该框架分为知识收集及获取、知识检索和知识推理3个部分,具体关系如图1所示。

1)知识收集及获取。知识的收集及获取的首要任务是要将有用的信息资源结合进知识管理系统中,并与本体方法论相结合,将信息通过本体构建工具转化为用本体语言描述的知识,放入本体库中。此系统的目标用户有2类,一类是资源的使用者(学生或者教师),另一类是资源的加工者。收集和获取的信息资源是指对教学有帮助的课件、试题、音视频等资料,在本体中对教育资源分类遵循的是LOM元数据标准等。

2)知识检索。目前的应用系统中由于其数据库不是建立在能够表示概念之间的关系、事实和实例的领域模型的基础上,因此无法实现智能查询和信息推理。不同的组织和人员可能使用不同的词语表示同一个含义,因此查询系统对意义相同但用词不同的内容无法进行精确的检索,当对多个数据源进行查询时问题更明显。在基于本体的概念设计知识管理中由于具有统一的术语和概念,采用基于知识、语义上的检索匹配,在本体的帮助下从本体库中匹配出符合条件的数据集合,解决语义异构的问题,在教师和学生查询具体资源时能够减少对冗繁数据筛选的时间,也能够提高信息检索的精确性。

3)知识推理。推理使用推理机能够对初始本体进行处理,通过自定义规则或者内在规则,能获得原有本体隐含的没有直接定义的知识。推理机不仅能对本体语言内在的各种关系进行计算,而且支持自定义规则推理。自定义规则定义更加丰富,可以包括反映现实世界的某种传递或逆反关系等,实现对知识模型更灵活的操作。比如放入一个新的教学资源,推理机就能够对其进行推理,从而得知其具体所属类及定义。

第7篇:地理信息系统基本概念范文

关键词:数字地球 电子政务 信息共享 数据挖掘

一、数字地球及其相关概念

在目前这个高速信息化的进程中,信息技术正在深刻地改变着人类社会的方方面面。作为信息技术的基本要素,数据正如决堤之水,汹涌而来。然而相对于数据的迅速膨胀,人们利用数据的能力则十分局限。一方面是浩如烟海的数据不断扩张,另一方面则是决策信息的十分贫乏,造成这种结果的原因是数据整合共享的能力不足。数字地球就是针对这种情况提出的解决方案。数字地球这一概念由美国前副总统戈尔于1998年1月首先提出[1],旨在通过数字地球的宏观架构,将各种数据无缝集成到一个统一的整体框架中,实现信息的时空集成、立体表示和智能利用。陈述彭曾指出,数字地球的核心是用全盘数字化的信息获取、存储、传输与处理技术,去控制和操纵全球性的事务[2]。以此为发端,世界各国掀起了轰轰烈烈的数字地球建设热潮。数字地球计划不仅意味着信息化的巨大进步,同时也意味着信息时代面临新的国家安全战略挑战――数字地球必将对信息时代的全球战略格局带来深远的影响。面对这一挑战,必须认真研究数字地球,并积极参与到数字地球建设的实践中去。为此,我国相继提出了“数字中国”、“数字城市”、“数字流域”等的构想,为新形势下的信息化事业开创了一个全新的局面。

从数字地球的处理技术流程看,可以分为数据的获取、存储、传输和处理等环节;从数字地球的体系结构看,可分为数据层、应用层和服务层;从数字地球的实施步骤看,可分为数字城市、数字省、数字国家、数字区域和数字地球几个层级[3]。可见数字城市、数字中国是数字地球战略架构中的基础实施步骤。

二、电子政务与数字地球的关系

从戈尔对数字地球的描述中可以看到,地理空间信息(或称历史地理空间信息)构成了数字地球的时空骨架,而各种应用信息则构成其肌体。政务信息资源可以说是数字地球肌体中的神经网络体系,是其中最为精彩的应用信息。数字地球就是要将空间信息与其他各类信息实现无缝整合,实现各类信息的综合共享。只有实现了地理空间信息与其他各类应用信息的无缝整合和全面共享,才能让人们乘着“数字魔毯”自由飞翔,才能随时伸出“数字手指”获取任何想要的信息,并藉此驱动信息的运动。可以想象,借助“数字魔毯”和“数字手套”的帮助,政府首脑、各级领导和政府公务员实施政务决策和政务处理,是何等高效、准确和科学?因此,数字地球是电子政务的美好前景,而电子政务是数字地球的重要组成部分。

数字地球的数据模型是由基础数据与各种专题数据、领域应用数据组成的层次体系,政务数据可以认为处于这个层次体系的最顶层。在数字地球这个信息层次体系中,要实现各类信息的无缝整合和全面共享,既要实现水平层内的信息片整合,还要实现垂直方向的信息层间的整合。整合后,当这个数字地球的立体层次体系中的任一点触发了任一应用的活动时,则可根据活动目标随意调用需要的相关应用功能,敏捷地形成业务线,并迅速装配该业务线所需要的功能组件,调用各应用需要的各类数据资源,进行自组织有序的运算,将运算结果展现出来,构建虚拟可视场景,形成虚拟决策场景。政务处理实际上就是由一系列的决策构成的决策流,在数字地球所提供的虚拟场景中,决策流可转化为连续的虚拟决策场景的变换。这样的虚拟政务决策场景变换,使得政务决策过程实现了真正的数字化,而且可以最大限度地保证实时性。支撑虚拟政务决策的所有信息都来自后台复杂的信息监控、采集、集成、融合和处理等过程。这样的数字决策显然是最为科学的,同时也是最为高效实时的。

是各种社会活动的高级形态。以其他各类活动为依据,是一个处于社会运动形态顶层的人类综合决策运动。要综合应用各类活动的信息,力图使决策活动更加全面合理和高效。政务的信息表达形态即电子政务,在数字地球的总体框架中属于高端应用,它要以各类信息资源为支撑,是一个典型的复杂系统。由于政务信息资源是国家信息资源的核心部分,对于国家信息安全关系重大,因此,安全是首要的考虑因素。在数字城市、数字中国的战略中,信息安全体系是最为重要的保障性体系。政务信息资源的安全性要求,必须在数字城市、数字中国的整体框架中得到切实的解决。

三、电子政务信息共享面临的困难

信息整合和共享是实施数字地球计划的关键技术,也是目前世界各国研究的焦点问题之一。要实现信息共享,就要解决以下五个层次的问题:首先要解决数据之间的集成、融合问题;其次要解决应用间的互操作问题;第三要解决业务间的协同工作问题;第四要解决组织间的任务协调分配问题;最后要实现绩效评估标准的统一。对于各个层次,构建相应的标准体系,提供集成、融合、互操作、协同和协调的接口标准和实施机制标准,是行之有效的措施,因此,越来越多的研究集中在标准化体系开发领域。但是,随着研究的深入,人们发现概念及概念间关系的复杂性,是实现信息共享的关键障碍。任何事物,都必须抽象为概念,才能实现数字化。也就是说,现实世界中的事物,必须经过人脑抽象,与概念世界中的概念进行对应,才能转化为概念世界中的元素,而只有概念世界中的元素,才有机会在数字地球中出现。由于现实世界事物间的联系是普遍的,因此,概念之间的联系也是普遍,这种概念间联系的普遍性,可以用概念间关系网络来形象地表示。如果人们对现实世界事物与概念世界中概念元素间的对应关系理解不一致,那么概念所对应的元素与现实世界中的事物就会根本不同,就根本不可能在数字地球中做到信息的共享,最后将导致数字地球的虚妄性。因此,构建一个全球各行业各领域共用的概念网络,是数字地球研究的当务之急。

作为数字地球层次体系中的应用层要素,电子政务层既要实现同层内的信息共享,还要实现与其他层次间的信息共享。特别是由于政务处理本身就是综合决策过程,因此,信息共享显得尤为重要,而构建电子政务信息共享的概念网络体系就是电子政务研究的关键问题。这个概念网络体系叫做概念模型。

信息共享的难点在于概念的语义异构和语法异构。语法异构主要是因为不同信息团体对概念的使用方法不同所致,而语义异构是由于对客观事物本质的认识差异所致。因此,语义异构问题是影响信息共享更为根本性的问题。为了解决概念的语义异构和语法异构,研究人员尝试了各种方法,其中最具成效的莫过于本体论方法。电子政务信息共享可划分为数据模型、应用协同机制、职能边界确定、政务分类、绩效评估等层次。技术、规范和安全等标准体系是电子政务信息共享的关键支撑环境。不同层次应该具有相应的信息共享模型体系,这些模型体系相互之间具有一定关系,它们共同构成一个统一的电子政务信息共享模型体系。这个统一的电子政务信息共享模型体系首先要采用一套共享的概念体系来构建,即概念模型体系,用以支持电子政务的语义信息共享。在这个概念模型体系支持下,电子政务语法信息共享才可能正确实施。这个概念模型体系,用本体技术来构建,就是电子政务本体。由此可见,电子政务信息共享本体,即e-Gov Ontology,是电子政务信息共享研究的关键课题。有关本体的知识,受篇幅所限,这里不做详细介绍。

电子政务信息共享的目的是为了提供统一、高效的政务服务。服务是电子政务的核心理念,一站式服务是电子政务所追求的目标。一站式服务需要集成、整合和共享全社会所有的政务资源,需要最大限度地降低资源的冗余存储,需要保持政务资源的一致性,需要所有政务处理系统提供高效的互操作机制,而这些技术正是电子政务服务模型所需要面对和解决的关键问题。因此,在此将前述的电子政务信息共享模型更一般地称之为电子政务服务参考模型,电子政务的服务参考模型用本体技术来表达,就是电子政务服务本体。电子政务服务本体,是解决当前迫在眉睫的电子政务信息整合、共享和互操作的有效方案。

此外,数据必须经过优选、深加工才能成为有效信息;信息再经过科学的深加工过程,才能增值,升华成为知识经济的要素[2]。数据挖掘是“数字地球”战略至关重要的环节,也是最薄弱、最有发展潜力的环节。数据挖掘的目的是从浩如烟海的数据和信息中发现和突现知识,而知识才是决策支持的真正力量源泉。数据和信息必须经过知识化处理,才能真正被高效利用。由于电子政务本身就是一个决策过程流,数据挖掘对它来说具有非同寻常的意义。然而,数据挖掘长期以来一直是电子政务面临的巨大难题。其中一个重要因素,就是政务领域的知识模型问题。只有在科学合理的政务领域知识模型支持下,才有可能进行客观有效的政务数据信息挖掘。但是,由于政务领域的复杂性,其领域知识体系不仅涉及范围广大,而且充满了不确定因素。据此,可以推断,政务领域知识模型将是电子政务建设所面临的又一个巨大挑战。

四、基于3S的电子政务应用

遥感(Remote Sensing,RS)、地理信息系统(Geographic Information System,GIS)和全球定位系统(Global Positioning System,GPS)是实现数字地球的核心技术支撑,如果没有3S技术(上述RS技术、GIS技术和GPS技术的简称),数字地球就根本无从谈起。因此,从数字地球的视角来观察电子政务,我们首先就会想到基于3S的电子政务应用。陈述彭院士在《遥感应用与数字地球》一文中认为,数字地球是遥感应用功能的延伸,可将其分为五个步骤:数字化、信息化、知识化、再现、决策[4]。RS的主要作用就是获取数据,实现对地球观察的数字化;而信息化则是从海量数据中提取有效信息的过程;知识化是通过各种专业应用模型,从有效信息和数据中凝练出规律;再现是通过虚拟仿真,重建自然或社会的历史过程,延伸和预测未来发展趋势,提供可能的解决方案;最后一步是决策,则是指由决策部门、集体或个人审时度势,对多种方案做出取舍。政务过程集中表现为决策过程,它要以数据化、信息化、知识化和再现等步骤为前提和基础。GPS技术主要是提供地理定位支持,这对于基于位置的政务服务具有重要的支撑意义。GIS技术的作用就在于实现数据的信息化管理,并在领域知识模型的支持下,尽可能地从信息和数据中凝练出知识。此外,GIS也将承担决策场景虚拟再现的任务。由此可见,GIS技术对于数字地球框架中的电子政务的实施具有深远意义。

据统计,80%的信息资源是与地理要素有关的。因此,与地理要素有关的政务是电子政务的重要构成部分。自然资源管理、环境管理、城市建设、地籍管理、交通运输、国土安全等与地理要素直接相关的自不必说,即便是看起来与地理信息最无关紧要的办公自动化系统,也可以将GIS的图层方法引入,形成基于图层的公文批示解决方案。可以这样说,只有实现了基于3S等技术支持的电子政务,才可以认为是真正的电子政务。换句话说,只有在数字地球的框架中实施的电子政务,才可称之为真正的电子政务。而GIS等技术也只有作为普通工具应用于包括电子政务的各类专业应用系统中,才可以焕发出新的生机。

五、结束语

数字地球的体系结构是一个多层次系统,其中的数据层和应用层也是一个多层次体系。电子政务信息资源处于数据层次体系的顶层,而电子政务应用也处于数字地球应用层次体系的顶层。电子政务是数字地球框架中的高端应用系统,也是数字地球的重要服务目标之一。在数字地球框架中的电子政务才真正体现了信息社会中的政务决策形式,这一认识思路也许会对健康、有序、正确地推进社会信息化建设向纵深发展起到一点积极作用。

参考文献:

Gore A L.The Digital Earth:Understanding our planet in the 21st Century[R].California,1998

陈述彭.“数字地球”战略及其制高点[J].遥感学报,1999,3(4):247-253

李琦,杨超伟.“数字地球”的体系结构[J].遥感学报,1999,3(4):254-258

陈述彭.遥感应用与数字地球[EB/OL].[2007-05-22].nrscc.省略/mj/mj2.asp?num=706

作者简介:

李海军,男,北京大学遥感与地理信息系统研究所博士生,主要研究方向为电子政务与数字城市。

第8篇:地理信息系统基本概念范文

[关键词] 会计电算化;会计信息化;会计信息化理论;会计信息系统;会计信息系统原理

会计信息化事业的蓬勃发展,造成了百家争鸣的大好局面。但是在从会计电算化到会计信息化的发展过程中,产生了许多不同的术语,除了会计电算化、会计信息化之外,还有电算化会计、会计计算机化、计算机在会计中的应用、计算机会计、会计信息系统等。这在会计界和信息技术界引起了一定程度上的概念混乱,产生了规范并统一这些概念的需要。

一、若干会计信息化的名词与其概念简介

在会计信息化的发展过程中曾经出现过以下名词概念:

1. “会计电算化”,这个词是1982年8月在长春召开的 “财务、会计、成本应用电子计算机专题讨论会”上提出的,是指以电子计算机为核心的信息技术应用到会计实务中的简称,是用电子计算机代替人工记账、算账、报账,以及替代部分由人脑完成的对会计信息的分析和判断的过程。

2. “电算化会计”是对会计工作中全面应用电子计算机技术的界定,是研究以电子计算机技术为工具处理会计工作的方法和规律的。从会计电算化到电算会计的概念转化,反映了传统会计与现代科学理论和科学技术相结合的程度,代表了对会计电算化理论和实务发展的认识。使用电算会计的概念,还表达了需要建立电算会计理论体系的设想。

3. 计算机技术界开始直接称其为“计算机在会计中的应用”,由此出现了“计算机会计”或“计算机化会计”等名词。

4. 比照“管理信息系统”的概念,产生了“会计信息系统”的名词。

5. 近年来比照管理信息化、经济信息化等,又提出了“会计信息化”名词的概

念。

6. 在上述情况下,许多学者提出了建立相应理论的设想。如,会计电算化理论、电算会计学、计算机会计学、会计信息化理论等。

名词之多,令人眼花缭乱,实在有规范并统一的必要。

二、对会计信息化的若干名词概念的分析

在会计信息化的发展过程中曾经出现过的名词概念,可以作以下分析:

1. “会计电算化”是参照机械化、自动化等概念产生的名词,存在着一些局限性。会计电算的“化”字的涵义反映是一种发展与演化的进程与过程,不具有精确的意义,不能说明“化”到何种程度为尽头,缺少一种具体的衡量标准。其特征是注意模拟手工会计处理过程,满足企业内部的需求,忽视信息技术对会计理论的反作用与影响,不能突破传统会计思想,促进会计学科的发展。

2. “会计信息系统”是用会计理论、会计实务为指导思想,用计算机和通讯技术及其所构架的网络为物质基础,以计算机程序软件和数据库为工具的信息技术,以经济活动联系中产生的经济信息为资源,进行会计加工处理的一种经济信息系统(相似的有统计信息系统)。

3. “会计信息系统理论”,受到管理信息系统理论的影响,一般地认为它是应用会计理论,在计算机和通讯技术及其所构架的网络的物质基础上,使用计算机程序软件和数据库为工具的开发信息系统的技术理论。

4. “会计信息化”是相对于“会计电算化”所产生的概念,是由于企业经营与管理信息化、国家经济管理信息化等造成的理念创新。在信息化浪潮的推动下,企业经营、企业管理、生产管理和经济管理等领域,无不在创新中革新,推动这些领域的传统理念在产生变化。它们不再单纯地模仿传统的方式,而要在信息技术支持下突破传统的理念与方式,并改造传统理念与方式,创造适应信息技术下的方式。这些革新也推动了会计界的观念的改革。于是,会计信息系统的开发理念也从会计电算化发展到了会计信息化。初步看来,相对于会计电算化,会计信息化理念有以下发展与创新:

(1)信息处理的物质支撑条件发生了变化,从单纯的计算机技术发展到了以计算机与通讯技术及其构成的网络,作为信息处理的物质基础。

(2)信息处理的软件技术条件发生了变化。第一,从单机或局域网的操作系统发展到局域网和远程网结合的企业网(Intranet),创造了全球共享信息的条件;第二,开发工具从程序设计语言发展到浏览器等,丰富了软件的开发手段;第三,数据管理从数据文件管理发展到了数据库管理系统,以至数据仓库管理。这些信息处理技术为会计信息的处理提供了前所未有的优异条件,将支持会计信息系统的新发展。

(3)在这种条件的支持下,特别是经济管理各个领域信息化革新理念的影响下,会计信息系统的开发不再是简单模仿手工会计程序处理会计事务,而是强调对会计理论和实务的再创造,密切结合信息化能力条件给予会计信息处理的支持。

(4)会计信息系统从封闭走向了开放。企业内外可能并可以共享的会计信息。

(5)信息时代的知识经济对会计信息提出了新的需求,以及会计实践与理论面临的种种挑战,促使会计理论的新思考,产生了推动会计信息化理论创新的动力。因此可以说,会计信息化的本质是会计与网络化信息技术交叉、综合和融合的发展过程。但是,会计信息化之概念与会计电算化的“化”字基本涵义相同,反映的是一种发展与演化的进程与过程。

5. 会计信息化理论明显的是在会计信息化概念基础上的一种顺理成章的提法。但是这种概念却有了新鲜的意义。简单地说,会计信息化理论,应该是研究以电子计算机技术和通讯技术及其信息技术为基础的,会计信息系统处理会计事物的功能、方法和规律的科学。理论地和系统地说,会计信息化理论是会计理论与以现代“三论”(信息论、控制论、系统论)和新三论(指突变理论、协同学、耗散结构论)等为基础,与以计算机为核心的网络化信息处理技术相结合的产物,同时受到经济学和管理学、经营学为基础的经济管理学、法律等约束与影响,是一门实践性、交叉性和综合性很强的边缘性科学技术。

而且,在当前的特定阶段,研究会计信息化的发展与演化的进程,也有其特定的需要。

三、规范会计信息化的若干名词概念的设想

综合以上分析,笔者对于规范会计信息化的名词概念,有如下的考虑:

1. 虽然目前“信息化”之词颇为流行,但是其“化”字如前所述的模糊性,所造成的缺乏严谨性,(下转13页)(上接23页)使得“会计信息化”不宜作为规范性术语。

2. “会计信息系统”之词既与手工条件下的会计概念相同,又体现了在现代信息技术环境下的会计,只要适当区别,作为规范性术语是比较妥当的。

3. 如前分析的,“会计信息化理论”之词是可取的。

4. “会计信息系统理论”作为一种开发信息系统的技术理论,有其存在的必要性。

但是,这种思想观念存在一定问题。其不仅影响所开发的信息系统功能与效率,而且不能解决相应开发领域所面临的问题,不能充分发挥信息技术优异功能所能产生的优势,特别是不能利用信息技术这种先进工具推动相应开发领域的革新与创新发展。在当前优异的网络信息技术支持下,会计信息系统不能克服信息失真的难题,不能极大地降低信息不对称的问题,就是明显的例证。由此,笔者提出另一个名词概念。

第9篇:地理信息系统基本概念范文

[关键词]数字图书馆 知识组织系统 领域本体

[分类号]G250.76

1 引言

数字图书馆(DL)是信息环境网络化、数字化、知识化的产物,是国家信息基础设施的核心。数字图书馆把知识作为工作对象,并且关注知识的应用环境和应用群体,因此,知识组织系统的构建在数字图书馆建设中始终发挥着核心的作用。

从广义理解,数字图书馆知识组织应包括数字资源的知识组织系统的构建、语义自丰富、语义互联、互操作、术语服务等。

近年来,在我国图书情报界,本体研究成为了数字图书馆知识组织系统构建的一个热点研究领域。目前为解决数字图书馆知识组织系统语义丰富度问题,本体构建与复用、本体整合、语义分析与抽取、语义标注以及语义互联应用成为学界研究的热点和建设的重点(见图1)。

2 研究现状与热点

2.1本体建模与复用研究

本体建模方法的研究对于本体的应用有至关重要的作用。数字图书馆知识组织系统的构建有赖于本体的开发与完善,本体的开发和完善是一个反复叠加的过程,不会一蹴而就。目前国内外学者试图从本体建模方法和开源本体的复用两个方面进行突破。

目前本体建模的研究已经进入实际应用阶段。许多研究领域都建立了自己标准的本体,但由于领域本体建设还没有成熟的方法论作为指导,目前提出的本体建模方法都是面向特定领域或针对具体的项目,而且都不是经权威标准化机构认证的方法,这就导致各种本体建模方法的出现。如骨架法、企业建模法、循环获取法和IDEF-5方法等。

本体复用已成为重要的课题,越来越多的应用利用本体表示语义信息,因而如何支持本体复用变得愈加重要。本体复用主要有三种:①简单地把整个源本体导入目标本体Wppl,且仅用其中部分规则,而直接忽略其余规则;②仅“复制+粘贴”源本体规则的某子集到目标本体Wppl为导人规则的子集;③把源本体分解成不同的模块,根据相关标准,仅导入需要的模块。相比而言,第3种方法是最有发展前景的方法,目前的困难在于本体的模块化还不很成熟,只提供了本体类的理论和算法。

W3C标准定义的OWL本体语言由一系列规则组成,包括类规则、属性规则和实例规则。在如下导入相似性标注的帮助下,OWL本体可以导入其他的OWL本体:

Annotation(ireports)

Annotation(imports)

导入标注含有把两个源本体导入目标本体的规则。把本体概念加以扩充,可以实现从源本体的类、属性和实例的语义导入。本体复用需要评价已有本体与目标本体之间的关联性。共享和复用是本体的本质要求,也是领域本体建设中很重要的问题。

2.2本体整合

本体整合是本体的语义和解释范畴的问题。本体整合最初由SWAP(Semantic Web and Peer to peer)项目和SEKT(Semantically Enabled Knowledge Technolo―gies)提出,利用本体整合处理本体异质(ontology heterogeneity)。Paolo Bouquet等人给出了本体异质的详细分析,指出在分布式和开放式系统中本体异质是不可避免的,并根据本体异质产生的原因将其划分为4个层次:表示层、术语层、概念层和语义层。Paolo Bouquet等人还认为:表示层的异质可以通过翻译成统一的本体表示语言来解决;术语层的异质通过词汇映射来解决;概念层异质的解决需要通过对整个本体进行考虑,查找不一致,进行映射或合并;语义层的异质可能存在着表示层、术语层、概念层异质,还可能存在语义关系上异质,目前还没有很好的解决方法。

本体映射是本体整合的一个关键环节,它通过一定的方法在已存在的不同本体间建立映射,以便在已存在的和新的领域之间进行交流时有通用的接口和共同的理解。在现实应用中,领域本体规模都很庞大,利用手工方式,进行本体概念比对完成本体映射时繁琐且易错,因此是不可行的。目前国内外研究者对自动化本体映射的方法和技术进行了深入研究,其主要特性如表1所示:

从图1可知:①映射方法上:大多数的本体映射方法是采用一对一集成,而一对多或者多对多的方法比较少,基本没有多对多的本体集成工具出现;②自动化程度上:本体映射无法实现自动化的本体映射,多是半自动化的;③计算方法上:比较单一(除了OntoMap之外);④映射性能上:受到本体构建技术影响比较大。本体映射目前只能够解决术语层和概念层的异质,还无法涉及到语义层的异质,如何解决语义层的异质是当前研究需要重点考虑的问题。

2.3语义分析与抽取

数字图书馆知识组织系统的构建不仅是多种语义工具的互操作和集成,而且还应实现这些语义工具的机器可处理和机器可理解。

国内外学者对自然语言理解展开了深入研究。国外的语言学家、计算机学家、心理学家和逻辑学家在语法、句法、词法、语义分析等方面提出了一系列理论及方法。这些理论和方法大致可归为三大类:基于语法的分析法、基于语法与语义相结合的分析法和基于语义的分析法。国内在理论研究方面尚不深入,但在汉语电子词典、机器翻译、汉语机读语料库、汉语人机对话、汉语情报检索等应用研究领域也有重大突破。

自然语言理解有赖于自然语言处理,自然语言处理的基础是分词技术。因为:一方面,词是自然语言的基本单元;另一方面,计算机以机器词典的形式存储大部分自然语言知识,机器词典中收录了词条的词法、句法和语义知识,并在词类知识基础上编制句法规则。因此,自然语言处理系统必须对“词”进行识别和处理,才能理解和使用知识。

另外,由于汉语与其他语种不同,更需要自动分词,国内的许多机构和学者对此展开了研究。梁南元定义了两种基本的切分歧义类型,而黄昌宁、刘宾、殷建平、文庭孝、尹锋、丁丰、刘开瑛等学者都进行了分词方法的研究和自动分词系统的研究,可以归纳为基于词典的分词方法、基于统计的分词方法、基于理解的分词方法和基于人工智能的分词方法。这些分词方法各有其特点,分别代表着不同的发展方向。其中,基于人工智能的分词方法是目前理论上最为理想的分词方法,但是该类分词方法的研究还处于初级阶段,并且由于汉语自然语言复杂灵活,知识表示困难,所以对于这类分词技术还需要进行更深入和全面的研究。自动分词系统研究成果主要有清华大学SEG分词系统、复旦分词系统、北京大学计算机研究分词系

统和中国科学院ICTCLAS系统。另外,国内学者开始重视语义和知识表示,并有意识地区别于英语自然语言理解的研究模式,寻找适合汉语自身的方法。黄曾阳的概念层次网络(HNC,Hierar―chical Network of Concepts)理论和董振东的知网(How―Net)、东北大学和北京大学对WordNet的汉化等,都在努力探讨适用于自然语言处理的新方法。

2.4语义标注

语义标注(semantic annotation)又称本体标注,即利用本体中定义概念、术语以及语义关系显式地揭示和描述数据资源的语义。语义标注面临两大类任务:一是如何将当前不计其数的普通万维网页面转换为富含语义信息的语义页面,这方面的研究主要集中在语义标引工具和语义标引平台开发;二是如何语义页面,其核心就是分类标引,它要求信息者在网络信息时要尽量使用本体中定义的关系词汇,同时还要显式地表达出概念所归属的语义类别,这一任务也不可能依靠手工的方式完成。因此两大任务都转向本体标注流程和本体自动标注工具。研究者对本体标注工具和语义标引平台进行了深入研究,其中,语义标引平台为IE的实施、本体和知识的管理、APIs入口、存储(RDF仓库)及编辑本体和知识基础的用户接口提供了支持。现有的语义标引平台按照标引方法的使用类型,大体上分为三类:①基于模式的标引;②基于机器学习方面的标引;③基于两种方法融合的标引。目前语义标引平台技术并不成熟,还不能完全满足语义互联的需要,究其原因主要是:①目前大部分标引平台是手动和半自动化的;②学习能力不是很强,不能通过自身的不断学习以适应不同状态下的标引和检索的需要;③可扩展性不够强,不能完全无障碍地与用户进行交流,以完善自身的知识库;④平台需要统一各个用户之间的标引方式和提供的本体,以提高标引精度。

2.5语义互联应用

2.5.1知识可视化知识可视化(knowledge visualiza―tion)是在科学计算可视化、数据可视化、信息可视化基础上发展起来的新兴研究领域,于2004年由Eppler和Burkard率先提出。它是指应用视觉表征手段促进群体知识的传播与创新,包括所有可以用来建构和传达复杂知识的图解手段。现阶段,知识可视化的研究主要为两个方向:

研究知识可视化的表现形式,包括知识可视化的基础理论、知识的可视化表现图的类型、适用范围和效果。如武汉大学信息管理专业学者对此做了一系列研究,出版了《信息可视化与知识检索》,从信息检索结果提供、多媒体信息可视化方面进行了综述性的研究。

可视化的实现,包括知识可视化的形式化模型和算法以及该理论模型和算法的实现系统软件。比如对于思维导图(mind map)现阶段国外已经有Mind Map Manager、Free Mind Map等应用软件。这个方向国内研究的主力军是北京师范大学知识工程研究中心,该中心开发了中文概念图软件易思一认知助手(EasyThinking―Cognitive Assistant)软件,2007年1月7日已3.0版,将概念图、思维导图和一般图合而为一。

从国外知识可视化实践进展来看,澳大利亚的纽卡斯尔大学和皇家墨尔本大学的Bilal Succar进行了信息可视化模型构建的研究,在研究中设计了可视化知识模型和研究中所涉及领域的本体。欧洲学者对本体的可视化进行研究,认为信息可视化为本体校准结果的评价提供了合适的方法。不同层次的细节和概论帮助用户导航并理解校准,用户对半结构化资源的评价涉及到学习活动。马来西亚普渡大学的学者设计了自动语义抽取系统(AME),可视化界面是该系统中的一部分,在设计可视化界面时他们发现用户可以通过对概念网络结果的可视化来将AME系统的利用扩展到最大化。用户可以搜索一个概念,并察看这个概念与其他概念之间的关系。这些关系可以通过“显示文本”功能被追溯到原始文件中的来源句子。

2.5.2语义检索20世纪80年代国际信息检索大会SIGIR会议论文中就出现了对语义检索的讨论,但语义检索研究始终受到语义信息处理发展水平的制约。上世纪末以来,随着自然语言处理、人工智能的发展,尤其是语义网技术的兴起与发展,语义检索研究得以迅速发展。尽管到目前为止对语义检索在概念上仍没有统一的界定,但不同的研究却有着共同之处,就是基于对信息资源的语义处理实现效率更高的检索。目前语义检索有两种,即基于概念的语义检索和基于本体的语义检索。前者是根据概念词典和关系数据库构建概念空间实现语义检索,具有一定的语义处理能力和自然语言接口,但其概念库中不包含概念间关系的描述,因此无法处理有关概念的问题;而后者是基于本体构建概念空间,将本体融合到传统信息检索技术中,不仅可以继承概念信息检索的优点,还可以克服概念信息检索不能对概念关系进行处理的局限。

2.5.3语义互操作数字图书馆知识组织系统互操作主要解决两个问题:多语言和异构。跨语言的互操作问题在美国和欧洲很受重视,美国数字图书馆先导研究计划(Digital Library Initiative)中有许多是着眼于解决语义问题的,例如伊利诺斯(Illinois)大学主持的项目中关于概念空间与分类地图的研究,伯克利(Berkeley)大学主持的项目中关于文字歧义消除的研究,卡内基・梅隆(Carnegie Mellon)大学主持的项目中对于语音识别的研究以及加州大学圣塔巴巴拉分校关于图像的分割与聚类的研究,主要集中于人工智能、统计规律识别技术等,都属于语义研究或语义互操作范畴。欧洲相关的研究项目有MACS、Merimee、Renardus等,甚至尝试自动建立中、英文词表之间的映射。我国也有一些关于双语数字图书馆知识组织系统互操作的研究,如《汉语主题词表》与《美国国会图书馆标题表》(LCSH)、本体之间的转换研究、《中国图书馆图书分类法》与杜威十进制分类法(DDC)类目设置的比较、与DDC对照系统的研制等。

异构数字图书馆系统间的互操作的目标是实现不同系统间知识交换、共享与重用。这方面需要解决的问题是:①不同本体之间的互操作。本体虽然为DL的语义互操作提供了解决方案,但其本身也存在着异构性,因此不同本体之间的互操作也是DL互操作的一个重要方面。②跨语言、跨文化的互操作。未来的DL将是联邦数字图书馆。建立全球范围的DL联邦,需要解决跨语言、跨文化的互操作问题,其中包括比较复杂的语言翻译问题。③DL的发现与安全性。实现全球范围内DL的互操作,需要解决DL的命名和动态发现。随着DL逐步走向实用化,必须考虑DL互操作的安全问题。

要实现这一目标,必须在描述、检索、对象交换与检索协议等方面取得突破性的进展。需要解决的问题包括元数据的定义和通过文本或多媒体数字对象抽取元数据,数字对象的特征描述计算,具有不同语义的异构资源库的整合,信息的聚类和自动分类,自动排序、分级算法以及信息质量、类型或其他属性的自动评测等。

3 结语

随着本体在数字图书馆知识组织系统中的深入应用,如何解决本体建模与复用、本体整合、本体进化和语义互操作问题已经迫在眉睫。