公务员期刊网 论文中心 正文

数据库元数据管理系统的设计

数据库元数据管理系统的设计

1问题的提出和研究意义

随着科技的发展,社会的进步,尤其是计算机通信技术的发展,人们对数据库的共享性要求日益明显,当前数据库的管理和访问充满了复杂性,如何解决这一问题成为了管理者和用户最为关心,最为头疼的问题。例如,非数据库的建设者和维护者,都需要知道数据库当中的全部内容,以此来避免数据的重复录入,从而更好的使用数据。根据用户的需求用户需要知道数据信息的质量,用户也需要知道数据库的数据结构和句存储格式,来满足用户的信息数据交换和利用。在这种情况下数据的内容、品质等元数据的信息就变得十分重要了,它是信息数据有效管理和利用的重要方式,元数据的重要性正在得到用户和数据库的建设者的证明。由于现在数据库的使用对象越来越专业化、复杂化,他们对数据集的元数据内容以及各式会存在相当大的差别,对数据的共享性影响很大,为了制定一套元数据的标准,需要采用同样的各式对数据集进行描述。

2元数据的定义和形成

元数据又叫做描述数据,是台湾学者通过英文翻译过来的(英文为Metadata),现在我国对该术语还没有形成统一的认识。国际标准化组织地理信息、地球空间信息技术委员会的地理信息元数据标准草案将元数据简单的定义为“数据的数据”。美国联邦地理数据委员会在数字地理空间元数据内容标准中将元数据定义为“关于数据的内容、质量、条件和其他性质的数据”。国际地球科学信息网络学会对元数据定义为“关于数据和信息资源的描述信息,他们描述、指向或者补充与之相关的信息内容”。元数据的定义和专业术语出现的时间虽然不长,但是元数据的本质内涵确实流传了很久。举一个简单的例子,在很早以前的图书管理当中,管理人员对书籍目录的编写,记载了书籍的各种相信内容,包括作者、写作时间、页数和字数等,这种对书籍信息的记录就可以理解为元数据。只不过在以前涉及到的数据不是特别复杂,只是到了现代随着网络技术的普及,数字资源呈现出爆炸性增长的速度,人们为了便于统计这些数字信息不得不将以前的文本化数据向网络表格化数据方面进行转变。从上世纪八十年代开始出现元数据的记录方式,到现在元数据的应用已经扩展到了各个行业。

3元数据标准内容分析

根据元数据的使用目的不同可以将元数据大体分为两类,即:管理和组织数据的元数据;浏览和导航数据的元数据。第一种类型的元数据的代表就是美国nasa描述遥感数据的目录交换格式标准(DIF),这一标准有一个典型的特征就是必备六个字段:登录目录标识、登录目录的名称、参数、原数据中心(包含名字、数据集标识、联系人等)和数据概要描述。另外,为了让信息表达的更加明确,这一标准当中还要增加字段,如传感器的名字、位置、数据分析、计划口令、品质等,增加这些字段可以提高用户的使用效率,尽可能的完善元数据。第二种元数据的代表就是澳大利亚新西兰土地信息委员会制定的元数据标准。这一标准确立的核心元素较少,能够让用户在最短的时间内查询到所需要的数据信息。核心元素能够说明现有数据的种类、数据信息、数据范围、与其他应用的作用,以及获取更多信息的位置等。核心元数据共分为九类三十二个元素:数据集中、展示、数据时间、数据状况、访问和浏览情况、数据品质、联系信息、元数据时间、元数据附加内容。除此之外,核心元数据还要制定了数据格式,使用指南,以方便用户查找信息。

4元数据表达方式的分析

美国联邦地理数据委员会的数字化地理空间元数据内容标准元数据信息单元是元素、实体(包括复合实体)和字集。元素是元数据的基本信息单位,元数据实体由元数据元素组成,元数据实体、元素则构成复合实体,最终部分元素、简单或者复合元数据实体组成元数据子集,元数据的组成结构从小到大排列为,元素、实体(复合实体)、子集。元数据是利用巴克斯诺尔范式进行表达的,巴克诺斯尔范式可以定义常规语言元素和属性标准语法,在确定复合实体和其他元素、实体间的联系的时候,采用类似于数学等式的关系将标识符和表达式用等号连接起来,以此来表表达式产生标识符这一进化关系。这一规则公式代表了各种符合的意义,从数学角度可以解释为,A=B+(C)表示A由B和可选项C构成,A=3{B}5表示A由B重复3到5次而成,子集、实体、元素之间的关系可以用元素比实体进一格的办法来表达,美国的数字化地理空间元数据内容标准利用这种方式可以清晰的表达数据实体和元素之间的各种关系,但是它也只是包含了标准化当中元数据和元素的定义,并没有规定数据的格式,有时候用元数据元素分层缩排来表示,有时候用编号系统表示,这就使得元数据使用起来并不简洁。为了解决这一问题,建立了空间数据信息交换网络,利用比较统一的SGML、Z39.50和其他协议来表示,可以更加灵活的执行元数据。ISO/TC211的元数据标准利用了图表和数据字典相融合的表达方式,清晰的表示了元数据内容之间的各种关系。数据字典可以详细的解释元数据的内涵,图表则是面向对象的统一建模语言UML静态结构图、ISO借口定义语言,在图表当中信息单位是包、类和属性。数据字典当中元数据的信息单元是子集、实体以及元素,这一标准说明了图表和字典当中的对应关系。因为静态结构图准确的解释了元数据的语义和句法结构规则,制定了标准的描述数据信息的方法和格式,通过辅助设计软件可以精确的表达数据元素关系,检查元数据设计的整体性和统一性,所以ISO/TC211的元数据表达方式对全世界各个行业的数据管理和服务产生了重要的影响。

5元数据网络管理模型分析

当下比较流行的元数据管理系统模式可以分为:集中式数据管理体系和分散式数据管理体系。集中式数据管理体系就是所有的元数据都聚集在一个元数据管理站点上,数据集元数据是通过数据制造者免费上传的,数据的使用者可以通过当下的数据管理站来进行访问好查询元数据。这一模式比较有代表性的就是英国地理数描述目录,这一机构的数据来源于国家制图机构。这种模式的优点就是使用者可以迅速的查找元数据,工作效率很高,当然缺点也很明显,就是这一模式分裂了这一管理系统和其他网络元数据体系的链接,导致这一体系的元数据数目较少,在数据信息的更新和维护方面就取决于元数据的上传者,元数据信息不能及时的更新,提供的数据有可能出现错误。分布式元数据管理体系就是要设立一个元数据网络交换的核心连接点,使用者可以在这一连接点进行元数据的查询,而对于元数据的供给者和元数据的数据制造者,则需要设立分节点,保存各种元数据的信息,然后将核心连接点和分节点联系起来。元数据的使用者不能直接访问数据的制造者,只能通过核心连接点来访问数据信息,进行元数据的查询。这一模式的代表性机构就是美国空间数据交换网络,它将用户、服务器内容、数据库服务器进行了分离。通过网关根据数据信息的类型、数据信息覆盖位置等条件构成元数据的查询界面,用户通过网络进行查询,核心连接点通过用户信息向分节点进行传输,然后在将内容反馈到用户浏览的页面当中。这种模式的优点在于能够增加元数据的数量,减少核心连接点对元数据的更新负担,缺点在于元数据的查询速度较慢,影响使用者的查询效率。

6元数据传输各式的统一

虽然当前已经制定了一些元数据的标准,但也只是确定了元数据的内容、含义、类别、组成结构等特征,但是这还不能满足元数据的使用要求,制订元数据标准的目的是为了元数据的查找和检索,了解数据信息和内容,因此必须要注重元数据的传输标准,以此为基础来设计元数据的管理体系,从而达到对元数据的搜寻、修改、更新维护和查询检索。在DOS环境下和ARC/INFO环境下,美国诞生了很多元数据录入和编辑的软件,澳大利亚也开发类似的软件,这些元数据软件都是为了便于自身的查询需求,符合各自制定的元数据标准的。但是各个元数据录入软件的数据格式却不相同,有的是文本格式,有的是HTML格式,还有的是关系型数据库格式,虽然方便了用户,但是在元数据的修改和维护方面成本很高,所以要制定统一的元数据转化标准,方便网络上的元数据交换。美国和澳大利亚建议更改统一的后缀格式,例如,将SGML/HTML的统一转换成XMLDTD或者是XMLSchema,将表格改编成ASCII的格式。这种方式优点在于有利于建设元数据索引和能够在不同地区的互联网当中进行元数据的查询。

7元数据管理平台设计和实现

7.1功能流程设计

功能流程设计需要满足元数据生命周期的要求,当前大多数公司单位都是分散式的数据管理体系,数据比较分散,需要采集多元数据并且简化数据的存储体系。可以将TSV(三层阶梯式图)引用到元数据管理体系当中,在元数据导入配置方面,可以利用悬挂点配置的方式,在任务采集的起始阶段可以配置相应的悬挂点(类似分支点),建设元数据的查询树,在数据源配置方面要表明数据源的类型、衔接数据、账户情况等,还要进行测试观察后续问题。为了更好的完善元数据的管理体系,保持元数据地图的完整性,需要对元数据进行完备的采集,采集方式又分为手动采集和自动采集。手动采集是对用户要求的数据库进行单次采集,自动采集则额外的配置采集时间和采集周期。

7.2元数据的浏览

将配置好的悬挂点体现在元数据的树状结构当中,以形象的结果提供给用户,基于TSV的思想元数据树需要具有三层以上的结构,首先是系统,其次是各系统数据库,再者是各数据库的下属表。在库级元数据方面需要展示各个表名和创立的时间,在表级元数据方面需要双击查看该表的详细信息,包括字段、约束、索引、键、视图等,在下拉菜单当中可以检索相应的元数据信息。在字段级元数据方面包括字段名、字段类型、字段解释、所属的表和库,前三项属于特点描述,后两项是定义描述,这样能够方便对字段进行分析和定位。

7.3元数据的构架设计

元数据管理体系的技术构架主要是对所有信息数据的筛选,来确定那些信息可以纳入元数据管理体系,以此来构建三级视图。技术构架的信息主要包括五个方面,即:数据源层、数据收集层、数据保存和管理层、应用帮助层、登录管理和用户信息等。数据源层主要就是提供数据信息,数据收集层主要是理清各类数据关系方便元数据的管理。

8结语

综上所述:数据库元数据是处理各种数据信息,满足个人和单位需求的一种重要数据管理模式。为了应对当下信息时代的各种数据信息,从海量信息当中提取有价值的数据信息,就需要对数据库元数据进行研究和优化。元数据简而言之就是管理数据的数据,它本身也是一种数据信息,根据使用目的的不同可以分为管理和组织数据的元数据;浏览和导航数据的元数据。元数据在表达方式上可以分为元素、实体(复合实体)、子集这样的单位,在管理模式上可以分为集中式数据管理体系和分散式数据管理体系。在元数据的传输格式方面还没有统一的标准,建议改变传输格式,形成统一。在元数据平台建设和管理方面可以参考TSV(三级视图阶梯)的模式,使元数据库更加清晰明了。

参考文献

[1]纪晓博.基于OAIS参考模型的档案信息管理系统的设计与实现[D].中国科学院大学(工程管理与信息技术学院),2016.

[2]张馨月.基于SQLServer数据库的银行保险数据管理系统的设计和实现[D].吉林大学,2015.

[3]姜平,程昌秀,谢炯,陈荣国.空间数据库中栅格元数据管理模型的设计与实现[J].遥感技术与应用,2012,27(02):315-321.

[4]刘海生.面向信息集成系统的内核数据管理技术的研究[D].暨南大学,2011.

[5]周震天.科技评价元数据管理系统设计与应用[D].湖南大学,2010.

作者:徐百盛 单位:广东省紫金县职业技术学校