公务员期刊网 论文中心 正文

网络信息资源电子技术论文

网络信息资源电子技术论文

一、网络信息资源存储发展历程

1996年InternetArchive的成立拉开了网络信息资源存储的研究和实践的序幕。虽只有十几年的发展历程,但是其技术却有了长足的发展。规模从最初的百万数据到现在的数十亿的URL采集,项目的自己投入越来越多,项目的难度也越来越高。从1996年到1999年间,首先InternetArchive的成立,然后欧美各国纷纷开始网络信息资源存储项目的实验。在1996年,澳大利亚国家图书馆发起PANDORA项目,其目的在于保存澳大利亚的在线出版物,包括社会科学、政治、经济、宗教、自然科学、文化等重要文献资产。同时澳大利亚国家图书馆还领导了另一个重要的项目——是关于数字资源保存主题的门户网站PADI,其目的是为了提供一种机制,帮助确保数据格式信息能够被有效管理、保存和提供未来访问。1997年北欧图书馆了开启了NWA项目,该项目借鉴了Kulturarw3的Web信息资源采集项目的经验,其目的是根据在网络中进行保存、访问等操作的要求而制定出相关的技术规格,协助国家项目的协调发展,联合北欧各国图书馆建立欧洲网络资源长期保存的合作机制。1997年在美国还开展了项目,该项目是美国国会图书馆负责的。其目的是为有关Web信息的数字化、元数据、选择和采集、长期保存与获取方面的实际问题提供试验,从而为美国国会图书馆运行一个大规模的Web信息保存项目提供指导和经验。以上介绍的属于网络信息资源存储的初始起步的实验阶段,主要目的都是为以后的项目提供各种借鉴经验。从2000开始到2005年时网络信息资源存储的实际应用部署阶段。该阶段欧美各主要国家已经开始对网络信息资源存储高度重视,并已经开设从国家层面进行思考和作战略计划。因此该阶段具有以下几个特点:

(1)以国家或区域为单位的战略合作保存体系发展迅速

(2)网络信息资源存储项目研究的内容和深度得到极大的扩展

(3)国际机构与会议更加关注网络信息资源存储

(4)网络信息资源存储系统越来越受到重视,其发展和应用也越来越广泛

2000年年美国国会图书馆提出了“国家数字信息基础设施及保存计划”,其中包括立即收集和保存可能瞬间即逝的Web数字信息。2001年挪威国家图书馆开始实施Paradigma项目,英国国家图书馆启动试验性项目DomainUK。2002年第68届IFLA理事会对以往国家层面网络信息资源采集(如NWA)的经验予以总结,探讨网络信息资源保存的法律问题。2003年六月,由来自多个国家的12个成员机构组成的国家网络保存联盟正式成立。自2005年以后,网络信息资源存储技术进入了长远发展阶段。在网络信息资源存储相关项目的实验研究、应用部署发展的基础上,相关的组织机构相关的组织机构、项目对如何更好的将Web资源呈现给用户,提供检索服务,并进行相应的数据挖掘以用于学术研究、追踪动态等网络信息资源存储长远发展问题更为关注。

二、网络信息资源存储发展现状

(一)网络信息资源存储国际现状

越来越多的国家和人力参与并投入到网络信息资源存储的活动中来。关于网络信息资源存储的项目也越来越多,项目数量呈稳定增长趋势。国际互联网保存联盟(IIPC)的机构成员在2003年成立的时候只有12个,到2009年3月已经发展到38个,它们主要分布在欧洲、北美洲、亚洲。2008年IIPC对其成员进行问卷调查显示:该组织的成员50%是国家图书馆,10%是高校图书馆,8%是其他类型图书馆,3%是国家档案馆,3%是内容提供商,26%是研究机构、政府组织等。由此可见,图书馆特别是国家图书馆已经成为WA活动参与的主力,并担任了重要的角色。网络信息资源存储仍然以实验和项目形式为主。在其发展初期,项目都是以小规模的Web资源采集的探索性实验为主,在积累了一定的经验后开始进行实际的可行的部署和应用,而目前很多国家和区域已经建立战略合成关系投资网络信息资源保存体系。IIPC对38家成员馆2008年的网络信息资源存储研究状态分析显示:以项目形式开展研究的有6家(15%)、以实验形式开展研究的有7家(18%)、可运作但仍处于实验阶段的有11家(29%)、完全投入应用的有5家(15%)、商业应用的有4家(10%)、其他形式的有5家(13%)。网络信息资源的采集方式和策略呈多样化发展,采集的内容也越来越广泛。现有的Web资源的采集方式已经有了很大的改变,已经摆脱了曾经的单一Web资源一次采集。现在的主要采集方式有Web资源二次采集、数据库采集(深层网采集)和事务型采集等多种方式。采集策略也有了很大程度的丰富,现在的采集策略主要有混合策略、复杂域、大规模采集。采集内容也覆盖了人类社会的方方面面,例如政治、经济、健康、艺术、人文等方面。网络信息资源存储的系统技术和标准框架已日趋成熟。

网络信息资源存储的系统技术中包括了摄取(Ingest)、存储(Storage)、访问(Access)和索引与检索(Index&Search)四大部分,并IIPC也围绕其核心功能为其开发了一套完整的工具。IIPC技术委员会下设的四个子委员会负责对WA的摄取、保存、访问、索引与检索进行深入的研究和实践工作。除了技术以外,对WA其相关的标准规范也投入了许多的研究。目前所涉及的标准规范主要有:获取阶段的存档资源标识、统一资源命名等数据唯一标识,多任务并发管理协议(HIP)、蜘蛛协议(Robertprotocol);存储阶段的存档文件格式、Web存档文件格式,保存元数据实施策略、元数据编码与传输标准(简称METS)等。此外WA领域中对于协作共享也非常的注重,WA在系统开发的初始阶段就十分关注系统的互操作,通过建立一个开放的模块化系统框架和进行功能模块化开发,实现系统的开放性、协作性、互操作性。IIPC提出了WA系统体系框架并开发了一系列的开源软件。WA系统和工具得到不断的开发与更新。且目前WA领域的大多数软件都是开源的,可以免费下载使用。现在在使用的工具主要有:PANDAS,澳大利亚PANDORA项目开发的基于采集的数字化存档系统,为国内参与合作的各个州立图书馆构建了合作者分布式使用的功能;WAS,美国WebAtRisk项目构建的基于Web的分布式仓储构建、存储和管理工具;Heritrix、Nutch2WAX、WERA,是有IIPC资助开发的系列软件;Wayback是目前WA领域使用率最高的访问工具;WCT是一种由NWA与IIPC合作开发的应用率较高的保存工具。此外还有其他的一些比较著名的工具。WA领域的工具、系统有趋同的发展趋势。几家具有较强技术实力的机构开始合作开发和完善现有的软件和工具。

目前,IIPC与合作机构正在研发新一代智能爬虫(SmartCrawler)以提高爬虫自动采集的效率。WA相关法律体制得到加强和完善。虽然目前有许多国家队图书等出版物制定了相关的法律法规,有的国家也对相关的电子出版物有了明确的法律规定,但是都没有明确的将Web信息资源纳入到呈缴法。目前许多没有制定Web资源呈缴法律的国家,也采取了各种方式积极的完善与WA相关的法律,例如版权声明,这时目前使用较多的方式之一。此外还有采集前征求出版者许可、允许出版者提出剔除请求和混合型的解决方案。由于WA项目的投资数额巨大,相关的成本分析与风险管理已经越来越受到重视。WA对存储设备、技术等软硬件的要求都很高,同时其花费的时间周期也十分的长。因此需要投入的资金也越来越多,且有逐年上升的趋势。例如荷兰国家图书馆2005年的资金投入接近于2004年的3倍,2006-2009的预算也明显增加。为了使WA项目能够获得稳定的资金,许多国家已经将WA项目的资金纳入了国家图书馆的业务开支。为了能够使WA的研究项目能够顺利的进行,已经开设对其费用成本及风险管理进行研究。目前主要的是采用NASA用于研究太空、地球数据保存的费用估计工具CET,但还没有建立其特有的成本费用模型。合作范围越来越广,合作机制也逐步得到加强。WA项目是一个综合性的、庞大的项目,单靠某一个组织的力量是无法完成的。目前国际上的主要的WA项目都是由多个机构合作完成的,合作已成为WA发展的趋势。合作范围也从国家内部、组织间的合作发展到了地区合作,再到国际合作。从其合作机制来看主要分为:高度集中机制、责任平等机制、高度分散机制和独立工作机制。

(二)国内发展现状

我国WA的研究始于20世纪末。对于WA比较系统的理论研究主要集中在中国科学院国家科学图书馆和少数其他单位。国家科学图书馆一直以来关注数字资源长期保存的宏观支撑机制和问题框架的研究,目前正在进行的国家社会科学基金项目“网络信息资源保存的理论与方法研究”,对WA的理论、技术予以探索研究。国家图书馆和高校的一些研究人员对元数据方案、服务模式、WA面临的问题进行了探讨。国家图书馆“网络信息采集与保存”试验项目(WICP)采集保存了自2003年以来“.cn”域名下的网站和所有中文(编码)网站,积累Web数据达150G;对政府网站、电子报刊、国学的Web资源进行镜像存档;选择了2008北京奥运、中国载人航天工程等专题进行专题存档,并对专题存档的数据进行质量控制、数据挖掘。国家图书馆已经成为IIPC的成员,并积极推动和促进Web资源呈缴法的起草,以解决WA长远发展过程中的法律障碍。我国研究人员还积极参与国际交流,国家科技图书文献中心(NSTL)与国家科学图书馆于2004年、2007年两次承办“数字资源长期保存国际会议”(iPRESS),为国内保存领域的研究人员参与国际长期保存合作,促进长期保存的可持续高水平发展提供了良好的机会

三、网络信息资源存储发展趋势

网络信息资源存储发展趋势主要有以下几点。主题和内容更加丰富。WA项目所涉及的内容已经基本覆盖了各个领域,例如政治、社会文化、健康、艺术、人文等。WA采集的形式从传统的静态网页的采集向多媒体动态内容的采集方向转变,目前也有将Web2.0软件形式纳入采集的意向。但Web2.0资源的保存面临保存责任者难以界定、隐蔽网采集难度、存储难度等多方面的挑战,各种Web2.0的应用模式又各自具备自身的特点及保存中需要考虑的问题。WA的内容管理日益受到重视。系统建设标准化和开源化,WA项目在标准规范方面不断改进,IIPC致力于WARC标准的推广及ARC向WARC转换工作,完善转化框架和工具开发。WA项目中所使用的采集、索引、访问工具基本都是开源的,而且在提高开源软件的效率、性能、规范化方面还在不断努力和探索。项目工作流程标准化、规范化,随着WA十余年的发展,项目在工作流程规范化、提高工作效率方面的尝试和探索越来越多,对WA的采集、法律问题、编目、保存、访问等环节制定了详细、规范的流程。

合作范围更为广泛。国际WA领域开始构建更大范围的长期保存网络合作模式,共享WA系统和资源。利用分布式的系统和资源构成网格和协作网络,构建异地分布的WA合作框架,以促进实践中的资源共享、职责与费用分摊以及交流等。其中比较典型的合作项目有NWA基于访问的合作机制、SDSC基于大规模存储网格合作机制、PANDORA基于采集合作机制等。WA领域的合作范围不断扩大,合作内容不断深化。利用分布式的系统和资源构建网格和协作网络,共享WA系统和资源,促进资源共享,实行职责与费用分摊。利用形式越来越多种多样。例如网站重现将WA存储器中存储的网站内容以其原有的样貌展现给用户,让用户感觉就像是在访问原始网站一样;保存Web文献参考链接信息。对搜索引擎结果进行该进;分析Web技术演进。