公务员期刊网 论文中心 正文

大数据时代档案信息安全管理思路

大数据时代档案信息安全管理思路

大数据与上世纪九十年代的互联网技术一样,一经产生就迅猛发展,目前已深入影响世界各国的国家政策制定、科学研究发展,教育资源分享和国家安全管理等领域。继联合国推出“全球脉动”项目,希望利用“大数据”促进全球经济发展后,2012年3月29日,美国奥巴马政府集合美国国防部、能源部、国家科学基金等六个联邦部门和机构,宣布推出“大数据的研究和发展计划”。[1]该计划将“大数据”作为全球性发展战略计划,大力推动与大数据相关的信息采集、组织、分析,改善辅助决策的工具与技术,提出“通过收集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,强化美国国土安全,转变教育和学习模式,”并最终确立了“大数据”作为未来信息技术发展的核心地位。值得关注的是,美国政府的大数据计划特别提到了美国国家档案与文件署(NARA)。我国的档案界目前虽未提出具体规划,但关注新技术、新方法,超前思考档案工作的未来图景,一直是研究者和管理者的使命,且国家档案局2014年审批的科技项目中也有关于大数据研究的内容。[2]大数据技术横跨数据存储、虚拟化、云计算、数据库管理、并行计算和数据挖掘等多个技术领域,在档案管理中引入此概念必将带来工作和科研的多样化发展,同时对档案信息安全管理亦提出了新的要求。档案安全历来就包括实体安全和信息安全,档案信息安全正迎来大数据时代和云计算环境下的新风险、新挑战。新环境下的信息安全尽管与以往的信息安全有着历史的逻辑承续,但形成了一些新的特点,其风险链、风险域和风险度都有了诸多新变化,呈现出隐蔽的关联性、集群的风险性、泛在的模糊性、跨域的渗透性以及交叉的复杂性等特点,需要加强研究。[3]在深入研究之前,需要厘清相关概念:云计算是你在做的事,而大数据是你拥有的东西。[4]一言以蔽之,大数据是在云计算基础架构之上的应用形式。[5]由于大数据平台基本上由基础层、管理层、分析层和应用层架构而成,在档案管理的工作实践中,对数据库的管理势必对应档案信息的收集、管理、利用等方面。“大数据”概念的引入,使档案工作从内容到范围、形式都与固有观念有所不同。

1档案数据采集安全

档案数据采集包括电子文档的收集和纸质档案的数字化处理两个部分。档案数据采集安全在强调数据收集的齐全完整的同时,也要考虑由于重复收集产生的数据冗余问题。

1.1档案数据收集范围扩展

从某种意义上来说,“大数据”的一个重要理念就是掌握的数据量越大、内容越丰富,从中推断出的信息就越多、结论就越有参考价值。具体到档案工作,无论是从档案的凭证价值和情报价值,还是档案的现实价值和长远价值,抑或档案的第一价值和第二价值来考虑,就档案数据收集而言,可能需要重新思考收集的范围和形式。大数据往往是唯一的样本数据集。举例而言,那些测量交通、土壤酸碱、雨量、风力等物理信号的监控设备,或视频监控以及其他类型的器材所连续积累的时段性或实时性数据,都单独记录着一个唯一的活动片段,一旦数据丢失,这个片段就随之永远消失。[6]从档案收集的齐全、完整、真实、有效和数据安全考虑,这些数据文档都应该实时在线归档,并同时保存离线副本。具体操作规范和标准可参考《电子文件管理暂行办法》(中办、国办厅字〔2009〕39号)和《电子文件归档与管理规范》(标准号:GB/T18894-2002)。另一个比较典型的案例是美国政府的《联邦政府Web2.0使用情况和档案价值报告》,该报告中提到,在社交平台上产生的信息,只要具有业务价值、证据价值和背景价值,就可以认定为归档的文件。我国迄今为止虽对这类内容无具体的归档规定,但根据大趋势判断,各级各类档案馆的收集范围需要主动扩展。档案大数据也可以说是档案的“全数据”。相对于其他领域的数据收集,档案大数据更强调的是数据的“全”:收集业务范围内的所有档案数据。一个基层档案部门,只要收集了本机关、团体、企事业单位的全部档案数据,即使数据总量不大,也可以称之为大数据。因为在其后对这些数据进行的分析,将采取“样本=总体”的方法;凡采用这种分析方式的数据分析方法,就称为大数据分析。当一个机构拥有全部或者几乎全部的档案数据,就能从不同的“相关”关系而非“因果”关系中更细致地统计和研究数据的方方面面。因此,档案大数据中的“大”不是绝对意义上的,而是相对意义上的“大”。与此同时,在具体工作中我们也发现,在大数据环境下,原来按“单位”进行的档案收集会有相当程度的冗余信息产生。例如,各级部门下发的红头文件,如果每个收文单位都作了归档,在今后可能建立的某种级别的云档案数据库中就存在相当的数据冗余。[7]这时就可能需要在归档的源头与具体规定这类文件的归档单位,其它收到此类文件的单位不需要归档,但在需要时有查询和利用的权限。

1.2纸质档案数字化过程和结果安全

纸质档案数字化的过程安全是指在档案数字化过程中没有发生危害档案实体和信息安全的事件或行为。因此,一系列的规章制度和规范的操作流程是必要的。首先,要考察数字化服务提供单位的资质和信誉。其次,要建立完善的管理制度。例如,案卷不准擅自带离加工现场;当日数字化的案卷必须当日归库;案卷进出库有严格的交接、检查手续等等。最后,在数字化的过程中严格遵守《纸质档案数字化技术规范》(标准号:DA/T31-2005),档案的拆卷要以不破坏档案装订原貌为基础,在扫描过程中保证案卷整洁并确保扫描图像与原件一致。纸质档案数字化的结果安全是指数字化后的档案数据有效、可用。因此,档案数字化后必须经过电子档案质量检查这一环节。这也是对档案数字化结果安全监控的重要一步。主要包括三个过程或环节:一是质量抽查,对于不合格的数据要及时返工重扫。二是数据检测,主要内容包括病毒检测、运行检测和数据核对等三个方面。三是数据利用检测,主要是将全部数据直接挂接到档案管理系统后,对外提供利用时,是否出现错误或者使用者发现的一系列问题。[8]为了保证数字化后档案信息的长期有效可用,异地的多种载体备份存储和数字信息定期可读性抽查、复制备份等制度的建立也是必要的。

2档案信息管理系统安全

从上世纪90年代国内最早的档案管理软件产生至今,已经经历了近20年的发展。随着计算机及网络技术的发展,数字化档案管理方式在分布形式上从最初的单机版(C/S架构)、到网络版(B/S架构)、直至发展到最新的面向服务的数据平台(SOA架构);在功能上则从单一的仅实现简单档案管理的软件、到档案管理软件与OA系统整合的数据库、再到现今的将数字化档案管理方式渗透到整个工作流(workflow)的数据库平台。档案大数据是在档案方面涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的信息。[9]因此,档案信息管理系统的安全在很大程度上决定了档案信息的安全。

2.1数据支持平台安全

美国政府大数据计划中的国家档案和文件署(NARA)计划为十亿电子记录(CI-BER)建设网络基础设施,这是一个联合机构主办的测试平台。这个多机构主办的网络基础设施,对国家档案馆87万多样化的数字记录文件和信息的收集,可称为计算研究所的“文艺复兴”。这个试验台将评估技术和方法,进行超大规模数据收集,以支持可持续的访问。[10]纵览国内外各行业大数据建设实践,构建档案大数据平台至少要实现四个层次的部署:一、云服务商提供全面、可视化的服务,尤其是档案大数据服务委托方有权随时监管、分析基础设施中发生的所有事项;二、收集海量档案数据,并解决各个数据库的兼容问题;三、数据库有更快识别目标、锁定威胁来源和敌对事件的能力和相关设置;四、基础设施具有可扩展性,可以执行短期和长期的分析。监控管理、风险控制、规则遵从是档案云数据支持平台确保安全的最基本要求。

2.2数据计算环境安全

传统的数据库系统不能有效地处理大数据的原因在于,这些系统的设计无法应对现如今结构化数据所占比例越来越低,数据类型日益复杂的状况,以及传统的数据库无法既迅速又比较经济地对系统进行拓展。不仅是硬件程序的设计环节,从数据管理的角度来看,少量的数据样本容易进行单独的测试和监控,而档案大数据计算平台上存储的数据首先要有详细的类别划分,其次才是存储和计算。档案数据库的数据分析完成后,是要将结果呈现给不同的人群使用的。针对同一条查询指令,应该让不同角色的人群看到不同的结果信息,即查询所反馈的结果应该是不一样的:技术人员读取有关系统和设置管理的数据;档案工作人员查看、操作与自身业务范围相关的内容;普通利用者可以得到经审核公开的电子文本或目录。大数据时代的档案安全解决方案应该包括足够强大的、能够针对不同层次的人群提供不同的展现界面和工具。同时,档案大数据系统必须具有目录整理、档案采集、档案审核、系统维护等功能,并利用现化代网络技术,实现多人多客户端操作。

3档案数据提供利用安全

正如1893年立式文件柜的出现最终解决了纸质文件的存储和检索的困难,档案大数据必将对档案信息的查找利用带来颠覆性的变革:档案收集保管的最终目的是为了方便利用;档案大数据的核心不是拥有数据,而是拿这些档案数据去做什么。

3.1档案数据比对分析

档案大数据最直观的应用在于数据的比对分析。例如,在经适房的申购过程中,如何才能快速有效地鉴别申购者的资格?用申购者提供的姓名、身份证号等相关信息比对在房地产交易、车辆管理、金融机构等数据库的相关信息,可以准确掌握申购者的资产状况,剔除不够格的申请者。还有一个典型例子就是我国医疗档案大数据建设的“3521工程”。该项目融合了我国绝大部分三甲医院和部分二甲医院的数据库和影像文件的数字化信息系统以及电子健康档案系统,旨在通过数据自动汇总、统计分析,进行慢性病、流行病的自动筛查、趋势分析和爆发预警;同时系统还可以为新药研发、新治疗方案的设计等工作提供数据支持。档案大数据提供利用在一定程度上来说只需要知道档案大数据“是什么”,而不需要知道“为什么”。这种变化已经远远突破了技术层面,将对人类认知世界的方式方法产生重大影响。从档案大数据进行的对比分析,就是用档案数据说话的最简单直接证明。档案工作的核心在“用”。利用者在档案数据比对分析时,通过轨迹研判、信息关联等方式,由已存的较全面的档案信息,才能得出正确、合理的结论。在这种状况下,可提供利用的数据资源的丰富,就代表了一定程度上的利用环境安全。

3.2档案咨询服务

档案咨询服务是网络社会在海量档案数据的收集、存储和处理技术基础上产生的一种具有前瞻性的判断和预测能力。众所周知,专家的价值往往在于因果推导,而大数据却放弃对因果关系的追寻,强调关注相关关系。也就是说,大数据在很多情况下只要求关注相关关系就足以产生正确的预测。当档案数据“大”到能对整个样本空间进行覆盖时,就足以减弱对理论和模型的依赖。例如,不再需要经历“从特殊到一般(归纳法),再从一般到特殊(演绎法)”的传统认知过程,而是利用档案大数据去直接实现“从特殊到特殊”的判断和预测(这种直接的方式也被称为转导,transduce)。换言之,此时的档案数据本身便是模型,也即大数据可实现全体而非抽样调查。档案大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些有较高价值的饱含历史意义的数据进行专业化处理。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。[11]这种主动提供利用的档案信息不仅仅是提供原始的档案信息,还应该同时具有内容分析、结果预测、辅助决策等功能。举例来说,我们在购物网站上的查询、购买内容被记录后,经常可以收到商家的商品推荐;在搜索网站上的检索历史被记录后,经常会在该网站的界面看到相关的内容推送。对于这些“智能显示”,普通人往往有这样一种认识:对有利于己的,会觉得大数据方便实用;对不利于己的,会质疑是谁在后台收集了我的隐私。基于绝大多数人的行为是可以预测的,相似的产品和服务被推荐给我们,这在很多情况下是对的,但这是以真正个性化为代价的。[12]所以,档案大数据在提供咨询利用服务时,也可以参考某些购物平台的设计,“购买此产品的人还购买了……”进行相关档案查询信息的推荐。再举个实例,对上海世博会期间的交通、人流、消费、生产等档案数据进行统计分析,不仅可以验证当时的管理措施在人流聚集时效果如何,还可以找出大型活动举办期间城市公共设施合理布局和有序运营的参数,对城市管理和规则出台提供参考,甚至对可能发生的灾害进行预警。截至2011年,我国各级国家档案馆馆藏已达3.3亿卷;到2020年,各级国家档案馆馆藏案卷将达6亿多卷。[13]如此大量的档案信息,如果档案管理软件在程序设计上能够达到数据实时成功抓取,档案利用服务的水平与今日相较必不可同日而语。大数据时代档案信息安全管理在于提供了一个确实存在的"概念+事实+关系"环境,通过计算运行,对数据进行逻辑推理,从而得出正确结论。大数据时代的档案信息安全是主动地提供档案数据安全保障,而不是等出现了无法挽回的损失再行补救。目前所有的相关研究都是基于这一目的的超前考虑。随着科学技术的进步及相关技术的发展,这些研究结果必将不断修正,以更好地为实际工作服务。

作者:崔海莉 单位:上海师范大学档案馆

相关热门标签