公务员期刊网 精选范文 古籍数字化范文

古籍数字化精选(九篇)

古籍数字化

第1篇:古籍数字化范文

【关键词】 中医古籍;数字化;古籍数据库

中医古籍是中医药学传承和发展的载体,既具有重要的学术价值,又具有相当的文物价值。最新出版的《中国中医古籍总目》共收录中医古籍13 455种,基本上反映了当前我国中医古籍的存世和分布现状。如何在保护的基础上更好地利用这些珍贵的中医药资源是中医药研究人员的历史使命。通过数字化处理,既实现了对中医古籍的永久保存,又可为方便、快捷、无损地开发和利用这些宝贵资源搭建起研究平台。中国中医科学院中医药信息研究所自2002年始,对馆藏中医典籍进行了数字化再生性保护和利用研究,目前,已建成“中医药珍善本古籍多媒体数据库”、“中医药古籍资源数据库”,实现了部分中医古籍的数字化保护与利用。

1 “中医药古籍资源数据库”建设

1.1 研究背景

中医古籍是中华民族几千年来防病治病宝贵经验的结晶,是中华民族的优秀文化遗产。中医药古籍文献中所收载的理法方药、养生保健知识是取之不尽、用之不竭的宝库,具有极高的实用价值。古籍属于不可再生的文化资源,近年来,尽管我国加大了对于古籍的保护力度,使古籍的保存环境得到改善,但随着历史的推进,古籍还是会悄无声息、不可避免地出现损毁,乃至消亡。中医古籍整体保存环境较差,各藏馆保存条件良莠不一,中医古籍保护和传承令人担忧。

鉴于此,用数字化手段对中医古籍进行处理,既可以使中医古籍的原图原貌永久保存,又可以通过数据库和网络广泛利用,避免阅读原书对古籍造成的损伤。因此,中医古籍数字化是中医古籍保护和利用的理想方式。中国中医科学院图书馆所藏中医古籍占存世中医古籍数量的一半以上,其中中医珍善本古籍就达2万余册。中国中医科学院中医药信息研究所利用该资源优势,构建了“中医药古籍资源数据库”,现已收录1 500种中医古籍的元数据信息和其中的850种中医古籍的原文图像,已经可以通过中医古籍阅览系统实现电子阅览,为中医古籍数字化保护和利用开辟了途径。

1.2 “中医药古籍资源数据库”建库流程

1.2.1 中医古籍书目的选取

根据中医古籍的年代、版本价值、文献价值、保护等级等确定收录标准,对破损严重的珍善本古籍优先进行数字化处理。

1.2.2 数据库结构设计

考虑到对古籍的再生性保护,我们

以古籍原文图像作为主要数据来源,部分古籍实现全文本化。由于图像要求的存储空间较大,我们采用支持多媒体数据的oracle 9i数据库系统,并对系统结构进行优化,基本解决了运行速度问题。

1.2.3 元数据加工

根据古籍文献的特点,按中医古籍的分类、题名、责任者、出版年代、出版者、版本项、版式、卷数、馆藏地、书籍特征、保存状况、复制状况等进行著录,著录规则参见“我国数字图书馆标准规范建设”项目研究成果——古籍元数据著录规则(cdls-s05-014),对收录古籍撰写提要,力求建立完整的古籍书目数据库。

1.2.4 数字化处理

包括古籍的扫描、质检、图像处理、文本录入等。为实现保存和利用双重目的,扫描时采用全彩模式,300 dpi,jpeg格式保存,按页码顺序重命名,对扫描后图像的顺序、偏斜度、完整性、清晰度进行检查,并进行纠偏、去污、裁边等处理。对部分古籍进行文本录入,实现图文对照。

1.2.5 古籍原文图像标引

采用自主开发的古籍编辑器对文中有效的检索点进行抽取和xml格式标引,如病证方药的名称、索引信息、各级标题等,力求实现图像的全文检索,避免标引过繁或过简,影响检索效果。对标引后数据进行审核。

1.2.6 数据

将图像数据、元数据、标引数据、文本数据合成、入库,形成中医古籍电子书,到阅览系统后进行数据库测试,实现中医古籍的数字化保护与利用。

1.3 采用技术

数据库采用oracle 9i,数据搜索采用oracle text技术。整个系统采用基于java的web应用技术,结合基于j2ee的struts 和实现数据持久化的hibernate框架的mvc设计模式,构建了高内聚、弱藕合、可维护和可扩展的中医古籍数字化系统[1]。

2 中医古籍数字化存在的障碍

2.1 中医古籍中生僻汉字的处理

汉字从产生至今经历了漫长的演变过程,由此也产生了大量的繁简字、异体字、古今字、通假字等。中医古籍数字化过程中遇到的字体障碍有两个方面,一个是对字体的认知障碍,生僻汉字的准确录入需要很深的中医文献学功底,而对于一般的操作人员很难办到;一个是技术障碍,unicode字符集虽然可以解决字库问题,但是很多软件不支持,常用的输入法和搜索引擎不支持大字符集,很多生僻字仍不能正确显示和检索。用造字的方法费时费力,而且很难共享和检索,生僻汉字的处理仍是中医古籍数字化过程中的一大障碍。

2.2 全国古籍数字化标准尚待建立

目前,虽然参与中医古籍数字化工作的单位较多,但几乎都处于各自为战的状态,所采取的途径多样,因此产生的数字化成果形式多样,不利于中医古籍数字化发展,也不利于中医古籍数字化资源共享。究其原因,除了缺乏统一的协调规划外,没有可参照的行业标准也是其中重要的原因。

2.3 中医古籍数字化软件有待改进

软件功能是否强大对中医古籍数字化过程和成果具有直接影响,选择合适的软件可以起到事半功倍的效果。目前,可供选择的数字化加工系统很多,扫描和图像处理技术已较为成熟。而ocr软件对古籍中部分繁体字和不规则用字的识别效果很差,辅以人工校对则需要大量的时间和人力,如何提高ocr在古籍字符识别上的准确率是古籍数字化面临的一大难题;数据加工软件在批处理、大字符集、内容管理等方面存在缺陷;检索系统如何根据中医古籍的特点提高检索速度和精准度也是值得进一步研究的问题。

2.4 古籍信息的精准检索

快速、准确地检索到所需要的内容是古籍数字化应有的基本功能,也是评价其优劣的重要指标。全文本的数字化古籍可以实现任意字符的检索,但是数据准确度小、检索噪音大的问题尚待进一步解决;图像版可以保证信息的准确无误,但在全文检索上存在一定缺陷,通过对有效检索点的标引可以在一定程度上弥补上述不足,但仍不可避免地要遗漏某些信息。由于中医古籍中病、证、方、药的同名异义、异名同义现象普遍存在,使内容的精确检索更加困难。如何建立后控词表,实现关联检索也是中医古籍数字化面临的一个难题。

2.5 研究支持功能尚不完善

研究支持功能是指能够提供有关古籍内容本身科学、准确的统计与计量信息,提供与古籍内容相关的参考数据、辅助工具,这些信息、数据或工具都是古籍内容的增值或补充[2]。中医古籍具有极高的研究价值,其研究支持功能应更强大。除常用的中医古籍研究辅助工具外,还应具有不同版本和相关数据的链接。对病、证、方、药的参考数据进行汇聚,对生僻字进行注解,建立学术论坛等,都是研究支持功能的重要组成部分,而目前的中医古籍数字化成果在此方面尚显薄弱。

2.6 深度开发不够

中医古籍数字化不应仅仅满足于对古籍的阅览和查询。古代中医药文献是一个知识宝库,在数字化的基础上挖掘古籍中的宝贵知识财富,实现知识发现和知识拓展,更好地为中医药事业的发展和人类健康服务是中医古籍数字化的最高目标。

3 中医古籍数字化建设的建议

3.1 图文关联是实现中医古籍数字化的较好方式

图文关联是将古籍文献分别存储为图像、文本两种形式。图文关联是将文本对应放在与之相匹配的图像之下,并建立索引关系,实现图文对照。此种方式可以弥补“图像”在检索和内容编辑上的不足,又可以校对“文本”的准确性,使读者既能看到原书原貌的古籍文献,又可以快速准确地查到所需要的内容。尤其对于研究者,对原始版本信息和文本的准确性要求更高,而通过图文对照便可很好地解决这一问题。

3.2 中医文献与计算机专业人员的通力协作

中医古籍数字化是古典文化与现代技术的结合,需要有精通中医古籍整理、目录学和版本学知识的人才与掌握计算机网络知识和多媒体技术的专业人员通力协作。中医古籍数字化虽属新的古籍整理方式,但仍归于中医文献整理范畴,离不开文献整理的知识。在整个过程中,中医知识不可或缺;同时,在数据处理、数据库设计、应用平台构建等方面都需要计算机专业人员参与。中医文献专家的需求和建议能指导计算机技术人员对整个系统的设计,进而改善中医古籍数字化系统的功能。上述两方面人员的深入合作是创建理想中医古籍数字化模式的前提。

3.3 重视统一标准的研究和制定

建立完整的中医古籍资源库需要全行业的合作。因此,有必要建立统一的标准,包括中医古籍的分类法、著录规则、软件和数据库的使用、数字化加工标准、加工和利用平台等。统一的标准是实现中医古籍数字化资源共享的基础,也是促进中医古籍数字化建设进程的有力保障[3]。

3.4 统一规划,共建共享

中医古籍数字化是对中华文化遗产的保护和弘扬,具有强烈的公益色彩。各单位需要在统一的协调和领导下,建立一个整体的规划。整体规划应包括数字化对象的内容,确定工作重点和合作分工,同时包括相关标准、规范的统一,而恰好这两方面问题在目前的工作中较为突出[4]。解决了这两方面问题,就避免了重复建设和资源浪费,才能实现共建共享。

4 结语

中医古籍数字化是一项长期的系统工程,需要中医药科研人员付出长期的艰辛和努力。虽然在建设过程中还有许多问题有待解决,但随着研究的深入,信息技术的飞速发展,中医古籍数据库建设和利用将呈现广阔的前景。

【参考文献】

[1] 符永驰,李 斌,郭敏华,等.中医古籍电子化系统的研究与实现[j].中国中医药信息杂志,2008,15(2):103-104.

[2] 李国新.中国古籍资源数字化的进展与任务[j].大学图书馆学报,2002, (1):21-26.

第2篇:古籍数字化范文

关键词:图书馆 古籍 数字化管理

古籍是我国几千年文化的传承,是我国极为宝贵的精神和智力财富。为了更好保护和利用这些财富,很多大型图书馆,都利用了现代化的计算机技术,将古籍中的语言文字及图形转化成能为计算机所识别的数字符号,以此来制成古籍文献书目数据库以及古籍全文数据库,即对古籍进行数字化管理。这也将是今后图书馆古籍管理的一个发展的必然趋势。

一、古籍数字化管理的必要性

1、古籍数字化管理有利于古籍的保护,解决“藏”与“用”的矛盾

古籍经过几千年的辗转流传至今,往往具有唯一性并且不可再生,因此在保护古籍方面除了提高古籍的保存技术使其免受损坏外,也应借助现代化的科学技术,让这些珍贵的文化遗产得以永久的保存。另正是由于古籍的唯一性以及不可再生性,因此它们不仅具有罕见的文化价值,而且还有珍贵的文物价值。因此图书馆为了避免古籍遭受破坏,往往“重藏轻用”,造成“藏”与“用”的矛盾,不利于古籍文化的传播。

2、古籍进行数字化管理,可使古籍中蕴藏的特有信息资源得到充分利用

古籍的目录的分类、编排与检索方法与现代的都不同,如果用传统的手工检索方法来检索古籍,不仅速度慢,而且查全、查准率也较低,很可能会花费好几个小时甚至几天来查找一个人或事,或者一段引文。如果引进数字化管理,便可改进古籍的检索方式。从而更有利于对古籍中所蕴藏的特有信息资源进行开发,提高了阅读古籍的广度和深度,使古籍得到了充分的利用。

二、古籍数字化管理方法

1、古籍书目数据化及古籍全文的数据化

(1)古籍书目及古籍全文数据化方法及注意事项

古籍数量大,语言繁琐,而且在分类排架和管理上都不同于一般的图书,检索方法也很复杂,很多古籍犹如“天书”,极大的影响了读者阅读利用古籍文献的积极性。利用计算机技术,建立古籍书目数据库,便简化了古籍书的检索方法,而且新增了许多检索途经让读者对图书馆内古籍藏书一目了然。古籍全文数据库的建立,便可方便读者更简单的阅读古籍资料,并可快速准确全面的找到所需的资料。因此,古籍书目数据化及古籍全文数据化是实现古籍数字化的必要条件。

古籍书目数据化是指以书目内容:书名、责任人、版本、卷数、刻印年代、藏地等为数字化对象,对古籍的存储做源数据描述。古籍全文数据化是指以揭示古籍内容为目的,对古籍全文进行数字化处理,从而方便读者全文阅读、检索或进行智能分析。

古籍全文数字化有三种形式:一是图像版全文数字化即将古籍书页原文扫描成图像后进行存储,为读者提供相关阅读、检索服务;二是文字版数字化即将古籍书页转换成文本文字形式后进行存储,为读者提供相关阅读、检索服务;在文字版数字化中遇到生僻字可通过photoshop 等造字程序进行造字,然后再利用windows系统自身带的输入法编辑器进行生僻字的输入;三是图文版数字化,即图像版和文字版的结合,它是最理想的古籍数字化模式。

古籍数字化后的数据格式繁多,除了常见的xt、doc、html以外,还有pdf、exe、wdl、pdg、ebk、edb等,而这些格式的文件大多要自己单独的阅读器才能阅读,这样极不利用户对古籍的使用,以及古籍数字化后的资源共享,阻碍了古籍数字化的发展,因此图书馆在进行古籍数字化工作时,应建立统一的数据格式,如文本格式可采觅pdf格式,图片格式的资料可采用tiff,jpeg格式,以方便读者使用。

(2)古籍数字化存储相关技术支持

为了保证古籍的“原汁原味”,在对古籍数据化存储时,就要以图片格式进行存储,这些图片又不可进行压缩,从而导致古籍数据库异常庞大,常用的磁盘储存器很难实现。这时可根据图书馆古籍数据库的大小采用机器手光盘库或机器手磁带库这样的第三级存储器,如果第三级存储器也不能满足,便可采用san(存储区域网络)战略。存储区域网络即位于服务器后面的存储网络,它是一个主要负责存储传输的“后端”网络,所有服务器均可通过此网络对存储介质任意读取及写入,并可将多个系统连接到存储设备以及子系统。此方案可采用千兆以太网,其网速与光纤路径技术相当,且价格相对较低,建设周期相对较短。

2、图书馆古籍数字化管理中的分类法

古籍分类法是一种检索语言。任何单一的检索语言只能从某个侧面片面地、近似的反映某一网络体系,只能对多维、复杂、动态发展的人类知识文化进行线性、简化、静态滞后的反映及描述,难免存在缺陷以及不足,其准确性是近似的、相对的。现代计算机技术完全允许多种检索语言并存并且互补,如果各种检索语言自身便具有最低限度的适用性及互补性,就有助于全面揭示古籍文化的精髓,反映人类知识文化的多维体系。因此,要想构建高效灵活的古籍检索系统,就应把握各种检索语言的内在联系和相互制约作用,以此为出发点,研发各种不同的检索语言互补互用的最佳方式,为实现最终目标提供有效的技术支持。

3、图书馆古籍工作者应加强知识更新,尽快掌握新技术

图书馆古籍进行数字化管理的前提条件就是古籍工作者要更新知识结构,适应数字化的管理需要。其中计算机知识的学习是首当其冲的,只有这样才能更主动、更快捷、更有针对性的为读者提供服务,使服务水平上一个新台阶,也能为古籍数字化管理开创一个新的局面。

三、结语

图书馆古籍数字化管理虽然是近几年才提出的,但随着计算机技术的发展,古籍数字化管理也将逐渐走向成熟,从而为读者提供更优质的服务,使古籍这几千年的文化沉淀得到更好的保护以及更充分的利用。

参考资料:

第3篇:古籍数字化范文

其一,古籍数字化养育出许多读者不读原典的风气。古籍数字化虽然给读者带来了便利和效率,但也在悄无声息地弱化读者、尤其是青年读者的古籍阅读能力,甚至养育出许多不读原典,只会检索的学术“懒人”。在急功近利世风的影响下,越来越多的读者不去认真阅读原著,只是根据预设的想法,在数字化古籍中检索、复制、下载能证明或支持自己预设想法的文献材料。断章取义,曲解材料,不考虑句意、语篇,不了解古籍中相关事项的其他论述,只是根据检索结果,任意剪裁文献,对问题的理解不恰当或是得出的结论似是而非的现象很突出。

其二,古籍数字化使读者勤于检索,少于思考。系统地阅读一本书与从一本书中检索出特定的资料,是两种不同性质的学习或研究过程。前者是与典籍作者对话,在阅读中思考,在阅读中提升自己的知识水平和思想境界,而后者只是一些特定信息的获取。传统阅读的卡片记录和批注,暗含着读者对事物的认识态度和分类意识,而数字化古籍以信息检索为基本内容的阅读方式带给人们的是囫囵吞枣式的阅读。

其三,古籍数字化易使读者用电脑代替人脑,不重视隐性资料。数字化检索功能带来的另一个问题是误引、误用成为常事。现在一些读者不是逐书翻检,只输入关键字词,点击鼠标。殊不知,这样检索的结果,并不都是可靠的。中国古代文献由于汉语的模糊性和不确定性,容易产生歧义,字面所反映的并不一定就是事物的真实意义,如果要了解事物的全部内容,则必须从字里行间去寻找“言外之意”或者“微言大义”。这就需要我们去仔细阅读原典,细心体会文献中的隐意,再强大的检索也无法代替。

其四,质量低劣的数字化古籍产品误导读者。一是错字错句多;二是正文和注混在一起;三是疏于校勘。四是古籍中一些特殊字词古今混用。

第4篇:古籍数字化范文

关键词: 古籍概况古籍数字资源古籍数字化应用

随着计算机科学信息技术的发展,大多数史学研究者很自然地提出古籍数字化。以网络为主要载体,数字图书馆建设迅速发展,古籍数字资料的应用与史学研究的结合日益紧密,信息技术对人文社会科学研究的影响在向深度和广度发展,相关问题的应用与研究也越来越受到人们的重视。

一、古籍概况

中华民族创造了辉煌浩瀚的历史文化遗产,古代典籍是我国历史文化遗产最为重要的物质载体,是世界文化的重要组成部分。虽然经史研究有很多优秀遗产,但存在着范围狭窄,缺乏参考资料等积弊。针对以上缺陷,近代以来学术界编纂了多种引得、通检、索引、汇编等工具书,部分完成了索引式整理的任务,为查阅古籍提供了诸多便利。但中国历史古籍卷帙浩繁,经过系统整理的只是少数,即便已有的索引古籍,在解决具体问题时仍会有种种不便。古典整理主要包括标点、校勘、笺注等工作。史料是历史研究的基础,每一个从事史学工作的人都要搜集和积累史料,以前抄录卡片的方法基本上是按照个人的需要辑录的,难以大家共享。搜集资料的工作麻烦而又艰巨,但十分重要。而且,只有尽可能全面地占有资料,才能对所研究的问题进行科学论证,得出正确的结论。因此,我们需要应用便捷、高效、准确的检索工具为人文学术研究服务。

信息时代,数字卡片将取代传统的纸质卡片是不争的事实,数字图书馆正在迅速丰富着个人的数字藏书。古籍数字资料的搜集与整理是一个完整的过程,包括数字资料搜集范围的确定,数字资料的筛选与鉴定等[1]。利用计算机把史料的整理归类工作做好,方便广大读者,这需要史学工作者熟悉、掌握基本的计算机信息技术,便于和信息技术人员配合协作,把古籍数字资料建设和史学研究推向深入。

现阶段古籍数字资料的应用喜忧参半。一方面,信息技术的迅速发展,为古籍数字化提供了充分的技术条件。互联网提高了电子文献的检索效率,扩大了服务范围,便捷的信息传递节省了远程通信费用。另一方面,现有的网络古籍数字资料分布极不平衡,大部分网络古籍数字资料库集中在海外,我国学者在使用上存在诸多不便。

二、古籍数字资源

数字化古籍文献为史学文化研究的繁荣奠定了基础,其功能不仅在于一般的信息查询,更重要的是古籍文献中的知识发现。古籍数字化应符合国际通用标准,具有开放性,可以在网络上传输,实现信息资源共享。古籍数字化的过程,基本上可以视为文献全文数据库的生成过程。通过计算机输入一部古籍文献,就形成了无标引的全文数据库,即半结构化的数据库。[2]但其最大的缺陷就在于,半结构化的数据库不能像结构化数据库一样,由排序、筛选、分类和统计等管理过程产生再生资源,更谈不上知识发现。这远远不能发挥计算机的技术优势,也难以达到研究者的要求。因此,只有对古籍中的数据进行充分的分析和处理,制作成结构化数据库,与半结构化数据库相结合,才能满足研究者的需要。古籍数字资料搜集得方便快捷的同时,带来了新的问题。

古籍数字资料尚没有方便适用的程序和统一的方法,古籍研究者可根据自己对资料的理解和研究需要进行二次归类整理。其方式有以下几种:按性质归类,按时间顺序排比,按研究问题分组等。检索得到的数字资料可以分为两类:一是数据性资料,二是需要进行逻辑分类的文字。对数据性资料进行分析,是史学研究的重要内容。我们可通过Excel之类的电子表格软件来实现常用的数据,如平均数、近似值、时间序列、分布规律等。在古籍中的数据性资料也占有相当一部分,但更多的是文字资料。

从古籍学术研究的角度上来看,古籍中既有我们古代先贤哲人所表述的撰述,又有保存历史断片的记注。研究古代先贤的思想,首先,当然要尊重其撰述的完整性,而每当我们对其研究发现之后,往往会有新的解读,这就是史学研究的一般过程。其次,古籍研究者对文献本身的认识也是随着研究工作的深入而逐步清晰起来的,如果在大范围内进行模糊查询或渐进式查询,纸本检索工具书就不能解决。使用数字检索系统就能解决上述困难,然后再使用Word和Excel,对文字性资料进行逻辑分类,以便从中获得新的知识发现。[3]

三、古籍数字化现存的主要问题

1.技术问题

目前古籍文本输入的主要方法有两个:键盘输入,但手工作业,效率低成本高;而OCR虽然是一种较为先进的自动化信息资源输入技术,但也存在一些诸如图像质量不高,扫描速度低,识别率低等技术性问题。此外,现有的汉字识别系统多数针对简体,识别竖排繁体古籍的效果非常不理想。相对古籍中众多的繁体字、异体字、通假字、避讳字而言,计算机的文字编码不敷应用,缺字一直是古籍电子化的瓶颈。

2.人才问题

因为古籍原本都是竖排繁体字,包含大量的异体字、通假字等,没有标点符号,必须先进行整理,而古籍整理工作只能依赖于专业人员,所以古籍数字化需要一批既懂得古籍整理又精通计算机技术的人才。现状却是急需培养古籍资源数字化专门人才。

3.统筹问题

我国古籍数量庞大,往往分散各地,而国内的古籍数字化工作缺乏一个全国性的权威机构的统一指导和协调。

4.标准问题

我国急需建立规范、统一的数据库形式。没有规范的机读目录格式,数据库就无法进行交换,无法真正实现国家乃至世界范围内的资源共享,给读者的使用和研究带来极大不便。

5.经费问题

现在我国公共图书馆拥有古籍文献资料最多,但因缺少经费,无法购置必需的设备和软件,并且缺乏相关的古籍与计算机人才,无法正常开展古籍数字化工作。

四、古籍数字资源在史学领域的应用

目前,尽管许多的史学研究者对应用计算机的认识,已经有了很大的提高,但是我们应该更加努力地提高利用计算机综合分析处理文字信息的水平,丰富研究手段,积极主动地参与信息化与史学关系的方法和理论研究,深入挖掘蕴含在浩瀚古典文献中的知识宝藏。此外,历史研究是一项系统而全面的学术活动,我们在运用古籍数字资料时,要摆正系统读书和按需搜集资料之间的关系,应当对古代文献中最基本的史料有比较正确、全面的理解,在此基础上搜集资料、发现问题和研究问题。掌握和运用的电脑网络知识,充分利用信息技术和古籍全文检索料为我们带来的方便快捷,可以把大量的时间和精力投入到文献资料的考订、分析和历史问题的思考上,提高我们的研究质量和效率。总之,加快古典文献数字化进程,对于史学研究有着极其重要的意义。

参考文献:

[1]龚娅君,刘春金.中文古籍数字化建设[J].浙江大学学报:人文社科版,2006,(4):176.

第5篇:古籍数字化范文

【关键词】古籍文献数字化;学科建设;古籍整理;古籍保护图书馆;古籍善本;培养;专业人才;开发利用;方向

【中图分类号】G456 【文章标识码】B 【文章编号】1326-3587(2013)04-0164-01

中华文化源远流长,广博精深,古籍文献蕴藏着我国五千年历史的全部智慧精髓,它不仅是中国悠久文化的传统明证,也是中华民族的立世之本,更是我们不可或缺的精神力量。古籍文献本身所具有的历史文物性、学术资料性以及艺术代表性,对研究我国古代的社会风貌以及生产、科学文化的发展,都具有极其重要的作用。因此,我们不仅应该好好加以保护,更应该充分利用这一宝贵资源。古籍文献数字化,有效地保存了我国现存的古籍资源,并借助信息技术,以发掘其中隐含的知识内涵,为我国古籍文献的开发利用奠定了基础。因此,将古籍文献数字化作为一门独立学科体系来研究,是摆在我们面前的一个全新的课题,而对古籍文献的开发和利用也显得尤为重要。首先从古籍文献的数字化研究来谈:

一、古籍文献数字化学科建设的重要性

古籍是特殊文献,既具有罕见的史料价值,又具有珍贵的文物价值。其中有些孤本、珍本,纸张已经变质变脆,而作为文献资料的古籍不可避免地要供人阅读。因此,如何有效地保护好这些珍贵的古籍文献,又不影响其正常使用,就成了古籍收藏单位所面临的迫切需要解决的问题。而古籍数字化以后,读者可以通过光盘或者网络浏览阅读善本,可以任意查找珍本书籍,避免了直接翻阅古籍的诸多不便,从而解决了古籍保存和使用的矛盾。古籍文献数字化,是保护和传承古文献最有效的形式,也是古籍整理工作的必然趋势。

古典文献学应该是一个开放的学科,在研究方法上可以吸取诸如文化人类学、阐释人类学、文化地理学、区域社会史等学科的成果,拓宽研究视野。中国古典文献学是一门基础性学科,是国学研究的基础。它支撑了众多以古代文化学术为研究对象的专业、学科的研究工作,促进了它们的持续良性发展。同时,中国古典文献学又是一门综合性学科,只有以各学科的知识积累为基础,不断充实自己的研究内容,才能保证研究成果的准确性、可靠性。古典文献学界要以接纳、包容的心态,积极吸收其他学科的研究成果,特别是加强同文学、历史、哲学等人文学科学者的联系,共同促进学术事业的发展。

二、古籍文献数字化学科建设的现状

当今,Internet已成为信息传播的主要媒介。作为一种全新的文献存在方式,数字化古籍文献,经过短短十数年的发展,已经向我们昭示其强大的生命力与广阔的应用前景,同时也提供了一个新兴交叉学科的发展契机。

三、古籍文献数字化学科的研究对象和学科性质

3.1 研究对象。每一门学科,都有其研究对象。确定研究对象,是一个学科成立的根据和发展的逻辑起点。“古籍文献数字化”,是指以古籍文献为对象进行的数字化工作,它包含了两个基本要素:一是“古籍文献”,二是“数字化”。我们在探讨“古籍文献数字化”的研究对象时,就必须从这两个基本要素以及二者的结合上入手,并考察古籍文献数字化是否具有特殊的研究领域。

3.2学科性质。古籍文献学,吸收了目录学、版本学、校勘学、计算机科学等多学科的研究成果和方法,博采众家所长,以全新的视角,将古籍文献作为一种数字信息资源,动态地展示在人们面前,诠释传统古籍与人类社会文化繁衍之间的交互关系。

四、古籍数字化学科的研究内容

古籍文献数字化,不仅是技术条件下的古籍整理方式的一种尝试,更在于它是一项跨越在自然科学和社会科学两个科学领域上的系统工程。为了实现旧有典籍的数字化进程,古籍文献数字化涉及众多学科知识的融合,并将形成具有自身特色的理论体系和结构框架。

古籍数字化的管理理论,是指对古籍数字化实践活动的全过程实行有效调控的理论。它涵盖了对古籍数字化成果及产品的预测、决策和评价的研究,古籍数字化的管理体制和开发机构的研究,古籍数字化从业者的素质及技能的研究等。针对古籍数字化而进行的管理活动,不仅仅是为了提高古籍数字化实践活动的效率,更在于通过有效的管理使古籍数字化更好地服务于广大读者。因此,必须加强对古籍数字化管理理论的总结研究,以给古籍数字化管理的实践提供强有力的理论支持。

五、古籍文献在当代社会的开发和利用

古籍文献的历史文物价值和学术资料价值已经摆在我们面前,那么它的价值到底是怎样体现的,我们又要从什么方面来合理的开发和利用古籍文献对社会的作用,研究如下:

许多图书馆已认识到古籍善本工作所面临的任务和工作者应该具备的素质,正在采取各种措施,加强古籍工作的队伍建设。突出的表现是,不断引纳高校毕业生,不仅有本科生,还有硕士生和博士生。这是非常有力的措施,保证了不断有较高素质的人员充实到图书馆古籍研究的队伍中来,保证了这个队伍后继有人,保证了能够在比较高的起点上培养这只队伍。但是,学历只能说明有比较好的基础,并不等于水平,要适应图书馆古籍善本的开发,要让他们到工作实践中去,并严格要求,对每部书的书名、卷数、著者、版本等项进行著录,即古籍编目工作,这是图书馆古籍工作的基础。

工作中可以安排有经验的老同志带他们,给他们讲解工作的有关规则和基本的工作方法,并检查他们的工作成果,正确的进行鼓励,失误之处指出其原因,帮助他们进行总结。要培养图书馆古籍工作的人才,让他们多参加图书馆古籍工作的有关学术会议,开拓眼界,增长见识,了解、学习别人和他馆的长处,获取知识,这对他们的成长是非常必要的。

第6篇:古籍数字化范文

【关键词】 中医药信息 古籍数字化 中医古籍

古籍数字化是当前中医古籍文献整理工作的热点。中医古籍传承了数千年中华医药文化,是宝贵的历史遗产。对中医古籍文献进行数字化处理,不仅可以再生性保护这些珍贵的中医古籍,而且为更加便捷地开发和利用古籍资源开辟了新的途径。

通过对目前国内外古籍数字化尤其是国内中医古籍数字化的研究与发展现状的深入研究,结合中国中医科学院中医药信息研究所近几年来在中医药珍籍秘典的整理抢救、保护及相关研究方面所取得的经验,本研究提出了一种新的中医古籍电子化系统的解决方案。旨在介绍一种实现无缺/错字、图文对照、通用性好、检索快捷方便、输入/输出灵活、读者互动交流、辅助研究性强的中医古籍电子化系统。该系统具有电子化编辑、压缩、上传、存储、图书分组管理、读者分组管理、读者-图书授权借阅、网络在线阅读、原文图像浏览、图书需求信息分析、计费电子借阅、古籍学术论坛、短信互动平台、准确快速检索等功能。其科学、便捷、安全、高效的古籍资源管理,将进一步实现古籍阅览由传统方式向电子/网络方式的重大转变。

1 系统主要功能结构

1.1 中医古籍编辑平台

中医古籍编辑平台提供对数字中医古籍的编辑处理功能。我们开发了《古籍编辑器》软件,用来对古籍图片元数据进行标注和压缩,输出电子书。

中医古籍电子书籍一般包含的信息有:①置标信息,古籍中的主要知识点,如病、证、方、药等;用于全文检索和浏览古籍图片;②原扫描图像,保待原图原貌,用于与文本信息对照使用;③书目的元数据信息,如分类、书名、成书年(出版年代)、作者、版本、馆藏地、内容提要、书籍特征、保管措施、复制状况等;④书的章节信息,用于划分清晰的书籍层次结构。

其特点主要体现在以下方面: ①古籍的卷、章、节可以灵活分级管理;②支持对图片的标记和编辑,不会改变原始图片,可以搜索图片信息和图片的标记数据;③支持缩略图方式浏览章节中的图片,支持鼠标放大/缩小图片和旋转查看,图片能自动播放和根据显示器分辨率调整大小;④依据中医古籍总目的分类标准归类书籍。

1.2 电子古籍系统

电子古籍系统用于将中医古籍编辑平台输出的电子

古籍上传、解压、导入并存贮到阅览系统中。系统会根据古籍分类信息自动归入正确的分类位置并建立索引,以树状形式展示,且在树的每个层次上显示该层次结构下的总条目数,与原有书库无缝集成。

1.3 电子古籍阅览系统

电子古籍阅览系统实现了用户在线进行图文阅览,并可以记录用户在线阅览古籍的种类和时间信息,从而分析读者对各古籍的借阅和需求信息。同时,电子古籍阅览系统具有网上计费借阅功能,以便于珍贵古籍的保护和有效利用。计费借阅方案灵活,主要有按时计费(按实际借阅时间、包月/年等)、按书籍计费、按会员级别计费、按流量计费和综合计费。

1.4 古籍信息搜索平台

搜索平台具有简单查询、组合查询和全文搜索功能。对于中医古籍涉及众多生僻字的问题,平台建立了中医古籍的繁简字体对照表,增加繁简字体关联互检功能,提高搜索准确率,同时提供基于内容的高效检索和对知识的准确挖掘功能。

1.5 学术论坛即时通讯

古籍学术论坛和即时通讯平台提供读者与读者之间、读者与中医古籍管理员之间进行互动古籍学术交流和即时通讯功能。

1.6 辅助软件操作平台

辅助软件操作平台提供了字数词频统计、历史年表、古今纪年换算、干支/公元纪年换算、六十四卦表等辅助功能,为古籍研究者对古籍数据进行多角度的分析研究提供方便,从而提高系统的实用性和友好性。

2 系统采用的主要技术

考虑到基于Java的Web应用技术的实用性、灵活性和稳定性,同时结合基于J2EE的Struts和实现数据持久化的Hibernate框架的MVC设计模式所具有的优良特点,本文采用了该架构来构建高内聚、弱耦合、可维护和可扩展的中医古籍电子化系统。数据库采用Oracle 9i,数据搜索采用Oracle Text技术。下面对其中一些关键技术予以介绍。

2.1 MVC设计模式

MVC(Model-View-Controller,模型-视图-控制器)是一种著名的用户界面软件开发设计模式,最早由Xerox在20世纪80年代为Smaltalk-80语言发展提出,后来被广泛应用于其它面向对象的编程语言中。MVC设计模式把应用程序分成了3个核心部分,将应用程序进行了分层,视图和模型通过控制器连接,从而减少了用户界面和业务逻辑之间的耦合,使程序设计更加清晰、灵活,也提高了软件的可扩展性、可维护性,克服传统Web系统的不足之处[2]。

2.2 Struts框架

Struts框架是Apache的一个开源项目,体现了MVC设计模式的特性,遵守了J2EE的Servlet、JSP等技术规范,同时根据J2EE的特点做了相应的变化和扩展,是J2EE体系架构的一种轻量级实现。作为一款优秀的Java Web应用程序的开发框架,Struts框架凭借其清晰性和灵活性,成为当前最为广泛应用的轻量级Java Web开发框架[3]。

2.3 Hibernate框架

Hibernate框架是开放源代码的对象关系映射工具(Object-Relational Mapping),是一款基于Java环境的优秀的对象持久化开发框架,根据O/R(对象/关系)映射技术思想,对JDBC进行了轻量级封装,使开发人员可以使用一种面向对象的方式来操纵和管理关系数据库,所以从技术本质上来说该框架是一种提供面向对象的数据库服务中间件[4]。

2.4 Oracle Text搜索技术

Oracle Text是一种功能强大的搜索技术,内置于Oracle数据库中,其提供的开发API使软件设计人员能轻松实现功能齐备的内容搜索应用程序,可用于搜索结构化和非结构化文档,是对SQL通配符匹配技术的补充。Oracle Text支持使用基本的布尔运算符(AND、OR、NOT、NEAR等)将多个搜索条目组合到一起,同时具有更高级的功能,如soundex和模糊搜索以及结果排序等。该技术支持数百种文件类型,包括Microsoft Office和PDF。

2.5 中医古籍中生僻汉字处理

古籍生僻汉字问题是中医古籍电子化工作的一大障碍。目前很多电子化古籍系统采用偏旁相加的方法来写,看起来非常别扭,而且如果遇到无法用偏旁相加的方法来输入的汉字,表达起来会更为麻烦。本系统通过对中医古籍电子化中遇到的生僻汉字问题进行深入研究并对生僻汉字进行分析统计后,对其进行编码、造字,建立繁简字体对照表,增加繁简字体关联互检功能,从而有效提高了搜索准确率。用户可以通过输入相近的简化字或者生僻汉字的模糊发音,即可进行生僻汉字有关的查询搜索。这种简单易用的方法实现了古籍电子化中遇到的生僻汉字的存储、检索和显示,较好地解决了古籍电子化中遇到的生僻汉字问题。

3 中医古籍电子化系统的实现

从2002年开始,中国中医科学院中医药信息研究所先后承担了科技部公益项目《1 100种中医珍籍秘典的抢救整理》、《中医药珍贵典籍的保护技术及相关问题研究》的工作,已初步建立起中医古籍电子化系统。通过自主开发的《古籍编辑器》、《古籍系统》,已经完成了1 500种中医古籍的书目元数据信息编辑工作,850余种的数字中医古籍的编辑工作;建立起的中医古籍阅览管理系统,实现简单检索、组合检索、全文检索、模糊检索、精确检索,实现了用户的分级管理,图书分组管理、读者分组管理、网络在线阅读、原文图像浏览等功能。可检索信息48多万条。系统功能正在逐步的建设和完善。

在系统建设中我们也碰到很多问题,如据根项目支持的经费,我们尚不能对数字化的中医古籍全文本化,那么如何实现阅读的检索呢·我们采取了对原书图标注的方法,通过标注,基本能实现古籍中主要知识点的检索。标注的度是达到检索量的要点,标注度过细,会大量增加工作量,标注度过粗,又会遗漏主要认知点,为此我们制定了标注的基本原则。数字古籍的图像,保待了原图原貌,除海外回归古籍是缩微胶片扫描完成外,原书扫描都是彩色储存。这样就大大地增加了储存的量,使图像的处理、图像上传及网上阅读都出现了速度慢的问题,为提高检索和阅读的速度,我们对数据库结构进行了多次优化和设备功能的提升,基本上解决了速度问题。速度问题随着数据量的加大,可能还会出现。

4 小结

本研究结合中国中医科学院中医药信息研究所多年来在中医药珍籍秘典的整理抢救、保护及相关研究方面所取得的经验,提出了一种基于数据库和Web网络技术的中医古籍电子化系统的解决方案,并就解决方案设计了技术路线和系统架构。该方案已在中国中医科学院中医古籍电子化研究项目中得到了良好的应用并取得了一定成效。

随着技术的进步和人们对电子古籍阅读需求的变化,中医古籍电子化系统是在不断发展,许多问题还需进一步研究。如:古籍中同药异名、异药同名,古籍中的病证和现代病名问题,这些目前已有相关的研究成果,如何利用这些成果建立起关联词表,将为中医古籍的阅读检索提供更加便捷的支持。

电子古籍生僻汉字问题的研究。传统的计算机二字节编码技术只能处理2万多个汉字,对古籍中大量的生僻字、俗体字、异体字、通假字、避讳字无能为力。龙语瀚堂典籍数据库采用Unicode四字节编码技术解决了古籍整理和研究中生僻汉字数字化的瓶颈,完善了汉字信息网络化的平台。

提供人性化的电子中医古籍阅读方式也是一个值探讨的问题。新加坡电子书系统有限公司推出的E-Book Systems Pte.Ltd.解决方案,其用户界面将传统浏览的多媒体内容如数码相片、文字、音乐乃至动画等表现形式通过三维翻页界面以虚拟翻书页的方式呈现出来,将自然贴切的真实书本效果带入电脑及网络世界。如何将其技术应用到中医古籍电子系统中,我们还需进一步的探讨。

【参考文献】

[1] 符永驰,孙海舒,李 斌,等.多媒体技术在中医药信息工作中的应用[J].中国中医药信息杂志,2006,13(12):103-104.

[2] Steve McConnell. Code Complete[M]. Washington:Microsoft,2006. 101.

第7篇:古籍数字化范文

关键词:少数民族古籍;收集;保存;开发利用

中图分类号:G648文献标识码:B文章编号:1672-1578(2013)06-0278-02

少数民族古籍是指我国55个少数民族在历史上形成的文献典籍和口头传承及碑刻铭文等。其内容涉及政治、哲学、法律、历史、宗教、军事、文学、艺术、语言文字、地理、天文历算、经济、医学等多个领域。

1.贵州少数民族古籍的类型和特点

贵州省是一个多民族省份,世居17个少数民族,是苗族、布依族、侗族、仡佬族、水族的主要聚居地之一。贵州少数民族在历史进程中创造并积累了内容丰富、种类繁多,载体形式多样的少数民族古籍。

1.1文献古籍

1.1.1各种少数民族文字记载的古籍文献。贵州省各少数民族都有自己的民族语言,但有民族文字的较少,彝族和水族解放前就有自己的民族文字,苗族文字是1905年英国传教士和当地苗族人根据苗语西部方言的发音特点研制出的一种拼音文字,俗称"老苗文"。以本民族文字记载的古籍文献多为手抄本,主要是彝文古籍和水书,如《西南彝志》、《彝族源流》,水书《连山易》等。在六盘水市水城县顺场乡发现了用苗族方块文书写的100多本经书,但这种文字尚待识读和破译。据考,这些经书文字主要是当地苗族在举行祭奠仪式中使用。

1.1.2汉文记载的有关少数民族史料。汉族文字是中华民族历史上的文字主体,直接或间接记录了贵州省各少数民族的历史活动,数量众多,仅明清两代就有各种著作约2000种。

1.1.3用汉字作记音符号记录民族语言的各种资料。借用汉字或仿照汉字创造一种本民族使用的文字,来记录当地的宗教经典,还有本民族的民间故事、情歌等。被尊称为侗戏祖师的吴文彩就用汉字记侗音的手段写出了侗族文学史上第一个侗戏剧目《梅良玉》。

1.2金石铭刻类古籍。金石铭刻类古籍按镌刻的物体分,有锡、铜、银合金浇铸钟铭、岩刻、碑刻等;按文字分,有民族文字镌刻,汉文镌刻以及民族文字、汉文合刻碑。《妥阿哲纪功碑文》是迄今发现用彝文錾刻记事最早的实物。水文铭刻类古籍主要存在于墓碑中,数量不多。最早的是三都水族自治县塘州拉下村的一块图文并茂的墓碑,据水族历法推算,此碑立于明孝宗十年(公元1500年)。唯一的一块苗文碑位于威宁石门坎,是1916年镌刻的。碑文反映了清末民初英国传教士柏格里从云南昭通到贵州威宁石门坎传教,创造苗文及办学校的情况。

铭刻类古籍中还有一些是封建王朝颁发给各民族土司的印章。如清乾隆三十二年(公元1767年)由礼部颁发的镇远四方形青铜质官印,印证了镇远历史上曾为"苗疆古都"的说法。

1.3文书类古籍。目前发现的主要是一些少数民族起义的檄文、文告、民间保留的契约、土司的委任状等。如分布在贵州清水江流域中下游的黎平、锦屏、天柱、三穗、剑河、施秉等县的清水江文书约30万件,记录了当地土著民族在历史上对中国混农林业和人工营林业的重大贡献,也是世界林业法制的一个历史典范,其内容以山林土地买卖、租佃、林产品分成及林业管理为主,填补了我国少数民族地区缺少经济历史文献、我国缺少林业历史文献和民间民法文献三大空白。

1.4口传古籍。贵州相当一部分的历史文化是采用口授的方式传承下来的,因此,口传古籍种类多,内容丰富,各地差别较大。其表现形似主要有远古神话、传说、寓言、民歌、民谣等。如远古神话史诗《板东辰》、中古英雄史诗《天灵相公》、近古英雄颂歌《阿贵与雅莲》;民间传说《蚩尤的传说》;布依族的《布依族古歌》、《安王与祖王》,侗族的《祖公之歌》;彝族的《阿莫尼惹》,水族的《开天地造人烟》、《简大王之歌》,仡佬族的《仡佬族古歌》、《叙根由》,土家族的《哭嫁歌》、《打闹歌》等。

2.少数民族古籍的收集整理和与保存

广泛收集抢救少数民族古籍是古籍保护工作的基本工作,贵州民族图书馆将此项工作列为古籍保护工作的重点。贵州少数民族古籍有相当一部分散存于民间,通晓少数民族古籍的专家不多,许多民族的古籍掌握在少数人手中,且这部分人年岁已高,缺乏继承者,一旦失去这些宝贵资源,损失将无法弥补。根据贵州少数民族古籍的现实情况以及贵州民族图书馆的客观条件,确定了少数民族古籍收集的内容、范围及保存措施。

2.1少数民族古籍收集的内容及范围。贵州民族图书馆主要收集贵州省内各少数民族的古籍,主要包括:

2.1.1水书,水族语言称其为"泐睢",由水书先生代代相传, 其形状类似甲骨文和金文,主要用来记载水族的天文、地理、宗教、民俗、伦理、哲学等文化信息。其载体主要有:口传、纸张手抄、刺绣、碑刻、木刻、陶瓷煅造等。水书主要靠手抄、口传流传至今。我馆目前馆藏的水书1000余册,其中《子午卯酉辰》(清光绪三十年(1904)抄本)、《九星配日》(清光绪三十年(1904)抄本) 被推荐入选第四批《国家珍贵古籍名录》。

2.1.2彝文古籍,彝文是彝族至今仍通行的表意文字,是一种原生的古老文字,它不是借用和摹仿汉字的产物。彝文产生于新石器时代到铁器时代之问,经历了文字发展的必经阶段,彝文典籍的内容涉及范围非常广泛,天文、地理、政治、经济、军事、医学、算术、地形、地貌、生物、农牧等无所不包,其中蕴含着大量的生产与生活的技能智慧,是彝族人民开发利用所在地自然资源的经验总结和科学的结晶。我馆馆藏的彝文古籍《嫁歌歌词集》(清嘉庆抄本)、《洪水与笃慕》(清道光二十六年(1846)抄本)、《婚仪诵本》(清道光三十年(1850)抄本)、《阿哲君长世系》(清道光三十年(1850)抄本)、《阿鲁预测书》(清咸丰抄本)被推荐入选第四批《国家珍贵古籍名录》。

2.1.3清水江文书,又称"清水江民间契约文书",主要是指明末清初以来直至二十世纪五十年代共约四百年的历史长河中, 中国贵州清水江中下游地区苗族侗族林农为了经营混林农业和木商贸易而形成的大量民间契约和交易记录。我馆馆藏清水江文书近1000份,扫描电子版的文书50多G。

2.1.4布依族古籍,在历史上,布依族一直被公认为没有自己本民族的文字,但是随着2009年,2010年,连续两年,经国务院批准,荔波县档案馆选送的布依族傩书、经书《献酒备用》、《接书神庙》、《接魂大全》、《关煞向书注解》等10部布依文古籍先后入选第二批和第三批《国家珍贵古籍名录》。布依族古文字被发现,并被国家文化部专家认定为中国具有自己民族文字的18个少数民族之一。

2.1.5仡佬族古籍,2009年10月, 贵州省仡佬族文化研究院在贵州北部仡佬族地区搜集到的《九天大濮史录》和《濮祖经》经中国民族古文字研究会在中国社会科学院民族学与人类学研究所组织专家鉴定会鉴定,被确认为具有重要价值的仡佬文古籍。

2.1.6其他少数民族非文献形式的古籍,主要通过录音,摄像等现代化的方式对少数民族的历史传统文化进行记录,例如仡佬族的语言濒临消亡,对仡佬族语言的抢救也是我们的重要工作之一。

2.2少数民族古籍文献的保存措施。古籍文献一般产生的年代比较久远,与自然界生物一样,也会逐渐衰老,保存条件不好将加速其损毁过程。古籍文献对保存环境要求比较高,对周围环境的温度、湿度、空气洁净度和紫外线含量均十分敏感,因此要严格按照要求来保存古籍。

2.2.1建立少数民族古籍文献库房。专门的库房保管是少数民族古籍保存的基本条件,库房有较高的环境要求:第一,防火、防光、防尘、防虫、防鼠。如定期检查库房电源、线路、开关等,定期清洁、除尘,放置除虫草药和灭鼠药等日常工作。第二,控制库房的温湿度。温湿度恒定在要求的范围呢。目前,除少数几家省级图书馆拥有较合格的古籍特藏库外,绝大部分图书馆根本达不到要求。贵州民族图书馆在古籍的典藏方面做得较好,建立了特藏室,采用专门的密集架存放少数民族古籍文献,安装了温湿控制系统,使特藏室的相对温度始终保持在16℃-22℃,相对湿度始终保持在45%-60%。

2.2.2少数民族古籍载体的防护措施。主要有两种:一是原生性保护,二是再生性保护。前者是指不改变原件载体情况下,对古籍进行修复、加固及改善藏书环境;后者是指通过现代技术、数字化手段将古籍内容复制或转移到其他载体,以达到对古籍长期保护与有效利用之目的,一般有:复制、缩微、扫描、数码照相、数字化处理等。

3.少数民族古籍的开发利用

3.1开发利用的途径

3.1.1数字化建设。 数字化是少数民族古籍开发利用的重要途径。数字化的基本方式有两种:一种就是将古籍输入电脑的基础上,对古籍进行校点。贵州民族图书馆一直在做这项工作。2007年以来,与贵州大学合作,按照联合国教科文组织"世界记忆工程"的国际文献遗产保护技术规范,运用当前国际最先进的信息科技,成功地研制开发了一套清水江文书数字典藏系统和保护管理工作平台;另一种方式是利用图片扫描技术,将少数民族古籍以原来的样式转变为电子文献,这种方式在将书本形式的古籍转化为电子文献上,具有以键盘、手写输入方式难以比拟的快捷,并且,由于它保留了原来古籍版式的原貌,在古籍的版本判定和同一书籍不同版本的文字校勘上都具有重要价值。要实现少数民族古籍文献数字化建设,最终需要建立少数民族古籍文献数据库,然后建立全文数据库。

3.1.2文献学研究。所谓文献学研究,是指根据文献学的学科特性而对少数民族古籍所进行的研究,着重解决少数民族古籍在文献构成、传播、原始价值和再利用价值等方面的问题,以及在校点中发现却不能直接通过校勘记录而予以解决的问题。有计划地对经典性的、常用的古籍进行这方面的研究,并通过自然积累而扩展到其他古籍。合理规划这样的研究,对提高古籍的文献学研究在学术研究中的地位,也是非常有帮助的。例如贵州民族图书馆馆藏水书《连山易》,据《周礼》记载,古代的"易经"原来有3本,即夏代的《连山》、殷代的《归藏》和周代的《周易》,其中,《连山易》和《归藏易》都早已失传。通过研究发现,有专家推断水书《连山易》就是早已失传的夏代《连山》。

3.1.3文献检索。对收集的少数民族古籍文献进行整理编目,必须按照国际标准《古籍著录规则》(G B 3792.7--87),并结合本民族文字书写规则进行著录,然后编制古籍文献目录以及古籍文献内容提要,为读者提供更多的方便。加强对少数民族古籍文献的宣传、陈列工作,对馆藏的少数民族古籍文献加以组合排列,通过一定的形式,展示在特定的范围内,使读者便于检索利用。

3.1.4文献类编。文献类编就是对少数民族古籍整理或再整理。它能在更大范围内为研究者提供研究资料,从而提高研究水平上的作用。例如,通过对清水江文书的收集整理,2012年,贵州民族图书馆与谭洪沛先生合作出版了系列丛书的第一部《贵州清水江流域明清土司契约文书--九南篇》,2013年将出版第二部。这一项工作对清水江文书的研究提供更多的研究资料。

3.2少数民族古籍收集整理、开发利用的几点建议

3.2.1根据科研、教学、出版的实际需要,广泛收集少数民族古籍。

3.2.2争取稳定的专项经费。根据自身的条件,争取上级单位、民族古籍部门的支持,并调动社会各方面的力量,筹集专项经费,有计划地进行少数民族古籍的开发利用工作。

3.2.3培养少数民族古籍工作专门人才,同时走与科研人员共同整理开发的路子相结合。从事少数民族古籍文献整理和研究的人应具备一定的素质和条件。如,要懂得少数民族语言文字,具备一定的研究理论水平等。这些人才光靠图书馆专业人员远远不够,必须走与科研人员共同整理开发的路子。少数民族古籍的研究涵盖各个学科领域,历史学、宗教学、文化学、语言学、文字学,经济学等,科研人员通过整理开发可以掌握少数民族古籍文献中的大量信息,有利于深化专业研究,提高研究层次。

参考文献

[1]龙小金.贵州少数民族古籍种类[N]. 中国民族报,2009

[2]陈冬梅.回族古籍资源的文献价值与数据库建设研究[J].图书馆理论与实践.2012(11)

第8篇:古籍数字化范文

关键词:高校图书馆;古籍保护;古籍书库;古籍普查;古籍修复档案

一、保护古籍的重要性及历史机遇

当前,我国关于古籍的定义有狭义和广义之分,广义上的古籍是指从秦朝到辛亥革命期间所有古书的统称,它可以是近现代人类对秦朝至辛亥革命期间古籍的校勘、影印或者笺注的图书,也可以是民国期间以多种形式出版的上述时期内的图书;狭义上的古籍主要是指采用我国古代制作、装帧方式而形成的古代图书,它可以是卷装、经折装、线装或者是比较少见的旋风装、蝴蝶装等。随着社会的发展,我国推出了国家标准的古籍定义:作为“古代书籍”的简称,古籍主要指成于辛亥革命(1911年)以前采用古典装订形式、能够反映我国古代文化的书籍。

(一)古籍遭受破坏的原因

导致古籍遭受破坏的原因很多,概括说来,主要有主观和客观两个方面:

客观方面,主要指自然气候条件、纸张寿命、制度方面等。我国南北方气候差异显著,南方高温多雨,极易造成古籍的霉变腐化,而北方干燥多风,干燥阴冷的环境极易导致古籍纸张脆化。受这些自然条件的影响,古籍遭受很大破坏。主观方面,对古籍保护工作重缺乏应有的重视是造成古籍损失的重要原因。古籍的特殊性,使得其对存藏环境要求更为严格,必须时时做好防潮防火防蛀工作。同时在流通过程中,古籍往往面临两难境地:一方面,限制人员对其借阅,使古籍无人问津,也失去了古籍应有的作用;另一方面,古籍对外开放,又要防止借阅者乱折、乱涂、偷窃、借而不还等各种人为破坏。因此,如何解决这个矛盾,也成为本文要讨论的议题之一。

(二)古籍保护的重要意义和历史契机

首先,古籍是中华文明的传承。古籍具有现代纸质文献无法取代的学术价值以及文献价值,它涵盖了政治、经济、文化、地理、军事、宗教、艺术等领域,是历代先哲对当时自然以及社会规律的记录与总结,对后人的研究具有很高的考古价值、学术价值1;其次,古籍具有无可取代性。尽管古籍的数字化是古籍未来整理的一个方向,但是古籍始终具有无可取代性,其重要的社会价值和学术研究价值,更无法取代;最后,国家对古籍的重视为古籍保护工作提供了历史契机。2006年,李长春同志重申我们要做好古籍的保护、抢修工作;同年9月,我国十一五文化发展纲要中明确提出要全面、科学有序地做好我国古籍保护工作,最终形成有效的保护体系。

二、高校图书馆古籍保护的现状及存在的问题

(一)高校图书馆古籍保护的现状

自2002年我国文物保护法明确规定将古籍列为国家保护文物之后,有关古籍的保护运动迅速展开。截止到2010年,国家古籍保护中心对全国1200多家单位、近4000余在职工作者开展了近七十期关于估计修复、保护等工作在内的相关业务培训,并加快了《中华国籍总目》的编撰工作的进程,进一步明确了古籍保护的规范与标准。相关资料显示,2007年-2010年四年间,70%以上的高校图书馆表示本馆古籍保护工作得到了重视,古籍保护经费有所增加、古籍修复工作人员数量也相应增加。其中较有代表性的是北京大学,其在“十一五”期间建成“中国基本古籍库”,合计全文17亿字。为确保古籍的安全与流通,该校图书馆还制作古籍数字化影像1000万页,数据总量为320G。此外,首都师范大学、中央民族大学等民族高校图书馆也纷纷建成古籍数字资源并陆续投入使用,可以说,我国高校图书馆古籍保护工作机制已初步形成。

(二)古籍保护中存在的问题

高校图书馆古籍保护在取得一定效果的同时,却也逐渐暴露一些不足,主要体现在以下几个方面:

第一,古籍保护缺乏宏观管理。主要体现在高校图书馆缺乏古籍管理的相关规章制度,部分高校图书馆缺乏对古籍应有的重视,甚至对本馆古籍数量、保存状态模糊不清,高校与高校之间更没有形成古籍保护的合力,缺乏全面合作机制。以安徽大学为例,该校图书馆在2009年的一次古籍清查中,发现128种古籍总计1882册不知去向,其中有善本书7种。由此可见,正是因为对古籍缺乏宏观管理,相关规章制度的缺位,导致部分高校图书馆对古籍保护重视程度不够,对本馆古籍数量不清,造成丢失、损毁后甚至仍然浑然不觉。

第二,古籍保护技术设备不足。古籍经过了漫长的历史洗礼,其纸张逐渐风化或脆化,保存不当,会大大加剧其损毁的速度。据国家图书馆古籍管理专家介绍,古籍对图书馆古籍书库的条件提出了特别的要求:如最适合的温度为16-22℃,相对湿度为45%-60%,且温度湿度需24小时恒定。然而在众多高校图书馆中,除北京大学图书馆、南京大学图书馆等少数图书馆外,大多数图书馆古籍书库没有实现恒温恒湿的环境要求2。

第三,专业人员稀缺。本文中所研究的古籍保护,主要为原生性保护。当前,我国高校古籍原生性保护人才缺乏3,这与古籍复杂、繁重的修复任务形成突出矛盾。据国家相关部门统计,截止到2010年,我国古籍修复人才不足百人,其中从事高校古籍修复工作的人员仅十余人。除北京大学、清华大学、复旦大学、南京大学等少数高校图书馆配备专职古籍修复人员之外,其它高校图书馆均没有专职从事古籍修复工作的人员。即便是在北京大学,150多万册馆藏古籍,如果仅仅依靠现有的古籍修复人员对古籍进行原生性保护,修复所有古籍需要近3800年。

第四,资金匮乏。随着古籍保护意识的提升,越来越多的高校图书馆积极采取措施保护现有馆藏古籍。一方面,古籍对存藏条件有着严格的限制,另一方面,部分高校图书馆由于资金匮乏无力购买古籍保护的设备以及承担维护费用,这直接造成古籍修复工作困难重重。

三、加强古籍保护的方案

(一)做好古籍保护人员的在职培训,培养一批专职人才。

古籍保护工作能否顺利展开,人才是核心。2010年,国务院办公厅关于加强古籍保护工作意见中明确提出,要加强古籍保护的专职人员的培养工作。同年,国家古籍保护中心专门成立培训组,相继开办了全国古籍普查、编目和修复的培训班,起到了很好的模范带头作用。面对古籍保护人员严重匮乏、专业性不足等问题,高校图书馆一方面要加大对现有古籍保护人员的技能培训力度,规范他们的保护行为;另一方面,要积极培养一批专职人才,确保古籍保护工作后继有人。在专职人才培养上,高校之间可以联合起来,开办古籍保护的相关专业或开设相关课程,以学分激励、就业激励等政策性激励确保可以持续招收到高素质的古籍保护工作者。

(二)运用先进技术手段,探索古籍保护新途径。

当前高校古籍保护工作,大都采取简单的放置樟脑求、防虫药等防蛀措施,但显然,古籍存藏环境的特殊性不止这些,做好高校图书馆古籍保护工作,更需要运用先进的技术,确保古籍保护更为有效。如在紫外线强烈的图书馆安装防紫外线窗帘,安装空调确保古籍恒湿恒温的环境,购置生物显微镜明确纸张纤维,方便古籍修补过程中配纸,同时购买纸张酸碱度检测仪,方便测定馆藏环境的同时确定是否需要去酸处理4。此外,做好古籍原生性保护工作的同时,做好古籍再生性工作,积极探索古籍再生性保护的新途径,发挥古籍的应有价值。如高校图书馆可以运用缩微技术复制古籍,影印出版及古籍数字化等,解决古籍保护与利用之间的矛盾。

(三)多措筹集资金,解决资金匮乏问题。

古籍作为我国优秀的历史文化遗产,其重要的研究价值还不被社会普遍认可,因此,加大古籍保护的宣传力度是做好古籍保护的前提,是赢得社会关注的关键。面对古籍保护资金匮乏的难题,高校图书馆不仅要争取政府的支持,还要积极筹措多种渠道,并结合社会公众的需求去开发古籍5,确保古籍的学术价值及艺术价值被社会公众认可,为古籍保护注入持续的资金提供支持。笔者认为,高校图书馆应争取政府的支持,建立民族历史文化专项保护基金,争取国家的财政投入,采用政府主导、市场运作、企业冠名等多种形式,同时制定古籍保护的鼓励政策,多措并举,让濒危的珍贵古籍得以抢救保护。

(四)建立健全古籍管理制度。

古籍保护工作的特殊性要求欲加强古籍保护的效力,建立高效便捷、具有本馆特色的科学管理机制是关键。长期以来,由于缺乏科学有效的古籍管理制度,使得古籍保护中权责不清、古籍保护工作者缺乏责任意识与积极主动意识等现象时有出现。建立健全古籍管理制度,可以从多方面进行,如建立达标的古籍书库;建立古籍管理保护登记表以及古籍图书出入库记录,确保高校图书馆对本馆古籍的信息熟悉于心;制作古籍阅览室导示牌,科学合理地引导读者共同参与古籍的保护工作;建立古籍修复档案,及时修复受损古籍;积极参与国家组织的各种古籍普查工作,岗位练兵,提高本馆古籍工作者的实际操作能力及业务水平;制定科学有效的合作机制,加强与其它高校图书馆、博物馆、公共图书馆等的交流与合作,借鉴北京大学、南京大学的先进经验,筹备成立高等学校古籍保护研究会67。

(五)加强古籍数字化进程

古籍作为我国优秀的文化遗产,其历时久远,其中不少纸张已经趋于老化,而其一旦损坏,将对我国先人优秀的文化传承带来巨大的损失。也正因此,不少高校图书馆都严格限制古籍的借阅,将其“束之高阁”,但这显然违背了书籍用来阅读的本质属性。由此可见,成立古籍数字化建设领导小组,将古籍数字化,既可以实现古籍的阅读功能,又可以更好地保护古籍,是延续民族文化切实可行的手段,为传统文化走向现代化提供了重要的途径。而对古籍数字化的过程,是我们对传统文化进行综合整理的过程,更是对古人优秀的文化遗产再学习的过程,甚至可以借助古籍的数字化,让古老的中国文化借助现代信息技术得以传播,让世人领略东方文化的魅力,让中华经典“活”起来。在这方面,较有代表性的是北京大学、北京师范大学、南京大学以及四川大学图书馆联合创办的“高校古文献资源库”,截止到2010年,其元数据量已达 20 余万条。

总之,作为中华民族优秀的文化遗产以及重要的文明成果,古籍无疑成为中华文明历史传承的见证。当前高校图书馆收藏了大部分珍贵古籍,有效保护和开发古籍也因此成为高校图书馆义不容辞的责任。(作者单位:西南民族大学图书馆)

参考文献:

[1] 张研.论古籍保护与利用在图书馆社会职能拓展中的价值[J].四川图书馆学报,2009,(1).

[2] 王清原.当前古籍保护的若干问题[J].江苏图书馆学报,2000,30(4).

[3] 刘家真,程万高.中国古籍保护的问题分析与战略研究[J].中国图书馆学报,2008,(4).

[4] 刘家真,程万高.古籍保护与开发的策略与建议[J].中国图书馆学报,2009,(181).

[5] 杨柳.浅谈古籍保护中的若干方法与注意问题[J].农业图书情报学刊,2011,(3):114-119.

第9篇:古籍数字化范文

关键词 大数据 数字人文 定量分析 计量史 古籍

1.引言

随着“大数据”时代的到来,对大规模历史资料进行定量分析已成为历史学研究中一种新的、行之有效的方法,通过统计分析从大规模数据中挖掘新事实、产生新认识,能够发现靠传统文献阅读无法发现的隐藏在历史文献中的史实与现象。20世纪中期以来,历史学定量分析逐渐成为国际学术研究中的一股新风潮,并服务于学界,现在学者们认为许多不具备数字特征的事物或事件,只要所研究的事物或事件存在特征并能加以量化,同样可进行定量研究,计量史学在经济史、政治史、社会史、人口史等领域研究中取得了很多的研究成果,发挥着巨大的作用。人文学科中的定量研究不仅能通过数据挖掘新发现,更能解释和理解这些发现,进而改变我们固有的历史和社会科学理论与认知。

大数据给了人文学科研究的全新思维。人文学科研究往往会预先设定研究问题或理论模型和假设,然后去寻找相关材料,但部分研究因为材料收集有较强的主观性和选择性,往往倾向于重复确认“已知”,而忽略发现“未知”。因此,很难促进对社会事物整体规律形成统一且有效的认知。而大数据研究思维则不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。埃雷兹・艾登(Erez Aiden)等在《可视化未来数据透视下的人文大趋势》(UNCHARTED:Big Data as a Lens on Human Culture)中以“谷歌图书”项目为背景,通过500多万本电子书不同词汇使用频度随时间的变化,讲述了大数据在研究历史文化、人类语言、社会名望、群体记忆等方面的重要作用,凸显了大数据对人文社会科学研究的变革意义。大数据时代的各种思潮和视角在不断涌现,大数据作为一种全新的资料,以其大大超越传统调查数据的样本量和时间跨度,为人文社会科学经典理论的验证和拓展提供了更多研究空间。而基于大数据的定量分析则为人文社会科学研究提供了一个全新的视角,传统人文社会科学的实证研究强调在理论的前提下建立假设,大数据时代重在发现知识与现象,在没有理论假设的前提下去预知,从海量的数据中发现知识,寻找隐藏在数据中的模式、趋势和相关性,揭示事物现象与发展规律,大规模的古籍文献扩大了人文学科资料的范围,提供了人文学科新的研究空间和新的研究可能。

2.大数据视域下的传统古籍文献开发及利用分析

目前,我国古籍文献的数字化已经比较成熟,文字层面的数字化也具一定规模,为古籍的深度开发与利用奠定了基础。古籍文献的统计分析是数字人文研究对古籍深度利用的基本需求,定量分析则是数字人文研究的一种主要研究方式。与传统的定性分析不同,定量分析是依据统计数据,建立数学模型,并用数学模型计算出分析对象的各项指标及其数值的一种方法。因此,定量分析的应用使人文学科研究更趋于科学化。人文学科的研究者对定量分析的需求日趋强烈,研究者不再满足检索结果的简单罗列,更需要从计量学的角度对符合一定条件的古籍文献从作者、文献来源、体裁及年代等多角度进行统计分析。近年来学者在古代诗、词、古代文学及中国史等研究中采用定量研究的趋势更为明显,例如,武汉大学著名词学研究者王兆鹏教授把文献计量的方法成功地引入词学研究中,李伯重教授在史学研究中大量地采用量化方法,李中清教授通过定量方法提出了150年来中国精英出身家庭四个阶段论述,胡俊峰、俞士汶利用统计分析的方法定义了唐宋诗中词汇语义的统计表达,20世纪90年代中期,北京大学开发的古诗研究系统就设置了统计分析的功能,定量方法的使用使得人文学科的研究成果增加了定量的特征,增强了人文科学研究的科学属性。

此外,多元、多角度的对比分析及古籍内容挖掘也是人文学科中数字人文研究所急需的。科学研究可以从多个角度进行对比分析,发现新的问题与现象,寻找隐藏在数据中的模式、趋势和相关性。对于作为史料来源的古籍文献来说,通过文献记载的史实对比,可以考察文献原始出处及后续的演变。哲学上,空间和时间的依存关系表达着事物的演化秩序,时间及空间上的比较分析法是常用的分析方法,它从时间角度和空间角度对事物的发展及变化进行立体式的描述,将是古籍文献深度利用方面的重要方式。而古籍内容挖掘更是人文学科领域深度分析的主要方式。利用文本挖掘技术可以对历史事件的发展等做出宏观的描述,更能准确地还原历史真相,对古籍文献中错综复杂人物关系建立关联,历史人物的社会评价做出客观的判断,对语言、社会及地理等现象进行有效的解释,同时古籍内容挖掘也是古籍数字化知识构建的基础。

随着古籍数字化的进一步发展,更多的学者开始认识到古籍数字化带给我们的不仅仅是海量的古籍文献存储,“数字化”为技术与人文的合流构筑了新平台,更为一个技术逻辑和人文逻辑相耦合的“数字人文”的出现提供了可能。传统的古籍开发与应用模式已难以适应人文学科中数字人文研究的需要,急需研究辅助工具与研究方式的创新与开发。引入大规模定量计算分析方法,构建可持续完善和丰富的数据集和分析工具,充分利用新的信息技术、中文信息处理技术及跨学科方法来对古籍进行深层次的分析与挖掘,对数字化古籍文献所蕴涵的多重信息进行多角度的揭示和重组,这种深度的开发使古籍文献不再是平面的、孤立的资料,而使其构成一个立体的文化学术知识库。

3.大数据视域下的古籍文本可视化分析与挖掘

词汇的时空传播与演化探索,研究意义重大。金观涛与刘青峰的《观念史研究:中国现代重要政治术语的形成》,以十年之功,建立起一个庞大的“中国近现代思想史专业数据库”(1830-1930年),通过核心关键词在历史文献中的统计数据,找到一份中国重要政治术语形成时期的观念史地图,从而跳出传统史学研究被诟病的框架――研究观念起源往往囿于思辨而无法实证。计量史学遭遇的是方法论难题,建设大规模数据集,则可能是逾越“大历史观”、整体史研究与繁芜历史资料间鸿沟的有效办法。如何将这类历史资料进行合理有效的编码和数据集成化,并通过实证分析更好地帮助我们了解社会发展的历史经验和对当下的启示,成为学界需要加强探索和讨论的关键技术课题。

按照马创新、曲维光、陈小荷主张的古籍数字化开发的两个层次来看,显然,以存档和检索为目的的古籍文献表层数字化已取得丰硕成果,而古籍文本可视化分析与挖掘属于深层次的开发,深层次的古籍文献开发主要是古籍知识单元标注及知识网络构建、古籍文献之间的关联、文本内容分析及挖掘等,就目前的数字化古籍文献的开发及利用现状来说,面向数字人文研究的数字化古籍文献的深度利用所面临的主要问题有以下两点:

(1)缺乏有效的对于数字化古籍文献的整合。

目前的古籍文献数字化存在各自为政的状况,由于版权及产权的原因,导致数字化的古籍文献分散于不同公司、不同研究机构中,而且重复建设严重,不仅功能单一,数据也往往只涵盖某一个类别或某一个专题,分散的数据不能实现多元化及整体化的研究对比与分析。而有比较才有鉴别,有比较才有发现,有综合才能发现知识、规律的全貌。大数据时代已经来临,超大规模古籍数据、更多更丰富的古籍文献汇集在一起,可以提供更多、更全面、更准确的资料,满足文、史、哲等各学科研究的需要,对交叉学科来说更是不可或缺。面向数字人文研究的数字化古籍文献整合的目是共享或者合并来自于两个或者更多应用的数据集,创建一个具有更多功能的数字人文研究应用的过程,数字化古籍文献的整合将有利于知识揭示、现象发现,将极大节省研究者的时间,提升研究和创新水平,通过异构数字古籍文献的融合、聚类和重组使资源从数据层的揭示与展现转向信息层、知识层的深度服务,通过将零星的史料片段按一定规则重新组合、排列,对蕴含在古籍中的知识进行多元重组,使不同知识单元之间建立关联,形成一个多维的知识网络,可以帮助研究者发现原有脉络中难以获得的发现与解读。因此,数字化古籍文献整合势在必行,打破古籍数据库建设“小、散、乱”,以及各自为政的模式,已形成学术共识。

(2)缺乏新的数字人文研究范式及方法。

基于古籍文献的语言、文学及历史等人文学科的研究在学术上的突破往往依赖于新材料的发现。虽然数字化古籍文献的使用引发了研究思维的转变,改变了学术前沿的概念,但囿于研究工具及研究手段限制,人文学科研究在创新方面遇到新的瓶颈,在传统研究范式的制约下,使得一些研究项目无法开展,研究视野受到束缚,传统的数字化古籍文献的开发及利用模式难以催生突破式的发现。马克思说过:生产工具促进生产力的发展。同样,先进的研究工具有利于学术研究的发展。新的数字人文研究工具与方法的出现将突破传统的研究范式,古籍文献数字化的广泛普及促进了古籍的利用,大大节约了研究者查找资料的时间,消除了古籍文献独占的客观制约,史料的综合化消除了语言、文学、历史、哲学等学科的材料隔阂,在如今强调各学科协同创新的大背景下,更为人文学科的交叉研究提供了条件。

3.1数据来源

数据和方法是数字人文的两大支柱。数字人文领域的研究使数据驱动(Data-Driven)研究成为热点,数据已成为数字人文研究的基础和核心。大规模古籍文本具有覆盖时空跨度大、材料面广的特点,很大程度上可避免选择资料时的疏漏与偏废,弥补史学家惯用的“选精”与“集粹”研究方法带来的缺陷。古籍文本的收集、整理是大规模数字化古籍文献研究的基础,而对古籍文本语料库的构建主要采取对已有数字化古籍文献整合的方式。大规模古籍数据并不是单一数据很大,其最核心的问题是多源跨域数据的融合,即通过融合不同类别、不同专题的数字化古籍数据的知识来共同解决单一数据解决不了的难题。大规模古籍数据有三个非常重要的层次:数据的获取、数据的描述和数据的分析,在语料库的建设过程中,语料库应该满足三个基本要求:样本的代表性;规模的有限性;机器可读性。因此古籍文本语料库构建应遵循以下原则:

(1)目的性。数字化古籍文献整合的主要目的是为人文学科的研究服务,因此,古籍文本语料库构建需要以研究的适用范围为导向,有针对性地选取多数据进行融合,特别需要收集有一定权威、认可度的高质量数据,实现多数据源的浓缩,帮助降低学者研究时的对比、统计和分析数据的劳动强度。

(2)一致性。古籍数据整合的一致性首先表现在格式的一致性。多来源的数据易导致格式的不统一,因此,存储和处理时必须对数据进行统一的编码格式转换。为了提高电子文本的规范化和标准化程度,1987年美国计算机语言协会(ACL)、美国文学与语言计算协会(ALLC)和美国计算与人文协会(ACH)赞助并组织的文本编码倡议(TEI)为电子形式的文本材料定义了一系列的通用标准,并被世界各国广泛采用。其次,数据内容的准确性也应保持一致性,这样才能提高分析结果的可靠性。再次,数据的分割、统计、分析方法的一致性,在同一标准下进行分析及统计,这样的结果才有可比性。因此,一致性的古籍文献分割、保存、整合、透视和展示方式,可以最大程度地保证研究结果的可靠性、可检验性及再现性,也有利于后期的更新与维护。

(3)多样性。数字化古籍文本语料库是一个庞大的文本文献的集合,主要用于观察、分析和研究文、史、哲等多个学科的需要,不仅仅满足于传统的语言学词汇、语法、语义语用、语体等研究的需要,更需要能满足文、史、哲等多学科和跨学科研究的需要,因此加工深度及标注信息既要反映各种语言学属性,语料也应具有多样性,更应注重多学科的交叉和融合。

(4)共享性。人文研究学者需要的不仅仅是统计分析的结果,他们对原始研究数据也有强烈的需求。传统的研究者常从档案、出版物或者文物等人类文化记录中提取数据,有时可能会花费几个月甚至几年的时间。而语料库将极大节省研究者的时间,帮助他们利用现有数据提出新的研究问题或作为有效的例证。因此,语料库文本数据的共享也是非常必要的。

目前,已数字化的古籍文本主要以两种形式存在,一种是网络上的各种专业性论坛或网站,另一种则存储于专业数据库中。从数据收集角度来说,主要来源途径有网络数据采集与专业数据库文本获取两种。然后对获取来的文本进行编码、分类、标注等处理。大规模数字化古籍文本语料库构建过程如图1所示。利用计算机自动、半自动收集的方式,加快了数字化古籍文本建库的速度,为建设大规模古籍文本语料库提供了保障。经过近半年的抓取及抽取,收集、整理了41563种(大约48亿字)数字化古籍本文,涵盖从上古到民国的经、史、子、集等40个类目的文献,覆盖面广且有时间上的延续性,形成了一个比较综合、学科门类全面的数字化古籍文本语料库。

武则天一度成为争论最多、留下疑惑最多的一个历史人物,对武则天的历史评价向来毁誉不一。迄今学术界对武则天功过的评价仍然众说纷纭,不仅史学界没有定论,在大学课堂里亦评价各异。在传统研究中,研究者易将“某一或某些例证所反映的现象普遍化”,从而可能丧失真实性,导致研究结果具有一定的不可靠性。通过大规模古籍文献来分析历史文献中对武则天称谓的变化,从中能发现一些有趣的历史现象。由于笔者非历史学专业出身,对问题描述与解析可能会存在一些偏差,需要专业人士来对获得的现象进行更为合理的解读。

系统统计分析显示,在历史文献中对武则天称谓的总体分布和年代分布如图2、图3所示。从其称谓来看有武后、武才人、武则天、武氏、武皇后、武媚、则天大圣皇后、则天大圣皇帝等,武则天死后,唐人对其的评价曾发生过一些变化,正如王双怀教授所说“唐中宗给武则天举行隆重的葬礼”,睿宗即位后,“对武则天的评价明显降低”,“唐玄宗基本上还是肯定了武则天。”,“盛唐以后的统治者对武则天是相当尊重的”。从词频可以看出,到唐末期很少出现直呼其名的或称其“武氏”,从唐中期到唐末时期基本以“武后”相称,虽然不承认其皇帝身份,但称谓也无有意贬低之意。

五代后,称其为“武氏”的文献开始大量出现,与“武后”称谓不差上下,从大量文献来看,该时段褒贬都有,对武则天任用酷吏、改朝换代的事和武周政治进行了严厉的抨击,“但总的看来,是否定武则天的”。北宋时期,欧阳修、宋祁等人用最恶毒的语言攻击武则天,但是,欧阳修等人只是反对武则天干预朝政、任用酷吏、杀戮宗室大臣以及改朝换代,并不否认她的政绩。及至南宋,人们对武则天的评价越来越低,但也不是都持全盘否定的态度。到了清初,因对异族统治不满,又无能为力,遂借古讽今,但也有文献对武则天的评价是较高的。称其“武皇后”、“武媚”基本上集中在五代十国到南宋,而称其为“则天大圣皇帝”(图4)的基本以史书记载为主,文献分布也比较分散。所有以上记录武后、武才人、武则天、武氏、武皇后、武媚、则天大圣皇后、则天大圣皇帝等称谓的文献作者空间上的聚合分布如图5所示,除了江苏、浙江一带比较多以外,其他地区分布得比较均匀。

对另一个经典的历史思想观念进行验证的是“重学轻术”。中国传统观念一直受“重学轻术”这一思想的影响,学、术在我国古代分别具有不同的含义,按《汉语大词典》、《康熙字典》等的解释,都有不少义项,“学”基本是指钻研知识、获得知识、掌握知识等为主,而“术”则多指技艺、方法。可见,学术在中国古代的知识体系中学是学,术是术,且在传统的儒家思想中学是“儒道之经”,术是“奇技淫巧”。从图6可见,“学”的频率在中国古代文献中要远高于同期“术”的频率,不知是否跟中国古代儒家历来重“学”轻“术”有关,或一定程度上反映了儒家思想对仕人思想的影响。

文学地理学的研究对象是文学要素的地理分布、组合与变迁,文学要素及其整体形态的地域特性与地域差异,文学与地理环境之间的相互关系。文学要素包括文学家、文学作品和文学读者,地理环境则包括自然地理环境和人文地理环境。文学地理学的任务,就是考察不同的自然地理环境和人文地理环境对文学家的气质、心理、知识结构、文化底蕴、价值观念、审美倾向、艺术感知、文学选择等构成的影响。文学与地理环境的关系是一个互动关系。对中国历代文学家的地理分布格局分析是文学地理研究的重要内容。而古籍文献则又是分析的主体。系统提供了古籍作者空间信息可视化分析功能,为文学地理的空间环境分析提供了新的研究工具。

在传统研究中,从地理空间的视角研究文学作品,定量化解析文本中的空间信息是一项繁杂的工作。系统能通过文学作品中词组出现频率来分析其空间分布及方言词分布,提供时间和空间二个维度的分析视角。例如,先秦至西汉年间(公元前2070-公元23年)古籍文献的作者(由于系统目前没有严格按谭正璧主编的《中国文学家大辞典》对属于古代文学家的人物进行标识,故统计分析的是所有古籍文献的作者数据。以下同)主要地理分布如图7。这一时期的作者分布主要在黄河以北地区,在山东与山西境内;东汉至西晋年间(公元23-公元316年)古籍文献的作者主要地理分布如图8,这一时期的作者分布主要中心开始往长江一带转移,以成都、武汉、南京为主;东晋至南北朝年间(公元316-公元581年)古籍文献的作者主要地理分布如图9,这一时期的作者分布主要以南京为主;隋至五代十国年间(公元581-公元979年)古籍文献的作者主要地理分布如图10,这一时期的作者主要分布中心重新北迁,主要分布在黄河中下游地区,以河南、山东为主;宋至清末年间(公元979-公元1911年)古籍文献的作者主要地理分布如图11,这一时期的作者分布区域明显扩大,而且主要分布在沿海及中、东部地区。

从以上古籍文献作者的地理分布图可以看出,古籍文献作者的地理分布是有规律可循的,从周秦到清代中心的分布大体呈现以下规律:

(1)以都城区域为中心分布。都城既是全国的政治和军事中心,也是全国的文化和人才中心,聚集了丰富的教育与经济资源,文化和文学人才兴盛,这种现象在我国古代早期表现更为明显。先秦时期的都城以黄河以北区域为主,此时的作者基本分布在黄河以北区域,东汉至西晋年间都城开始往南迁移,如蜀国建都成都,吴国建都建业(今南京),此时的作者基本分布在长江中下游区域,东晋至南北朝年间的都城也是建业,此时的作者分布以南京为中心,隋至五代十国年间的都城以西安、开封、洛阳为主,此时则以黄河中下游区域分布为主。由此可见,宋朝之前都城区域的变化对作者地理分布影响为主因。

(2)以经济中心分布。黄河中下游流域与长江一带古时是中国的经济重心,最为富庶,这些地区的文人占了全国的绝大多数,经济的繁荣,也带动了教育的发展,这些为文学人才的成长提供了重要的条件。从宋朝开始,长江中下游地区成为经济中心,此时,经济中心对作者地理分布影响成为主因。

(3)文明程度的影响。文化传统悠久、文化根基深厚的地区一旦形成,就有一定的稳定性,不会因政治、经济等外在条件的改变而立刻改变。比如长江下游的江苏、浙江一带,无论朝代的更替都一直保持着文化和文学人才的兴盛。

(4)交通的影响。早期的作者地理分布影响因素主要是都城及经济,从宋朝开始,随着交通的便利,作者地理分布呈现出分散的态势,交通的发达促进了各地经济、文化交流,经济与文化的广泛交流是一个地区文化建设的一种重大的推动力,此时,作者地理分布集中在中国沿海及中、东部地区,而西部地区由于交通因素限制了经济与文化的交流。

以上分析的结果与曾大兴在《文学地理学研究》中的研究成果高度相符。空间信息可视化分析为古籍深层次开发与应用的发展做出了一种探索和尝试,实现了从古籍作品一般信息的统计学分析扩展到古籍信息空间信息挖掘,为文学地理学研究提供了新的视角,也为其他历史、文化地理学等相关学科的研究提供了可参考的案例。

精选范文推荐