公务员期刊网 论文中心 正文

核心期刊多源信息深度聚合模式应用

核心期刊多源信息深度聚合模式应用

摘要:针对核心期刊相关信息的分散异构,探索其在管理与服务中的创新应用。从3个层次聚合期刊相关信息,即数据层收集和整理各来源的核心期刊相关数据,信息层采用元数据和本体词汇对期刊相关数据及其特征进行语义规范描述,知识层基于本体和关联数据技术,从语义上揭示期刊信息各概念之间的关系,实现了中外文核心期刊信息的多维展示、关联发现和多维统计分析,并进一步分析其在采访决策和个性化服务中的应用前景。

关键词:核心期刊;多源信息;深度聚合;知识组织

1引言

期刊是高校图书馆馆藏文献资源建设和服务的重点。在期刊采访、管理和服务等过程中,其相关信息(如收录情况、影响力、分区、开放性、馆藏和利用情况等)多而杂,且来源广泛,具有无序性、独立性、多源性和分散性,给读者的发现和利用带来困难,也不便于对利用情况进行分析。为方便读者利用,进而指导高校图书馆馆藏期刊资源的建设,有必要对期刊的相关信息进行整合。邱均平等[1]认为随着读者需求的提升,对数字资源进行深度聚合是数字资源建设发展到一定阶段的必然要求。童旺宇[2]研究了图书相关信息的聚合,并指出其可为用户提供决策支持服务。对多源期刊信息进行聚合能够使期刊相关信息更为集中、有序,从而更好地为读者提供期刊信息服务,对其特征和利用行为的分析可为进一步优化馆藏期刊资源的配置提供决策支持。

2相关概念

2.1核心期刊及其信息的多源性

核心期刊是指学术水平较高的期刊,或某一学科中高水平、高影响力的期刊。英国文献学家布拉德福在1931年首先揭示了文献集中与分散规律,发现某时期某学科1/3的论文刊登在3.2%的期刊上[3];1971年,SCI创始人加菲尔德统计了参考文献在期刊上的分布情况,发现24%的引文出现在1.25%的期刊上[4]。这些研究均表明期刊存在“核心效应”,进而衍生出“核心期刊”的概念,同时在国内外产生了多种核心期刊遴选体系。国内核心期刊遴选体系有中文核心期刊要目总览(北京大学)、中国科学引文数据库核心库(中国科学院)、中文社会科学引文索引(南京大学)、中国科技期刊引证报告(中国科学技术信息研究所)。国际核心期刊遴选体系主要有SCIE(收录理科工科类)、SSCI(收录经济管理人文类)、A&HCI(收录艺术与人文科学类)、EI(收录工科及少量管理类)等。期刊多源信息是指期刊的相关信息来源于不同的信息平台,其相关信息包括期刊刊名元数据、收录信息、分区信息、影响因子、开放性等(如图1所示),针对具体的高校机构还包括馆藏和机构成果等,这些信息分散于不同的信息环境中。

2.2信息聚合

聚合原意为将分散的个体聚集在一起。在互联网领域,信息聚合是指挑选、分析互联网上的海量信息并根据内容进行归类,进而为用户提供优质有用的更具针对性的信息[5]。本研究中的核心期刊信息聚合是指针对高校的教学和科研需求,聚合各来源多维度的期刊相关数据,展示期刊的整体概貌,方便读者发现和甄别自己感兴趣的期刊,同时为图书馆期刊采访提供决策支持。

3核心期刊多源信息聚合模式

核心期刊相关信息类型多样、来源广泛且关联性强。对核心期刊相关信息的聚合不仅要收集期刊各个维度的数据,而且要对数据特征进行语义描述,反映其知识关联,以对期刊相关信息进行有效揭示。因此,根据数据来源和信息组织形式,期刊相关信息可从数据层、信息层和知识层3个层次进行聚合,在此基础上提供创新应用服务。聚合模式如图2所示:数据层聚合是对多来源的期刊相关数据进行收集和整理。数据收集是依据核心期刊收录标准收集期刊的描述性元数据,以及与期刊相关的影响因子、分区、收录情况、开放特征、馆藏特征、机构成果、评价等数据;数据整理是对所收集的期刊数据进行去重、归并、规范化和数据增强等数据清洗工作,如期刊分类整理、重复数据合并、字段格式规范、缺失数据补充等,以保证期刊相关数据的完整性和准确性。信息层聚合是对期刊相关数据及其特征进行语义规范描述,以实现机器可理解。图书馆领域常用的语义元数据描述规范有DC、MARC、BIBO、FRBR和PRISM等本体词汇。知识层聚合是对事物的本质及事物间的关系进行揭示和控制。对期刊信息进行知识层聚合是对期刊所涉及的相关概念及其关系进行有效关联,并进行语义描述。知识层聚合涉及的相关技术有语义网、本体、关联数据和叙词(SKOS)等[6-7],可从多角度揭示期刊信息的知识内容和相互关系。基于以上3个层次的期刊相关信息聚合所提供的创新应用服务有多视角期刊信息的分面导航、关联发现、多维统计分析、定制与推荐,以及为期刊采访提供决策支持等。

4核心期刊多源信息聚合关键技术分析

核心期刊多源信息聚合涉及的关键技术主要包括多源信息的ETL(Extract-Trans-form-Load,抽取-转换-加载)、期刊信息知识组织的本体概念模型,以及期刊相关概念属性元数据语义描述。

4.1期刊多源信息的ETL

期刊多源信息的ETL是指从各数据源抽取所需的数据,经过数据清洗,最终按预定的数据格式加载到系统中。需要抽取的期刊信息数据类型、来源和收集数据要求如下表所示:表中各种类型的期刊相关信息可从相应的来源网站下载或要求数据库厂商提供,由于不同来源的数据格式不一致,需要对数据进行清洗。期刊相关信息的清洗工作主要包括数据归并、数据规范化和数据增强。①期刊数据归并,即对各来源的期刊相关数据与期刊总库做唯一性匹配。由于各种来源期刊的ISSN号和刊名可能与总库中的信息不一致(如刊名和ISSN号变更、书写方式差异等)而无法匹配,需要通过程序对各来源相关信息进行唯一性检测或人工整理,使其与总库的期刊相匹配。这是一项基础性工作。②期刊数据规范化,即对各个字段的格式进行规范统一,如ISSN号统一为XXXX-XXXX格式,年份统一为4位等。③期刊数据增强,即当有些信息不全时,需从不同的来源进行元数据补充,甚至人工录入。

4.2期刊信息知识组织的本体概念模型

期刊信息知识组织的目标是对期刊相关信息进行整序,使知识存储有序化、易获取。本研究对期刊相关信息的知识组织是基于概念层次而非知识内容层次,采取语义网和本体(Ontology)技术相结合的方式建模。期刊相关信息知识组织的核心是建立本体概念模型,模型主要涉及期刊相关概念、概念的属性及概念之间的相互关系。根据上表中期刊相关信息所包含的内容,其可定义的概念类有期刊母体、期刊文章、科研机构、科研人物,以及期刊母体的属性概念子类:影响因子、期刊分区、收录来源、开放期刊、馆藏特征和利用情况。期刊相关信息本体概念模型如图3所示,概念和子概念以节点表示,各概念之间的关系以边表示,概念之间定义了关系,如科研人物是科研机构的成员(memberOf),卷期是期刊母体的部分(isPartOf),收录来源是期刊母体的子属性(subPropertyOf)等,同时这些关系也是互逆的,各概念彼此之间构成网状关联结构,一个概念可以关联到其他各个概念。

4.3期刊相关概念属性元数据语义描述

期刊相关信息本体概念模型建立了期刊各概念之间的相互关联,其概念、关系和属性要使机器可理解,需借鉴本体词汇(如bibo、fa-bio、foaf、dcterms、rdfs、owl等)进行语义规范。对于扩展的词汇,本研究自定义扩展词汇的命名空间为journal。概念和关系的语义规范描述词汇已定义(如图3所示),下面对各概念的属性元数据进行语义规范描述。期刊母体类可用bibo:Journal本体词汇描述,其数据属性为刊名(dc:title)、历史刊名(dcterms:alternative)、ISSN(bibo:issn)、语种(dc:language)、出版频次(dcterms:accrualPe-riodicity)、创刊年(prism:creationDate)、简介(dc:description)、主题分类(dc:subject);对象属性有官网地址(prism:url)。机构成果为机构科研人物所发表的期刊文章,概念类有科研人物(foaf:Person)、科研机构(foaf:Organization)、卷期(bibo:Issue)和期刊文章(fabio:JournalArticle),其数据属性主要有题名(dc:title、dcterms:alternative)、年(prism:year)、卷(prism:volume)、期(prism:issue)、页码(prism:page)、关键词(prism:key-word)、摘要(dcterms:abstract),对象属性有DOI(bibo:doi)。卷期类与期刊母体为属于与被属于的关系(isPartOf/hasPart),期刊文章类与卷期类也是属于与被属于的关系,期刊文章由科研人物创建(creator),科研人物为科研机构的成员(memberOf)。期刊母体相关属性类的概念采用自定义词汇集(journal),其具有的子属性关系(rdfs:sub-PropertyOf)的类有收录来源(journal:Source)、影响力(journal:Impact)、分区(journal:Zone)、开放特征(journal:Open)、馆藏特征(journal:Collec-tion)和期刊利用(journal:Utilization)。子属性类的数据属性有年份(prism:year)、月份(prism:month)、主题分类(dc:subject)、收录类型(jour-nal:CollectionType)、分区类型(journal:Zone-Type)、Top期刊(journal:Top)、被引次数(jour-nal:TotalCites)、影响因子(journal:ImpactFac-tor)、特征因子(journal:Eigenfactor)、请求量(journal:NumberOfRequests)、来源数据库(jour-nal:DataBase)、网址(prism:url)、OA期刊类型(journal:OpenType)。以上从语义上定义了期刊相关信息的概念类、属性及其关系,通过各概念之间的语义关联使期刊相关信息的各概念构成了一种网状关联结构,从而便于进行知识推理,从任意维度出发发现更多有价值的信息,便于期刊信息的深度发掘。

5核心期刊多源信息聚合的应用

基于上述核心期刊相关信息聚合模式,本研究收集整理了核心期刊的7类相关信息:最新收录、影响因子、分区、开放特征,以及某单位图书馆的期刊馆藏、机构成果和期刊利用数据,实现核心期刊信息导航展示与多维分类统计、期刊多维信息展示与关联发现,并对其在期刊采访决策和个性化服务中的应用前景进行分析。

5.1核心期刊信息导航展示与多维分类统计

用户可以从收录来源、分区类型和年份等多个维度统计和展示各个学科类别或分区的核心期刊数量、OA刊数量、馆藏刊数量、友好刊数量(本机构成员发文的期刊),然后再导航到各类期刊的列表。一方面,可方便用户找到自己感兴趣的各种特征的期刊;另一方面可方便采访人员了解各学科的核心期刊分布情况。

5.2核心期刊多维信息展示与关联发现

期刊相关信息各概念之间的语义关联使具体期刊的相关信息发现更为便捷。一方面可以从多个维度聚合期刊相关信息,将期刊各维度的信息展示出来,如对于某一具体期刊可聚合期刊元数据,各种类型各年份的收录、分区、影响因子信息、期刊的机构发文、电子及纸本馆藏信息、期刊利用情况等;另一方面,期刊各概念关联层次的多级性使用户可以发现更多有价值的信息,同时可关联到同学科、同分区或相同收录来源的相关期刊等。

5.3期刊采访决策

期刊相关信息聚合后便可从多个角度对期刊进行统计和分析,为图书馆期刊采访提供决策支持。高校图书馆在做期刊采访决策时,需要对期刊的影响力、利用情况、学科分区、馆藏特征、友好性和开放性等进行分析[8]。从聚合的核心期刊相关信息中可统计出本馆已订购各学科哪些核心电子刊、纸本刊;已订购的每种核心期刊在本校的利用情况、使用成本;各数据库中的期刊利用率情况;各学科中哪些核心期刊未订购;各学科未订购的核心期刊的影响力、开放性、友好性、来源数据库情况。这些都是期刊采访需要了解的信息,其统计和分析结果可为期刊采访提供决策支持。

5.4期刊信息定制、推荐与服务融合

在数字图书馆个性化服务中,期刊相关信息的定制是指用户自定义期刊相关主题、刊名、作者、收录来源和分区等组合的检索条件,系统自动把检索到的期刊或文章最新结果集提供给用户,使用户更加及时便捷地获取自己感兴趣的期刊相关信息。期刊信息的推荐是指根据用户的发文、借阅或检索行为等,把与读者行为相关的期刊信息、期刊目次或期刊文章推荐给用户。期刊相关信息服务融合是指将期刊数据服务融入其他平台,便于用户发现和利用。如融入图书馆学科信息服务系统,提供学科期刊信息服务;融入微信、图书馆个性化服务平台,便于读者了解期刊相关信息和投稿,也可开放的关联数据,方便第三方利用期刊信息。

结语

期刊相关信息的聚合使分散异构的期刊信息有序化。数据层从各来源采集期刊相关信息,对其进行数据清洗后载入系统,其中大部分工作可通过程序自动完成。信息层和知识层对期刊相关信息概念化、语义化和关联化。期刊相关信息深度聚合使读者发现和利用期刊更为便捷,在对期刊进行多维统计分析的基础上,可为高校图书馆期刊采访提供决策支持。

参考文献:

[1]邱均平,方国平.高校图书馆语义化馆藏资源深度聚合模式及其应用研究[J].图书馆学研究,2014(21):64-71.

[2]童旺宇.OPAC系统中面向用户决策的图书信息多源融合[J].图书馆工作与研究,2017(6):93-100.

[3]陈勤.布拉德福定律在期刊计量管理中的若干应用[J].图书情报工作,1997(12):12-14,23.

[4]赖茂生,屈鹏,赵康.论期刊评价的起源和核心要素[J].重庆大学学报(社会科学版),2009(3):67-72.

[5]网络聚合[EB/OL].[2019-07-01].

[6]张建红.基于语义关联的海量数字资源知识聚合与服务研究[J].图书馆工作与研究,2016(8):44-47.

[7]鲜国建,赵瑞雪,孟宪学,等.基于知识组织体系的多维语义关联数据构建研究[J].数字图书馆论坛,2014(3):11-18.

[8]周理盛,尚永红,李永锋,等.中南林业科技大学高水平科研论文引文分析———基于SCI/SSCI/A&HCI[J].中南林业科技大学学报(社会科学版),2014(4):182-185.

作者:周理盛 熊拥军 单位:中南林业科技大学图书馆

相关热门标签