公务员期刊网 论文中心 正文

信息知识组织智能检索系统设计

信息知识组织智能检索系统设计

摘要:【目的/意义】采用当前方法检索信息知识时,存在检索效率低和查全率低的问题。为用户提供全面的检索,需设计效率更好的知识检索系统。【方法/过程】提出了基于元数据的信息知识组织智能检索系统设计方法,利用Agent实现人机交互层、信息处理层和信息收集层在检索系统中的交互,分析了存储管理模块、用户接口模块、搜索引擎和索引模块、通信管理模块、特征提取模块的主要功能,通过自适应路由机制、查询机制和自配置机制实现信息知识的检索,完成信息知识组织智能检索系统的设计。【结果/结论】实验结果表明,本文方法具有信息知识检索效率高和查全率高的优点。

关键词:元数据;信息知识;信息检索;系统设计

1信息知识组织智能检索系统

1..1总体设计思想

依据元数据的设计思想,为形态不同的资源集合和数字化信息单元做规范的保存、描述、保护、确认、管理、检索和选择适当的元数据标准构建数据库,通过对数据库的控制,达到数据库系统互通的目的,实现信息知识组织智能检索系统的设计。依据设计思想将检索系统框架分为人机交互层、信息处理层和信息收集层,分析系统层次的交互过程,并阐述存储管理模块、用户接口模块、搜索引擎和索引模块、通信管理模块和特征提取模块的主要功能。

11.2检索系统设计

(1)人机交互层:该层是信息知识组织智能检索系统中用户可见的部分。信息知识组织检索系统和用户之间的唯一连接是人机交互层,用户通过该层接收检索系统的服务,检索系统通过人机交互层传送请求。交互Agent的主要功能是与用户交互,在系统中为用户提供交互界面,帮助用户收集信息,通过检索系统中存在的内部模型生成查询任务,获取查询结果。将人机交互层作为独立的一层,可以根据用户各自的爱好设计检索系统中的查询界面。该层主要由用户接口模块、通信管理模块构成,其主要功能分别为:①用户接口模块。通过模糊描述和示例查询等形式为用户提供查询信息知识的接口。用户接口可以让用户向数据库中提交查询结果、输入查询以及插入信息。信息知识查询有时是模糊的、有时也是多样的,用户可以通过不同类型的信息和多种方式查询,存在多样性;但用户有时无法准确地描述需要检索的信息,因此存在模糊性。为满足上述要求,需要提供查询、浏览和搜索优化的工具【8】。②通信管理模块。由客户端和服务器端构成,包括QoS服务和传输协议服务。(2)信息处理层:检索系统的主体部分是信息处理层,各任务Agent在信息处理层中都是协同工作的。通过信息处理层将信息传送给Agent执行信息查询任务。在信息处理层中存在的Agent具有问题求解、信息分类的知识,还具有信息收集层中Agent具有的知识。信息处理层的主要任务如下:①接收上一层中发送的请求任务。②分析接收的请求任务并对其包装,传送到信息收集层中。③过滤处理返回的信息,并抽取返回信息中存在的重要信息,在半结构化数据库中存入重要的相关信息。该层主要由特征提取模块构成,其主要功能可对全局或者是目标对象进行特征提取。(3)信息收集层:信息知识组织智能检索系统的基础是信息收集层。通过用户收集层可以连接网络服务器,收集信息空间中存在的信息资源。在信息收集层中存在信息资源,可以选择需要的信息资源,实现信息资源的收集。信息收集层的主要功能是连接网络中的服务器,负责与网络中的服务器和搜索引擎之间的交互,采集相关信息。该层主要由索引引擎和检索模块、存储管理模块共同构成,其主要功能分别为:①索引引擎和检索模块。检索是通过特征之间存在的距离函数实现相似性匹配。类型不同的数据对应的相似性测度选法也不同,在检索引擎中存在相似性测度函数集。通过索引机制检索引擎可以实现信息检索的目标。②存储管理模块。包括数据存储和压缩。由媒体库、特征库和知识库构成。在媒体库中存在类型不同的多种媒体,特征库中存在提取的信息特征和用户输入检索系统的注释内容,在知识库中存在各个领域中的知识以及通用知识。

11.3检索系统过程

(1)数据输入过程:用户可以利用用户接口定义、标记、说明新输入的信息知识。利用特征提取器提取信息知识的特征和内容。根据系统的相关程序将采集的信息和对应的特征传送到服务器中。(2)信息获取过程:用户可以通过用户接口定义查询,通过查询系统数据库中存在的内容,将获取的信息当作查询条件。利用特征提取器在数据库中提取查询信息的特征。通过通信程序将提取得到的特征传送到服务器中,在数据库中利用搜索引擎或索引特征获取相似度最高的信息。

2实现技术

22.1自配置机制

通过语义类别在本地文件中定义节点的兴趣偏好,利用文本分类法确定语义类别,通过向量模型表示出来,节点之间的兴趣相似度越高,成为重要节点的优先权越高。设S(Pi,Pj)代表的是节点Pi和节点Pj之间的优先权,其计算公式如下:S(Pi,Pj)=C(Pi)⋅C(Pj)|C(Pi)|×|C(Pj)|=∑s=1tws,i×ws,j∑s=1tw2s,i×∑s=1tw2s,j(1)式中:S(Pi,Pj)用来描述节点Pi和节点Pj之间的兴趣相似度;C(Pi)、C(Pj)分别代表的是两个节点对应的兴趣特征向量;C(Pi)|、|C(Pj)|分别代表的是兴趣特征向量对应的模;ws,i、ws,j分别代表第s个特征词在节点Pi和节点Pj中的权值。确定重要节点优先权过程中较为重要的因素之一是行为相似性。如果两个节点没有同时在线,但之间存在相似的兴趣偏好,则两个节点之间在网络中成为邻居节点不存在任何意义。设Si(Pi,Pj)代表的是两个节点之间的行为相似性,其表达式如下:Si(Pi,Pj)=Con(Pi)⋂Con(Pj)24N×3600(2)式中:Si(Pi,Pj)用来描述两个节点在网络中的行为相似度;Con(Pi)⋂Con(Pj)代表的是两个节点在N天中同时在线的总时长。在行为相似性和兴趣的基础上实现信息知识组织智能检索系统的动态自配置机制,结合网络因子、时间因素和节点之间在网络中交互的历史信息数据。设AP(Pi,Pj)代表的是节点Pj在动态自配置过程中成为节点Pi的重要节点对应的优先权,其计算公式如下:P(Pi,Pj)=ω∗[α∗∑tHit(Pj)Hop(Pj)+β∗∑t-1Hit(Pj)Hop(Pj)](3)式中:∑tHit(Pj)Hop(Pj)代表的是在节点Pi提供的答案在当前配置周期中与逻辑距离之间商的和;∑t-1Hit(Pj)Hop(Pj)代表的是节点Pi提供的答案在上一个配置周期中与逻辑距离之间商的和;α、β代表的是递进系数;ω代表的是网络因子。在行为相似性和兴趣相似性的基础上检索系统中存在的节点会构成不同的簇,在相同簇内,两个节点的行为和偏好越相似,则两个节点之间的逻辑距离越小【9】。

22..2查询机制

为了实现信息知识的共享和检索,用向量空间表示每个节点在检索系统中维护用户提交的查询和文件。节点维护用户提交的查询和文件的索引项在向量空间模型中用权重表示,上述权重可以用来确定查询和文件的相似度,可以通过权重计算文件在检索过程中的排序。设权重ωij代表的是在文件dj中索引项ki(ki,q)的重要程度(ki,dj);权重ωiq代表的是在用户提交查询q中索引项ki的重要程度。设dj代表文件dj的向量,其表达式如下:dj=(w1f,w2f,⋯,wtf)(4)式中:t代表的是索引项在文件中的总数。设q代表的是用户提交查询对应的向量,其表达式如下:q=(w1q,w2q,⋯,wtq)(5)设sim(dj,q)代表的是节点维护文件dj和查询q之间的相似度,其计算公式如下:sim(dj,q)=dj⋅q|dj|×|q|=∑i=1twij×wiq∑i=1tw2ij×∑i=1tw2iq(6)式中:||q、||||dj分别代表文件和查询向量对应的模。首先采用本地节点Pi解析用户提交的查询,并以并行方式处理:如果本地有存在答案的可能,则对本地数据库进行搜索,并将查询传送到重要节点中,在重要节点中进行上述处理【10】。

22.3自适应路由机制

当前大部分信息知识组织检索系统存在查全率低的问题,为了解决上述问题,基于元数据的信息知识组织智能检索系统设计方法基于系统的拓扑特性,使用自适应的查询路由策略,将节点在网络中的兴趣偏好作为依据,将查询传送到目标节点簇中,具体步骤如下:(1)查询-提交,利用本地节点对查询作解析处理,然后通过重要节点和本地节点之间的兴趣统计信息判断节点是否落在目标节点簇中,再根据判断结果进行下一步处理。(2)如果目标节点簇中不存在该查询,则根据邻居节点在网络中的偏好完成信息的统计,并向目标节点簇中转发查询,接收到查询信息的邻居节点进行相同决策,直到目标节点中存在查询为止。(3)当目标节点簇中存在查询,且不能在第一时间内获取合格答案时,将路由历史记录作为依据,当前节点可以将查询传送到最有可能存在合格答案的节点中;如果查询经过上述节点,且处理节点中不存在符合要求的答案,查询终止。

3实验结果与分析

Ma=AbM×100%(7)式中:Ma代表查全率,Ab代表检索出的相关信息量,M代表检索出的信息总量。利用Mulan平台,设置定向检索内容,并设定检索系统每隔0.2s自动进行一次检索,共进行6次迭代。分别记录应用本文方法、文献【5】方法和文献【6】方法系统的所需检索时间及数据查全率。通过上述步骤验证基于元数据的信息知识组织智能检索系统设计方法、文献【5】方法和文献【6】方法的有效性。采用基于元数据的信息知识组织智能检索系统设计方法检索信息时所用的时间均少于文献【5】方法和文献【6】方法检索信息所用的时间,主要因为是所提方法通过查询统计数据、信息行为和信息偏好确定并调整重要节点对应的机制,缩短了检索信息所用的时间,提高了所提方法的检索效率。基于元数据的信息知识组织智能检索系统设计方法、文献【5】方法和文献【6】方法的查全率。在多次迭代中基于元数据的信息知识组织智能检索系统设计方法的查全率远远高于文献【5】方法和文献【6】方法的查全率,因为该方法根据信息知识组织检索系统的拓扑特性,通过自适应查询路由策略实现信息知识的检索,提高了基于元数据的信息知识组织智能检索系统设计方法的查全率。

4结语

针对当前信息知识组织检索系统设计方法存在检索效率低和查全率低的问题,为了高效、准确地实现信息的检索,本文提出了基于元数据的信息知识组织智能检索系统设计方法,实验结果表明,本文方法解决并优化了当前信息知识组织检索系统设计方法中存在的问题,并可在较短的时间内准确的实现信息知识的检索。

参考文献

1何泰伯.基于大数据分析的多媒体信息检索系统设计[J].现代电子技术,2018,41(3):111-114.

2鲍玉来,白淑霞,飞龙,等.汉蒙跨语言检索系统设计与实现[J].情报理论与实践,2017,40(4):128-132.

作者:王丹 张祥合 赵浩宇 单位:吉林大学《仿生工程学报》编辑部