您现在的位置: 公务员期刊网 >> 论文范文 >> 工业论文 >> 数据挖掘论文 >> 正文

中国区域发明者流动数据挖掘探究

[摘要]追踪人才流动轨迹、探究人才流动规律备受关注,专利发明者可为人才流动研究奠定数据基础.基于中国知识产权局2000—2009年公开的发明申请专利,设计了发明者姓名消歧算法,挖掘了流动发明者信息,探讨了东部、东北、中部、西部四大区域的发明者流动现状及趋势.研究表明,文章中使用的算法具有合理性,可有效提取中国专利的流动发明者.

[关键词]专利统计;姓名消歧;发明者流动;区域;中国

一、引言

人才是建设创新型国家的中坚力量,其流动将导致知识的转移和溢出[1].日益频繁的人才流动现象,加快了不同创新主体对新知识与技能的获取、吸收和整合,带动了其创新水平和能力的变化.周德禄[2]指出,人才流动实现了人力资源的再配置,建立健全人才流动机制以促进人才有效流动是获得创新收益的基本路径.故追踪人才流动轨迹、探究人才流动规律具有重要的理论和实践意义.但个体数据的可获得性制约着该研究领域的发展.专利发明者可为探析人才流动奠定数据基础.通过梳理发明者流动的相关研究,朱容辉等[3]指出,学术界就发明者流动概念的界定基本达成共识,认为发明者流动即发明者在不同组织中任职,可通过追踪同一发明者连续拥有专利的申请(或权利)人的变化进行推断.但专利发明者未有唯一化标识,故对发明者姓名进行消歧是考察发明者流动的先决条件.学者们多基于美国专利与商标局数据库(USPTO),或欧洲专利局数据库(EPO),探讨了该问题,且为满足大规模数据分析的需要,启发式算法逐渐应用.因语言、文化等差异,已有的姓名消歧算法对欧美等西方国家发明者的识别效果较好,对中国等亚洲国家发明者的识别效果有待改善.借鉴现有研究成果,本文基于2000—2009年中国知识产权局(CNIPA)公开的发明专利信息,对发明者流动数据进行挖掘.后续结构如下:第二部分描述了数据来源并设计了流动发明者的识别算法;第三部分挖掘了流动发明者的信息,并探讨了区域层面的发明者流动现状及趋势;第四部分阐述了本文的主要研究结论与研究不足.

二、数据与研究方法

使用CNIPA数据库2000—2009年公开的发明专利,在根据专利已有信息消除发明者姓名歧义的基础上,对中国区域间的发明者流动情况进行了实证分析.

(一)发明者姓名消歧

1.提取专利关键字段.叶作亮等[4]将专利文献信息划分为类值与文本两大属性.前者以字符形式展现,便于数据分析,包括技术分类号、发明者等.后者以一篇或一段文本出现,数据处理过程较为复杂,包括专利名称、摘要、全文等.借鉴现有文献中用于发明者姓名消歧的专利关键字段并考虑数据的可操作性,本文选取公开(公告)日、发明(设计)人、主分类号、地址4个字段.其中,公开(公告)日可用于追踪发明者流动产生的时间,发明(设计)人提供了参与技术创新的人员署名情况,主分类号提供了专利所属技术领域的信息,地址可用于追踪发明者的流动方向.需指出,本文搜集的专利数据按公开(公告)日排序,故以该日期而非申请日对发明者的流动时间进行推断.2.构建发明者—专利实例.提取专利中的公开(公告)日、发明(设计)人、主分类号、地址4个字段,并基于发明(设计)人构建了发明者—专利实例(inventorGpatentinstances)[5],即根据专利发明者署名将一条专利拆分成若干条专利.3.关键字段相似度计算首先,计算了发明者的相似度,由两条专利拥有共同发明者姓名数量占合作发明者姓名数量的比值进行度量,见式(1).SIMIt=(Mi∩Nj)(Mi∪Nj)(1)式中,SIMI1代表发明者的相似度,Mi、Nj代表专利i、j拥有合作者姓名的集合.其次,计算了主分类号的相似度,通过比对两条专利主分类号的前三位进行测度.若前三位完全相等,则相似度SIMI2取值为1,否则为0.最后,基于最小编辑距离(MinimumEditDistance)算法[6]计算了地址相似度.两个专利地址字段的最小编辑距离,是指将一专利地址字段转换为另一专利地址地段所需的最小编辑次数.编辑距离越小,表明两个字符串越相似;反之,越不相似.4.关键字段的权重赋予综合相似度的计算公式见下:SIMIt=∑3i=1wi×SIMIi(2)式中,wi代表权重,SIMIt代表综合相似度.若SIMIt大于一特定阈值,则认为是同一发明者;否则,不是同一发明者.基于人工识别的发明者姓名消歧信息[7]为各字段赋予了权重,见式(3):SIMIt=2×SIMI1+0.1×SIMI2+1.5×SIMI3(3)

(二)发明者流动挖掘

在为发明者赋予唯一标识码的基础上,进一步挖掘了中国四大区域即东部、东北、中部和西部的发明者流动信息,东部包含京津冀等省区,东北包含辽吉黑,中部包含晋皖赣等省区,西部包含陕甘宁等省区.此时,专利关键字段共计有6个,分别是唯一标识码、发明者姓名、公开(公告)日、发明(设计)人、技术分类号和地址.因中国专利文献提供信息的有限性,本文使用第一申请人的地址信息表征发明者的隶属地区,并通过追踪同一发明者在不同时期不同地点申请的专利对其是否发生流动进行研判,流动时间为流入新地区第一个申请专利的公开时间.例如,张三在陕西省申请最后一个专利的公开年份为2000年,后在安徽省申请第一个专利的公开年份为2003年,则认为张三的流动方向为西部至中部,流动时间为2003年.据此,筛选了CNIPA中四大区域间的流动发明者及其对应的专利信息.

三、分析结果

(一)四大区域的发明者流动分布

图1展示了中国东部(E)、东北(NE)、中部(M)、西部(W)四大区域的发明者流动分布情况.其中,标签“E→W”代表发明者从东部地区流向西部地区,标签“NE→E”代表发明者从东北地区流向东部地区,其他标签不再赘述.结果显示,随着时间推移,四大区域的发明者流动呈明显增长态势.此外,中部、西部和东北地区的发明者向东部地区流动愈加频繁,东部地区发明者流向中部、西部、东北地区的趋势呈现,但中部、西部、东北地区之间的发明者流动较为薄弱.

(二)四大区域的发明者流动差值

进一步的,本文计算了四大区域的发明者流入与流出差值,以反映不同区域对人才的吸引和保留能力,见图2.结果显示,整体而言,东部地区的发明者流动表现为顺差,即发明者的流入数量高于流出数量,表明该地区对人才有较强的吸引和保留能力;中部、西部和东北地区的发明者流动表现为逆差,即发明者的流出数量高于流入数量,表明这三个地区对人才吸引和保留能力较弱.

四、总结

(一)结论

本文在借鉴现有研究成果并结合中国专利数据特征的基础上,使用2000—2009年CNIPA公开的中国发明专利数据,设计了发明者姓名消歧算法,挖掘了流动发明者信息,分析了东部、东北、中部、西部四大区域的发明者流动态势.研究发现:(1)各区域的发明者流动愈加频繁;(2)东部地区发明者流向其他区域的趋势呈现,但东北、中部、西部之间的发明者交互较为薄弱;(3)与其他区域相比,东部地区对发明者的吸引和保留能力较强.此结果与先前研究一致[8G9],表明本文设计的算法对中国发明者流动的挖掘具有合理性。

(二)研究不足

本研究存在一定局限性.1.流动界定.在中国专利文献中,未提供每位发明者的地理位置,未提供发明者与申请人之间的隶属关系,且地址字段仅与第一申请人相对应.本文使用第一申请人的地址信息表征发明者的隶属地区,并通过追踪同一发明者在不同时期不同地点申请的专利对其是否发生流动进行推断,故基于中国专利数据的发明者流动挖掘不仅包含了因发明者空间地理位置变化导致的流动.2.算法设计.受限于数据分析的客观条件,本文仅从中国专利文献中提取了发明(设计)人、主分类号、地址三个字段用于发明者姓名消歧.而专利文献包含了丰富的信息,如专利摘要、全文等,对此类文本字段进行数据挖掘并纳入综合相似度的求解因子中,将有助于改善中国发明者的姓名消歧效果.此外,融合多源异构数据进行姓名消歧并补足发明者个体信息,可丰富发明者流动的相关研究。

作者:朱容辉 刘树林 涂文杰 单位:西安交通大学管理学院

阅读次数:人次

  • 上一篇论文:
  • 下一篇论文: 没有了