郑州大学保卫处-郑州大学保卫处
基于全域专利共被引的世界
500
强企业技术竞争的专利地图分析
王贤文
1
,
2
丁
堃
1
,
2
张
曦
1
(
1.
大连理工大学人文学院
大连
116085
;
2.
大连理工大学
-
德雷塞尔大学
知识可视化与科学发现联合研究所
大连
/
费城)
1
)
1
摘要
专利文献的引用行为表达的是技术之间的竞争关系,专利计量方法已经成为企业技术竞争情报研究的
一种主要手段。本文选择《财富》杂志(
Fortune
)
2009
年评选的世界
500
强企业作为研究对象,利用《 德温
特创新索引》数据库中
2000
年至
2009
年的专利数据,基于社会网络分析中全网络方法的思想,从专利的前向
< br>引用分析角度构造企业的全域专利共被引矩阵,然后运用信息可视化技术和社会网络分析方法对世界
500
强企
业进行技术竞争的专利地图分析,包括聚类分布、<
/p>
Kernel
插值分布、共被引网络分析,研究
500
强企业的技术
群聚类、技术竞争结构,挖掘技术竞争网络中的关键企业。
关键词
前向引用
专利共被引
技术竞争
专利地图
全域共被引
Patent Mapping of Technology
Competition of Fortune 500 Enterprises Based on
Global
Patent Co-citation Analysis
Wang
Xianwen
1
2
, Ding
Kun
1
2
and
Zhang Xi
1
,
,
(1. School of
Humanities and Social Sciences, Dalian University
of Technology, Dalian 116085
;
2. Joint Institute for the Study of
Knowledge Visualization and Scientific
Discovery
,
DUT- Drexel
)
Abstract
Patent
citations
are
generally
used
to
provide
support
for
specific
statements
of
technology
competition,
when
patentometrics has become
one kind of main method to analyze competitive
technical intelligence for companies. In this
paper, the
authors
choose
Fortune
500
enterprises,
released
in
2009,
as
research
objects.
Using
patent
data
(2000-2009)
from
Derwent
Innovation
Index,
employing
full
network
methods
in
social
network
analysis,
the
authors
construct
the
global
patent
co- citation
matrix
of
Fortune
500
companies
based
on
the
patent
forward
citation,
and
conduct
patent
mapping
analysis
using
information
visualization
technology
and
social
network
analysis
method,
including
clustering
distribution,
Kernel
density,
and
co-citation
network
analysis,
to
study
the
technology
clusters,
technology
competition
structure
of
Fortune
500,
and
to
find
the
pivotal
enterprises
in the technology competition network.
Keywords
forward citation
,
patent co-citation
,
technology competition
,
patent mapping
,
global co- citation
1
引
言
在科学文献的引用行为中,引用动机大多是出于正面
因素,例如向开拓者致敬(
credit to pioneer
)
,对
有关著作给予荣誉(
honor to literature< /p>
)等等,因此科学文献的引用体现出了一种知识的继承关系。与科学
文献的
引用动机不同的是,专利文献的引用动机则大多旨在指出所引用技术的问题、不足或缺陷,表达着
对所引用技术的否定态度
[1]
,所以专利的引用表达
的更多的是技术的竞争关系。
技术竞争情报
(Competitive Technical Int elligence)
是指能给组织的竞争地位带来重大影响的外部科学或
技术的威胁、机会或发展的信息,以及这些信息的获取、监控、分析、前瞻和预警过程
[2]
。专利计量方法
已经成为企业技术竞争情报研究的一种主
要手段
[3, 4]
。
在此前的研究中,作者通过建立大型专利共被引矩阵,对世界
500
强中的工业 企业的专利发表强度、
被引情况、专利共被引网络进行了研究
[
5]
。本文在以往研究的基础上,基于企业专利前向引用构建企业专
利共被引矩阵,结合科学计量学领域近年来迅猛发展的信息可视化技术,对世界
500
强企业进行技术竞争
地图分析。
2
国内外研究现状
2.1
专利计量方法
作者在
Web
of
Science< /p>
数据库(
SCI
、
SSCI
、
A&HCI
)和中文
CNKI
中检索专利的相关文献,检 索发
现,目前关于专利的研究非常多,但主要是从专利法学角度进行的研究,定量分析的
研究并不多见,尤其
是专利共被引的研究很少,从
Web
of
Science
中仅检索到
3
篇相关论文,
CNKI
中仅
2
篇与专利共被引相
关的论文(检索时间截至到
2010
年
8
月
20
日)
。关于专利的研究主要集中在如下几个 方面:
(
1
)专利统计分析
< br>专利统计分析是最常见的专利研究方法。包括专利的发明人统计、专利权人统计、专利分类号统计、
专利的时序分析等等。
(
2
)专利引用分析
< br>早在
1949
年,
Seildel
就首次系 统地提出专利引用分析的概念
[6]
。到了
19 66
年,
Seidel
的设想被
Garfield
实现。
Garfield
仿照他创立的科学引文索引(即
SCI
数据库)的理念,利用美国专利商标局(
USPTO
)建立
专利引文索引(
patent citation in dexing
)
[7]
。
199 4
年,
Narin
正式提出基于专利引用分析的专利计量学的概< /p>
念
[8]
。近年来,国内关于专利引用分
析的研究也日渐兴盛,例如杨中楷、梁永霞等对专利引用过程中知识
活动的研究
[9, 10]
,向希尧、蔡虹基于专利引用对技术溢出的分析
[11]
。
(
3
)专利共被引分析
目前关于专利共被引的研究并不多见。
主
要有:
Mogee
等对礼来大药厂的专利进行共被引聚类分析来
识别礼
来药厂的主要技术前沿
[12]
;
Kuei- Kuei Lai
利用专利共被引分析试图建立新的专利分类系统
[13
]
;国内
方面,邱均平等对有机电激发光技术领域的
项高被引专利的共被引分析
[14]
、
以及基于专利权人共被引分
析对皮肤洗护类专利进行了研究
[4
]
;
王贤文基于专利共被引方法对世界
500
< p>强中的工业企业的大型专利共被
引网络分析
[5]
。
(
4
)
专利内容图分析
上述的统计、引用、共被引分析主要来
自于科学计量学领域,而专利内容图分析主要是利用信息科学
中的数据挖掘技术,深入到
专利内容的文本内部。这方面包括
Thomson Reuters
公司
Aureka
的专利地图功
能、
Derwent Analytics
的文本聚类分析功能、亚利桑那大学
Hsinchun Ch en
开发的基于
SOM
算法的专利内
容地
图分析
[15]
,以及通过对文献关键词聚类建立语义网络来探
测新兴技术
[16]
。
整体看来,目前专利计量学在研究方法上以数量统计分析为主,关于引用、共被引的分析方法仍不多
见,少数有关专利共被引的研究也只是涉及到某一领域的企业和专利。从未来的发展趋势来看,专利 计量
研究将更多地融入科学计量学中的引用分析、
共被引分析,
信息科学中的可视化技术、
文本
/
数据挖掘方法,
从而使得研究者们更多地深入专利数据的内部实质,更好地把握技术竞争结构,开展技术竞争情报
研究。
2.2
专利计量在企业技术竞争情报研究中的应用
专利计量方
法是技术竞争情报研究的一种主要手段。例如
Breitzman
等基于专利引用 分析对企业的合
并、
收购进行技术竞争情报分析
[3]
;
王贤文基于专利共被引方法对世界
500
强中的工业企业的技术竞争分析
[5]
;邱均平、罗力
等基于专利权人共被引对皮肤洗护类企业技术竞争情报进行了实证研究
[4]
;孙涛涛、金
碧辉基于专利文献耦合和专利引用关系挖掘
D VD
激光头技术中的关键技术,
研究企业技术竞争情报
[
17]
;
王
兴旺、孙济庆研究了专利地图与技术
竞争分析之间的深层次联系,提出基于专利地图的技术竞争三维分析
法
< br>[18]
。
这些文献对企业技术竞争情
报分析具有重要价值,有些还具有开创性的意义。然而,这些研究在研究
对象的选择上都
是侧重于分析某个企业、领域、行业,很少从宏观整体的角度来研究众多企业所形成的技
术竞争结构。这其中的一个关键原因就是这些研究均是从专利的后向引用角度来进行分析。如果要对不同
技术领域之间的专利进行共被引分析,例如本文选择的
500
强企 业涉及到
51
个行业,从后向引用的角度则
无法实现为数
众多的企业共被引网络的构建。
3
数据与方法
3.1
数据
(
1
)专利数据库
本文的专利数据来自于德温特创新索引(
Derwent Innovation Index
)
。该专利数据库是以德温特世界专
利索引(
Derwent World Patent Index
)和德温特世界专利引文索引(
Patents Citation Index
)为基础形成的专
利信息和专利引文信息数据库,
1948
年在英国创建,
是
Thomson Reuters
集团除了
Web of Science
之外的另
一重要产品,目前是世界上最大的专利文献数据库,总计收录了
19,2 04,885
条专利数据(查询时间:
2010
年
6
月
16
日)
,并且还在以每周增加数万 条的速度不断更新。
(
2
)样本选择
世界
500
强(
Global 500< /p>
)是《财富》杂志(
Fortune
)按照营业收入评选出的世界上
500
家最大的公司,
每年评选一次。该榜单对评选出的
500
家企业分成了
49
个行业领域,其中企业分 布数量最多的行业分别是
炼油
41
家、商业银行
41
家、车辆与零部件
29
家、电信
18< /p>
家、金属
18
家。
通过从
德温特创新专利引文索引数据库中分别检索这些企业的专利发表数量,最后选择专利发表数量
大于
100
的前
232
家企业,作为本文的研 究样本。这些企业的行业分布如表
1
所示。
表
1
专利数量大于
100
< p>的232
家企业的行业分布
行业
汽车整车与零部件
炼油
电子电器设备
电信
商业银行
制药
航天国防
计算机、办公设备
金属
化工
建筑工程
公用事业
食品与药品店
保险
网络与其他通讯设备
饮料
食品消费品生产
家居、个人用品
采矿、原油生产
综合
合计
企业数量
27
25
16
13
12
12
10
9
9
8
8
8
5
5
5
4
4
4
4
4
烟草
建筑与农业机械
能源
工业机械
贸易
航空
建筑材料、玻璃
计算机软件
食品生产
信息技术服务
网络服务与网络销售
邮政、包裹与货运
铁路
船务
批发∶保健
服装
娱乐
饮食服务
半导体与其他电子部件
232
行业
企业数量
4
3
3
3
3
2
2
2
2
2
2
2
2
2
2
1
1
1
1
(
2
)基于专利前向引用的全域共被引矩阵构造方法
根据
Web of Science
的解释,前向引用(
forward citation
)关系为某篇文献被哪些新的文献所引用,后
向
引
用
(
backward
citation
) p>
关
系
则
为
某
篇
文
献
引
用
哪
些
更
早
时
期
的
文
献
(
/istl/08-summer/
)
。
以往的共被引分析都是针对后向引用关系来构建共
被引矩阵。这种方法类似于社会网络分析中的雪球
方法
(
Snowball Methods
)
,
从一个或者一组顶点开始 ,
搜寻其他与之关联的顶点,
然后构造出一个网络
[20
]
。
例如检索甲骨文公司,得到
2542
条专利,通过对这些专利的
1
万余条引用专利进行分析,构建出共被引< /p>
矩阵。这种共被引关系可以称为局域共被引关系(
Local
Co-citation
)
。但是由于从原始数据中获得初始顶< /p>
点的有限性,通过这种后向引文关系得到的共被引矩阵存在局限性。如果我们要研究汽车企
业和电子、化
工企业之间的专利共被引关系,利用后向引用关系则很难实现。
而通过专利的前向引用关系,可以构建出大型的专利共被引网络。类似于社会网络
分析中的全网络方
法(
Full Network Methods p>
)
[19]
,即首先确定所有的顶点(企业)
,然后搜寻每一个顶点与其他顶点的所有
关系(专利共被引关系)
,这种共被引关系为全域共被引关系(
Global
Co-citation
)
。但是这种方法的缺点
是必须要处理海量的数据信息。
因为一个企业的专利可能被成百上千的其他企业所引用,如果要分析多个
企业之间的专利
共被引关系(例如本文中的
232
家
500
强企业 )
,涉及到的专利数量则数以千万计。
a2
a1
:
a0
的
后向引用
a0
:企业
a
的
前向引用
a0
的专利
集合
p>
引用专利
发表专利集合
集合
Cab
b1
:
b0
的
< p>后向引用
b0
:企业
b
的< /p>
前向引用
b2
:引用
引用
专利
发表专利集合
b0
的专利
< br>集合
集合
Cab
为企业
a
和企
业
b
的共被引次数
< br>
图
1
基于前向引用得到两企业的专利共被引次数
如图
1
所示,
a0
为企业
a
的发表专利集合,
a1
为
a0
< p>的引用专利集合(后向引用),
a2
为引用
a 0
的专
利集合(前向引用)
;
b2
为
b0
的前向引用专利集合。通过对
a2
和
b2
取交集运算,得到企业
a
、
b
的专利
共被引次数。同理,对任意两家企业的前向引用专利集合进行交
集运算,最终构造出全部
232
家企业的专
利共被引矩阵
。
表
2
部分企业的专利共被引矩阵
日立
东芝
IBM
松下
NEC
西门子
富士通
三菱电机
佳能
…
日立
264637
东芝
65965
IBM
56509
47017
松下
52525
49583
34215
NEC
53996
50563
47574
43780
西门子
富士通
三菱电机
佳能
25453
23110
25293
16485
18914
49553
42334
46382
36331
48799
16049
45331
41335
30457
32913
37992
17196
30748
146048
…
…
29773
…
28361
…
24608
…
27521
…
22966
…
9267
…
20079
…
14934
…
…
…
65965
216124
56509
52525
53996
25453
49553
45331
29773
…
47017
224406
49583
50563
23110
42334
41335
28361
…
47574
25293
46382
30457
24608
…
34215
200103
43780
185023
16485
36331
32913
27521
…
48799
37992
22966
…
18914
142243
16049
156420
17196
9267
…
30748
20079
…
14934
138397
…
表
p>
2
列出了部分企业的专利共被引矩阵,检索时间段设定为
2000-2 009
年。对角线上的数值为企业的专
利总被引次数,其余数值为两家企
业的专利共被引次数。专利被引次数最多的企业为日立公司,总被引
264637
次,它与东芝公司的专利共被引次数为
65965
次,与
IBM
的专利共被引次数为
65965
次。
3.2
方法
(
1
)共被引系数矩阵
由于不同企业发表的专利数量差别很大,例如汽车行业的丰田、福特;电子电器行业的索尼、松下、
p>
飞利浦历年发表的专利数量都数十万计。而信息技术的甲骨文、埃森哲历年发表的专利只有几
千条。所以
必须对原始的共被引次数矩阵进行标准化处理,即创建共被引系数矩阵。常见
的计算共被引系数矩阵的方
法有
Jaccard
系数、< /p>
Cosine
系数等,
但是
Van Eck
与
Waltman
认为关联强度
(
association strength p>
)
指标比
Jaccard
和
C osine
更适合用来进行聚类分布的分析
[20]
。
本文在此采用关联强度的计算方法将表
2
中的共被引次数矩 阵
转换成共被引系数矩阵,如下式所示: