-
Citespace
软件操作问答(摘自陈超
美博士的科学网博客)
(
8
p>
)
如何在
CiteSpace
中控制节点的取舍
CiteSpace
提供了几种方式来控制最终生成的网络将由哪些节点构成:
1.
2.
3.
4.
Top N
Top
N%
Threshold
Interpolation
Select
Citers
第一种办法最简单,
最
适于初学阶段,
所以目前版本将其放在首位。
其余几种办法逐渐
变得复杂,
最好等熟悉系统之后再考虑。下面简要介绍一下各个方法的细节。
Top N
:系统设定
N=30
,意为在每个
time slice
< br>中提取
N
个被引次数最高的文献。
N
越大生成的
网络将相对更全面一些。
Top N%:
将每个
time
slice
中的被引文献按被引次数排序后,保留最高的
N%<
/p>
作为节点。
Threshold
Interpolation
:设定三个
time
slices
的值,其余
time slices
的值由线性插值赋值。三组
需要设置的
slices
为第一个,
中间一个,
和最后一个
p>
slice
。
每组中的三个值分别为
c
,
cc
,
和
ccv
。
c
为最低被引次数。只有满足这个条件的文献才能参加下面的运算。
cc<
/p>
为本
slice
内的共被引次
数。
ccv
为规范化以后的共被引次数(
0~100
)。
Select Citers
:
与以上
方法不同的是这个方法先选施引文献,
然后需再用方法
1-3<
/p>
之一。
先
Check TC
Distribution
然后填写
Use TC
Filter
后面的两个数字:最低和最高
TC
值(
Time
Cited
),选定
User
TC
Filter
前的选项。按
Continue
< br>,再设定方法
1
,
2
,或
3
。
节点总数在
Progress Reports
中给出。节点总数越大需要内存越多。下回将介绍如何选择网络的
连接密度。<
/p>
CiteSpace
提供了多项参数选
择,初学者难免有时不知从何下手。这里介绍一些
要点以供参考。
CiteSpace
的功能类似一架照相机,
只是它拍摄的对象是科学文献而不是自然景
色。设置
CiteSpace
的各项参数大致相当于取景,调焦,对光圈。不过这些过程
在如今的相机中基本都已完全透明。
所以,
参数
设置对
CiteSpace
所产生的图谱
有直接影响。最初使用时,最简单的办法是先采用系统的预定参数;熟悉之后,
再按下
面提供的要点调整参数。
那么什么样的
CiteSpace
图谱才算好图谱呢?
CiteSpace
的设计实际上是有针对
性的。能满足
C
iteSpace
设计要求的图谱才视为好图谱。
CiteSp
ace
要展现的是
一个领域的知识发展的历史和现状。
这是
CiteSpace
的取景范围。
由于深受库恩
《科学革命的结构》
的影响,
p>
对
CiteSpace
来说,
焦点自然是在范式
(
paradigm
)
和范式转移(
paradigm
shift
)。近年来大家倾向于这种认识:范式是一种更为
< br>广泛的现象,
可以在各个层次上出现。
换句话说,
并非
50
年一遇或
1
00
年一遇。
所以
CiteSpace
竭尽全力所要甄别,
显示,
突出的就是
在广义的范式转移中起关
键作用的转折点。
与广义范式相对应的
是科学文献中自然呈现的聚类。
转折点便
是联结不同聚类的桥梁。如果
Cit
eSpace
生成的图谱能清晰的显示出这些要素,
这种图谱便
属上乘之作。关于解读
CiteSpace
图谱的要点,来日再
写。
有了这个目标以后,图谱如能显示俩三个或更多的自然网
络聚类,而且各聚
类之间有少量的联系,
便为最佳。
这样的图谱很容易带来有趣的和有意义的发现。
相反,
如果图谱中所有节点都纠缠在一起,
则很难理出头绪。
如果
碰到这种情况,
检查下面几种原因:数据范围是否过窄,门槛设置是否过高(
threshold
),曝
光时间是否过短(
p>
time slice
)。另外,可用
Ci
teSpace
中的链接剔除功能
(
p
runing
)来剔除一些次要的链接以突出核心结构。成像以后,
CiteSpace
可
提供进一步的指标。比如,
modularity
大约在
0.4~0.8<
/p>
时的图谱通常会符合或
接近上述要求。
另
外,
如果可能从每年或每个时间段中选取数量大致相当的数据,
会比每年都使用同样的门槛要更有效(相对于上述目标而言)。
做专利分析的时候,发现转换德温特专利的数据;还有就是,
C
、
CC
和
CCV
阈值的选
择有没有什么标准呢?
TopN
和
TopN%
更直接,建议你用这两
项。
c
,
cc
,
ccv
的选择灵活
但较为复杂,参考
2004
年我的
PNAS
文章。从前,
c
有选
5
p>
次以上的,
ccv
有选
25%
以上等
等在文献中都可见到。
阈值低的覆盖面会稍微广一些。
考虑到文献数据本身的误差,
以及大
部分人的注意力往往集中在最有代表性的工作,所以阈值的选择总是相对的。
p>
WOS
并不包
括所有的文献。
另外,信息和噪音比也是一个考虑因素。
关于阙值的选择,
< br>我是不是可以这
样理解,
就是说,
知识图谱是需要不断探索和试验的,
对所选择领域文献的分析必须是基于
文献实际情况的,
而不只是就图说图,
理想的知识图
谱应该是能够正确反映文献实际情况的
那一张图。
所以,
知识图谱的绘制并不是一蹴而就的,
阈值的不断切换就是为了找到符合
实
际情况的知识图谱;在操作过程中经常会遇到有的文献被引频次很高,但是中心度却很
低,
而有的文献被引频次很低,
中心度却很高,
对于这样的现象我该怎样去理解?这两类文献中
那一种才是关键文献或重要文献
?为什么会出现这样的情况。另外,阈值设定中:
top N per
slice
或者
Threshold
< br>(
c
,
cc
,
ccv
)数值大小,选用
Pat
hfinder
或者
Minimum Spanning Tr
ee
,
即使小小的变化,
软件选择出的
被引文献或者关键词其中心度变化很大。
如果选择了其中的
一组
数据进行分析,
自己都无法解释选择为什么要选择这组数据?我应该依据什么去选择分<
/p>
析?
被引频次和中心度是两种不同的度量。
中心度是定义在网络结构上的。
至于什么是关键
文献或重要文
献,取决于你要研究什么问题。如果波动很大说明你选的
top N
还不够大。
使
用默认的
top30
与设置
c
、
c
c
,
ccv
的差别很大,不知什么原因
常常软件跑不动了,能给出点
阈值调节的具体知道吗?
c/cc
/ccv
的选法不太容易掌握
(由下往上选)
< br>,
所以现在系统界面推
荐
top
N
的选法(由上往下选)
。建议先用系
统预定参数,然后根据选入节点的数量等在调
节参数:
top
N: 30, 50, 100, ...
由低望高增加。
c
/cc/ccv:
,
c: 30, 25, 20, 15,
10, 5, ...
由高往低
减少。
cc: 30,
25, 20, 15, 10, 5, ...
,
ccv:
30, 25, 20, 15, 10, 5,
(
9
)
如何解读
Cit
eSpace
产生的图谱
CiteSpace
的核心功能是产生由多个文献共被引网络组合而成的
一种独特的共
被引网络,
以及自动生成的一些相关分析结果。<
/p>
每个文献共被引网络对应于一个
历时一年或几年的时间段。
最终显示的网络不是各个网络之间的简单叠加,
而是
< br>要满足一些条件(详见
2004
年
PNAS
的论文)。解读这样的网络(我称为递进式
知识领域
分析)的要点包括:网络整体结构,网络聚类,各聚类之间的关联,关
键节点(转折点)
和路径。解读时可从直观显示入手,然后再参照各项指标。
结构:
是否能看到自然聚类(未经聚
类算法而能直观判定的组合),是否包括转
折点
(有紫色外圈的
节点)
,
通过算法能得到几个聚类?每个节点大小代表它的
p>
总被引次数。大圈则总被引高。
时间:<
/p>
每个自然聚类是否有主导颜色(出现时间相对集中),是否有明显的热点
< br>(节点年轮中出现红色年轮,
即被引频率是否曾经或仍在急速增加)
?通过各个
年轮的色彩可判断被引时间分布。
时间线
显示将每一聚类按时间顺序排列,
相邻
聚类常常对应相关主题<
/p>
(聚类间共引)
。
聚类之间的知识流向也
可从时间
(色彩)
上看到(由冷色到暖色)。
< br>
内容:每个聚类的影响(被引时涉及的主题,摘要,和关键词)和几种不同算法
所选出的最有代表性的名词短语?
指
标:每个聚类是否具有足够的相似性(
silhouette
值
是否足够大,太小则无
明确主题可言)
,
整个聚类是否有足够节点
(太少则很可能全都出自同一篇文献
的参考文献,因而缺乏普遍意义)?
Tips
:
每个节点上,
右键弹出的选择中,
< br>有一项是通过
DOI
连接到原文出版社提
供的网页。可用
CiteSpace
的图谱作为一个直
接浏览相关文献的界面
黑色字体是
提问,蓝色是陈超美的回答,一些很具体的操作,非常实用
(图谱各指示值含义类问题)在某文章的
sigma
值表示什么意思呢?绝大多数的
sigma
p>
值是
1.00
,
表
示结构上和引文变化中都非常重要。
(具体操作类问题)
p>
如何在
citespace
生成的聚类中查
看该聚类成员的文章标题呢?
右键
点被引成员
< br>->Open DOI
,
我用
C
iteSpace
做被引文献聚类后,想知道每个类中所含被引文献
的具体数量,该怎么操作?是否可以将相关数据导出为
excel
< br>类型文件进行查看?
clustering
菜单下:
p>
summary
table
里显示具体个
数;
我刚开始使用这个软件,请问转折点文章的列表
能自动生成
,直接链接出来吗?
在
Display
窗口,
Networks
菜单下,
(?
??)
我在您的有
关
文
献
里
看
到
citespace
的
操
作
步
骤
1
、
2
、
3
(
extract
noun
phrase
term
from
title,abstract,descriptors,identifiers
of citing articles in the dataset
)
4----
,
关于步骤
3
我在实际操
作的过程中并没有执行,
而
是直接分析共被引等内容,
这样的话结果会有影响吗?如果我在
分析了共被引等后,
然后想作前沿词的探测的话会对结果有影响吗?另外关于提取名词的
操
作步骤是这样的对面,选择了
time scling
,term source,
然后在
term
type
里选择
noun phrase
,
然后点
go
对吗?如果我想探测突
现词,必须先进行名词短语的提取然后选择
burst
term--detect bursts
吗?可是这样只能在
窗口里显示了几个探测词,
我往往再选择
go
< br>,
才能出
现相应谱图?
Cite
Space
中的
burst detection
有两种用法:
1
。名词短语
和
2
。
单词。
1
需要
事先提取。
2
则不用。如果后面的分析不涉及名词短语,结果不会受影响。最后几个问题
:
对;是;应该如此。
这次的问题是
t
imeline
和
timezone
选
项怎么使用和解读呢?
t
imeline
是
先把整个网络划分为几个聚类,
然后按时间顺序排列出各个
聚类中的文献。
这样可以观察到
很多现象。
这个状态下的选项主要是显示聚类的标签,
节点的特征等等。
如何在生成的可视
图中为各个节点标出相应的文字说明?
统一
标:
Article
Labeling
下面的组合控制,如
Freq +
threshold (
越小符合显示要求的会越多
)
。
单独标:
右键》
p>
Label the Node.
也可随后右键取消。
我想请问下关于
CITESPACE
怎么保存图谱
,我是做教育经济的,图点很散,怎么样吧图点
聚集起来输出,看起来一目了然
可以存成
.viz
格式,以后可以直接用
CiteSpace
打开使用:
File>S
ave
Visualization
也可以
< br>:File>Save
PNG
如能增加更多联接,也许
能把整体集中一些
:
增加
time
slice
的长度,增加
topN, topN%
等。
第一,在节点个数问题上,一般通过设置,最
后多少节点是理想的?(我目前运行时得到节点关键词
308
个,连线
2057
条)
;第二,在进
行时间线视图时(
timeline
)
,每一个聚类后面的名称是依据什么来标
注的?(通过运行,发
现有的聚类名称和研究领域联系不大)
1
.
这个问题可参考我以前的博客。主要考虑是网络
结构是否能
回答在比节点本身更高抽象层次上的一些问题。
2
。是由引用各
聚类的论文决定
的,
具体词组可选自论文的标题,
摘要,
和索引词,
再由
3<
/p>
种办法之一度量。
如
“
< br>联系不大
”
,
可解释为施引
p>
/
被引之间的
“
距
离
”
较大,参照
silhouette
值。
,
1.
在关键词可视化视图生成过
程中,
左边
会出现相应的按词频排列的关键词排序,
一些关键词会出现两次,
这该怎么解释
呐?而有些关键词只是单复数的区别,如
lib
rary
和
libraries
。在分
析时应该将两者的频次相
加,
还是只取其中一个的数据呢?
p>
在图中右键将要保留的词选为
Alias Primary
,
再将另一词
选为
Al
ias secondary.
重新
GO!
< br>一下
,
会将二者合并。
问
article
labeling
和
term labeling
分别
是
指
什
么
类
别
?
Term:
TermsArticle:
Authors,
Cited
References,
Institutions,
Countries,
Keywords,
etc.
“The most active citer
to the cluster is 0.45 ISI:018 Mines, M (2000)
ocular injuries sustained by survivors
of the oklahoma city bombing.”
里面的
0.45
指的是什么指
标呀?
0.45=45%. Mines, M.
引用了该类中
4
5%
的文献。
检索结果与主题相关程度
:右键弹
出的菜单上有个
Citation History<
/p>
里面的第二个
tab
列出了施引文件,<
/p>
点击这些条目可得到两
种结果:
1
。
如果有
DOI<
/p>
信息,将直接打开原文的网上地址。
2
。
否则,将显示标题和摘
要。你可根据
这些信息进一步判断引用的原因。
我用的中文数据,节点类型选择
cited
reference .
在阈值选择上,如果所
有
c=3
的情况下,每个
slices
的节点最多只有
10
个左右,
连钱每个
slices
都只有几条,构不成聚类
,而所有的
c=2
的情况下,每个
sl
ices
的节点就都
有几百个,连线上千条。生成的图谱一盘散
沙,都是小型聚类,并且聚类之间都没有连线。
这样的数据好像缺乏主题和核心
-
所以有可能还算不上一个领域。
CiteSpac
也没办法
:-)
(
数据去重复与阈值选择类问题)
如何运用
citespace<
/p>
这个软件除重呢?
Data
->
Import/Export -> WoS ->
Duplicate Removal
1
)从
WOS
下载的文本中有重复文献,
CiteSpace
能直接对重复文献过滤吗?若不能,该如何处理这些重复文献呢?用
NoteExpress
去重后,
再重新导入
CiteSpace
可以吗?(本人还没尝试)
2<
/p>
)
Project
一旦建立,其
“Data
Directory”
便不能更改
了吗?为什么点了
“Edit”
之后没有反应?
3
)在
“Process
R
eports”
中显示
Records
in the dataset: 95676
,
这里的
Records
是指所有
.txt
文件中包括的的文献吧,
但实际数量只有
1
万条左右,这是为什么呢?
4
)设定
slice
为
1 year
,在
“Process
Reports”
中,每一年的记录
情
况
均
显
示
了<
/p>
两
次
,
是
代
表
CiteSpace
对
每
一
年
的
情
况
都
做<
/p>
了
两
次
统
计
吗
?
1.
Data>Import/Export>Web of
Science>Duplicates Removal2.
可以更改。再试试。<
/p>
3
。选的是被
引参考文献吗?
4
。检查一下你是不是有两份文件。
(看看周斌有没有遇到这个问题)
我最近在用
ci
tespace
对作者进行分析,我想让每个节
点所代表的作者
名都能显示出来,我用了
display-show
cluster
label
等方法均
不行,试以下
Display>Label Font Size: Node
...
在做作者或机构或国家合作网络知识图谱时,
Freq
指的是被
引频次呢,还是发文数量?
这
时
Freq
为发文数量。
在选择
“
节点类型
”
的问题
上有一点不明
白。
我想做共词分析的图谱,
选择
keyword
那一项就可以了吗,
< br>感觉这样画出的图谱好像没
有体现出共词的关系呐。
Te
rm
和
Keyword
都可生成
co-word
网络。
Keyword
是
Web of Science
记录中
p>
KeywordPlus
字段里的词。
<
/p>
(有关研究前沿确定方法的问题)一个图谱的研究前沿是怎么确定啊?我看的文章有的
p>
是直接把关键节点(有紫色外圈的)看做研究前沿,这样对吗?分析研究前沿时
term
type
选择
noun
phrases
还是
burst
terms
?
Node
Type
选择
Cited reference
,
这样对吗?谢谢老师啦!
对错往往是相对的,
主要取决于你要发现什麽问题。
(如何发现研究前沿)
下面是一种方法:
1.
Cited
References2.
生成网络
3. Citation
Burst
(
需按
< br>2
次)红色为被引
burst,
是前沿的
?
脚
印
?
。按
Citation
Bursts
(
button
)两次,图中一般便会加上红色圈圈,这样以后才有
burst