-
多发性骨髓瘤病人预后相关
lncRNA
p>
研究
Abstract
Backgournd
:
lncRNA
在肿瘤的发生发展的过程往往扮演着十分重要的作用,
表明很多的
lncRNA
可能作为诊断或者判
定肿瘤的潜在的标志物。然而,利用
lncRNA
表达评价多发
性骨髓瘤病人的预后情况的研究并不多见。
Materials and methods
:我们从
GEO
数据库中获取了大规模的基因表达谱
芯
片的数据(包括
GSE24080
和
G
SE57317
)
,我们从
GSE24
080
数据集中注
释得到相关
lncR
NA
,
然后找出于病人生存情况相关的
lncRNA
,
利用这些
lncRNA
的表达量预测病人的预后,并且独立的数据集(
GSE5731
7
)中进行验证。并且
我们进行了
GS
EA
分析,找出
lncRNA
可能通过
哪种生物学通路影响病人的预
后。
R
esults
:对基因芯片进行
lncRNA
< br>注释后,我们共得到
2096
个
lncRNA
,
对这些
lncRNA<
/p>
进行
Univariable Cox regression<
/p>
分析后,我们发现共有
176
个
lncRNA
的表达与病人生存显著相关(
p<
0.05
)
。通过这
176
个
lncRNA
的表达
量
对病人进行聚类分析后,
我们发现聚类得到的两组病人生存率存在显著的差异,
独立的数据集
(
GSE57317
)
中进行验证也得到了同样的结果。
Stratif
ied analysis
表示该预测模型是独立于其他临床表型的,如
serum
beta
2-microglobul
in
(
Sβ2M
)
,
serum albumin
(
ALB
)和
lactate dehydrogenase
p>
(
LDH
)浓度的。
GSEA
分析表明细胞周期、
细胞周期过程中检验点的改变、
细胞与细胞间的粘附
都发生了显著性的改变,
< br>lncRNA
可能是通过促进细胞增殖,抑制细胞粘附等表
型促进了多发性骨髓瘤的进展。
Conclusions<
/p>
:我们结果证明很多
lncRNA
可以作
为评判多发性骨髓瘤病人
预后的生物标志物。
这样标志物可能对
多发性骨髓瘤的发生发展具有重要的作用,
其分子机制还需要更多的实验数据的证实。<
/p>
Keywords:
lncRNA<
/p>
,基因芯片,多发性骨髓瘤,生存率,
GSEA
1 Introduction
多发性骨髓瘤是由骨髓中单克
隆血浆细胞异常积累引起的一种难以治愈的
癌症
[1]
。
多发性骨髓瘤是一种常见的肿瘤,
其具有抑制
性高、
病理特征多等特点,
发性骨髓瘤常常导致很差的预后。多
发性骨髓瘤患者的存活时间为几周到
10
年
不等,五年生存率仅为
40%
作用
[2]
。鉴定高风险的多发性骨髓瘤病人可以针对
性的进行个性
化治疗,这有利于改善病人的预后,提高病人的存活时间。
长
链非编码
RNA
(
long non-
coding RNA,lnc
RNA
)是一类长度超过
200nt
的
RNA
分子,不编码蛋白或者只编码很短的多肽,起初被认为
是垃圾序列,不
具有生物学功能。
但随着研究的不断深入,
p>
科学家发现,
占基因组
98%
的这些非
编码
RNA
分子,
通过与
DNA
、
RNA
、
蛋白质的相互作用,
p>
参与细胞的增殖、
代
谢、
< br>运动、
自噬及凋亡等诸多生理过程,
在基因表达调控网络
中扮演着十分重要
的角色,
lncRNA
参与基因组印记以及染色质修饰,转录激活,转录后调控,蛋
白功能调节等多种重要的
信号转导调控过程
[3]
。
lncRN
A
的表达失调会引起基因
表达异常,从而导致疾病的发生
[4]
。
lncR
NA
可以为判断多种类型肿瘤的预后提供很多有用的信息
[5-
6]
。利用表
达谱数据判断病人的预后已经被应用于多种类型的
肿瘤,
例如:
乳腺癌
[7]
、
结直
肠癌
[8]
、前列腺癌
[9]
以及非霍奇金淋巴瘤等
p>
[10]
。然而,将表达谱数据用于临床
中
还碰到了很多问题,包括过度拟合,缺乏验证,患者间组织的异质性,瘤内异
质性,忽视
现在临床变量等。
在现有的研究中,
大规模整合多发性骨髓瘤表达谱数据和临床信息的研究并
不多见,我们发现了与多发性骨
髓瘤病人生存相关的
lncRNA
,并且利用这些
l
生存相关的
lncRNA
用于预测病人的生存情况,
可能具有一定的指导临床评价的
作用
。
2 Materials and methods
2.1
多发性骨髓瘤病人
GEO
数据集以及相应临床信息
我们从基因表达综合数据库
(
GEO
)
中
获取了大量多发性骨髓瘤病人的表达
谱芯片数据,并且根据相应的注释文件,获取其相关
的临床资料。包括:
GSE24080[11](Affymetrix
HGU133_Plus_2.0
array)
(/geo/query/?acc=GSE24080)
数据集中
558
例多
发
性
p>
骨
髓
瘤
病
人
,
GSE57317[12](Affyme
trix
HG-U133_Plus_2.0
array)
(/geo/quer
y/?acc=GSE57317)
数据集中
55
例多发
性骨髓瘤病人。详细的多发性骨髓瘤病人的病理资料见
Supplement table 1
。
2.2
芯片数据处理和
lncRNA
注释
我们使用了
RMA[13]
算法标准化处理了芯片数据,并对标准化的芯片数据
进
行
Z-score[14]
处
理
。
我
们<
/p>
使
GATExplorer[13]
工<
/p>
具
对
Affymetrix
HG-
U133_Plus_2.0
芯片的探针进行
lncRNA
注释。
G
ATExplorer
提供了一系列系
列用于注释芯片的
R
包,我们利用
Bioconductor<
/p>
提供的
affy
包,可以获得来源
与
GATExplorer
的注释信息。我们
从
GATExplorer
中下载了芯片中比对到非编
码区域的
ncRNA
的
CDF
文件。通过
ncrnamapperhgu133plu
s2cdf_3.0
文件,
我们获得了
lncRNA
的表达谱数据。对于比对到多个
lncRNA
p>
的探针,我们采取
了合并取平均值的方法进行处理。寻找与多发性骨
髓瘤病人生存率相关的
lncRNA
我们使用单因素
Cox
回归分析评价
lncRNA
表达量与病人生存时间的相
关性。我们保留了
p<0.
05
的
lncRNA
来预测多发性骨髓
瘤病人的生存情况。利
用
lncRNA
表达量进行
K-means
聚类将多发性骨髓瘤病人区分为
p>
2
组,进行
Kaplan-
Meier
分析。
2.3
统计分析
我们使用
Kaplan-Meier
生
存曲线来评价
K-means
聚类将多发性骨髓瘤病
人区分为
2
组时,这两组病人的生存情况的差异。
我们采取双尾
log-rank
检验
来评价生存曲线是否具有统计学差异
。
所有的分析都是使用
p>
R
语言
(
3.2.
3
版本)
以及
Bioconductor
完成的。
2.4 GSEA
分析
我
们
使
用
Broad
institute
所
开
发
的
GSEA
的
JAVA
程
序
进
行
(
/gsea
)基因组富集分析(
GSEA
),我们使用<
/p>
MSigDB
中提供的基因集作为参照。我们认为当假阳性率(<
/p>
FDR
)
<0.05
,
1000
次置换检验的
p
值小于
0.05
时,该通路在该种类型的样本
中发生量显著改变。
我们使用
Cytoscape
和
Enrichment Map
对
GSEA
的分析结果进行可视化。
3. Results
鉴定生存相关的
lncRNA
为了找
到与多发性骨髓瘤病人生存率显著相关的
lncRNA
。
针对
GSE24080
数据集中的
558
例多发性骨髓瘤病人,我们使用单因素
Co
x
风险比例模型来评
价
lncRNA<
/p>
表达量与病人生存时间的相关性。
共有
1
76
个
lncRNA
的表达量与病
p>
人的生存情况显著相关(
p < 0.05
)
,
如
Fig 1
< br>所示。在这
176
个
lncRN
A
中,表
达量与病人生存情况呈正相关的有
89
个,
与病人生存情况呈负相关的有
87
个。
Table1
为与影响病
人生存情况最显著的
20
个
lncRN
A
(按照
z-score
排序)。
p>
所有与多发性骨髓瘤病人生存率显著相关的
lncRNA
见
Supplement table 2
Fig
1.
绿色点表示表达量与病人生存情况呈负相关的
lncRNA
(
87
个),红色点表示表
达量与病人生存情况呈正相关的
lncRNA
(<
/p>
84
个),
黑
色点表示表达量与病人生存情况不
相关的
lncRNA
(
1920
个)。(筛选阈值为:
p<0.05
,
|z-score|>1.8
)
Table 1
与多发性骨髓瘤病人生存情况显著相关的
lncRNA
(
Top20
< br>)
Gene symbol
chrom
osome
Start
position
End
position
coef
z-score
Hazar
d
ratio
RP1-286D6.1
AC008875.2
MTMR9L
AC069360.2
AL512791.1
AP001048.1
AC096579.2
RP11-445H22.2
CYorf14
U62317.2
GNASAS
RP11-305M3.2
AC012170.1
AC105388.1
AC005682.5
AC004687.2
AC138645.2
AL138795.2
AC022087.2
AL591493.1
1
5
1
11
14
21
2
20
Y
22
20
7
15
4
7
17
17
1
15
1
3689352
42985503
32697259
10879806
90849868
44885189
89065324
43285092
21034387
50968838
57393974
129142320
50655998
90166086
22897143
56402811
44620700
150190861
50647664
149816066
3692546
42993435
32707282
10900823
90854251
44887178
89106126
43324737
21239302
50970543
57425958
129152759
50660476
90172345
22898161
56431077
44622797
150192882
50650501
149820591
-0.340
-0.296
-0.341
-0.280
-0.248
-0.228
-0.226
-0.213
-0.244
-0.250
0.253
0.296
0.257
0.331
0.307
0.292
0.281
0.342
0.307
0.324
-4.363
-3.935
-3.564
-3.490
-3.387
-3.270
-3.163
-3.145
-3.082
-3.063
3.310
3.357
3.385
3.461
3.485
3.631
3.815
3.827
3.878
4.006
0.712
0
0.744
0
0.711
0
0.756
0.002
0.780
0
0.796
0
0.798
0.001
0.808
0.001
0.783
0.001
0.779
0.001
1.287
0
1.345
0.001
1.293
0
1.392
0
1.360
0
1.339
0
1.324
0
1.408
0
1.359
0
1.382
0
p
value
利用获得的
lncRNA
预测病人生存情况
我
们
利
用
所
获
得
的
与
病
人
预
后<
/p>
相
关
的
lncR
NA
的
表
达
量
,
对
来
源
p>
于
GSE24080
的
559
例多发性骨髓瘤病人进行聚类分析,我们发现利用这些
176
个
lncRNA
的表达量,我
们可以将
558
例病人分为预后良好和预后较差的两组
(
Fig.2A
)。
K
aplan-Meier
分析表明,利用
K-means
p>
聚类将多发性骨髓瘤病人
区分为
2
组时,这两组病人的总体生存率有显著性的差异(
log-rank
test
p
=
0.0002, Fig. 2B
)
。
预后良好的病人的平均存活时间<
/p>
(平均存活时间:
87.43
月)
显著高于预后较差的病人(平均存活时间:
64.56
月)。手术切除的多发性骨髓
瘤病人也呈现出同样的结果(
log-rank test p < 0.0001, Fig. 2C
)。
Fig 20480
数据集中,利用
lncRNA
表达量预测多发
性骨髓瘤病人的总体生存情况。
A.
利用
176
个
lncRNA
的表达量对<
/p>
558
个多发性骨髓瘤病人进行
k-me
ans
(k=2)
聚类分析
得到的
结果,可以将
558
人分为预后较好与预后较差的两组
(n
分别为
274
和<
/p>
284)
。
B.k-
means (k=2)
时,
558
例多发性骨髓瘤病人被分成两组时,其总体的
Kaplan-Meier
曲线情
况。
P
值是采取双
尾
log-rank
检验方法计算得到的。
B. k-means(k=2)
时,
558
例多发性骨
-
-
-
-
-
-
-
-
-
上一篇:英语词类及练习
下一篇:3__GB475-2008商品煤样人工采取方法