-
.
.
生物信息学
实验报告
班级:
姓
名:
学号:
日期:
.
实验一
核酸和蛋白质序列数据的使用
实验目的
了解常用的序列数据库,掌握基本的序列数据信息的查询方法。
教学基本要求
了解和熟悉
NCBI
核酸和蛋白质序
列数据库,
可以使用
BLAST
进行序
列搜索,
解读
BLAST
搜索结果,
可以利用
PHI-
BLAST
等工具进行蛋白质序列的结构域搜索,
解
读蛋白质序列信息,可以在蛋白质三维数据库中查询相关结构信息并进行显示。
< br>
实验内容提要
在序列数据库
中查找某条基因序列
(
BRCA1
)<
/p>
,
通过相关一系列数据库的搜索、
比
p>
对与结果解释,回答以下问题:
1.
该基因的基本功能?
2.
编码的蛋白质序列是怎样的?
3.
该蛋白质有没有保守的功能结构域
(NCBI CD-
search)
?
4.
该蛋白质的功能是怎样的?
5. <
/p>
该蛋白质的三级结构是什么?如果没有的话,和它最相似的同源物的结
构是什么样子的?给出示意图。
实验结果及结论
1.
该基因的基本功能?
This
gene
encodes
a
nuclear
phosphoprotein
that
plays
a
role
in
maintaining genomic stability, and it
also acts as a tumor suppressor.
The
encoded protein combines with other tumor
suppressors, DNA damage
sensors, and
signal transducers to form a large multi-subunit
protein
complex
known
as
the
BRCA1-associated
genome
surveillance
complex
(BASC).
This gene product
associates with RNA polymerase II, and through the
C-terminal domain, also interacts with
histone deacetylase complexes.
This
protein
thus
plays
a
role
in
transcription,
DNA
repair
of
double-stranded breaks, and
recombination. Mutations in this gene are
responsible for approximately 40% of
inherited breast cancers and more
than
80% of inherited breast and ovarian cancers.
Alternative splicing
plays
a
role
in
modulating
the
subcellular
localization
and
physiological
function of this gene. Many
alternatively spliced transcript variants,
some of which are disease-associated
mutations, have been described for
this
gene,
but
the
full-length
natures
of
only
some
of
these
variants
has
been
described.
A
related
pseudogene,
which
is
also
located
on
chromosome
17, has been
identified. [provided by RefSeq, May 2009]
2.
编码的蛋白质序列是怎样的?
[Homo sapiens]
1 mdlsalrvee
vqnvinamqk ilecpiclel ikepvstkcd hifckfcmlk
llnqkkgpsq
61 cplcknditk
rslqestrfs qlveellkii cafqldtgle yansynfakk
ennspehlkd
121 evsiiqsmgy
rnrakrllqs epenpslqet slsvqlsnlg tvrtlrtkqr
iqpqktsvyi
181 elgsdssedt
vnkatycsvg dqellqitpq gtrdeislds akkaacefse
tdvtntehhq
.
.
241 psnndlntte kraaerhpek yqgssvsnlh vepcgtntha
sslqhenssl lltkdrmnve
301
kaefcnkskq pglarsqhnr wagsketcnd rrtpstekkv
dlnadplcer kewnkqklpc
361
senprdtedv pwitlnssiq kvnewfsrsd ellgsddshd
gesesnakva dvldvlnevd
421
eysgssekid llasdpheal ickservhsk svesniedki
fgktyrkkas lpnlshvten
481
liigafvtep qiiqerpltn klkrkrrpts glhpedfikk
adlavqktpe minqgtnqte
541
qngqvmnitn sghenktkgd siqneknpnp ieslekesaf
ktkaepisss isnmelelni
601
hnskapkknr lrrksstrhi halelvvsrn lsppnctelq
idscssseei kkkkynqmpv
661
rhsrnlqlme gkepatgakk snkpneqtsk rhdsdtfpel
kltnapgsft kcsntselke
721
fvnpslpree keekletvkv snnaedpkdl mlsgervlqt
ersvesssis lvpgtdygtq
781
esisllevst lgkaktepnk cvsqcaafen pkglihgcsk
dnrndtegfk yplghevnhs
841
retsiemees eldaqylqnt fkvskrqsfa pfsnpgnaee
ecatfsahsg slkkqspkvt
901
feceqkeenq gknesnikpv qtvnitagfp vvgqkdkpvd
nakcsikggs rfclssqfrg
961
netglitpnk hgllqnpyri pplfpiksfv ktkckknlle
enfeehsmsp eremgnenip
1021
stvstisrnn irenvfkeas ssninevgss tnevgssine
igssdeniqa elgrnrgpkl
1081
namlrlgvlq pevykqslpg snckhpeikk qeyeevvqtv
ntdfspylis dnleqpmgss
1141
hasqvcsetp ddllddgeik edtsfaendi kessavfsks
vqkgelsrsp spfththlaq
1201
gyrrgakkle sseenlssed eelpcfqhll fgkvnnipsq
strhstvate clsknteenl
1261
lslknslndc snqvilakas qehhlseetk csaslfssqc
seledltant ntqdpfligs
1321
skqmrhqses qgvglsdkel vsddeergtg leennqeeqs
mdsnlgeaas gcesetsvse
1381
dcsglssqsd ilttqqrdtm qhnliklqqe maeleavleq
hgsqpsnsyp siisdssale
1441
dlrnpeqsts ekavltsqks seypisqnpe glsadkfevs
adsstsknke pgversspsk
1501
cpslddrwym hscsgslqnr nypsqeelik vvdveeqqle
esgphdltet sylprqdleg
1561
tpylesgisl fsddpesdps edrapesarv gnipsstsal
kvpqlkvaes aqspaaahtt
1621
dtagynamee svsrekpelt astervnkrm smvvsgltpe
efmlvykfar khhitltnli
1681
teetthvvmk tdaefvcert lkyflgiagg kwvvsyfwvt
qsikerkmln ehdfevrgdv
1741
vngrnhqgpk raresqdrki frgleiccyg pftnmptdql
ewmvqlcgas vvkelssftl
1801
gtgvhpivvv qpdawtedng fhaigqmcea pvvtrewvld
svalyqcqel dtylipqiph
1861 shy
3.
该蛋白质有没有保守的功能结构域
(NCBI CD-
search)
?
有保守的供能结构域。
Mov34/MPN/PAD-1 family: BRCC36, a
subunit of BRCA1-A complex
.
.
4.
该蛋白质的功能是怎样的?
同第一题答案。
5.
该蛋白质的三级结构是什么?如果没有的话,和它最相似的同源物的结
构是什么样子的?给出示意图。
.
.
实验二
双序列比对
实验目的
练习使用动态规划算法进行
双序列比对;
理解打分矩阵和参数对双序列比对结果
的影响;理
解动态规划算法的原理。
教学基本要求
动态规划算法是序列比
对最基本的算法,
可以确保找到最优比对。
分为全局比对
(
Needleman-Wunch
algorithm
)
和
局
部
比
对
算
法
(
Smith-Waterman
algorithm
)<
/p>
。通过本实验的练习,更好的理解动态规划算法。
实验内容提要
对如下的两条序列进行双序列比对分析:
> Drosophila Sex-lethal protein
ASNTNLIVNYLPQDMTDRELYALFRAIGPINTCRIMRDYKTGYSYG
YAFVDFTSEMDSQRAIKVLNG
> Mouse Huc RBD <
/p>
MDSKTNLIVNYLPQNMTQDEFKSLFGSIGDIESCKLVRDK
ITGQSLGYGFVNYSDPNDADKAINTLNGL
这些蛋白质包含一个
RNA
识别模体(
RNA Recognition Motif
p>
,
RRM
)
。该模
体
包含两个高度保守的两个功能区
RNP1
和
RNP2
(已用红色标记)
。<
/p>
1. RNP1
和
RNP2
是否得到比对?
选择至少三个(差别大的)空位罚分和延伸值来进行比对,
2a.
算法是否找到
RNP1
和
RNP2
的正确比对?
b.
当空位开启罚分高时,结果发生什么变化?
c.
当空位延伸罚分高时,结果发生什么变化?
d.
为什么
k
个连续的空位罚分要小于
k
个间隔的空位罚分?
使用
PAM250
矩阵重复上述过程。
3.
比对结果是否发生变化?
继续进行这两条序列的局部比对,通过
ebi
网站的在线工具完成练习,网址:
(
/Tools/psa/emboss_water/
)
4a. RNP1
和
RNP2
是否在局部比对中得到比对?
b.
局部比对的生物学意义是什么?
c.
为什么在这种比对中我们选择局部比对而不是全局比对?
采用不同的打分参数和其它打分矩阵。
5.
比对结果发生了什么变化?
实验结果及结论
1. RNP1
和
RNP2
是否得到比对?
RNP1
和
RNP2
得到了比对。
.
.
Gap open 10
Gap extender 0.5
Gap open 20
Gap
extender 1
Gap open 1
Gap extender 5
Gap open 100
Gap extender 5
Gap open 1
Gap
extender 0.4
.
.
Gap open 20
Gap extender 0.4
2.
a.
算法是否找到
RNP1
和
RNP2
的正确比对?
算法找到了
RNP1
和
RNP2
的正确比对。
b.
当空位开启罚分高时,结果发生什么变化?
比对结果中空位变少。
c.
当空位延伸罚分高时,结果发生什么变化?
几乎没有变化。
d.
为什么
k
个连续的空位罚分要小于
k
个间隔的空位罚分?
因为间隔的空位每个都是一次改变,连续的空位只是一次改变。
3.
比对结果是否发生变化?
继续进行这两条序列的局部比对,通过
ebi
网站的在线工具完成练习,网址:
(
/Tools/psa/emboss_water/
)
比对结果没有发生变化。
Gap open 10
Gap extender 0.5
Gap open 100
Gap
extender 0.5
Gap open 1
Gap extender 0.5
.
.
Gap open 1
Gap
extender 0.0005
Gap open 1
Gap extender 10
.
.
4
.
a.
RNP1
和
RNP2
是否在局部比对中得到比对?
RNP1
和
RNP2
在局部比对中得到了比对。
b.
局部比对的生物学意义是什么?
更有可能得到序列保守域的比对。
c.
为什么在这种比对中我们选择局部比对而不是全局比对?
尽可能的减少误差。
.
.
.
.
.
.
5.
比对结果发生了什么变化?
p>
打分矩阵不同,
得分不同,
blosum<
/p>
数值越小,
结果相似度越高,
pam
p>
矩阵则相反。
.
.
实验三
序列的点阵分析
实验目的
点阵分析是双序列分析最直
观的工具,通过本实验了解点阵分析的原理和方法。
教学基本要求
了解和熟悉点阵分析的
原理和参数对分析结果的影响,
可以对结果进行解读和解
释。<
/p>
实验内容提要
本实验在如下网址完成:
‐
/cgi
‐
bin/d
otlet
首先学习根据
dotlet
的在线教
程,快速学习其基本使用方法和参数设置。然后进行如下的序列分析。
回答问题:点阵分析的基本原理是什么?
1.
重复序列
通过点阵分析可以很容易的发现序列中的重复,果蝇的一个蛋白质(索引号
码:
P24014
)中具有几个重复片段,请
通过
dotlet
分析,找到这些序列重复的
片段。
SLIT_DROME
(P24014):
MAAPSRTTLMPPPFRLQLRLLILPILLLL
RHDAVHAEPYSGGFGSSAVSSGGLGSVGIHIPGGGVGVITEARCPRVCSC
T
GLNVDCSHRGLTSVPRKISADVERLELQGNNLTVIYE
TDFQRLTKLRMLQLTDNQIHTIERNSFQDLVSLERLDISNNVI
TTVGRRVFKGAQSLRSLQLDNNQITCLDEHAFKGLVELEILTLNN
NNLTSLPHNIFGGLGRLRALRLSDNPFACDCHLSW
LSR
FLRSATRLAPYTRCQSPSQLKGQNVADLHDQEFKCSGLTEHAPMECGAEN
SCPHPCRCADGIVDCREKSLTSVPVTL
PDDTTDVRLEQ
NFITELPPKSFSSFRRLRRIDLSNNNISRIAHDALSGLKQLTTLVLYGNK
IKDLPSGVFKGLGSLRLLL
LNANEISCIRKDAFRDLHS
LSLLSLYDNNIQSLANGTFDAMKSMKTVHLAKNPFICDCNLRWLADYLHK
NPIETSGARCE
SPKRMHRRRIESLREEKFKCSWGELRM
KLSGECRMDSDCPAMCHCEGTTVDCTGRRLKEIPRDIPLHTTELLLNDNE
LGR
ISSDGLFGRLPHLVKLELKRNQLTGIEPNAFEGAS
HIQELQLGENKIKEISNKMFLGLHQLKTLNLYDNQISCVMPGSFE
HLNSLTSLNLASNPFNCNCHLAWFAECVRKKSLNGGAARCGAP
SKVRDVQIKDLPHSEFKCSSENSEGCLGDGYCPPSCT
C
TGTVVACSRNQLKEIPRGIPAETSELYLESNEIEQIHYERIRHLRSLTRL
DLSNNQITILSNYTFANLTKLSTLIISYN
KLQCLQRHA
LSGLNNLRVVSLHGNRISMLPEGSFEDLKSLTHIALGSNPLYCDCGLKWF
SDWIKLDYVEPGIARCAEPEQ
MKDKLILSTPSSSFVCR
GRVRNDILAKCNACFEQPCQNQAQCVALPQREYQCLCQPGYHGKHCEFMI
DACYGNPCRNNAT
CTVLEEGRFSCQCAPGYTGARCETN
IDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFCSPEFNPC
ANGAK
CMDHFTHYSCDCQAGFHGTNCTDNIDDCQNHMC
QNGGTCVDGINDYQCRCPDDYTGKYCEGHNMISMMYPQTSPCQNHEC
p>
KHGVCFQPNAQGSDYLCRCHPGYTGKWCEYLTSISFVHNNS
FVELEPLRTRPEANVTIVFSSAEQNGILMYDGQDAHLAV
ELFNGRIRVSYDVGNHPVSTMYSFEMVADGKYHAVELLAIKKNFTLRVD
RGLARSIINEGSNDYLKLTTPMFLGGLPVDP
AQQAYKN
WQIRNLTSFKGCMKEVWINHKLVDFGNAQRQQKITPGCALLEGEQQEEED
DEQDFMDETPHIKEEPVDPCLEN
KCRRGSRCVPNSNAR
DGYQCKCKHGQRGRYCDQGEGSTEPPTVTAASTCRKEQVREYYTENDCRS
RQPLKYAKCVGGCGN
QCCAAKIVRRRKVRMVCSNNRKY
IKNLDIVRKCGCTKKCY
从
uniprot
或者
genbank
数据库中的注释信息进行进一步确认你所发现的结果。
2.
低复杂度区域
恶性疟原虫抗原蛋白前体(索引号码:
P69192
)
具有一段低复杂度区域的序列,
通过点阵分析找到这个特点。
SERA_PLAFG (P69192):
MKSYISL
FFILCVIFNKNVIKCTGESQTGNTGGGQAGNTVGDQAGSTGGSPQGSTGA
SQPGSSEPSNPVS
SGHSVSTVSVSQTSTSSEKQDTIQV
KSALLKDYMGLKVTGPCNENFIMFLVPHIYIDVDTEDTNIELRTT
LKETNNAISFESNSGSLEKKKYVKLPSNGTTGEQGSSTGTVRG
DTEPISDSSSSSSSSSSSSSSSSSSSS
.
-
-
-
-
-
-
-
-
-
上一篇:CATIA_DMU运动分析
下一篇:集装箱内部温-湿度环境条件对比分析