-
mRNA
(
messenger RNA
)信使
RNA
,是由编码区(
CDS
)、上游的
5
’非编码
区和下游
3
’非
编码区组成,真核生物
mRNA
的
5
’端带有
7-
甲基鸟苷
-
三磷酸帽子结构,
3
’端有多腺苷酸
尾巴,
但
NCBI
中
mRNA
序列实际上是
cDNA
序列
,
即经过反转录得到的与
RNA
序列互补的
DNA
序列,一般不
包括
3
’多腺苷酸尾巴。一个
cDNA
序列被称为一个
转录子
,第一个碱基所
在
的位置为转录起始位点
(
TSS
p>
)
,
cDNA
都是
由外显子组成,
但编码蛋白质的外显子只有一个,
即
CDS
(
coding sequence
),这段序列也就是一个
ORF
区
,也就是这个
cDNA
的
ORF
序列
。
参与特定基因转录及其调
控的
TSS
上游序列称为启动子
(
p>
Promoter
)
,
如原核生物在转录起
始位点上游
-10
有一段
TATAAT
的保守序列,有助于局部解链,在
p>
-35
有一段
TTGACA
序列提
供
RNA
聚合酶识别信
号,真核生物上游
-25
到
-30TA
TA
决定起始位点,
-75
位置
CAAT
与
RNA
聚
合酶,这些都是启动子,启动子的范围非常大,可以包含转录起始位点上游
2000bp
,有
些特定基因的转录区内部也存在着转录因子的结合位点,因
此也属于启动子范围。
克隆
可以简单理解为复制品,例如假设通过提取
mRNA
,反转录后得到
cDNA
序列,然后
将这段序列转入载体,再通过划线不断的繁殖,就会得到许多装有这段
cDN
A
序列的克隆,
实验室为了方便,在给得到的这些克隆起名时,
一般会取
cDNA
序列的名,但实际上在这个
< br>克隆里面不仅包括了这个
cDNA
,还包括了载体的
p>
DNA
。
STS
(
sequence-
tagged site
)序列标记位点,是基因组上定位明确、作为界标并能通
过
PCR
扩增被唯一操作的短的、单拷贝
p>
DNA
序列,一般长度为
200-500b
p
,一个
DNA
序列要
成为
STS
,首先序列必须已知,能用
PCR
方法检测,第二
STS
必须在基因组上具有唯一的定
位点。通过
STS
可以判断在不同条件下测序得到的
DNA
序列的准确性
。
EST
(
expressed
sequence
tag
)表达序列
标签,是从一个随机选择的
cDNA
克隆,进行
5
’端和
3
’端单一次测序挑
选出来获得的短的
cDNA
序列。全基因组测序发现基因即昂贵
又
费时,
因为基因组中只有
2%
序列编码蛋白质,
因此可以对真正编码蛋白质的
mRNA
构建
cDNA
文库,对
p>
cDNA
进行测序,得到
EST
序列,从而发现新基因。
下面以大鼠
CTGF
基因为例子,小写字母是转录子前后
20
0bp
启动子相关序列,大写字母表
示的是
cDNA
序列,也就是转录子,其中蓝色标记的部分为
CD
S
序列,湖蓝色的为转录起始
位点,即
TSS
,加粗带下划线的为起始密码子
agtgtgccagctttttcagacggaggaatgtggagtgtcaaggggtcag
gatcaatccggtgtgagttgatgaggcagg
aaggtgggg
aggaatgcgaggaatgtccctgtttgtgtaggactccattcagttctttg
gcgagccggccgcccggagc
gtataaaagccagcgccac
ccgcccagtctcacacagctctt
C
TCTC
CAAGAAGACTCAGCCAGACCCACTCCAGCTCC
GACCCTA
GGAGACCGACCTCCTCCAGACGGCAGCAGCCCCAGCCCAGTGGACAACCC
CAGGAGCCACCACCTGGAGCGT
CCGGACACCAACCTCCG
CCCCGAGACCGAGTCCAGGCTCCGGCCGCGCCCCTCGTCGCCTCTGCACC
CCGCTGTGCGTC
CTCCTGCCGCGCCCCGACC
< br>ATG
CTCGCCTCCGTCGCGGGTCCCGTTAGCCTCGCC
TTGGTGCTCCTCCTCTGCACCCGG
CCTGCCACCGGCCAG
GACTGCAGCGCGCAGTGTCAGTGCGCAGCTGAAGCGGCGCCGCGCTGCCC
CGCCGGCGTGAGCC
TGGTGCTGGACGGCTGCGGCTGCTG
CCGCGTCTGCGCCAAGCAGCTGGGAGAACTGTGCACGGAGCGTGATCCCT
GCGA
CCCACACAAGGGTCTCTTCTGCGACTTCGGCTCCC
CCGCCAACCGCAAGATTGGCGTGTGCACTGCCAAAGATGGTGCA
CCCTGTGTCTTCGGTGGGTCCGTGTACCGCAGCGGCGAGTCCTTC
CAAAGCAGTTGCAAATACCAGTGCACTTGCCTGG
ATGGG
GCCGTGGGCTGTGTGCCCCTGTGCAGCATGGACGTGCGCCTGCCCAGCCC
TGACTGCCCCTTCCCGAGAAGGGT
CAAGCTGCCCGGGAA
ATGCTGTGAGGAGTGGGTGTGTGATGAGCCCAAGGACCGCACAGTGGTTG
GCCCTGCCCTAGCT
GCCTACCGACTGGAAGACACATTTG
GCCCTGACCCAACTATGATGCGAGCCAACTGCCTGGTCCAGACCACAGAG
TGGA
GCGCCTGTTCTAAGACCTGTGGGATGGGCATCTCC
ACCCGGGTTACCAATGACAATACCTTCTGCAGGCTGGAGAAGCA
GAGTCGTCTCTGCATGGTCAGGCCCTGTGAAGCTGACCTAGAGGA
AAACATTAAGGTAAATAAATACTCTGCCCCCAGA
CACTC
ATTTTCACAGAATGACAGGAAAGAGAACCAGAGCTGGCTGTCTCGCCGCC
CTTCTTATTATAGGCCTGTTGTCT
CCAGAAATATCTAAC
CATGGAGCTGTCTGGCTAGAATGAGAGATGCTGTAACAGCAGCTGCCAGT
TTTCCACTACAAAA
TTCCCCGGGGTGTTAGTTAATACGA
GACACTCCAAACGAAGCCATGGCTATTTTTGGAAAACTGGCGAATGAAAC
TCCC
AGTCTCTCTCCCCTCAGAATATAAACACAAGTCAG
ATGACATAGGGCTAGTCTACAGAGGGTTGAGGAAGGCCACTCCC
GTTGTAGTAATTGCGGTGTCTCTTCTCGTCTTCCCTTAGAAGGGC
AAAAAGTGCATCCGGACGCCTAAAATTGCCAAGC
CTGTC
AAGTTTGAGCTTTCTGGCTGCACCAGTGTGAAGACCTACCGGGCTAAGTT
CTGTGGGGTGTGCACGGACGGCCG
CTGCTGCACACCGCA
CAGAACCACCACACTGCCGGTGGAGTTCAAGTGCCCCGATGGCGAGATCA
TGAAAAAGAACATG
ATGTTCATCAAGACCTGTGCCTGCC
ATTACAACTGTCCCGGGGACAATGACATCTTTGAGTCCTTGTACTACAGG
AAGA
TGTATGGAGACATGGCGTAA
AGCC
AGGGAGTAAGGGACACGAACTCATTTAGACTATAACTTGAACTGAGTTAC
ATCTC
ATTTTCTTCTGTAAAAAAACAAAAAGGATTACAG
TAGCACATTAATTTAAATCTGGGTTCCTAACTGCTGTGGGAGAAA
ACACCCCACCGAAGTGAGAACCGTGTGTCATTGTCATGCAAATA GCCTGTCAATCTCAGACACTGGTTTCGAGACAGTT
TAGA
CTTGACAGTTGTTCACTAGCGCACAGTGACAGAACGCACACTAAGGTGAG
CCTCCTGGAAGAGTGGAGATGCCAG
GAGAAAGACAGGTA
CTAGCTGAGGTCATTTTAAAAGCAGCGATATGCCTACTTTTTGGAGTGTG
ACAGGGGAGGGACAT
TATAGCTTGCTTGCAGACAGACCT
GCTCTAGCAAGAGCTGGGTGTGTGTCCTCCACTCGGTGAGGCTGAAGCCA
GCTAT
TCTTTCAGTAAGAACAGCAGTTTCAGCGCTGACA
TTCTGATTCCAGTGACACTGGTCGGGAGTCAGAACCTTGTCTATT
AGACTGGACAGCTTGTGGCAAGTGAATTTGCCGGTAACAAGCCA GATTTTTATGGATCTTGTAAATATTGTGGATAAAT
ATAT
ATATTTGTACAGTTATCTAAGTTAATTTAAAGACGTTTGTGCCTATTGTT
CTTGTTTTAAGTGCTTTTGGAATTT
TTAAACTGATAGCC
TCAAACTCCAAACACCATCGATAGGACATAAAGCTTGTCTGTGATTCAAA
ACAAAGGAGATACTG
CAGTGGAAACTGTAACCTGAGTGA
CTGTCTGTCAGAACATATGGTACGTAGACGGTAAAGCAATGGATCAGAAG
TCAGA
TTTCTAGTAGGAAATGTAAAATCACTGTTGGCGA
ACAAATGGCCTTTATTAAGAAATGGCTTGCTCAGGGTAACTGGTC
AGATTTCCACGAGGAAGTGTTTGCTGCTTCTTTGACTATGACTG GTTTGGGAGGCAGTTTATTTGTTGAGAGTGTGACC
AAAA
GTTACATGTTTGCACCTTTCTAGTTGAAAATAAAGTATATATATTTTTTA
TATGaaaggcttggctgctcattct
tgtaaactttcctt
gggtttccctgggtgtaagcaggaagtttatatttatcttaaggtaattc
actaagatgtttaca
aacaactttgatgtgcatgagtca
catgaaatcaatagaattttgcataagcatcccttacaccggaccaagta
gacat
gagcatcaattatctacatgg
首先
,<
/p>
的先简单介绍一下
,DNA
到
protein
这个过程
.
对于一个
gene,
它除了含有翻<
/p>
译成
protein
的那短序列
,
也就是
CDS (coding
sequence ),
还有一些
untranslated
的部分
,
比如
promoter
等
,
就是
常说的
3'UTR
和
5'UTR .
Google
了一个图片放在这里
:
-
-
-
-
-
-
-
-
-
上一篇:铺满金色巴掌的水泥道中的熨帖是什么意思
下一篇:大概造句三年级大全