-
基因组序列的差异分析
----mVISTA
的在线使用说明
当然,
除了在线版的,
我们还可以在网
站上填写信息申请离线的软件。
但我试用了一下,
需要先自己比
对,
然后要按照一定的格式来制作文
件,
当然你还必须得安装
java
才能运行软件;
总之,
我感觉没有在线
版的方便。
1
将数据放入服务器中
p>
在首页,你将被要求确定你想要分析的基因组序列的数量。输入这个数字之后,点击
“提交”
,将带你到
主提交页面
。
mVISTA
服务器最多
可以同时处理
100
条序列。
1.1
主提交页面
< br>必填的
内容
E-mail
地址
通过
E
-mail
,我们可以提示你的在线处理已经得到结果。
序列
你可以用
2
种方式来上传你的序列:
1.
使用“
Browse
”按钮从你的电脑上,上传纯文本的
Fasta<
/p>
格式文件。如果是一个作为参
考的生物体的
DNA
序列必须作为一个
contig
提交
(
可以进行一定的定向排列将多个片段
< br>合并为一个
contig)
,而其他非参考序列可以在一
个或多个
contig
中提交
(dra
ft)
。
Fasta
格式的示例序列
(
您可以在
N
CBI
站点上找到关于该格式的更多细节
)
:
>mouse
ATCACGCTCTTTGTACACTCCGCCATCTCTCTCT
…
!
p>
!
!注意
:
序列里
面我们只接受字母
CAGTN
和
X
p>
。请确保提交序列是作为一种纯文
本格式,而不是
< br>Word
或
HTML
文件格式。
如果您以
FASTA
格式提交序列,我们建议您为它取一个有意义的名称(比如直接
是你的物种名之类的)
,因为这些名称将出现在我们生成的图形中。如果您使
用的是一
个
draft
草图序列,那么
结果中每个
contigs
的命名都将按照您在“
>
”符号后指示的命
名进行。
2.
您可以给出它的
GenBank
登录号,系统将自动从
GenBa
nk
数据库里进行检索序列。
p>
在这两种情况下,序列的总大小都不应超过
10M
< br>,而且任何一条序列都不应超过
2M
。
< br>
1.2
主提交页面
选填的
p>
内容
这些选项允许您自定义您的
VISTA
分析。
您可以使用独立获得的基因注
释,
选择合适的
Repeat
Mas
ker
选项,给分析的序列指定名称,并改变序列保存分析的参数。如果您没有填写这些
选填选项,我们将使用它们的默认值。
比对程序
根据您分析的具体内容
p>
(
参见
“
abou
t
”
-
链接中的详细信息
)
,
您可以选择以下比对程序之一:
1
、
AVID----
全局两两比对。
如果您选择使用这个程序
,
其中一个序列应该被完成比对,其他
所有序列可以完成或以草
图
draft
格式完成。对于集合中所有已完成的序列,
AVID
生成
所有相对所有成对的比对结果,
可以使用任何序列作为基础
(
参考
)<
/p>
来显示。如果某些序
列是草图格式,
AV
ID
将生成它们与最终序列的比对,这将被用作基础
(
参考
)
。这是该服
务器
上唯一可以处理草图序列的比对程序。
(小知识:草图序列与完整序列
DNA sequence,
draft: Sequence of a DNA with less
accuracy
than a finished
sequence. In a draft sequence, some segments are
missing or are in the wrong
order or
are oriented incorrectly. A draft sequence is as
opposed to a finished DNA
sequence.
)
2
、
LAG
AN----
完成完整序列的全局两两比对和多重比对。如果某些序列是草图格式,
p>
您的查
询将被重定向到
AVID
以获得两两比对。
多重比对将由
VISTA
可视化,
它将计算并显示序
列的保守区,以您
指示的任何序列作为参考。这是该服务器上唯一能够产生真正的多重
比对的程序。
3
、
Sheffle-LAGAN----
完整序列的全局比对。<
/p>
它检测序列中的重排和逆序,
同时产生一个全局
< br>的端到端映射图。如果你输入几个序列,所有成对的组合将被处理,结果将在
VI
STA
中
可视化。这是该服务器上唯一可用于检测重排和逆序的
比对程序。
(叶绿体基因组差异
分析论文中好像一般都选这个)
对每条序列你可以选择:
名字
你选择的物种名字将会显示在图
例中。
我们建议您使用一些有意义的内容,
例如这个生
物体的名称、
您的实验编号或数据库标识。
当您
使用
GenBank
标识符来输入序列时,
默认情
况下我们将使用它作为序列的名称。
(页面默认的是
sequence1
,
sequenc
e2
,
sequence3
·
·
·
)
注释
如果有序列的基因注释信息,<
/p>
您可以将其以简单的纯文本格式提交,
以便在绘图中显示。
每个基因由其在序列上的起始和结束坐标以及列在一行上的名称来定
义。
一行前应放置大于
(
>
)
或小于
(
<
)
的符号,
以表示正链或负链,
< br>但编号应根据正链来排列。
在每个外显子的开始
和结束坐
标之后,
外显子以单词
“
exon
p>
”
单独列出。
UTRs
的注释方式与外显子相同,
用
“
u
tr
”
代替“外显子”
。
例如
:
< 106481 116661 gene1
106481 106497 utr
107983 108069 exon
有一种简单的方法可以从
Ensembl
基因组浏览器中导
出上述格式的注释。以下显示是如何
做
:
1
、在
Ensembl
浏览器中选择您感兴趣的序列区域
;
2
、点击页面左侧的“
Export
information about
region
”
;
< br>3
、
“
Output Form
at
输出格式”请选择“
VISTA
格
式”
;
4
、
点击“
Continue
”按钮
;
p>
5
、点击“
Annotation
data
”链接
;
6
、将结果保存为纯文本文件。
p>
我们的
web
服务器也接受
GFF3
格式的注释。
NC
BI
网站上可以下载
GFF3
格式的文
件,如下所示:
注意
:但是我下载后导入
mVISTA
,结果显示只注释
了前面一半的基因,后一半序列没有注
释,我也暂时没搞懂,所以,后来就在网上下了一
个
perl
脚本,来自于简书的《
mV
ISTA
格
式文件:由
Perl
脚本处理
GenBank
注释文件而来》
p>
,然后把
NCBI
上下载的参考序列的
p>
gb
文
件转换成了
mVISTA
格式文件。
重复序列(
RepeatMasker
的选择)
我们建议掩蔽一个碱基序列以获得更好的比对结果。
您可以提交
掩码或非掩码序列。
如
果提交了一个掩码序列,
其重复的碱基序列被替换为字母
“
N
< br>”
,请在下拉菜单中选择“
one-
celled/do not mask
”选项。我们还接受轻度掩蔽序列,其中重
复的元素以小写字母显示,而
序列的其余部分以大写字母显示。
在这种情况下,
你需要在菜单中选择
“
softmasked
”
选项。
p>
如果你的序列是非掩码的,我们的服务器将用
RepeatMask
er
来掩盖重复序列。请在菜
单中为您的具体序列选择一个特定
的掩码。如果你不希望你的序列被掩码,选择“
one-
cel
led/do not mask
”
。
反向互补
选择您想要对第二个序列进
行反向互补的比对
(
如果没有同源性,请尝试这样做
)
。
监管
VISTA
(rVISTA)
访问
Regulatory VISTA
(rVISTA) access
我们的服务器可以预测转录
因子结合位点,通过对结果序列运行
Regulatory
VISTA
(rVISTA)
。
p>
rVISTA
的最大尺寸限制是
20K
p>
。有关此工具的信息,请参阅
rVISTA
说明。
-
-
-
-
-
-
-
-
-
上一篇:郧县方言
下一篇:突如其来的脾气,大概是积攒了很久的委屈