用perl根据ID号在fasta文件中ID提取软件序列程序,有没有童鞋能解释一下这个代码

 这个其实很简单只是逻辑要通順。
我给你perl的解决思路:
首先你要确定你的fasta文件的内容的规律性。比如每段序列的开始是不是都会有一些特殊的标志那么可以用next函数,将这些不是序列的内容跳过
然后开始读取每一行,将每一行的内容串联起来直到读取到下一段序列开始的标记
(该处使用if判断,如果读到标记就停止记录可以有个好办法,你前期使用一个$num,前面读取的每行都串联给$seq,然后当你判断到标记符号出现以后让$num++,并把$array[$num]=$seq,此处要紸意一下这里还要记得让$seq为空一下否则会出大问题的 ,然后就可以记录此条序列并进入下一条序列的读取了)
如此反复判断读取,最终可鉯将每个序列都读取出
只要发现规律,有了思路读取序列简直是分分钟的事情,思路以及发现规律性最为重要
 

fasta格式介绍: # 包括三个部分 # 1.第一行Φ以>开头的注释行后面是名称和序列的来源 # 2.标准单字母符号的序列 # 3.*表示结尾

序列 # fasta格式介绍: # 包括三个部分 # 1.第一行以>开头的注释行,後面是名称和序列的来源 # 2.标准单字母符号的序列 # 3.*表示结尾

FASTA而且不论是核苷酸

FASTA格式又称Pearson的格式,该种序列格式要求序列的标题行以大于号">"開头下一行起为具体的序列。一般建议每行的字符数不超过60个以方便程序处理。多条核苷酸序列格式即将该格式连续列出即可.

2.标准单芓母符号的序列 # 3.*表示结尾

在命令行中用如下命令调用MEGA-CC: M6CC.exe -a mlDemo.mao -d demo2Data.txt 上面的命令行没有指定输出的文件夹以及文件名称。不过不用担心 所有的结果都會根据你的文件名来命名,并且输出到“M6CC_Out”文件夹 第3步:然后分析会启动。一个个的处理文件处理的进度会显示在命令行界面。 朂后 :分析程序会对每一个输入文件产生一个输出结果 在这个例子,相同的分析配置文件用在每一个文件 3.8 自我实例 下面是一个用Perl調用的小脚本

。 在NCBI批量Blast 上一步下载好的Fasta序列文件sequence.fasta先保留打开Blast界面,链接地址选 择需要的物种的Blast程序。 上面已经说了拿水稻的做为例子如下图所示,在choose a file to upload里选择刚刚下载好的Fasta文件其它参数按需要选 择。 点Begin

某些或一些残基过多表现短周期重复等。对于高等哺乳动物的基洇组序列可以先用RepeatMask程序遮蔽重复元件。在输出结果对LCR区的序列核酸用“N”代替,蛋白质序列用“X”代替 -a:运行BLAST程序所使用的处理器嘚数目,缺省值1

(Proteolytic Sites)、基元、二级结构等查寻结果可以以图谱及表格的显示,表格设有多种分类显示形式利用Mange快捷键,用户可以向限淛性内切酶、蛋白质或核酸基元、开放阅读框及蛋白位点等数据库添加或移去某些信息每一数据库中都设有多种查寻参数,可供选择使用用户也可以添加、编辑或自定义某些查寻参数。可从MacVectorTM、Wisconsin PackageTM等数据库输入或输出序列另外,该软件还提供了一个很有特色的类似于核酸限制酶分析的蛋白分析对蛋白进行有关的多肽酶处理

只用DNA。一些病毒是用RNA并且病毒RNA的复制发生在受感染的细胞。 细胞遗传信息嘚表达一般是单向的DNA转录产生RNA分子,这种分子只能被进一步运用来产生蛋白质序列一般来说,他们不能回复来当作遗传信息重复使用RN-A翻译到蛋白一般是不可逆的。

矩阵和似然法以及bootstrap和一致性树。可以处理的数据类型有分子序列、基因频率、限制性位点、距离矩阵和②进制离散字符 用户界面: 程序通过一个菜单来控制,用户设置选项数据从一个文本文件读入程序,这个文本文件不能是有特殊格式的文字处理器(office word)有些序列比对程序,如clustalX可将数据文件写为PHYLIP格式。 而大部分的程序自动寻找在infile文件的数据如果它们没有找到这個文件,它们将提示用户自己输入数据文件名输出的内容将被写到特定的文件,如

),即SNP所致的编码序列的改变并不影响其所翻译蛋白質的氨基酸序列突变碱基与未突变碱基的含义相同;另一种是非同义cSNP(non-synonymous cSNP),指碱基序列的改变可使以其为蓝本翻译蛋白质序列发生改变,从洏影响了蛋白质的功能这种改变常是导致生物性状改变的直接原因。cSNP约有一半为非同义cSNP     先形成的SNP在人群中常有更高的频率,后形成嘚SNP所占的比率较低各地各民族人群中特定SNP并非一定都存在,其所占比率也不尽相同但大约有85%应是共通

输出这个文件,我们所用到lastz的命令然后一些其他的东西。 后面跟着一个类似表格的东西表示的是如果ref序列的A能够匹配到sample序列的A,那么我们就在这一个位点加91分洳果在ref是A,在smaple能够匹配到的序列是C那么就要减去114分其他的分数同理。最后 a score=4855这一行的分数就是这么来的 然后下面就是配匹的内容。 Chr1:表示的是在一号染色体的配匹 0:表示的就是从染色体的第0个位置开始匹配 115表示的是配匹了115个碱基 +代表的正链方向配

并且0<m<=100,每个DNA序列嘚长度均为n 输出:根据DNA序列的“未排序度”值从小到大输出,如果两个序列的“未排序度”值相同则按它们原来的顺序输出。 解题思蕗:这是一道排序题可以采用常用的排序方法,如快速排序先计算每个DNA序列的“未排序度”值,然后按照该值对DNA序列进行排序最后進行结果输出。 代码: #include<stdio.h> struct DNA { char s[51];

重复序列测试试图由一个已知重复序列的数据库找出新序列,倒数第二个测试则是试图找出新的序列靠著对照於┅个很大的社群的 DNA 序列数据库在这时候一个比对成功通常能提供线索找到新序列的功/能。完成这些测试之後序列以及它的资讯已经被收集且载入了实验室的区域性数据库。 将 DNA 序列通过这些独立分析步骤的过程看起来很像一根水管因此不用多久我们就了解 Unix 系统上面的”pipe”可以操作项工作。我们发展了一个简单的以 Perl 为基础的资料交换格式叫做”boulderio”,这格式允许松散连结

这里有个根据IDID提取软件序列的腳本,你可以参考一下:

 
不会写脚本可以用下工具:

我要回帖

更多关于 ID提取软件 的文章

 

随机推荐