tophat2能做macs chip seq—seq么?

RNA-seq差异表达基因分析之TopHat篇 | 博耘生物ChIP-Seq分析流程
已有 1787 次阅读
|个人分类:|系统分类:
转载本文请联系原作者获取授权,同时请注明本文来自熊朝亮科学网博客。链接地址:
上一篇:下一篇:
当前推荐数:0
评论 ( 个评论)
扫一扫,分享此博文
作者的其他最新博文
热门博文导读
Powered by
Copyright &  染色质免疫共沉淀技术(chromatin-immunoprecipitation,ChIP),因其能真实、完整地反映结合在DNA序列上的靶蛋白的调控信息,是目前基于全基因组水平研究DNA-蛋白质相互作用的标准实验技术。ChIP技术由Orlando等人于1997年创立。
它的基本原理与过程如下:通过在特定时间点上用甲醛交联等方式“固定”细胞内所有DNA结合蛋白的活动,相当于这一时间点上细胞内蛋白和DNA相互作用的关系被瞬时“快照(snapshot)”下来。再通过后续的裂解细胞、断裂DNA,将蛋白质-DNA复合物与特定DNA结合蛋白的抗体孵育,然后将与抗体特异结合的蛋白-DNA复合物洗脱下来,最后将洗脱得到的特异DNA与蛋白解离、纯化DNA后,进行下游分析。
ChIP是相对成熟的技术,但目前还存在一些技术难点。例如,ChIP实验涉及的步骤多,结果的重复性较低,需要大量的起始材料;染色质免疫沉淀获得的DNA数量往往很多,包含大量的非特异结合的假阳性结合序列;而对于神经细胞和干细胞等,往往培养困难,并且难以区分个别细胞与总体细胞的表型。在此背景下,配合使用芯片或者第二代高通量测序技术检测这些DNA片段,就形成了ChIP-chip技术和ChIP-Seq技术。
ChIP-Seq是将深度测序技术与ChIP实验相结合分析全基因组范围内DNA结合蛋白结合位点、组蛋白修饰、核小体定位或DNA甲基化的高通量方法,可以应用到任何基因组序列已知的物种,并能确切得到每一个片段的序列信息。相对于ChIP-chip技术,ChIP-Seq是一种无偏向检测技术,能够完整显示ChIP富集DNA所包含的信息。ChIP-chip技术的缺点在于它是一个“封闭系统”,只能检测有限的已知序列信息,相比之下,ChIP-Seq的优势在于其强大的“开放性”,强大的发现和寻找未知信息的能力。因此,ChIP-Seq与传统的ChIP-chip技术相比具有明显的优势:
(1)&灵敏度很高。传统的ChIP-chip实验要求起始DNA的量在4ug以上,而一般ChIP-Seq实验对起始DNA量的要求是10ng。这直接反映在起始细胞数目的减少,对于像早期胚胎发育相关的研究中更占优势。(2)&灵活性很强。ChIP-chip实验以研究对象的特定物种的全基因组DNA芯片平台为基础,所以不适合应用在那些基因组序列信息不丰富或缺少相关芯片平台开发的物种。ChIP-Seq技术则不存在这方面的限制,可以应用到任何基因组序列已知的物种,并能确切得到每一个片段的序列信息。(3)&分辨率极高。传统的微阵列芯片技术受制于当前芯片的容量,事实上不能涵盖真正的全基因组DNA序列信息,这导致ChIP-chip的实验结果分辨率不高,精确定位蛋白与DNA的结合位点存在一定的困难。而ChIP-Seq技术辅之以强大的生物信息计算能力,可以高效地将测序得到的序列定位到特定基因组的精确碱基位置上,分辨率大大提升。(4)&不具备其它一些芯片相关的负效应,如由核酸非特异杂交带来的噪音信号。
因此,随着目前测序的成本不断降低及通量迅速增高等优势,ChIP-Seq已经基本上取代ChIP-chip成为研究转录因子、RNA聚合酶、核小体等DNA结合蛋白体内结合靶点的主打技术。
ChIP-Seq实验设计的关键主要有以下几个方面:
1,&抗体质量:一个灵敏度高和特异性高的抗体可以得到富集的DNA片段,这有利于探测结合位点。2,&空白对照:空白对照是必要的,存在很多假阳性情况需要通过空白对照进行判断。一般来说有三种类型的空白对照:(1) 部分进行免疫沉淀前的DNA(input DNA),这是最常用的;(2) 由免疫共沉淀得到而不含有抗体的DNA(mock IP DNA),使用这个的问题在于收集到的量可能不够;(3) 使用非特异免疫共沉淀方法得到的DNA。3,&测序深度:在发表的ChIP-Seq实验中,一般使用Illumina Genome Analyzer上的一个lane产生的数据作为一个基本单位,目前一个lane大概是8-15 million reads。判断足够的测序深度的标准是:当增加测序得到更多的reads时不能发现更多的东西。将这一标准应用到结合位点的数量上就是:进行测序,增加reads数而无法得到更多的结合位点。4,&Multiplexing:对于基因组比较小的物种(E.coli, C.elegans)来说,一个标准的illumina lane得到的数据太多了,仅仅测一个样本比较浪费,所以可以将多个样本加不同的adapter放在一起测。
由于现在提供高通量测序的服务商很多,大家只需要把经ChIP富集得到的DNA样品纯化好交给测序公司就可以了。但是大家经常会遇到测序结果信号弱,背景高等令人头疼的问题,其实ChIP-Seq除了找一家专业的测序服务提供商以外,更重要的是如何获取更高质量的ChIP实验结果。
常见的两种ChIP实验技术有N-ChIP和X-ChIP技术。N-ChIP采用核酸酶消化染色质,适用于研究DNA与高结合力蛋白的相互作用,比如组蛋白修饰等方面的研究;X-ChIP则采用甲醛或紫外线进行DNA和蛋白交联,通过超声波片段化染色质,适合用来研究DNA与低结合力蛋白的相互作用问题,例如大多数非组蛋白方面的蛋白研究。
破碎DNA及具有较高的特异性和亲和力的抗体是ChIP实验成功与否的关键因素。大多数的ChIP实验都使用超声的方法打断DNA,最理想的情况是将DNA打断成200-1000bp的弥散片段,而不同类型及不同数量的细胞对超声的条件都不一样,这往往导致超声的结果无法重复,因此,超声要根据细胞类型和数量对条件进行摸索,将最佳超声条件固定下来,以保持实验的可重复性。
抗体又有单抗与多抗之分,选择起来也需要仔细考虑。单抗特异性强,背景低。但致命的弱点是识别位点单一,而在ChIP甲醛交联的过程中,很有可能因该位点被其他蛋白或核酸结合而被封闭,导致单抗不能识别靶蛋白;而多抗特异性较差,背景可能会偏高。最好的解决方法是使用严格经过ChIP-Seq或ChIP实验验证的抗体,以获得最高的免疫共沉淀实验效率。Merck Millipore提供一系列经过ChIP或ChIP-Seq验证的抗体,具有更高的抗体特异性和灵敏度。此外,Merck Millipore专门为ChIP实验设计的ChIP Ab+套装,不仅包含严格验证的ChIP级抗体,还包含阴阳性对照抗体和引物,保证实验结果的准确性。
免疫共沉淀则常用偶联Protein A或G的琼脂糖beads,这些beads有着多孔的松散表面,极易吸附DNA分子,造成假阳性,所以在使用前需要进行封闭,一般使用鲑鱼精DNA进行封闭。做ChIP-Seq要尽量降低背景信号,而封闭用的鲑鱼精DNA会对后续的测序带来干扰,因此不推荐使用琼脂糖beads进行ChIP-Seq实验,最好是使用表面光滑偶联Protein A/G的磁珠,实验表明这种磁珠比单独偶联Protein A或G的磁珠有着更低的实验背景,能显著提高信噪比。Merck Millipore 专门提供了两种规格的Protein A/G磁珠供不同实验需求的科研者选择:16-663x,10次;16-663,50次。
目前有一些商品化的试剂盒包含实验所需的整套试剂,非常适合用来做ChIP-Seq的样品准备工作,如Merck Millipore公司的Magna ChIP HiSens Kit(17-10461)有着非常高的灵敏度和极低的背景,能在104个细胞中(一般ChIP试剂盒样品起始量的1/100)富集到靶标DNA,很好地满足下游深度测序对DNA样品浓度、纯度及丰富性的要求。Magna ChIP-Seq kit(17-1010)进行文库构建仅需1ng ChIP DNA。试剂盒中含有阴阳性对照抗体和引物,经严格质控和验证的酶及缓冲液体系使文库构建更加简洁。
(/)版权所有,未经书面许可,不得转载
我来说两句(0)
[Ctrl+Enter]
相关文章:
加载相关文章......
今日文章:
加载今日文章......
生物通快讯
加载中......
加载中......
加载中......
加载中......
技术大讲堂
加载中......
加载中......
加载中......
加载中......
加载中......
加载中......
版权所有 生物通
Copyright&
, All Rights Reserved
联系信箱:一个有关chip-seq的问题_百度知道RNA-seq差异表达分析工作流程 & 糗世界
RNA-seq差异表达分析工作流程
之前写过博文《》给出了一些关于RNA-seq分析的描述,这篇博文的目的是给出一个示例性质的工作流程。
需要使用到的工具:
参考:http://vallandingham.me/RNA_seq_differential_expression.html
首先安装的tophat需要事先安装好bowtie。至于安装方面的问题,这里不至赘述。
整个pipeline非常明确:Sequences → TopHat → Manual Check → Cufflinks → Analysis
第一个问题,是否需要做duplicate removal,如果要做,什么时候做?在回答这两个问题之前,我们还是先来看看什么是duplicate。我们将deep sequence中完全相同的序列统称为duplicate。通常这种重复会有几个来源,一,测序模板中存在一模一样的片断;二,测序过程中PCR产生的重复;三,信号读取过程中读到了同一pcr产物。按照的讨论,对于 copy number detection, SV detection, ChIP-seq, and RNA-seq都应该做duplicate removal。去除的优点是可以大量的减少计算,降低假阳性。但是去除的话也有造成数据大量损失的风险,也就是说会降低真阳性结果。有对相同的library做了两次测序,一次是single end, 一次paired end。比较发现,SE的duplicate高达28%,而PE的duplicate只有8%。当把PE的结果当成SE结果来处理时,duplicate又升至28%。还有些私下的讨论认为,实际的duplicate应该只有1%左右。这里强调了去除duplicate对于数据完整性的影响。那么为什么人们在做CN/SV/ChIP-seq/RNA-seq的时候倾向于做duplicate removal呢?这主要的理论依据是在准备library的步骤中,所有模板小片段都是由超声波震断的,而相同的mRNA分子在同一地方被打断的可能性几乎为零。另一方面,当测序深度过深时,不可避免的,同一模板会被多次测序。这时候更应该去除duplicate,可以消除饱和。对于一些由酶切产生的片段,比如clip-seq, REDseq (Restriction Enzyme digestion sequence)等,就不需要做去除duplicate。在做去除duplicate之前,首先要在genome browser中观察一下mapped好的序列,看看其duplicate的存在的程度。肉眼观察这种事情,因为没有一定的标尺,所以非常不好总结。做这件事情的唯一好处就是,看得多了,就明白什么是好的测序结果。
那么duplicate removal什么时候做呢?现在的观点一般都认为是在map之后做。这样的好处是不依据序列一致就去除它,因为同一段序列可能map至不同的位点。在map之后,使用samtools rmdup或者Picard MarkDuplicates。这里需要注意的是,无论是samtools还是Picard,在duplicate removal时,所有的mapping结果对于每个read,应该只保留一个位置,而不是多个位置。2,对于PE的结果,LR的名字应该一致,否则程序可能无法识别。这些工具的出发点都是PE的,如果是SE的测序,可能需要指定参数。
java -Xmx2g -jar /path/to/MarkDuplicates.jar INPUT=accepted_hits_sorted.bam OUTPUT=duplicated.removed.bam METRICS_FILE=picard_info.txt REMOVE_DUPLICATES=true ASSUME_SORTED=true VALIDATION_STRINGENCY=LENIENT
samtools rmdup
第二个问题,bowtie的index文件哪里下载?在bowtie2的主站上提供了一个很有用的链接:, 这里集中了目前大部分的index文件以及相关的注释文件,可以很方便的下载。本教程就是使用从这里获取的打包文件。
tophat是针对mRNA-seq对bowtie的map结果进行了优化,它表现在两个方面,第一,从基因组中提取出mRNA junction的可能组合,对没有map结果的reads进行二次比对。第二,对于pe测序的结果进行依照mRNA测序的特点进行调整。它在参数设置方面,非常简单,只需要搞清楚几个重要参数即可。
Average Mate-Pair Inner Distance: -r/–mate-inner-dist
这个参数就是设置mate的两个测序reads之间的平均距离应该是多少。通常PE测序制库时通常片段大小的平均值为300bp左右,这个300bp包括了两端的adapter, barcodes, 以及序列本身,而-r参数需要设置的是两个测序结果之间的距离,所以它应该是总长-2*(adpter+barcode+reads)。如下图所示:
我们需要注意的是,很多adapter可能比我们想象的要长,所以需要搞清楚具体的实验时的adapter长度。
Gene Model Annotations: -G/–GTF
通常这个参数我们并不设置。设置了之后可能会提高效率,但是也可能会产生倾向性。对于参照基因模型,通常的做法是在后面的步骤中再传入。
Threads:-p/–num-threads
线程数。现在多核处理器非常普遍,所以如果有四核的话,我们不妨设置-p 3,使用其中三个核,留下一核用于其它任务。但有一点要非常注意,如果你使用MPI的话,这个程序并不是MPI书写的程序,所以在cluster上运行时,需要申请独占模式,也就是使用-pe single参数而不是openmpi参数,并且使用-l mem_free=16G申请16G以上的内存以独占计算机,而不是多个内核。否则,多线程不安全。
Output:-o/–output-dir
输出目录。
–library-type
库类型,有三种,fr-unstranded Standard Illumina, fr-firststrand dUTP, NSR, NNSR, 以及fr-secondstrand Ligation, Standard SOLiD。默认为fr-unstranded。
下面是一个运行tophat2的例子:
export PATH=/share/bin/samtools:/share/bin/bowtie2/:/share/bin/tophat2/:/share/bin/python:$PATH
python /share/bin/tophat2/tophat --library-type fr-unstranded --mate-inner-dist 70 -p 8 \
--output-dir tophat_output \
/path/to/Genomes/UCSC/mm10/Sequence/Bowtie2Index/genome \
R1_reads.fastq R2_reads.fastq
运行完tophat之后,我们需要检查一下map的质量,这时可以使用或者samtools来查看。但其实在run log中就已经记录了所有这些信息,可以从日志文件中查找我们需要的质量信息。
此进可以使用前文所述的脚本进行duplicates removal动作。
对于Cufflinks,无论我们是否需要发现新的基因,最好还是走完三步。否则的话,结果可能会有一定倾向性。这三步是cufflinks, cuffmerge以及cuffdiff
对于每一个bam文件,我们都需要运行一遍cufflinks。
/share/bin/cufflinks/cufflinks -p 8 -o cufflinks_outputs accepted_hits.bam
然后我们将所有生成的transcripts.gtf文件的路径写入一个assemblies.txt文件中。我们知道,cufflinks的目的是通过重组mRNA来确定所有的transcripts,所以它会生成gtf文件来标记哪些是exon,这些exon组成了哪些transcripts。而下一步运行cuffmerge就是为了将所有发现的transcripts与已知的基因模型进行合并。
这里是一个典型的assemblies.txt的范例:
~/scratch/RNAseq/cufflinks_sample1/transcripts.gtf
~/scratch/RNAseq/cufflinks_sample2/transcripts.gtf
运行完cufflinks之后运行cuffmerge, 这一步需要把注释文件传入。
/share/bin/cufflinks/cuffmerge -g /path/to/Genomes/UCSC/mm10/Annotation/Genes/genes.gtf \
-s /path/to/Genomes/UCSC/mm10/Sequence/WholeGenomeFasta/genome.fa \
-o merged_asm -p 8 \
/path/to/assemblies.txt
之后就是运行cuffdiff了。这一步将需要比较的两组的bam文件都传来。需要介绍几个参数,其中,–min-reps-for-js-test是指每组中至少多少个样品,默认为3,可以依据具体的实验调整。–labels之后跟着的是两个组标,用于标记传入cuffdiff计算的两个组的名字,注意不要把顺序标错。而之后的gtf文件就是第二步cuffmerge之后的merged文件。
/share/bin/cufflinks/cuffdiff -o cuffdiff_outputs -p 8 \
--labels group1label,group2label --min-reps-for-js-test 3 \
merged_asm/merged.gtf \
gp1rep1/accepted_hits.bam,gp1rep2/accepted_hits.bam,gp1rep3/accepted_hits.bam \
gp2rep1/accepted_hits.bam,gp2rep2/accepted_hits.bam,gp2rep3/accepted_hits.bam
结过了以上的步骤,我们就可以得到诸如gene_exp.diff, isoform之类的结果。具体的,可以在输出目录中去一一查看。
之后就可以使用R来分析过滤结果了。这里就不做介绍。
分享至赞过:赞 正在加载……
糗世界已经开始启用新域名,敬请收藏。
因为本人非常忙碌,所有可能无法及时回答问题。请在留言后等待上一个星期。如果一周内没有答复,或者你看到其它人的留言都得到了答复,而你的没有,请在此时再次留言。谢谢。
为什么我推荐留言的方式与我联系?当然我也会回各类其它消息,但是这样的话,针对一个人的回答就无法使其它人获益。所以,本站留言更受欢迎。
请不要使用虚假邮件地址,通常这类地址都会被标注为垃圾邮件。我回复了,你也收不到提醒。如果你的留言没有显示出来,极有可能被标记为垃圾邮件。请耐心等待一周。如果急切,请来发送告知。
如果您觉得有所帮助的话,请点赞支持本博主的虚荣心。留言称赞的话,很有可能应该是百分之百会被当成垃圾评论哟。
2016年九月
12131415161718
19202122232425
2627282930
热门主题 & 页面
发送到您的邮件地址
您的邮件地址
文章未发送,请检查您的电子邮件地址!
电子邮件检查失败,请重试
抱歉,您的博客无法通过电子邮件共享文章。
%d 博主赞过:

我要回帖

更多关于 chip seq原理 的文章

 

随机推荐