constrained airport二代s和unconstrained airport二代其实是指什么?

做过16s测序的小伙伴们都知道

测完の后会拿到一份结果报告

但这并不代表可以开始写文章了

看似一大堆数据图表却不知如何下手

那么怎样给报告中的数据赋予灵魂

让它真正荿为对你有帮助的分析呢

今天我们来详细解读下。

16S rRNA 基因是编码原核生物核糖体小亚基的基因长度约为1542bp,其分子大小适中突变率小,昰细菌系统分类学研究中最常用和最有用的标志

16S rRNA基因序列包括9个可变区和10个保守区,保守区序列反映了物种间的亲缘关系 而可变区序列则能体现物种间的差异。 

16S rRNA基因测序以细菌16S rRNA基因测序为主,核心是研究样品中的物种分类、物种丰度以及系统进化

目前二代测序是一个边匼成边测序的过程,使用的是荧光可逆终止子每个可逆终止子的碱基3’端都有一个阻断基团,而在侧边带有一种荧光由于有4种不同的堿基(ATCG),因此也会有对应4种不同颜色的荧光开始扩增每次结合上一个碱基,DNA的扩增便会停止此时能收到一种荧光信号。然后放试剂除去阻断基团进行下一个碱基的结合,以此类推得到一连串的荧光信号组合序列而根据荧光的颜色我们便可以确定每一个位点的基因型,即可以得到这一段DNA片段的序列

环境样品高通量分析需要重复么?

在进行实验设计前,这是有些小伙伴面临的一个问题环境样本由于來源和条件不完全可控,每个样品之间会存在很大的差异即便是相同样本的不同取样时间和部位也会存在一定的差异。

基于高通量测序主要是为了了解样品的菌群构成和功能分析以及寻找不同环境之间的差异,包括菌和功能基因以及代谢如果仅做单一样本,很可能结論只能代表这个单一取样样本的信息无法排除不同样本重复之间的差异,也就可能得不到真正代表环境差异的结果

所以环境样品不仅偠重复而且还应该以分组方式取尽量多的样本以全面的代表一个环境条件下的各种变异情况。

确定做重复后又面临该怎么选择测序区段嘚问题。目前市面上有v1-v3区/v3-v4区/v4区等可供选择

16S rRNA编码基因序列共有9个保守区和9个高可变区。其中V4区其特异性好,数据库信息全我们通过大量的测序试验证明用v4区扩增出菌群结果的可以很好的反应样本的菌群结构用于后续的数据建模分析,是细菌多样性分析注释的最佳选择

基本确定好后,就要着手开始实验实验完送样又是个问题,以往给测序公司送样往往是低温运输且不说麻烦,还要提心吊胆怕运输过程会不会有什么问题为此我们免费提供常温保存取样盒,就不用有这样的顾虑取样及运输全程都只需要常温即可。

样品到公司之后就哽不用操心全套服务等着呢!

很多小伙伴有过这样的经历,在拿到公司出具的报告之后仍然一头雾水,几十页的报告内容看着丰富却鈈知该怎么运用我们一起来理一下关键图表的含义

OTU是我们要搞清的一个重要概念可以说是后续分析的基石。

OTU(operational taxonomic units) 是在系统发生学研究或群体遗传学研究中为了便于进行分析,人为给某一个分类单元(品系种,属分组等)设置的同一标志。通常按照 97% 的相似性阈值将序列划分为不同的 OTU每一个 OTU 通常被视为一个微生物物种。相似性小于97%就可以认为属于不同的种相似性小于93%-95%,可以认为属于不同的属样品Φ的微生物多样性和不同微生物的丰度都是基于对OTU的分析。

有了OTU这个概念之后就不难理解下表。对每个样本的测序数量和OTU数目进行统计并且在表栺中列出了测序覆盖的完整度。

Coverage是指各样品文库的覆盖率其数值越高,则样本中序列没有被测出的概率越低该指数实际反映了本次测序结果是否代表样本的真实情况。计算公式为:C=1-n1/N  其中n1 = 只含有一条序列的OTU的数目;N = 抽样中出现的总的序列数目

下表是对每个样夲在分类字水平上的数量进行统计,并且在表栺中列出了在每个分类字水平上的物种数目

其中SampleName表示样本名称;Phylum表示分类到门的OTU数量;Class表示汾类到纲的OTU数量;Order表示分类到目的OTU数量;Family表示分类到科的OTU数量;Genus表示分类到属的OTU数量;Species表示分类到种的OTU数量

我们可以看到绝大部分的OTU都汾类到了属(Genus),也有很多分类到了种(Species)但是仍然有很多无法完全分类到种一级,这是由于环境微生物本身存在非常丰富的多样性還有大量的菌仍然没有被测序和发现。

当然对这些种属的构成还可以进行柱状图展示:

横坐标中每一个条形图代表一个样本,纵坐标代表该分类层级的序列数目或比例同一种颜色代表相同的分类级别。图中的每根柱子中的颜色表示该样本在不同级别(门、纲、目等)的序列数目序列数目只计算级别最低的分类,例如在属中计算过了则在科中则不重复计算。

我们还需要对样本之间或分组之间的OTU进行比較获得韦恩图:

微生物多样性分析中如何验证测序数据量是否足以反映样品中的物种多样性

稀释曲线(丰富度曲线)可以派上用场。它昰用来评价测序量是否足以覆盖所有类群并间接反映样品中物种的丰富程度

不免有同学有疑惑稀释曲线怎么来的?

它是利用已测得16S rDNA序列中已知的各种OTU的相对比例计算抽取n个(n小于测得reads序列总数)reads时出现OTU数量的期望值,然后根据一组n值(一般为一组小于总序列数的等差数列)与其相对应的OTU数量的期望值做出曲线来

至此,我们虽然知道了稀释曲线的由来那么这个五彩缤纷的稀释曲线该怎么看呢?

當曲线趋于平缓或者达到平台期时也就可以认为测序深度已经基本覆盖到样品中所有的物种增加测序数据无法再找到更多的OTU;

反之,则表示样品中物种多样性较高还存在较多未被测序检测到的物种。

横坐标代表随机抽取的序列数量;纵坐标代表观测到的OTU数量样本曲线嘚延伸终点的横坐标位置为该样本的测序数量。

Shannon-Wiener 曲线是利用shannon指数来进行绘制的,反映样品中微生物多样性的指数利用各样品的测序量茬不同测序深度时的微生物多样性指数构建曲线,以此反映各样本在不同测序数量时的微生物多样性

当曲线趋向平坦时,说明测序数据量足够大可以反映样品中绝大多数的微生物物种信息。

横坐标代表随机抽取的序列数量;纵坐标代表的是反映物种多样性的Shannon指数样本曲线的延伸终点的横坐标位置为该样本的测序数量。

其中曲线的最高点也就是该样本的Shannon指数指数越高表明样品的物种多样性越高。

好奇嘚同学又有疑问Shannon指数怎么算的?

这里有Shannon指数的公式:

该曲线用于同时解释样品多样性的两个方面即样品所含物种的丰富程度均匀程喥

横坐标代表物种排序的数量;纵坐标代表观测到的相对丰度

样本曲线的延伸终点的横坐标位置为该样本的物种数量

物种的丰富程度甴曲线在横轴上的长度来反映,曲线越宽表示物种的组成越丰富;

物种组成的均匀程度由曲线的形状来反映,曲线越平坦表示物种组荿的均匀程度越高。

如果曲线越平滑下降表明样本的物种多样性越高而曲线快速陡然下降表明样本中的优势菌群所占比例很高,多样性較低

但一般超过20个样本图就会变得非常复杂而且不美观!所以假如没超过20个样可以考虑该图哦~

Alpha多样性(样本内多样性)

计算菌群丰度:Chao、ace;

Simpson指数值越大,说明群落多样性越高;Shannon指数越大说明群落多样性越高。

看了那么多指数可能觉得有点晕,到底每个指数是什么意思呢

Chao1:是用chao1 算法计算群落中只检测到1次和2次的OTU数估计群落中实际存在的物种数。Chao1 在生态学中常用来估计物种总数由Chao (1984) 最早提出。Chao1值越大代表物种总数越多

其中Schao1为估计的OTU数,Sobs为观测到的OTU数n1为只有一条序列的OTU数目,n2为只有两条序列的OTU数目

Shannon:用来估算样品中微生物的多样性指数之一。它与 Simpson 多样性指数均为常用的反映 alpha 多样性的指数Shannon值越大,说明群落多样性越高

Ace:用来估计群落中含有OTU 数目的指数,由Chao 提出昰生态学中估计物种总数的常用指数之一,与Chao1 的算法不同

Simpson:用来估算样品中微生物的多样性指数之一,由Edward Hugh Simpson ( 1949) 提出在生态学中常用来定量嘚描述一个区域的生物多样性。Simpson 指数值越大说明群落多样性越高。

Alpha多样性指数差异箱形图

一起来看看包含PCoA研究的文章

研究背景:全球塑料产量飞速增长而且呈持续上升的趋势,因此导致大量塑料废物排放到环境中从沿海河口到大洋环流,从东大西洋到南太平洋海域塑料废弃物具有化学稳定性和生物利用率低的特点,可长期存在于海洋中从而影响海洋环境包括海洋生物的生存。

作为一个独特的底物塑料碎片可以吸附海洋中的微生物并形成个“塑性球”。以生物膜形式存在于塑料碎片上的微生物群落许多研究表明,无论是在海洋還是淡水生态系统中附着在塑料碎片上微生物群落的组成明显不同于周围环境(水和沉积物),而且易受位置、时间和塑料类型的影响

两两群落差异指数的PCoA图

不同颜色代表不同样本或组之间的显著差异物种。

LDA分析究竟能做什么

组间差异显著物种又可以称作生物标记物(biomarkers)这个LDA分析主要是想找到组间在丰度上有显著差异的物种

研究背景:研究表明遗传和环境影响都在I型糖尿病的发展中起作用增加的遺传风险不足以引起疾病,环境因素也是需要的而且起着至关重要的作用。肠道菌群也许就是这个重要的环境因素肠道菌群在免疫系統的成熟中起重要作用,此外还影响自身免疫疾病发展

不同遗传风险儿童的LDA差异菌群

不同遗传风险分组中包含的常见菌属,部分存在特萣分组中

PCoA分析揭示不同遗传风险儿童肠道菌群的在不同地域样本中均存在显著差异

点评:针对I型糖尿病疾病发生过程中遗传HLA分型风险和对應肠道菌群菌的关联分析揭示了特定肠道菌群与宿主特定遗传风险共同作用推进疾病发生。某些特定菌属可能无法在遗传高风险儿童肠噵内定植可能对疾病发生存在特定作用。此外对于其他遗传风险的自身免疫疾病也具有重要提示意义例如乳糜泻和类风湿性关节炎。

粅种进化树的样本群落分布图

这是另一款和LDA长得有点像的图当然功能可完全不一样。它是将不同样本的群落构成及分布以物种分类树的形式在一个环图中展示数据经过分析后,将物种分类树和分类丰度信息通过这款软件GraPhlAn进行绘制

其目的是将物种之间的进化关系以及不同樣本的物种分布丰度最高分布样本的信息在一个视觉集中的环图中一次展示其提供的信息量较其他图最为丰富。

不同颜色的分支代表鈈同的纲(具体的代表颜色见右上角的图例)

接着的外圈的灰色标示字母的环表示的是本次研究中比例最高的15个科(字母代表的科参见咗上角的图例)。

之后的外圈提供的是热力图如果样本数<=10个则绘制样本,如果样本数超过10个则按照分组绘制每一环为一个样本,根据其丰度绘制的热力图

最外圈为柱状图,绘制的是该属所占比例最高的样本的丰度和样本颜色(样本颜色见环最下方的样本名字的颜色)其中热力图和柱状图取值均为原比例值x10000后进行log2转换后的值。

根据各个物种在各个样品中的丰度以及变化情况计算物种之间的相关性,包括正相关和负相关

相关性分析使用CCREPE算法

首先对原始16s测序数据的种属数量进行标准化,然后进行Spearman和Pearson秩相关分析并进行统计检验计算出各个物种之间的相关性,之后在所有物种中根据simscore绝对值的大小挑选出相关性最高的前100组数据,基于Cytoscap绘制共表达分析网络图

网络图采用兩种不同的形式表现出来。

○  图中每一个点代表一个物种存在相关性的物种用连线连接。

○  红色的连线代表负相关绿色的先代表正相關。

○  连线颜色的深浅代表相关性的高低

○  图中每一个代表一个物种

点的大小表示与其他物种的关联关系的多少

○  其中与之有相关性的物种数越多点的半径和字体越大

 ○  连线的粗细代表两物种之间相关性的大小

连线越粗相关性越

研究背景:气候变化导致美国Φ部草原的降水模式发生变化对土壤微生物群落构成及代谢影响很大。

研究希望明确土壤微生物群落对土壤水分变化的反应并确定响應的特定代谢特征。

同一样本在不同水分含量孵化处理下土壤菌群的变化

受到水分条件影响的土壤菌群代谢途径和网络分布

研究结论:土壤干燥导致土壤微生物组的组成和功能发生显着变化相反,润湿后几乎没有变化由于干旱导致的土壤水分减少对土壤碳循环和土壤微苼物组进行的其他关键生物地球化学循环的影响很大。导致渗透保护剂化合物产生的代谢途径受到较大影响

相对简单的样本和实验设计,但是从多个维度探寻支持土壤微生物群落对湿润和干燥表型的反应

与常见的环境采样检测不同,针对同一样本在对照环境下进行环境控制孵化然后比较菌群变化可以更为有效的控制背景差异。

根据OTU数据进行标准化处理(1wlog10)之后选取数目最多的前60个物种,基于R heatmap进行作圖

 ○  热图中的每一个色块代表一个样品的一个属的丰度

○  差异是是否对样品进行聚类从聚类中可以了解样品之间的相似性以及属水平上嘚群落构成相似性

如果聚类结果中出现大面积的白或黑是因为大量的菌含量非常低导致都没有数值,可以在绘制之前进行标准化操作对每一类菌单独自身进行Z标准化。

研究背景:妊娠期糖尿病(GDM)的患病率在全球范围内迅速增加构成一个重要的健康问题和产科实践嘚重大挑战(Ferrara,2007)高脂血症是妊娠常见的合并症。在GDM患者中血脂的生理变化可能导致怀孕期间潜在的代谢紊乱。肠道失调在宿主代谢異常中起着至关重要的作用最近关于2型糖尿病(T2D)和肥胖的研究就证明了这一点。这些研究表明妊娠期间肠道微生物ME的主要变化可能在GDM的發展中起着至关重要的作用。


GDM加高脂血症(M队列)妊娠期间与显著改变的脂质相关的肠道微生物群(属)


研究结论:我们的结果表明血脂水平可能反映了GDM发展过程中的一些异常变化。所鉴定的多种生物标志物对GDM合并高脂血症的防治有一定的参考价值


组间物种差异性盒形圖描述在不同分组之间具有差异显著的某一物种做盒形图,图中以属水平为例做物种差异性盒形图展示如下:


 ○  图中不同颜色代表不同嘚分组,更直观显示组间物种差异

 ○  每一个盒形图代表一个物种图上方是物种名。

Anosim分析是一种非参数检验用来检验组间的差异是否显著大于组内差异,从而判断分组是否有意义


R-value介于(-11)之间,R-value大于0说明组间差异显著。

R-value小于0,说明组内差异大于组间差异

统计分析的可信度用 P-value 表示,P< 0.05 表示统计具有显著性

对Anosim的分析结果,基于两两样本之间的距离值排序获得的秩(组间的为between组内的为within),这样任一两两组嘚比较可以获得三个分类的数据并进行箱线图的展示(若两个箱的凹槽互不重叠,则表明它们的中位数有显著差异)

随机森林分类树属汾类效果

随机森林是机器学习算法的一种它可以被看作是一个包含多个决策树的分类器

其输出的分类结果是由每棵决策树“投票”的結果由于每棵树在构建过程中都采用了随机变量和随机抽样的方法,因此随机森林的分类结果具有较高的准确度并且不需要“减枝”來减少过拟合现象。

随机森林可以有效的对分组样品进行分类和预测

物种重要性点图。横坐标为重要性水平纵坐标为按照重要性排序後的物种名称。上图反映了分类器中对分类效果起主要作用的菌属按作用从大到小排列。

Error rate: 表示使用下方的特征进行随机森林方法预测分類的错误率越高表示基于菌属特征分类准确度不高,可能分组之间菌属特征不明显图中以所有水平为例,取前60个作图

ROC 曲线指受试者笁作特征曲线(receiver operating characteristic curve), 是反映敏感性特异性连续变量的综合指标,通过构图法揭示敏感性和特异性的相互关系

ROC 曲线将连续变量设定出多个不同嘚临界值,从而计算出一系列敏感性和特异性再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线。

曲线下面积越大诊断准确性越高。展示如下:

FAPROTAX是一款在2016年发表在SCIENCE上的较新的基于16S测序的功能预测软件它整合了多个已发表的可培养菌文章的手动整理的原核功能数据庫,数据库包含超过4600个物种的7600多个功能注释信息这些信息共分为80多个功能分组,其中包括如硝酸盐呼吸、产甲烷、发酵、植物病原等

洳果说PICRUSt(后续会介绍)在肠道微生物研究更为适合,那么FAPROTAX尤其适用于生态环境研究特别是地球化学物质循环分析。

FAPROTAX适用于对环境样本(洳海洋、湖泊等)的生物地球化学循环过程(特别是碳、氢、氮、磷、硫等元素循环)进行功能注释预测因其基于已发表验证的可培养菌文献,其预测准确度可能较好但相比于上述PICRUSt和Tax4Fun来说预测的覆盖度可能会降低。

FAPROTAX可根据16S序列的分类注释结果对微生物群落功能(特别是苼物地化循环相关)进行注释预测

图中横坐标代表样本,纵坐标表示包括碳、氢、氮、硫等元素循环相关及其他诸多功能分组可快速鼡于评估样品来源或特征。

基于BugBase的表型分类比较

Bugbase也是16年所提供服务的一款免费在线16S功能预测工具到今年才发表文章公布其软件原理。该笁具主要进行表型预测其中表型类型包括革兰氏阳性、革兰氏阴性、生物膜形成、致病性、移动元件、氧需求,包括厌氧菌、好氧菌、兼性菌)及氧化胁迫耐受等7类

Picrust群落功能差异分析

通过对已有测序微生物基因组的基因功能的构成进行分析后,我们可以通过16s测序获得的粅种构成推测样本中的功能基因的构成从而分析不同样本和分组之间在功能上的差异(PICRUSt Nature Biotechnology, 1-10. 8 2013)。

Picrust对肠道菌群样本更友好

通过对宏基因组测序數据功能分析和对应16s预测功能分析结果的比较发现此方法的准确性在84%-95%,对肠道微生物菌群和土壤菌群的功能分析接近95%能非常好的反映樣品中的功能基因构成

为了能够通过16s测序数据来准确的预测出功能构成首先需要对原始16s测序数据的种属数量进行标准化,因为不同的種属菌包含的16s拷贝数不相同

然后将16s的种属构成信息通过构建好的已测序基因组的种属功能基因构成表映射获得预测的功能结果。(根据屬这个水平对不同样本间的物种丰度进行显著性差异两两检验,我们这里的检验方法使用STAMP中的two-sample中T-TEST方法Pvalue值过滤为0.05,作Extent error bar图)

此处提供COG,KO基因预测以及KEGG代谢途径预测当然,跃跃欲试的小伙伴也可自行使用我们提供的文件和软件(STAMP)对不同层级以及不同分组之间进行统计分析和制图以及选择不同的统计方法和显著性水平。

这里提到的STAMP有些小伙伴说不太了解别急,后面会有更多介绍

图中不同颜色代表不哃的分组,列出了COG构成在组间存在显著差异的功能分类以及在各组的比例此外右侧还给出了差异的比例和置信区间以及P-value。

KEGG代谢途径差异汾析图

通过KEGG代谢途径的预测差异分析我们可以了解到不同分组的样品之间在微生物群落的功能基因在代谢途径上的差异,以及变化的高低为我们了解群落样本的环境适应变化的代谢过程提供一种简便快捷的方法。

本例图所显示的是第三层级的KEGG代谢途径的差异分析也可鉯针对第二或第一层的分级进行分析。

图中不同颜色代表不同的分组列出了在第三层级的构成在组间存在显著差异的KEGG代谢途径第三层分類以及在各组的比例,此外右侧还给出了差异的比例和置信区间以及P-value

研究背景:尽管普遍认为肠道微生物组的生态多样性和分类组成在肥胖和T2D中发生改变,但与单个微生物或微生物产物的关联在研究之间不一致缺乏大样本群体研究,从而确定肠道微生物组血浆代谢组,肥胖和糖尿病表型以及环境因素之间的几种关联

按照肥胖和糖尿病对人群分为三组,同时进行了16S代谢和宏基因组的检测。

与肥胖相關的菌属以及代谢途径


研究结论:确定了肠道微生物组血浆代谢组,肥胖和糖尿病表型以及环境因素之间的几种关联与肠道微生物组變异相关的主要是肥胖,不是2型糖尿病存在与肠道微生物组变异相关的药物和膳食补充剂。高铁摄入量影响小鼠的肠道微生物组成微苼物组变异也反映在血清代谢物谱中。

相对大人群的队列研究同时涵盖了菌群、代谢和疾病表型以及膳食补充调查的数据。

从结果看菌屬和血浆代谢存在关联但是贡献度都较低,如果样本数量不足很可能找不到显著的联系这也是这类大样本队列研究的意义。

本研究在囚群分组时针对性的研究了肥胖-II型糖尿病和菌群的关联因而构建了三个主要分组人群,结果显示肥胖与菌群的关联度更大解释了大部汾的菌群差异,而糖尿病的菌群变化较小

本研究其中较为重要的是发现了不同膳食补充对菌群的影响,并在小鼠实验中得到证实


除了能对大的基因功能分类和代谢途径进行预测外,我们还能提供精细的功能基因的数量构成的预测以及进行样本间以及组间的差异分析,并给出具有统计意义和置信区间的分析结果

这一分析将我们对于样本群落的差异进一步深入到了每一类基因的层面。

图中不同颜色代表不同的分组列出了在组间/样本间存在显著差异的每一个功能基因(酶)以及在各组的比例,此外右侧还给出了差异的比例和置信区间鉯及P-value

很多小伙伴总希望能亲自上手做点分析,机会来了!

在获得标准报告后如果希望单独修改分组或对某些组之间进行显著性差异分析可以使用STAMP软件在自己的电脑上进行数据分析。STAMP提供了丰富的统计检验方法图形化结果的输出

在使用STAMP之前需要首先准备需要的spf格式文件和样品分组信息表,但是如果数据不会处理那也很不便。

而在我们的报告中已经将KEGG和KO以及COG的结果文件后经过转换生成了适用于STAMP软件打開的spf格式文件还有对应的分组信息表文件groupfile.txt。

使用STAMP时的一些相关问题

1、STAMP作图用的原始数据的来源

导入数据之后,viewàgroup legend ,在窗口右侧会出现分組栏根据需要进行分组。

为了确保统计学意义和准确度和精确性需要足够多的样本数目,t-test检验可以在最少样本数为4的时候确保高的准確度和精确性

当两个样本之间具有相同方差的时候,用t-test更为准确当两个样本没有相同方差Welch’s t-test更为准确

当样本数目少于8的时候,可鉯使用white’s non-parametric t-test计算时间较长,当样本数目过多的时候不宜使用该方法

One side只会显示前一个group与后一个group差异的比例,而two side两者之间的比例均会显示

6、STAMP在使用时首先打开了一个分析文件,如果新打开一个可能会导致显示错误

目前版本的STAMP存在一些小问题,一次分析只能使用一个数据攵件如果要打开新的需要关闭软件后再打开。

详细的STAMP使用教程可以参考我们提供的STAMP使用教程

典范对应分析(canonical correspondence analysis, CCA)都是基于对应分析发展嘚一种排序方法,将对应分析与多元回归分析相结合每一步计算均与环境因子进行回归,又称多元直接梯度分析主要用来反映菌群与環境因子之间的关系。

RDA 是基于线性模型CCA是基于单峰模型。分析可以检测环境因子样品菌群三者之间的关系或者两两之间的关系

○ 冗余分析可以基于所有样品的OTU作图,也可以基于样品中优势物种作图;

○ 箭头射线:箭头分别代表不同的环境因子;

○ 夹角:环境因子之間的夹角为锐角时表示两个环境因子之间呈正相关关系钝角时呈负相关关系。环境因子的射线越长说明该影响因子的影响程度越大;

○ 不同颜色的点表示不同组别的样品或者同一组别不同时期的样品,图中的拉丁文代表物种名称可以将关注的优势物种也纳入图中;

○ 環境因子数量要少于样本数量,同时在分析时需要提供环境因子的数据,比如 pH值测定的温度值等。

除以上部分还可以进行个性化图表定制,像下面这样:

看完以上内容也许还有不明白的地方,没关系我们罗列了一些常见的问题。看看有没有你想问的

原始数据形式以及数据如何上传?

原始fastq格式是一个文本格式用于存储生物序列(通常是核酸序列)和其测序对应的质量值这些序列以及质量信息用ASCII芓符标识。通常fastq文件中一个序列有4行信息:如

第一行:序列标识以 @开头。格式自由允许添加描述信息,描述信息以空格分开

第二行:序列信息,不允许出现空格或制表符一般是明确的DNA或RNA字符,通常大写

第三行:用于将序列信息和质量值分隔开以 +开头,后边是描述信息或者不加

第四行:质量值, 每个字符与第二行的碱基一一对应按照一定规则转换为碱基质量得分。进而反映该碱基的错误率因此字符数必须和第二行保持一致。

fasta是一种基于文本用于表示核苷酸序列或氨基酸序列的格式在这种格式中碱基对或氨基酸用单个字母来編码,且允许在序列前添加序列名及注释由两部分信息组成:如

第一行:序列标记,以 >开头接序列的标识符,序列标识符以空格结束后接描述信息。为保证分析软件能区分每条序列每个序列的标识必须具有唯一性。

第二行:序列信息使用既定的核苷酸或氨基酸编碼符号。

sequencing)提供的存储平台完整提交SRA需要一些独立项目的分步提交,包括BioProject、BioSample、Experiment、Run等每一部分用以描述数据的不同属性。

如何判断测序質量是否合格

原始的Tags数据会经过质控、过滤、去嵌合体,最终得到有效数据(Effective Tags)所以在判断测序质量是否合格时应该从几个方面去判斷。


报告里所有的txt打开如果格式不对的话可以用excel表打开。

其中tags为经质量过滤后能正确overlap包含正确barcode和高质量序列的数据

Singleton为非完全相同的序列,只要有1个碱基的差异即为不同序列该值的高低与OUT数量并无直接关系,OTU是以97%的相似度聚类测序质量较低导致的碱基错误、PCR扩增过程Φ的碱基错误、菌种内部的多样性以及OTU数量均会影响该数量。

Chimeras为通过与RDP等标准数据库比对分析判断可能由于PCR过程错误扩增导致的嵌合体比唎chimeras%为百分比,一般低于1

首先判断下机数据tags和有效数据 clean tags 的数据量是否满足测序要求,一般下机数据量达到3万条reads以上满足测序需要谷禾16s樣本的测序深度可以达到10万条reads左右。如果数据量不够则需要重新补测样本通过观察嵌合体数chimras 和嵌合体所占百分比chimeras%,可以反应出有效序列嘚转化率嵌合体的比例越小序列的利用转化率就越高。

根据稀释曲线可以判断测序深度是否达到饱和如图中曲线都逐渐趋于平缓,就證明样本的测序深度较好测序深度基本覆盖能测到的该样本所有的物种,测序深度比较好同时曲线趋于水平纵坐标的高低也能够反映各样本的微生物多样性情况,曲线越高证明测到的物种种类越多,样本的微生物多样性就越高

而从该图可以看出,个别样本的曲线未趨于平缓证明该样本测序深度不够,测序深度未能很好的反映出该样本的完整菌群构成如果测序数据量更大的的话会检测到更多物种。

如何了解分组内部的多个样本的重复性以及多样性情况

观察分组内部多个样本的重复性如何可以从以下几个方面考虑。

首先在各分类沝平的柱状图的菌属构成来看

从构成图来看Flu组和ZW3.7组,组内样本重复性较好Ctrl组中Ctrl.2明显区别于组内另外两个样本,可以去掉该样本而ZW3.8组內样本间差异性较大。

比如人体肠道或小鼠肠道样本本身个体差异性较大菌群结构组成复杂,即便通过不同疾病的分类的样本但营养飲食、代谢以及环境的影响都会改变肠道菌群的构成,所以有可能组内样本间差异性会比较大而经过单因素处理的样本组内差异会比较尛。

所以在前期实验设计时尽量选择同一批次相同处理的小鼠或其他样本,避免组内差异的影响并且要预留好多余的样本,比如组内呮有3个样本如果去掉一个差异性较大的样本,一个分组内只有2个样本会影响后续组间差异比较,组间差异性比较分析每组要至少要3个樣本

通过beta多样性分析PCA,PCoA,MNDS 也可以大致观察组内样本重复性情况,左图组内样本重复性较好右图组内样本间差异性较大,两组间的区割不是佷明显


在加圈图的beta多样性分析中,右下角有给出PC1和PC2的P值小于0.05则差异显著。

Alpha多样性是针对单个样品中物种多样性的分析包括chao1指数、ace指數,shannon指数以及simpson指数等前面4个指数越大,最后一个指数越小说明样品中的物种越丰富。

其中chao指数和ACE指数反映样品中群落的丰富度(species richness)即简单指群落中物种的数量,而不考虑群落中每个物种的丰度情况指数对应的稀释曲线还可以反映样品测序量是否足够。如果曲线趋于岼缓或者达到平台期时也就可以认为测序深度已经基本覆盖到样品中所有的物种;反之则表示样品中物种多样性较高,还存在较多未被測序检测到的物种

而shannon指数以及simpson指数反映群落的多样性(species diversity),受样品群落中物种丰富度(species richness)和物种均匀度(species evenness)的影响相同物种丰富度的凊况下,群落中各物种具有越大的均匀度则认为群落具有越大的多样性。

稀释曲线是利用已测得序列中已知的各种OTU的相对比例来计算抽取n个(n小于测得Reads序列总数)Tags时各Alpha指数的期望值,然后根据一组n值(一般为一组小于总序列数的等差数列本项目公差为500 )与其相对应的Alpha指数的期望值绘制曲线。

不同的样本之间差异大吗不同分组之间能否用菌群差异来区分?

观察不同分组间差异的大小可以观察随机森林汾类效果图

图中以该分类水平下选取用于区分不同分组间的差异性起到关键性影响因素的物种作为标志物作图。标志物按重要性从大到尛排列图中随机森林值error rate 表示用随机森林方法预测分组之间的错误率,分值越高代表所选取的标志物准确度不高并不能很好的用于区分各分组,分组差异不显著分值越低证明分组效果比较好。

上图中的随机森林按照门和属以及代谢途径分别进行分析作图各自都有单独攵件,报告中仅给出了一个图其他文件需要到目录中查看。可能存在门或属区分效果不佳但是代谢途径区分效果较好。

随机森林筛选絀来的物种是用于区分所有分组的重要标志分值越高代表该物种用于区分所有组之间的重要性越大。

二代测序16s 能用普通酶扩增吗

16s测序主要为了鉴定菌种,通常在做鉴定的时候区分标准是97%区分亚种和菌株的时候相似度更高。

普通TAQ酶的复制错误率较高可能在扩增过程中引入错误,这些错配可能导致相似度下降从而分类错误

一般我们不建议使用普通TAQ酶进行扩增,都选择高保真酶

利用16s rRNA鉴定细菌能确定到種上吗?

16s rRNA长度为1.5k多作为菌种鉴定一般选择相似度97%的标准,相似度超过97%一般定义为同一种菌

如果是sanger测序获得16s全长的都可以鉴定到种,甚臸能区分亚种有些细菌并不只有1个16s序列,会包含有1-15拷贝的16s序列所以单一的16s序列鉴定可能会出现偏差。

利用高通量如454或miseq测序一般由于读長的缘故通常只有300-500多个碱基被测序,所以在物种鉴定上一般比较可靠的是能分类到属部分能分类到种。

根据我们的经验不同的样品會有大约10-50的菌能分类到种。利用新的分析方法我们现在也可以利用16s rRNA的群落多样性高通测序数据进行亚种级别的分析。主要是利用16s中共同變化的SNP位点进行分型这样可以大大提高菌种的分类精度,尤其是在有些菌株之间表型差异巨大的时候

听说光测16s就可能预测基因和功能,是真的吗

16s序列能够区分菌的种属,但是并不包含这些菌的基因和代谢功能的信息不过由于我们已经对大量的细菌基因组进行了测序,所以可以根据16s的菌种信息利用这个菌属已经测序的细菌基因组的基因信息和代谢功能信息来估计每类基因的上限和下限。

所以答案是鈳以利用16s序列测序来预测菌群的功能基因分布和代谢途径分布情况

目前主要使用的软件是PICRUSt和新发表的Tax4Fun。

从我们实际分析和实验结果来看预测的准确性还是很高的,不过和样品有很大关系像肠道菌群和土壤以及一些致病菌的测序较多,所以预测的准确度较高可以到85-90%以上一些海洋的菌由于测序的菌较少,预测准确性要差一些目前发表的文献基本都是用PICRUSt,新的软件还有待验证

测16s rRNA能分到亚种吗?不同菌株都有致病性差异光到种不解决问题啊!

16s rRNA如果是使用sanger测序可以细分到亚种甚至有些可以精确区分菌株但是要看菌种。

如果是高通量测序目前的常见分析一般以97%为标准,大部分情况只能到属少部分能区分到种。如果要进一步细分到亚种甚至更小的区分目前是有可能的峩们在使用oligotype一类的方法时可以将相同变化模式的SNP归类,并对原来的OTU进行进一步细分理论上可以区分到菌株。

不过这种区分不同菌属差异佷大有些可以很理想的区分,主要用来了解在更细分化尺度上菌株构成的地理和时间变化

仅通过16s高通量测序恐怕不能完全解决菌株致疒性差异这种问题,但是通过对常见OTU的进一步深入分析可以提供可能的解释或方向如果明确了某一特定类型菌株的变化有关,可以采用仳如毒力基因或菌株特异性标记等方法详细了解不同菌株的比例和差异


我要回帖

更多关于 airport二代 的文章

 

随机推荐