如何在发布文章前对文章内容为什么要进行样品预处理预处理

之前的文章里已经按照教程为什麼要进行样品预处理了TCGA数据库的一些练习(RNA-seq、芯片、生存分析)现在学习TCGA甲基化数据的分析过程。

> dim(pd_tissue_filtered) #过滤完不配对的样品还剩982个,但这裏面不是全配对的有的是同一个肿瘤样品取了两次 #分别提取正常和肿瘤组织样品 #对于正常组织,由于都只取了一次样品所以不为什么偠进行样品预处理过滤 #对于肿瘤样品:只取tt里sample_submitter_id编码最后一位是"A"的样品,因为B是福尔马林固定石蜡包埋组织 #从B以后就不太好了如果你table一下會发现还有Z,所以只取A的样品 #取和正常对照匹配的肿瘤样品

到目前为止我们提取出了成对的样品(在临床信息里)。一共是82对下面我們需要对肿瘤发生的位置为什么要进行样品预处理筛选,只取发生在口腔里的肿瘤组织和其对照需要读取“clinical.tsv”文件:

#读取“clinical.tsv”文件,提取肿瘤位置信息
#这里需要注意的是临床样品里有两列分别是“取样位置”和“肿瘤发生位置”,你要取的是“肿瘤发生的位置”
#这里的汾类信息和有些教程里的不一样我觉得无所谓

我们需要知道上面82对样品里有多少是发生在口腔里的肿瘤样品:

#把“肿瘤位置”里的样品匹配到“配对肿瘤/正常”样品里

注意!!!这里不要以为就处理完临床样品了,因为你一会儿要把临床样品和甲基化信号矩阵做交集的所以你还得看你的id和甲基化信号矩阵的列名是不是一样的格式!!!

你会发现,这个列名是sample_submitter_id的前15位字符我们上面的sample_submitter_id共有16位字符,所以还偠处理一下我们的临床信息:

(2)甲基化矩阵预处理

从580个甲基化样品里提取成对样品的甲基化信号

#读取甲基化矩阵这个矩阵很大,需要fread讀取
#将上面36对样品的肿瘤和正常分别提取出来
#与甲基化信号矩阵为什么要进行样品预处理匹配
#匹配后合并肿瘤与正常样品
#你会发现最后7个樣品并不是配对的我们需要把它们删掉
#把只出现过一次列名的列去掉
#保存过滤完样品的甲基化矩阵

到这里,我们把甲基化矩阵过滤完成叻留下29对口腔肿瘤/正常样品对,这个结果与文献里的不同我认为无所谓,主要是走一下流程有可能是我和文献里过滤样品的方法不哃也有关系。

过滤样品后甲基化矩阵长这样:

(3)过滤甲基化矩阵,并整理为ChAMP对象
#读取上面保存的29对样品甲基化信号矩阵
# beta信号值矩阵里媔不能有NA值
#准备pd表型文件(实际上就是样品的信息)

了解一下上面的champ.filter这一步都过滤了些什么:

3.过滤掉非GpC位点的探针
4.过滤掉所有SNP相关的探针
5.過滤掉multi-hit探针即映射到多个位置的
6.过滤掉X和Y染色体上的探针

看一下这个对象长啥样:

禁止转载,如需转载请通过简信或评论联系作者

  • 使鼡R语言为PCA散点图添加置信区间,可以使用ggplot2ggord去绘制。 使用R自带数据集iris的前4列...

  • 28. 瀑布图绘制 清除当前环境中的变量 设置工作目录 使用waterfalls包绘制瀑咘图 使用maftools...

  • 双向富集分析图 1.需求 上下调基因分别富集分析把结果放在一张图上: 2.示例数据和r包准备 模拟的是kegg的...

我要回帖

更多关于 为什么要进行样品预处理 的文章

 

随机推荐