求助GSE从文档中读入数据读入R

使用GEO2R在线软件分析的数据是否是原始数据?
不是原始的数据哦
如果觉得我的回答对您有用,请随意打赏。你的支持将鼓励我继续创作!
不是哦,是GEO经过标准化以后的数据
GEO2R是提供源码的,可以看到读取的是GEO的matrix文件。即,标准化后数据。
肯定不是原始数据,至于标准化方法需要参见具体的GSE研究。需要注意的是,GEO2R会将未Log的数据对数化,然后调用limma包处理。
如果觉得我的回答对您有用,请随意打赏。你的支持将鼓励我继续创作!
您需要登录后才可以回答问题,&或者&IC型号索引: &B&&&&F&&&&J&&&&N&&&&R&&&&V&&&&Z&&&&3&&&&7&&
在采购GSE10-R3712进货过程中,您使用搜索有什么问题和建议?
免责声明:以上所展示的GSE10-R3712信息由会员自行提供,GSE10-R3712内容的真实性、准确性和合法性由发布会员负责。捷配网不承担任何责任。
友情提醒:为规避购买GSE10-R3712产品风险,建议您在购买GSE10-R3712相关产品前务必确认供应商资质及产品质量。推荐使用"DZSC委托交易服务",买卖都安全。QG82945GSE/SLB2R/12+/INTEL/BGA/单价42元&全新原装&每包480颗&10个原包,原盒原包&未开封LE82Q33/SLAEW/0942+/BGA/INTEL/单价75元&全新原装&每包360颗,3个原包,&原厂原封包&未开封NH82801IB/SLA9M/1006+/BGA/INTEL/单价70元&全新原装&每包360颗,5个原包,&原厂原封包&未开封成色:全新原装!备注:本公司出售的全新原装芯片,均不保上机,上机后不可退,并请客户在收到货,及时反映问题,由客户引起的损失,由客户自行承担,由卖家引起的损失由卖家承担:例少货,发错型号等...(可要求退货或换货)本公司实体为深圳市华盟电子,请大家任意选够,放心够买。公司多年经营台式机,笔记本芯片。大量全新原装、全新原装芯片,公司品牌:Intel、VIA、SiS、ATI、NVIDIAWINBOND、ITE、REALTEK等,订购100PCS起价格更优惠,欢迎订购!笔记本配件芯片供应有需要请联系&&张芬&QQ:/
专业销售进口原装电脑主芯片,(INTEL)南桥芯片、(INTEL)北桥芯片、(NVIDIA)显卡GPU芯片、(HY SAMSUNG)内存芯片等等
系统管理员
该楼层已被屏蔽 |
这个公司确实潮流的引领者
专业销售进口原装电脑主芯片,(INTEL)南桥芯片、(INTEL)北桥芯片、(NVIDIA)显卡GPU芯片、(HY SAMSUNG)内存芯片等等
电脑配置选择困难
症 中西结合
选购电脑不再烦
电脑配置选择困难
症 中西结合
选购电脑不再烦
电脑配置选择困难
症 中西结合
选购电脑不再烦
天猫实力电脑DIY装机店推荐:
09:49:43 修改
您需要登录后才可以发帖
其他登录方式:当前位置: >>
基于R语言的DNA微阵列数据分析与挖掘平台的构建
基于 R 语言的 DNA 微阵列数据分析与挖掘 平台的构建重庆大学硕士学位论文(学术学位)学生姓名:李 勃 指导教师:邓林红 专 业:生物学 教 授学科门类:理 学重庆大学生物工程学院二 O 一三年四月
Construction of Platform for Analyzing and Mining DNA Microarray Data Based on R LanguageA Thesis Submitted to Chongqing University in Partial Fulfillment of the Requirement for the Master’s Degree of ScienceBy Li Bo Supervised by Prof. Deng Linhong Specialty:BiologyCollege of Bioengineering of Chongqing University, Chongqing, China April, 2013
中文摘要摘要DNA 微阵列(即基因芯片)是诞生于上世纪末的一项伟大技术,它是迄今为 止最重要的基因表达调控研究技术之一。面对公共数据库中与日俱增的基因芯片 表达谱数据,如何高效地从海量的数据中提取和发掘有用的生物学知识便成为当 前生物学家遇到的最大挑战。虽然已有多种用于基因芯片数据分析的软件,但大 多数软件的分析模块化,定制性较差,不适合二次开发,对新算法的兼容和容纳 能力也很有限,不能满足深层数据挖掘的需要。 为了深入分析和挖掘蕴藏在基因芯片数据中的重要信息,本研究基于开源的 R 语言编程平台, 以 Bioconductor 为生物计算环境, 利用多种软件包在本地服务器 上构建了一个用于的基因芯片数据分析和挖掘系统。并采集公共数据库中已发表 的 Affymetrix 寡核苷酸微阵列原始数据 GSE470,对构建的芯片数据分析系统进行 了包括基因芯片数据的获取、 预处理、质量检测、差异表达基因的筛选、GO 注释、 聚类分析、pathway 分析、基因表达调控网络和分子互作网络的分析与可视化等多 项实际测试。 GSE470 芯片数据组的测试结果发现, 哮喘患者与正常人体存在 PIP、 MMP1、 PDPN 等 33 个差异表达的基因,两者间最大的信号通路差异在于氧化磷酸化途径 发生了变化;同时预测出了以该组差异表达基因为关键节点的哮喘相关基因表达 调控与互作网络,发现 MMP1、S100a7、DBC1 与 RPA2 等多个关键性的调节点。 以上通过该平台取得的预测结果与哮喘研究领域已经公开发表的结论一致,并不 断被新的文献所证实。 此外,应用构建好的数据分析平台对 GSE470、GSE13396 和 GSE41649 三组 数据进行通路综合分析,显示有多条通路在哮喘病人体内发生了显著改变,提示 这些信号通路的研究可能为哮喘的分子机理研究提供佐证。 上述的结果表明,构建于本地 windows 平台下的芯片数据分析系统可快速、 高效、精准地处理和分析以 Affymetrix 寡核苷酸微阵列为代表的基因芯片数据, 最大限度地挖掘大量基因芯片数据背后所隐藏的丰富的生物学知识,加深科研人 员对疾病的分子机理等生物学问题的理解。 关键词:基因芯片,R 语言,Bioconductor,数据归一化,质控I 重庆大学硕士学位论文II 英文摘要AbstractDNA microarray (i.e, gene chips), a great technology developed in the end of the last century is by far one of the most important techniques for gene expression and regulation research. As DNA microarray data grow in the public repository, it is the biggest challenge for biologists to extract and discover the useful biological knowledge from the vast amounts of data. At present, there are various softwares for microarray data analysis, but most modularized softwares are not suitable for secondary development, analysis modular, or introduced into the new algorithms. For in-depth analysis and mining important information embedded in the DNA microarray data, a local platform for microarray data analysis and mining had been built based on R language, free Bioconductor project and other software packages in this study, firstly. Then, prementioned data analysis plotforn has been tested via GSE470, the raw data of Affymetrix oligonucleotide microarray published in the open database. Finally, we performed a series of operational testing, such as data obtaining, preprocessing, normalization, quality control, screening of the differentially expressed genes, gene ontology annotation, clustering analysis, pathway analysis, construction of gene regulation network, analysis for molecular interaction network, and so on. The above test results using the GSE470 microarray data showed that there were 33 genes differentially expressed between asthmatic patients with normal human, including PIP, MMP1, PDPN, and so on. And the oxidative phosphorylation pathway has been significantly changed between asthma and normal groups. Meanwhile, a gene regulation and interaction network associated with asthma was found on our platform, and in this network, MMP1, S100a7, DBC1 and RPA2 are key nodes involved in cross-talking in cell signal transmission and molecular interaction. These predicting outcomes are in accord with several published literature and paper. In addition, comprehensive analysis and judgement for three data sets (GSE470, GSE13396 and GSE41649) using the analytical platform built on local PC showed multiple pathways haed undergone significant changes in asthmatic human, suggesting that these signaling pathways may provide some evidences for the molecular mechanism of asthma pathology. By system testing for our platform via GSE470 microarray data, the results also showed that the system built on local windows platform for microarray data analysisIII 重庆大学硕士学位论文can be quickly and efficiently used for processing and analyzing gene chip such as Affymetrix oligonucleotide microarray data, and extract many useful knowledges underlying the a large number of bioinformatics data. So, this study will help the researchers to understand the molecular mechanisms of disease and biological problem, and promote the development of life sciences and medicine. Key words: DNA Microarray, R language, Bioconductor, data normalizing, Quality control (QC)IV 目录目录中文摘要..........................................................................................................................................I 英文摘要....................................................................................................................................... III 略缩词列表 ................................................................................................................................. IX 1 绪 论......................................................................................................................................... 11.1 基因芯片技术 ........................................................................................................................... 1 1.1.1 基因芯片----生物芯片家族的代表成员之一 ................................................................... 1 1.1.2 基因芯片的原理与实验流程 ............................................................................................ 2 1.1.3 基因芯片的应用领域 ........................................................................................................ 3 1.2 Affymetrix 基因表达谱芯片数据的分析 ................................................................................ 5 1.2.1 Affymetrix 基因表达谱芯片的设计原理........................................................................... 5 1.2.2 Affymetrix 寡核苷酸芯片数据及其含义........................................................................... 5 1.2.3 基因芯片数据分析的基本流程 ........................................................................................ 6 1.2.4 常见的基因芯片数据分析软件 ........................................................................................ 7 1.3 本研究的意义、主要内容和创新性 ....................................................................................... 8 1.3.1 本文的研究目的及意义 .................................................................................................... 8 1.3.2 本研究的主要内容 ............................................................................................................ 8 1.3.3 本课题的创新性 ................................................................................................................ 92 基因表达谱芯片数据的初步处理方法 ................................................................. 112.1 探针水平数据的获得 ............................................................................................................. 11 2.2 数据的预处理 ......................................................................................................................... 11 2.2.1 背景校正 .......................................................................................................................... 11 2.2.2 数据清洗 .......................................................................................................................... 12 2.2.3 归一化 .............................................................................................................................. 12 2.3 基因表达数据的计算 ............................................................................................................. 13 2.4 差异表达基因的筛选 ............................................................................................................. 13 2.4.1 倍数变化法 ...................................................................................................................... 13 2.4.2 参数分析方法 .................................................................................................................. 13 2.4.3 非参数分析 ...................................................................................................................... 14 2.4.4 假表达谱 .......................................................................................................................... 15 2.5 数据的可视化方法 ................................................................................................................. 15V 重庆大学硕士学位论文2.6 本章小结 ................................................................................................................................. 153 基于 R/Bioconductor 的芯片数据分析平台的构建 ..................................... 173.1 引言 ......................................................................................................................................... 17 3.1.1 开源的生物计算环境 ...................................................................................................... 17 3.1.2 R 语言 ............................................................................................................................... 19 3.1.3 Bioconductor ..................................................................................................................... 21 3.2 本地化 Bioconductor 平台的构建 ........................................................................................ 22 3.2.1 系统构建的基本构架 ...................................................................................................... 22 3.2.2 分析平台中各类软件包的配置 ...................................................................................... 23 3.3 用于分析的基因芯片数据的获取 ......................................................................................... 27 3.3.1 常用的基因表达芯片数据库 ........................................................................................... 27 3.3.2 Bioconductor 环境下微阵列数据的获取 ........................................................................ 28 3.4 微阵列数据的预处理与相关包的配置 ................................................................................. 29 3.5 差异表达基因的筛选与相关包的配置 ................................................................................. 31 3.6 基因富集分析与相关包的配置 ............................................................................................. 31 3.7 通路和生物网络分析及 Cytoscape 软件包的安装配置 ..................................................... 31 3.8 本章小结 ................................................................................................................................. 324 实例分析:哮喘相关的基因表达谱芯片数据的分析与挖掘 ................. 334.1 引言 ......................................................................................................................................... 33 4.2 实验数据的获取与导入 ......................................................................................................... 34 4.2.1 实验数据的选择与获取 .................................................................................................. 34 4.2.2 实验数据导入 Bioconductor 平台 .................................................................................. 34 4.3 预处理前的数据质控 .............................................................................................................. 36 4.3.1 通过数据可视化展示实现芯片质量控制 ...................................................................... 36 4.3.2 通过 arrayQualityMetrics 包实现芯片质量控制 ............................................................ 46 4.4 实验数据的预处理 ................................................................................................................. 47 4.5 归一化后数据的质控 ............................................................................................................. 48 4.6 差异表达基因的检测 ............................................................................................................. 49 4.7 差异表达基因的注释与基因本体学 ..................................................................................... 51 4.8 聚类分析 ................................................................................................................................. 53 4.9 通路分析 .................................................................................................................................. 54 4.10 其他生物信息学分析 ........................................................................................................... 56 4.11 本章小结 ............................................................................................................................... 575 运用构建的平台进行哮喘相关信号通路综合分析 ....................................... 59VI 目录5.1 哮喘相关基因表达谱数据的选取 ......................................................................................... 59 5.2 数据分析的基本过程 ............................................................................................................. 59 5.3 结果 ......................................................................................................................................... 60 5.3.1 芯片数据质检结果 .......................................................................................................... 60 5.3.2 差异表达基因分析结果 .................................................................................................. 60 5.3.3 pathway 综合分析结果..................................................................................................... 62 5.4 讨论 ......................................................................................................................................... 666 结论及展望 ............................................................................................................................ 696.1 结论 ......................................................................................................................................... 69 6.2 对未来工作的展望 ................................................................................................................. 69致 谢....................................................................................................................................... 71 参考文献....................................................................................................................................... 73 附 录....................................................................................................................................... 83A. GSE470 差异表达基因的筛选、注释与聚类所用代码 ........................................................ 83 B. GSE470 芯片组 pathway 分析所用的相关代码 .................................................................... 85 C. 在校期间作者所发表的论文目录 .......................................................................................... 86 D 在校期间作者所参加的科研项目 ........................................................................................... 87VII 重庆大学硕士学位论文VIII 略缩词列表略缩词列表英文缩写 AHR ANOVA API DEGs FC FDR GAPDH GEO GO GSEA GUI HTML NUSE OOP PLM QC RLE RMA SAM SNP XML XML-RPC 英文全称 airway Hyperresponsiveness analysis of variance application programming interface differentially expressed genes fold change false discovery rate glyceraldehyde-3-phosphatedehydrogenase gene expression omnibus gene ontology gene set enrichment analysis graphical user interface hypertext markup language the normalized unscaled standard error object-oriented programming probe-level linear models quality control relative log expression robust multi-array signifcance analysis of micorarray single nucleotide polymorphisms extensible markup language XML remote procedure call 中文全称 气道高反应性 方差分析 应用程序接口 差异表达基因 倍数变化法 错误发现率 甘油醛-3-磷酸脱氢酶 NCBI 基因表达数据库 基因本体学 基因富集分析 用户图形界面 超文本标记语言 归一化未缩放的标准差 面向对象编程 探针水平的线性模型 质量控制(质控) 相对对数表达 多阵列对数强健算法 微阵列差异性分析 单核苷酸多态性 可扩展标记语言 XML 远程方法调用IX 重庆大学硕士学位论文X 1绪论1 绪1.1 基因芯片技术论在过去的半个多世纪里,科学家一直在试图探讨已知基因与特定生物表型或 人类疾病之间的因果关系。近年来,伴随着大肠杆菌[1]、酵母[2]、果蝇[3]、小鼠[4]、 拟南芥[5]等模式生物基因组序列数据的公布以及人类基因组计划的完成[6, 7],生命 科学研究已经进入 “后基因组时代”。因此,研究者关注的焦点已不再局限于 DNA 序列本身,而是把更大的目光投向基因功能研究、蛋白质相互作用研究、基因表 达调控与功能蛋白质组学和疾病基因组学研究等诸多领域[8, 9]。其中,基因表达调 控研究已经成为现代生命科学研究的核心内容之一。 目前,有很多生物学手段可用于基因表达与调控研究,包括传统的 Northern 印迹法、EMSA、Western 印迹法和酵母双杂交技术等,以及新兴的基因打靶技术、 RNA 干扰技术,同时也用到集约化的基因芯片技术和下一代测序相关技术[10]。在 众多的技术中,基因芯片技术因其可同时测定上万条基因的转录水平而受到广大 科研人员的青睐,并日益成为基因表达与调控研究的主流技术之一。1.1.1 基因芯片----生物芯片家族的代表成员之一简言之,生物芯片就是指将大量的生物分子采用化学偶联等方式定位于固定 的片基上形成的高度集成化的检测装置,主要用于快速、批量地对目标生物分子 进行识别与检测。通常将定位于固相支持物上的生物分子成为探针,依据探针的 不同,生物芯片可以分为基因芯片(gene chip) 、蛋白质芯片(protein chip)[11]、 多肽芯片(peptide chip)[12]、细胞芯片(cell chip)[13, 14]和组织芯片(tissue array)[15]等。 基因芯片又称 DNA 微阵列(DNA microarray) ,首先是在 1995 年由 Patrick O.Brown[16]设计出来,经过多年的持续发展,它已经成为生命科学实验室一种通用的 研究手段。 基因芯片是目前最重要生物芯片之一, 它可细分为寡核苷酸芯片、 cDNA 芯片和 Genomic 芯片等不同类别。 基因芯片在现代生命科学研究中具有非常重要的用途:如用于基因表达谱测 定[17]、检测 DNA 突变[18,19]、microRNA 表达的检测[20]、DNA 上甲基化位点的检测[21, 22]、DNA 多态性分析[23]、分子杂交测序(sequencing by hybridization,SBH)[24] 等。除此之外,它还可用于 DNA 片段缺失与扩增的检测、DNA 上甲基化位点的 检测和微生物的检测等。显然,基因芯片技术从发明至今,就不断地推动着生命 科学研究和生物医学产业的发展, 这点从全世界每年发表的以“基因芯片”为主题的 文章的数量足以看出(图 1.1) 。1 重庆大学硕士学位论文图 1.1 基因芯片的发展趋势(检索文章的数目变化) Fig 1.1 Development tendency of gene chip technology1.1.2 基因芯片的原理与实验流程图 1.2 基因芯片的工作原理 Fig 1.2 Working principle of gene chip technology基因芯片的原理与经典的核酸分子杂交(hybridization)类似,片基上已知的 核酸片段(探针)与靶核酸片段的杂交,通过检测杂交信号的强弱进行定性与定2 1绪论量分析。基因芯片上分布的大量的探针可实现并行、高通量地进行生物分子的筛 选与检测(图 1.2,参考 Robin L 等绘制[25]) 。 典型的基因芯片实验的流程可以分为以下几个步骤(图 1.3) :① 芯片的设计 与制备(chip fabrication) ;② 样品的准备(RNA extraction and target preparation) ; ③ 芯片杂交(hybridization) ;④ 染色及清洗反应(staining and washing) ;⑤ 图 像扫描(image scanning) ;⑥ 结果分析(bioinformatic analysis) 。理论上讲,每步 操作和处理都会影响到最终实验结果的好坏。但由于自动化和工业化水平的提高, 芯片扫描后数据的分析逐渐成为制约最终结果的最关键的步骤之一。图 1.3 典型基因芯片实验的基本流程[25] Fig 1.3 Workflow of gene chip technology1.1.3 基因芯片的应用领域①基因表达水平的测定 通过基因芯片,可快速地检测出生物体内成千上万个基因的表达状态。Lu 等 采用 Affymetrix 的寡核苷酸芯片 HG-U95Av2 研究了人类大脑在衰老的过程中的基 因表达情况, 通过对年龄在 26 岁~106 岁之间的 40 个个体大脑皮层基因表达谱的 研究,发现有一组基因在 40 岁之后表达量降低,该组基因在神经突触的可塑性、 胞内膜泡运输和线粒体的功能中扮演了一个核心的作用;同时该组基因服从力应3 重庆大学硕士学位论文激诱导,也可被抗氧化和 DNA 修复基因诱导。进一步的研究揭示,DNA 损伤可 以降低参与学习、记忆和神经元存活的那些易受损伤的基因的表达,并启动一个 早期成年个体开始的大脑衰老时钟[26]。 ②基因诊断 尽管基因芯片最初主要用于基因表达的测定,但逐渐也显示出了在胚胎植入 前的遗传学诊断(PGD)等领域,其主要借助于芯片对单个或多个基因突变(如 BRCA1 等)的检测来实现基因的诊断[27]。由于基因芯片用于分子诊断非常敏感, 且节约时间和成本、可以实现平行化和自动化,故已在临床诊断上开始流行。如 Affymetrix 公司开发的 p53 基因芯片可用于癌症的早期诊断;Heller 等用 cDNA 微 阵列来检测风湿性关节炎(RA)相关的基因以进行相关疾病的确诊。目前基因诊 断正逐步成为基因芯片的重点应用领域之一。 ③药物分子筛选和作用机理研究 基于基因芯片构建的药物筛选平台不但能够进行大规模高通量的药物筛选, 而且能够从分子水平对药物的作用机理做出合理解释。从大量的基因表达谱数据 出发,挖掘疾病的关键分子靶标,进一步设计和开发药物也逐渐取代传统的药物 设计,成为基因芯片的另一个应用热点。 ④个体化医疗 在临床上,不同患者在遗传背景上存在细微差异(即单核苷酸多态性,SNP), 因而个体对药物的敏感性也因人而异。因此,针对疾病特异性的基因突变热点序 列构建 DNA 芯片,则可快速地检测出病人所患疾病的亚型,从而对症下药,提高 治疗效果。 ⑤DNA 测序及其衍生的应用领域 传统的 DNA 测序主要是基于 Sanger 的 DNA 双脱氧终止法和 Maxm-Gilbert 的 化 学 法 ,不 断 兴 起 RNA 组 学 的 研 究为 下 一 代 测 序技 术 ( next generation sequencing,NGS)的发展提供了新的契机。基因芯片诞生也促进的测序技术的改 进,其原理在于通过分子杂交图片而推测出待测 DNA 的序列,该方法快速简便, 发展潜力巨大[28]。 ⑥其他研究 随着基因芯片技术的不断发展,其应用领域也在不断地拓展。从基础研究到 应用,其身影几乎无处不见。比如,可以利用基因芯片技术研究传统医学中针灸 治疗的作用机理等[29], 利用基因芯片对环境污染物或病原体进行快速检测等[30, 31]。 可以预见,伴随着基因芯片性能的提升和价格的下降,其应用领域将更加广泛。4 1绪论1.2 Affymetrix 基因表达谱芯片数据的分析1.2.1 Affymetrix 基因表达谱芯片的设计原理基因表达谱芯片可以采用单通道的寡核苷酸芯片或者双通道的 cDNA 芯片。 与双通道芯片相比,寡核苷酸芯片可同时研究多种条件下的基因表达差异,故更 加流行。Affymetrix 公司是世界最著名的的基因芯片生产商,也是全球基因芯片生 产厂家中第一个通过了 ISO 国际标准认证的。Affymetrix 开发的寡核苷酸基因芯 片,其主要利用光导原位合成的方法来在芯片上集成上百万个探针。以其较新的 人类基因组芯片 Human Genome U133 Plus 2.0(HG-U133Plus2)为例,一次就可 检测出 47000 条转录本,约 2~3 万个基因。其主要原理为:合成长度为 25mer 的 段探针, 为了避免短探针与非目标性的序列杂交,同时也设计一组探针来辨认(图 1.4) , 这个探针与原标的靶基因序列的探针的不同在于中间第 13 位核苷酸的不同。图 1.4Affymetrix 寡核苷酸芯片上探针与探针组的示意图Fig 1.4 Probe and probe sets on Affymetrix oligonuclotide microarray通常与目标序列正确杂交的情况称为 PM(perfect match) ,另一个作为检测是 否与目标片段不正确杂交的情况称为 MM(mismatch) 。如图 1.4 所示,将单一的 PM 或 MM 探针称为探针格(probe cell) ,一组对应的 PM 和 MM 探针称为探针对 (probe pair) ,由 11 对这样的探针所组成的探针组(probe set)来代表一个基因。 通常在芯片上 PM 和 MM 探针会在附近作为对照, 但代表同一个转录本的 11 对探 针对却会散布在芯片上各处,以避免杂交情况不均匀、汗渍或者划痕等的影响。1.2.2 Affymetrix 寡核苷酸芯片数据及其含义自从基因芯片发明至今,已有诸多的生产商开发出各种不同用途的芯片,目 前较流行的基因芯片平台有 Affymetrix、Agilent、Illumina、Roche Nimblegen 和 ABI 等。不同的平台所设计的探针的长度、同一基因探针的对数等参数也不相同, 同样不同平台所提取到的数据格式也不尽相同,这些因素均导致后续的数据解析5 重庆大学硕士学位论文和分析存在很大差异。数据分析之前,首先需要理解该芯片平台的数据格式及其 含义。表 1.1 列举了 Affymetrix 寡核苷酸芯片所对应的数据及其含义。 Affymetrix 的基因表达谱芯片主要采取了寡核苷酸微阵列方式的设计, 其后续 的数据分析都基于上述的数据格式。表 1.1 Affymetrix 平台下寡核苷酸芯片各类数据文件含义Tab 1.1 The meaning of data files in Affymetrix oligonuclotide microarray platform 数据格式 *. DAT *. CEL *. CHP 含 义芯片扫描得到的原始图像文件,进一步可用于图像分割和数据提取。 在每个芯片被扫描和图像分析之后,探针的强度数据被记录其上。 将 CEL 文件的信号转换成数值的文件,即 raw data。为了方便,也可将其转 为 TXT 文档。*. CDF芯片描述文件:该文件上总结了每个探针的标志以及注释信息。1.2.3 基因芯片数据分析的基本流程基因芯片数据分析大致包括以下几个阶段(如图 1.5 所示)。 ①芯片扫描与图像识别,得到基因表达的荧光强度(即信号值)。 ②原始数据的预处理。通常的做法是进行背景校正,去除干扰的信号点,再 进行数据的归一化。 ③数据分析。该步骤主要包括差异表达基因的筛选、共表达基因的筛查以及 聚类、 分类分析。 除此之外, 还有更深入的 pathway 分析、 基因表达调控网络分析、 分子互作网络分析等。 ④生物学验证。实际研究中为确保实验结果的可靠,常采用 RT-PCR、western blotting 等分子生物手段对预测出来的基因进行进一步验证。6 1绪论图 1.5R/Bioconductor 下 Affymetrix 基因表达谱芯片数据的分析流程Fig 1.5 Data Analysis workflow of Affymetrix gene expression microarray on Bioconductor1.2.4 常见的基因芯片数据分析软件芯片数据分析过程常涉及到复杂的统计计算,较为繁琐。目前研究人员已开 发了许多专用芯片分析软件,包括用于芯片图像分析(如 GenePix Pro)、数据预 处理(如 Microhelper)和数据深度分析(如 BASE[32],TM4,BRB-ArrayTools , Mayday[33]等) ,另外高级版 matlab 中也有部分支持基因芯片分析的模块,这些都 为生物学家轻松驾驭基因芯片数据分析带来了便利。以下介绍几种常用的综合性 芯片数据分析软件或系统: ①Bioconductor7 重庆大学硕士学位论文Bioconductor 是一个基于开源的统计学语言 R 的芯片数据分析软件包。 它可支 持几乎所有主流芯片数据格式,包括 Affymetrix 公司、Agilent 公司和 Illumina 公 司的商业基因芯片,甚至个性化定制的 cDNA 芯片等。 Bioconductor 通过若干子软件包提供多种芯片分析方法,可用于数据预处理、 DEGs 识别以及聚类等数据分析。 ②dChip dChip 是由哈佛大学 Cheng Li 和 Wing Wong 等联合开发的芯片分析软件[34], 但目前只能运行在 Windows 平台上。它可用于 Affymetrix 芯片数据的预处理及归 一化、差异表达基因的检测、降维分析、F 检验、层次聚类以及时间序列分析等。 dChip 适合于初学者使用,但定制性较弱,不适合再次开发。 ③TM4 TM4 是由 TIGR 公司设计开发的用于基因芯片数据分析的软件包,它同时支 持单、双通道 cDNA 芯片,也可用于 Affymetrix 的寡核苷酸芯片[35],另外还提供 对芯片数据分析流程的全面支持。 上述软件除少部分以外,大多软件都可以免费获得。其中,Bioconductor 以其 个性化的风格逐渐受到生物信息学专业人员的青睐,其不断完善的软件包和丰富 的算法,为基因芯片数据分析带来了极大的便利,而且研究人员还可根据自己的 实际需求开发新的算法并注入其中用于芯片数据的深度挖掘。1.3 本研究的意义、主要内容和创新性1.3.1 本文的研究目的及意义基因芯片技术的发展为生命科学和医学研究带来了新的发展机遇,对其呈现 爆炸式增长的海量数据的处理和分析是目前所面临的最大挑战。要冲破这个阻碍, 最重要一点是要根据不同的实验和研究目的进行不同的处理,开发新颖、更为合 理科学的算法并整合入整个数据的分析之中,这样才能更好地提取庞大数据中所 蕴含的丰富的生物学信息。本研究以开源的 R 语言为基础,构建以 Bioconductor 为平台的基因芯片数据处理、分析和挖掘系统,以实现本地化、个性化的基因芯 片数据分析与挖掘,并从中发掘最重要的生物学信息,最大限度地发挥基因芯片 数据所带来的便利。与此同时,该平台也为新的数据分析和挖掘算法的开发预留 了端口和空间,为进一步处理以基因芯片为代表的复杂生物信息数据打下基础。1.3.2 本研究的主要内容本研究从开源的 R 语言出发,首先利用 Bioconductor 在本地 windows 系统下 构建一个基因芯片数据分析和挖掘平台,接着以 GEO 中公开发表的哮喘疾病相关 的基因表达谱芯片(数据编号:GSE470)的数据分析为例,对构建的基因芯片数8 1绪论据分析平台进行了测试,通过对该组寡核苷酸芯片数据的分析与挖掘以初步验证 该平台的可行性与稳定性。1.3.3 本课题的创新性基因芯片数据的处理与分析手段目前有较为成熟的做法,大多数采用现有软 件来进行。但现有软件的处理基本上以集成化的固有模块为主,其定制性较弱, 不适合二次开发以及深度生物学信息的挖掘。 本课题从实用角度而言, 在开源的 R 语言操作环境下结合 Bioconductor 包,搭建起一套成熟可行的基因表达谱数据分 析与挖掘平台,为进一步发掘哮喘等疾病的相关基因表达谱、特征性药物作用靶 标以及基因调控网络机理等研究提供更有力的支撑。创新之处在于: ①利用开源的 R 语言环境结合 Bioconductor 包,构建起一套成熟可行的基因 表达谱数据分析与挖掘平台。 ②在本地化的 Bioconductor 平台下,可自行设计适合的数据归一化、DEGs 筛 选等算法,实现个性化的基因芯片数据处理与知识发现。 ③以现有 Affymetrix 芯片数据的分析来验证平台的可行性时,发现了一组与 文献报道相一致的哮喘易感基因,提示基于 R 语言的芯片数据平台具有较高的可 靠性,能够为进一步的数据深度挖掘提供支持。9 重庆大学硕士学位论文10 2基因表达谱芯片数据的初步处理方法2 基因表达谱芯片数据的初步处理方法2.1 探针水平数据的获得生物样品处理时首先提取样品的 mRNA 并反转录成 cDNA,同时用荧光素或 同位素标记。一般来说,双通道基因芯片中实验组和对照组 cDNA 分别用花青素 (cyanine)Cy5 和 Cy3 标记,而单通道芯片中 cDNA 一般用生物素(biotin)进行 标记。然后与基因芯片上的探针杂交,漂洗后用图像扫描仪或 CCD 捕获芯片上的 荧光信号,就能得到基因芯片的原始数据(raw data),即探针水平数据。获取探 针水平的数据是数据处理的第一步,接着需要对其进行预处理(pre-processing), 以获得基因表达数据(gene expression data)。所有后续的芯片数据处理均以基因 表达数据为基础。2.2 数据的预处理2.2.1 背景校正背景校正(background correction),是指过滤基因芯片杂交信号中非特异性 的背景噪音。一般情况下,在运用图像软件对芯片划格后,以每个杂交点周围区 各像素吸光度的平均值作为背景。但此法存在芯片不同区域背景扣减不均匀的缺 点,同时会使1%~5%的点产生无意义的负值。也可采用芯片上信号强度最低的 点(它代表非特异性的样本与探针结合的值)为背景强度,或者综合整个芯片非 杂交点背景所得的平均值做为背景。Brown等提出了best-fit方法,即利用整个芯片 杂交点外的平均吸光度值作为背景值,较好地解决了这个问题得,提高了数据处 理的效率和质量。 背景处理之后,可以将芯片数据放入一个矩阵中,即形成基因表达矩阵:? m11 ? m M ? ? 21 ? ? ? mG1其中,各字母的意义如下: N:条件数;m12 m22 mG 2m1N ? ? m2 N ? ? ? mGN ?G:基因数目(一般情况下,G&&N) ; 行向量 mi=(mi1,mi2,…,miN)表示基因 i 在 N 个条件下的表达水平(这里指绝对 表达水平,亦即荧光强度值) ; 列向量 mj=(m1j,m2j,…,mGj)表示在第 j 个条件下各基因的表达水平 (即一张芯片11 重庆大学硕士学位论文的数据) ; 元素 mij 表示第基因 i 在第 j 个条件下(绝对)基因表达数据。m 可以是 R(红 色,Cy5,代表样品组) 。也可以是 G(绿色,Cy3,代表对照组) 。2.2.2 数据清洗数据清洗(data cleaning)时数据分析前必须进行的一项工作。背景校正后的 芯片数据中可能会产生负值,显然负值无生物学意义。数据集中还可能包括一些 单个异常大(或小)的峰(谷)信号,它们被认为是随机噪声。通常的处理方法 是将负值和噪声信号去除。然而,由此造成的数据缺失对后续的统计分析(尤其 是聚类和主成分分析)有致命的影响[36]。所以对数据的删除而言,通常是删去所 在的列向量或行向量。一个比较常见的做法是,若行(列)向量中的缺失数据量 达到预先设置的阈值M, 则删去该向量。 若缺失量未达到M, 则通过两种方法处理: 一种是以0或者用基因表达谱中的平均值或中值代替,另一种是分析基因表达谱的 模式,利用相邻数据点估算得到缺失值(类似于插值)[37]。2.2.3 归一化背景校正和数据清洗处理后的修正值反映了基因表达的水平。但在芯片试验 中每个芯片的荧光强度通常是不一样的,在芯片间进行数据比较之前必须将其归 一化(normalization,也叫标准化)[38]。无论单通道芯片还是双通道芯片得到的原 始数据,均需要进行分析之前的归一化。归一化的目的在于将有所的数据转换到 同一个范围内,便于比较和计算相关系数。通过归一化,使得每个基因表达谱的 平均值为0、标准差为1。但归一化同时也可能带来缺陷:当标准差接近0时会产生 大的噪声。因此,在由扫描图像得到原始数据时首先要进行数据过滤。常用的标 准化方法有“管家基因法”、基于总强度的归一化方法、线性回归方法、比率统计法 等[39]。 “管家基因法”[40]是目前最常用的归一化策略。 管家基因 (house-keeping gene) 也叫持家基因,通常是指维持细胞基本功能所必需的基因,一般而言它们在细胞 内的基因表达水平基本恒定。利用管家基因可实现芯片数据的归一化,这也是目 前最常用的方法,可用于几张芯片的数据归一化。尽管目前管家基因法归一化常 采用β-actin和GADPH,但已有研究表明“管家基因”在不同实验条件下其表达水平 同样发生变化[41]。 对于基于总强度的方法, 首先假定两份待标记的mRNA的量相同, 以此为基准 对数据进行归一化[38];而对基于回归的方法[42]来说,主要用于归一化同一芯片上 两种不同的杂交样品;比率统计法[42]与基于回归的方法有所类似,也针对同块芯 片上的两种样品杂交数据的归一化,但其假设的前提是:两个样品中基本的基因 (如管家基因)的表达量是近似相同的。12 2基因表达谱芯片数据的初步处理方法2.3 基因表达数据的计算经过预处理步骤之后,探针水平数据转变为基因表达数据。也就是说,基因 表达数据的计算往往是和数据的归一化同步进行的。当然,表达数据的计算除了 涉及到归一化的算法之外,还与背景校正、探针校正、奇异值的弃除等有关。为 了便于统计和计算,基因表达数据一般采用矩阵形式表示。 随着生物学进入后基因组学时代,基因芯片数据日益膨胀。这类数据的特点 是往往维数高,且具有异质性和网络性。与此而言,传统的分析方法已显得苍白 无力,开发信的算法对其进行分析已经成为当前的迫切需求。2.4 差异表达基因的筛选研究两个或多个条件下基因的选择性表达(即差异表达)、找出条件特异性 基因或差异表达基因(differentially expressed genes,DEGs)被认为是基因表达谱 芯片最重要的应用。目前用于DEGs筛选的方法有很多,大体来说有倍数变化法、 参数分析法和非参数分析法三大类。2.4.1 倍数变化法倍数变化法(fold change,FC)是指在比较两个不同生物样本时,可根据ratio 值来筛选。 ratio值计算如下 (式中R和G分别代表归一化后的红色和绿色荧光强度) : R ratio ? log 2 G 通常认为,ratio值(变化倍数)在0.5到2.0范围内的基因为非差异表达,该范 围之外的则被认为表达有显著差异。当然,上述范围需根据不同实验条件人为调 整。 FC分析的优点在于简单直观、需要的芯片量少且节约研究成本,但缺点也很 明显:其结论过于简单,其阈值的划分缺乏生物学和统计学支持,主观性较强。 特别是在分析样本中的低拷贝或高拷贝转录本时,容易产生假阳性和假阴性。目 前该法主要适用于预实验和实验初筛。2.4.2 参数分析方法参数分析方法中最具代表性的就是经典统计学中的t-检验(t-test)。在此以t检验为主介绍参数分析方法在DEGs筛选中的作用。 统计学中的t-检验可用于两个或多个重复样本的DEGs的筛选。当t超过设定的 阀值时(以固定的置信水平),两样本被认为存在着差异。零假设H0:μ1=μ2,即 假设某个基因在两种不同条件下的平均表达水平相等,与之相对应的备选假设为 H1:μ1≠μ2。 t-检验的公式如下:13 重庆大学硕士学位论文t?其中均值为:x1 ? x2 s / n1 ? s2 2 / n22 1xi ? ? xij / nij ?1ni方差为:si 2 ? 1 ni ( xij ? xi )2 ? ni ? 1 j ?1在上式中,ni代表某一条件下的实验重复次数,xij为某基因在第i个条件下第j 次重复试验的表达水平测量值。根据统计量t值,得到p值,设定假设检验水平为α, 若p&α,则拒绝零假设,同时则认为某基因在两种条件下的表达差异具有统计学意 义;反之则接受零假设,认为某基因在两种条件下的表达无显著差异。 由于受样本量和成本的限制,后有研究者提出了调整性 t- 检验( regulated t-test)。该法是通过随机的方差模型对总体方差的估计进行修正,其假设的前提 是:不同的基因具有不同的方差,但这些方差可以看做是来自统一分布的独立样 本,方差的倒数满足参数为a、b的λ分布。那么t统计量的计算公式中的分母,即合 并方差的估计则修改为:(n1 ? n2 ? 2) s 2 ? 2a(1 / ab) s ? (n1 ? n2 ? 2) ? 2a2'上式中,s的计算如下:s ? s12 / n1 ? s2 2 / n2调整性t-检验法对基因表达的标准差估计优于一般t-检验和FC法。 当然,除了t-检验外,还有很多用于DEGs筛选的参数分析方法,包括但不仅 限于:方差分析(analysis of variance, ANOVA)即F检验,它适用于多条件下DEGs 的筛选,检验两或多个样本均值的差异是否有统计学意义;基因表达谱的回归分 析(regression analysis)也可以用于DEGs的识别以及据此进行样本的分类。2.4.3 非参数分析转换后的DNA微阵列数据可能仍然呈非正态分布(由于噪声的存在),因此 使用参数分析可能会带来意外的风险。这种情况下,可考虑使用非参数检验的方 法,它的优点在于不必假设数据满足特定的分布。尽管其对数据的筛选有些粗放, 且对表达数据分析的敏感性不如参数分析,但仍不失为一种有效的策略。常见的 用于表达谱数据分析的非参数方法有: Wilcoxon秩和检验[43]和传统非参数t-检验[43],以及新的非参数法如经验贝叶斯法 [44] 、混合模型法 [45] 、芯片显著性分析(signifcance analysis of micorarray,SAM)[46]等。14 2基因表达谱芯片数据的初步处理方法以其中最为流行的 SAM 方法为例 ,该算法 是通过控制错误发现率 ( false discovery rate,FDR)来校正多重假设检验中的假阳性率。其中,相对差异统计量 d的计算为:d?x1 ? x2 s ? s0上式中,统计量d用于衡量基因表达的相对差异,是t统计量的修正。计算所有 基因的d值,这些d值的分布应该独立于基因的表达水平。2.4.4 假表达谱假表达谱常用于鉴别基因的某一特定行为。比如要鉴别小鼠和人类干细胞特 异性的分子标签,可以先假设具有这样一个假表达谱,然后在基因芯片数据中进 一步寻找与其相一致的基因[47]。 总之,关于DEGs的检测目前尚无统一的标准。但芯片数据分析后的验证性实 验(Real-time PCR、Northern blotting等)是确定样本基因差异表达的黄金标准。2.5 数据的可视化方法一般而言,生物信息学数据信息量大且形式复杂多样,能否直观地显示数据 挖掘的结果使其易于理解,则关系到数据挖掘的成功与发展。 在基因芯片的数据分析与挖掘过程中,数据可视化几乎贯穿始终。从原始数 据的质量检测、数据归一化效果的评价,到差异表达基因的筛选、聚类分析结果 的展示,再到 pathway 分析和基因互作网络的构建,无处不见它的身影。目前已有 多种数据可视化方法和工具:如 Stanfold 大学的 TreeView 软件,采用色彩图与树 图显示聚类的结果,清晰地显示层级聚类的每一步骤;TM 软件结合可视化窗口对 基因芯片数据进行分析;由美国食品药品监督管理局( FDA)开发的 ArrayTrack 在线 DNA 微阵列分析系统[48],提供包括对芯片数据还原伪图像、差异表达基因分 析可视化、主成分分析、GO(gene ontology)分析和 KEGG pathway 分析等在内 的多种数据处理和分析过程与结果的可视化。当然,用于可视化的软件与编程语 言很多,本研究使用的 R 语言环境下的 Bioconductor 和某些 R 包也可提供高超和 优雅的芯片数据可视化技术。2.6 本章小结本章简要介绍了基因芯片数据初步处理和分析用到的一些基本方法和策略包 括芯片原始数据的预处理方法,如背景处理、数据清洗何数据的归一化(标准化) 。 同时也介绍了常用的筛选差异表达基因的方法,包括倍数法(FC) 、以 t-检验为代 表的参数分析法、以 SAM 为代表的非参数分析法等。为后续的数据分析提供方法15 重庆大学硕士学位论文学上的理论支持。16 3基于 R/Bioconductor 的芯片数据分析平台的构建3 基于 R/Bioconductor 的芯片数据分析平台的构建3.1 引言3.1.1 开源的生物计算环境开源(Open Source)即开放源码,主要是指那些源代码可被公众使用的软件, 并且此软件的使用、修改和发行也不受许可证的限制[49]。 开源软件通常是有版权 (copyright) 的。其版权同时涉及源码本身和开发过 程,涵盖了 三个方面的意义:开放的源代码、模块化的体系和集市式的开发。简 言之,开源的核心价值主要在于:程序的源代码对所有用户自由可用,且有一个 清晰、定义明确的应用程序接口(application programming interface, API)可用使 用,允许开发者将软件与其他系统相整合,以便于添加新的功能。开源官网 (http://www.opensource.org)和革奴计划[50]官网(http://www.gnu.org)有关于开源 许可协议的细节描述和介绍。 当前流行的开源生物计算软件(或环境)主要有基于 R 语言的 Bioconductor、 BioPerl、BioPython、BioJava 和 BioRuby 等,这些基于开源编程语言的生物信息学 软件项目在名义上都根植于特定的编程语言[51]之中。 本研究基因芯片数据分析与挖掘平台主要基于 Bioconductor 而构建。除此之 外,目前流行的其他开源计算生物学环境有以下几种: ①BioPerl(官网:http://www.bioperl.org) BioPerl 启动于 1995 年,它是由 OBF (Open Bioinformatics Foundation) 所支 持的在 Perl 语言基础上所开发的开源项目。BioPerl 主要目的是利用 Perl 解决一些 生物学问题,如生物大分子数据的获取、核酸或蛋白序列的分析、序列比对、多 序列的 BLAST 等。其主要用途在于直提供大量可扩展的模块,掌握了 BioPerl 的 生物学家可以很方便的写出个性化的 Perl 脚本,以完成多种多样的任务[52]。 BioPerl 与 Bioconductor 的共同点:①两者都承诺开源并基于社区开发,有核 心团队进行原始设计与维护; ②两者都面向对象编程 (object-oriented programming, OOP) ,具有提取生物信息学计算流程的关键结构和功能特征的目标和意向,另外 还规定了稳定的应用程序设计接口 API, 对那些无需知晓程序执行细节的人隐藏 了 程 序 实 现 的 细 节 。 CRAN ( Comprehensive R archive Network ) 和 CPAN (Comprehensive Perl archive Network)都提供了诸多的镜像,可以通过 www 进行 访问和下载相关软件包或模块。两个语言都被认为极其重要的互操作性基础,其 意义在于: 每个项目都能使用由另一种不相关的语言所写的软件; R 具有已经确认 的对于 Perl、Python、Java 和 C 语言的接口。R 的 API 允许 R 中的软件被从其他17 重庆大学硕士学位论文语言中访问, RSPerl 包[53]可以允许直接从 Perl 语言中调用 R。 于是对于 Bioconductor 和 BioPerl 的开发者和用户来说就有很多机会实现代码共享。例如,下面的脚本可 以实现在 R 中调用 BioPerl: 1 library(RSPerl) 2 .PerlPackage(“Bio::Perl”) 3 x&-.Perl(“get_sequence”, “swiss”, “ROA1_HUMAN”) 4 x$division() 而 BioPerl 和 Bioconductor 之间的差别则主要在于适用范围、分配方法、文件 编制和测试,以及面向对象设计的重要细节等方面[51]。 总之,R 和 Perl 都是可延伸的计算机语言,这样在两种语言中将支持不同方 法的软件基础结构以不同的途径引入 OOP 逐步变得可行了。 ②BioJava(官网:http://www.biojava.org) BioJava 是用于表示和分析生物序列(如 DNA、RNA 和蛋白质)的基础库, 它基于 Java 语言框架而开发。BioJava 同时兼备生物序列处理、文件格式转换和一 些简单的科学计算(如 HMM 模型)的功能。它提供了 Dazzle(一个用来支持分 布式注释系统规范的小服务程序框架,该框架可用于共享序列和元数据) ,原则上 BioJava 的资源可在 R/Bioconductor 中通过 SJava 接口来调用进行分析[54]。 ③BioPython(官网:http://www.biopython.org) BioPython 是基于 Python 语言的计算分子生物学环境(设置了相关的研究模 块、脚本和网络链接) ,它提供了用于诸如通过解析不同序列比对或聚类算法的输 出结果而构建 Python 对象的软件,当然这个软件也可用于执行包括分类等各种下 游任务[55, 56]。 ④BioRuby(官网:www.bioruby.org) BioRuby 也是一个开源项目,其目标是在 Ruby 语言下提供一个执行生物学任 务的可重复使用的程序库。Ruby 是一个解释性的面向对象的脚本语言,有简单和 强大的语法和本地化的 OOP 的支持功能。 Ruby 最先是由一位日本作者开发的, 现 被世界各地的程序员当做一种高效的语言所接受[57]。Ruby 在处理文本文件上有很 多优势,这对于频繁使用生物信息学工具的系统管理任务来说很重要。与其他语 言相比,它有本地化的 OOP 且简单和强大的语言,借此可以有效地描述和操作复 杂的生物学数据结构,这就是为何尽管已经有了其他语言但大家仍热衷于开发它 的原因。 BioRuby 软件工具箱包含了一系列综合的免费的工具和程序库,书写于 Ruby 编程语言环境下。它应用于生物信息学和分子生物学领域,有很多组件可用于序 列分析、通路分析、蛋白质建模以及系统发育分析, 同时它支持许多广泛使用的18 3基于 R/Bioconductor 的芯片数据分析平台的构建数据格式, 也提供简单的数据库、 外部程序和公共网络服务器的接口, 包括 BLAST、 KEGG、GenBank、MEDLINE 和 GO 等[58]。3.1.2 R 语言①R 的诞生与发展 R 语言脱胎于 1980 年诞生的 S 语言,S 语言历史悠久[59]。 年,贝 尔实验室统计研究部在使用 Fortran 语言做统计分析时发现,如果用 Fortran 编程, 花在编程上的时间同取得的分析效果相比得不偿失,于是就创建了更为高级的语 言系统----S 语言[60]。 S 语言的理念, 用它的发明者 John Chambers 的话说就是 “快 速且忠实的把想法转换为软件”[61]。后来,S 语言表现极为优秀,因此在 1998 年被 美国计算机协会 (ACM) 授予了“软件系统奖”, 这是迄今为止众多统计软件中唯一 被 ACM 授予的统计系统。 1993 年,S 语言的许可证被 MathSoft 公司买断,在此基础上的 S-PLUS 成为 其公司的主打数据分析产品。 由于 S-PLUS 继承了 S 语言的优秀血统, 所以被世界 各国的统计学家广泛采用,并成为世界上公认的三大统计软件之一。在 S 语言源 代码的基础上,1995 年 Auckland 大学的 Robert Gentleman 和 Ross Ihaka 编写了一 套能执行 S 语言的软件,并将该软件的源代码全部公开,这就是 R 软件的雏形, 其命令被统称为 R 语言(“R”来自于两位开发者的名字)[62]。随着 1997 年 R 语言正 式成为 GNU 项目,大量优秀统计学家加入到 R 语言开发的行列,R 语言的功能逐 渐强大,S-PLUS 的用户渐渐地转到了同承一脉的 R 语言[63]。 2010 年, 美国统计协会(American Statistical Association)将第一届“统计计算及 图形奖”授予了 R 语言,用于表彰其在统计应用和统计研究广泛的影响。Pfizer 公 司非临床数据部的副总监 Max Kuhn 曾如此评价 R:“R 已成为人们走出学校后必 修的第二门外语。” 目前 R 核心开发小组 (R Development Core Team ) 在负责维护 R 。官网 (http://www.r-project.org)提供了有关 R 的最新信息、使用说明,以及最新版本的 R 软件和基于 R 的各种扩展包[64]。 ②R 的特点 作为一套完整的数据处理、计算和绘图系统和操作环境,R 语言具有如下优点: 1) 功能强大且扩展性强。R 语言的库函数以扩展包的形式存在,方便管理和扩 展。由于代码的开源性,使得全世界优秀的程序员、统计学家和生物信息学家加入到 R 社区,为其编写了大量的 R 包来扩展其功能。这些 R 包涵盖了各行各业数据分析 的前沿方法。从统计计算到机器学习,从金融分析到生物信息,从社会网络分析到自 然语言处理,从各种数据库以及语言接口到高性能计算模型,几乎无所不包。 2) 编程简单。R 作为一种解释性的高级语言,程序的编写非常简洁,仅需要了19 重庆大学硕士学位论文解一些函数的参数和用法,无需了解更多程序实现的细节;而且 R 能够即时解释输 入的程序或命令,用户所见即所得。 3) 与其它软件的交互能力强。R 可通过相应接口连接各类数据库获取数据,如 Oracle、DB2、MySQL;也能同 Python、Java、C、C++ 等语言进行相互调用;R 还 提供了 API 接口,很多统计软件可调用 R 函数,如 SAS、SPSS、Statistica 等。此外, R 的分析结果也很容易导出以供其它软件使用。 4) 跨平台。 R 可在多种操作系统下运行, 如 Windows、 MacOS、 各种版本的 Linux 和 UNIX 等,用户甚至可以在浏览器中运行 R[65]。 5) 开源和免费,而且统计模块齐全。商业数据分析软件(如 SAS、SPSS 等)往 往价格不菲。而 R 作为一种 GNU 项目,开放了全部源代码,用户可以免费使用和修 改。 6) 强大的社区支持。R 平均每 6 个月发布一个新版本,并有完备的帮助系统和 文档以帮助用户学习使用。 R 有各类讨论群和论坛, 方便 R 包的发布者解答用户问题。 7) 方便撰写分析报告。在以往撰写分析报告时,用户需要将数据分析结果复制 到 Word 中再次编辑。 而借助 R 语言及其 knitr 包能让用户在一份文档中混合编写 Tex 代码和 R 代码,自动插入分析结果并生成完美排版的 PDF 文档。从而方便修改和分 享研究过程。 ③R 的安装于调试 1) 主程序的下载与安装 R 支持所有的主流系统平台,一般会提供三种常用操作系统上的安装程序 (Windows 、Linux 以及 MacOS X) 。由于 Linux 系统通常不采用通过图形界面下载 到本地再安装的方式, 而是采用命令行方式在线安装, 如 Fedora 系统, 可以执行“sudo yum install R-devel”;Ubuntu 系统,则需要执行“sudo apt-get install r-base-dev”。由于 不同的 Linux 版本采用不同的工具,这里不做详细介绍。本研究重点介绍 MacOS X 和 Windows 平台上 R 的安装与使用。 使用 Windows 系统时,必须先下载然后安装,直接运行下载至本地的可执行文 件(以 R-2.14.1-win.exe 为例) ,按照安装向导(Wizard)的提示,逐步进行安装。安装 成功后桌面会出现两个快速启动图标:一个是“R 2.14.1”表示 32 位系统,另一个是“R x64 2.14.1” 表示 64 位系统。 2) 扩展包的下载与安装 一个编程语言的功能强大与否, 主要取决于它的函数库, R 的函数库以 R 包的形 式存在。基本函数库(基本 R 包或称标准 R 包)和 R 程序同时发布,可以实现大多 数经典的统计方法和基本的数据处理以及显示功能。 R 的突出特点之一就是有大量的 扩展 R 包存在,能够实现更为复杂的统计绘图、工程计算、以及与其他语言的相互20 3基于 R/Bioconductor 的芯片数据分析平台的构建调用等功能。R 扩展包的来源主要有两个:一部分来自 R 的官方网站,截止目前大约 有 3628 个函数包可供下载;另一部分是第三方管理的,如生物数据分析包 Bioconductor。 扩展包安装方式大致有三种: a. 在线安装 最简单的方法是在 R 中使用下列命令来安装(适用于适合操作系统)。 1 options(CRAN=&http://cran.r-project.org&) # 指定镜像网站 2 install.packages(&ggplot2&) b. 下载到本地安装 在 windows 平台上,可以通过图形界面菜单平台,找到下载的包,点击确认。更 一般和简单的方法是在 R 中使用命令来安装,注意 windows 系统需要下载“.zip”格式 的包文件,linux 则需要下载“.tar.gz”。 1 install.packages(&C:\\ ggplot2.zip&, contriburl = NULL) c. 使第三方提供的脚本在线安装(以 Bioconductor 为例) 首先通过下载安装脚本 biocLite 到环境中,然后使用 biocLite() 安装所有 Bioconductor 核心包,其他 Bioconductor 程序包依赖于这些核心包,否则某些包将无 法使用 library 命令加载。安装所需的特定包时,需要输入包的名称,如 limma。命令 如下: 1 source(&http://bioconductor.org/biocLite.R&) # 下载安装脚本 2 biocLite() # 安装所有 Bioconductor 核心包 3 biocLite(&limma&)3.1.3 Bioconductor①Bioconductor 项目 Bioconductor 是一个基于 R 语言的生物信息学软件平台(或框架) ,它提供许多用 于理解和处理高通量基因组数据(包括微阵列数据、高通量测试数据、序列数据以及 注释数据等)的工具。Bioconductor 的版本每年更新两次,目前有超过 460 个包。其 最新版本可从其官网(http://www.bioconductor.org)下载,其所含的最新的包列表可 于其上查询。 在 Bioconductor 中,能输入来自于 Affymetrix、Illumina、Agilent 以及其他平台 的芯片数据,可以对芯片数据进行质量评估、标准化、差异表达分析、聚类分析、分 类、基因簇富集分析、遗传学基因组学分析,以及基因表达的其他流程分析(比如外 显子、拷贝数、SNP、甲基化和其他试验等) 。同时,该软件还提供了 GEO 数据库、 ArrayExpress 数据库、Biomark 数据库、UCSC 等公共资源数据库的接口。 在进行序列数据处理时, Bioconductor 支持的数据格式包括但不仅限于 fasta、 fastq、21 重庆大学硕士学位论文ELAND、MAQ、BWA、Bowtie、BAM、gff、bed 和 wig 等,可以进行序列数据的整 理、 转化、 对齐和操作, 也可执行数据的质量评价、 ChIP-seq[66, 67]、 差异表达、 RNA-seq 和其他分析,提供了进入 SRA 数据库的接口。 在进行高通量测试时,它可以输入、转换、编辑、分析和可视化流式细胞分析、 质谱、HTqPCR 和基于细胞的其他试验数据。 在数据注释方面,可以使用微阵列探针、基因、通路、基因本体学、同源性和其 他注释,提供了进入 GO、KEGG、NCBI、Biomark、UCSC、vendor 数据库和其他资 源的接口。 ②Bioconductor 的安装与运行 在 R 语言环境安装后,Bioconductor 的安装相对就较为简单, 只需在用户图形 界面(graphical user interface,GUI)中运行下列指令: 1 source(&http://bioconductor.org/biocLite.R&) # 下载 Bioconductor 至本地 2 biocLite() # 安装 Bioconductor 和基本包 有时为了保证旧版 Bioconductor 扩展包的更新,需要进行扩展包的升级,其过程 也较简单,只需要在新版本的 R 主程序中运行下列语句。 1 source(“http://bioconductor.org/biocLite.R”) 2 update.packages(repos=biocinstallRepos(), ask=FALSE) 当然也可以全部重新安装所有已经存在的 Bioconductor 扩展包, 但该做法既耗时 又浪费网络资源,故不推荐。 1 source(“http://bioconductor.org/biocLite.R”) 2 pkgs &- rownames(installed.packages()) 3 biocLite(pkgs)3.2 本地化 Bioconductor 平台的构建3.2.1 系统构建的基本构架①硬件配置: 本平台构建在一台 PC 机上, 该计算机的配置为 Intel (R) Core(TM)i5-2450, Intel HM65 芯片组, 配置 4GB DDR3 1333MHz 内存和 500GB 硬盘, 及高速千兆以网卡。 ②软件配置: 本分析平台基 于 windows 家族中主 流的操 作系统 windows7 ( windows7 professional version, 64bit )构建。因为当前 windows7 支持大多数生物芯片分析软 件, 故选择 windows7 系统构建分析平台。 构建好的服务器置于本研究组局域网中, 可通过远程登录的方式进行分析。22 3基于 R/Bioconductor 的芯片数据分析平台的构建3.2.2 分析平台中各类软件包的配置①R 与 Bioconductor 的安装与配置 根据 3.1.2 和 3.1.3 提供的方法,下载并安装最新版本 R(R-3.0.0,64bit) ,并 安装 Bioconductor(2.12 版) 。 ②安装与配置参与数据库访问的相关包 访问数据库是生物信息学计算中极为重要的环节。无论是大规模的数据挖掘 软件中还是在小型的个人数据库应用中,数据库接口已经变得越来越重要了。 Bioconductor 有 3 个与数据库连接有关的软件包, 参考 3.1.2 和 3.1.3 中包的安 装方式,安装以下三个包: Rabi 包提供关于数据库访问的基本类和函数,它是 RbdiPgSQL 的继承者;RbdiPgSQL 提供与 PostgresSQL 数据库有关的接口;而 SAGElyzer 主要是基于 SAGE 标签来进行基因定位。 ③配置和安装图形及用户接口所需的相关包 GUI 意为用户图形接口,指用户通过图形界面和窗口小部件与计算机进行交 流。 在 Bioconductor 中,与图形及用户相关的包共有 7 个(表 3.1) ,参考 3.1.2 和 3.1.3 中包的安装方法逐一安装。表 3.1 图形及用户接口所需的包Tab 3.1 The packages used for graph user interface 包的名称 widgetTools tkWidgets affylmGUI limmaGUI 功能简介 用于建立初级 Tcl/Tk widgets 的工具,如小尺寸的图形用户界面。 提供某些较为高级的窗口小部件创建函数及其视图函数和控制器函数。 提供 Affymetrix 芯片的 limma 包分析的 GUI,用法与 limmaGUI 类似。 提供 limma 包对 cDNA 芯片数据分析的图形化界面,可以导入导出数据文 件,执行 limma 包的大多数分析功能。 geneplotter hexbin 用于基因组数据分析的图形化工具,如在染色体上绘制基因表达数据等。 以正六角形表示数据点,选用灰度或彩色区分不同密度的数据区,使得数 据表示清晰,对于大量集中的数据点的可视化非常有意义。 webbioc 根据 Affy 芯片描述文件创建相应的 CDF 环境。④图结构相关的包的配置与安装 图是一种基本类型的数据对象,在计算机程序设计中,图常充当一种典型的 数据结构,用于表示复杂数据之间的关系。 在 Bioconductor 中有 3 个与图有关的软件包,参考 3.1.2 和 3.1.3 中包的安装23 重庆大学硕士学位论文方式,安装以下三个包:其中 graph 包提供关于图的基本类和函数;RBGL 包提供 有关图论算法(如最短路径等) ;而 Rgraphviz 包则主要是画图,该软件包提供不 同的布局方法和画图算法,用户可以设置相应的画图参数,如线型和颜色等。 ⑤通用工具包的配置与安装 Bioconductor 的通用工具类包有 10 个 (表 3.2) , 该部分包主要是为 Bioconductor 平台的用户提供一些基本的通用工具,主要分为两类:一类是基于 Bioconductor 使用方法的基本工具,另一类是进行基因组数据分析的基本工具。 参考 3.1.2 和 3.1.3 中包的安装方式,安装以下十个包:表 3.2 Bioconductor 中的通用工具包及其功能Tab 3.2 The general packages and their function in Bioconductor 包的名称 reposTools 功能简介 提供一系列与 R 语言文件库进行交互的工具,可以从远端服务器下载、安 装和更新包到本地系统,这些包可以自动管理用户的库。 Biobase 为基因组数据建立标准化的数据结构,目前已建立的数据结构包括处理芯 片信息的 exprSet 类和 phenoData 类等。 Biostrings 含有对生物分子序列进行定义的各类包以及进行模式匹配计算的许多基本 函数和通用函数。 DynDoc 对各种文档进行操作,包括动态文档、vignette 文档和其他可导航文档,并 为完成它们之间的交互。 Ruuid 应用 R 语言建立全局唯一的 ID 值(UUID, Universally Unique ID) 。UUID 是 16 个字节的无符号字符型(unsigned char)数据,也可表达为一个 36 字 节的字符串(string) ,两者均不可以 NULL 结尾。 ctc 用于向其他项目导入和导出树状结构(tree)和聚类结构(cluster) ,它没有 特有的类,而是一组函数的集合。 convert Icens 用来将 Biobase、limma 和 marry 包中定义的芯片信息格式进行转换。 该包是一组函数, 用于计算删减数据的 NPMLE (the non-parametric maximum likelihood estimation,即非参数最大似然估计) 。 exprExternal Biobase 包中 exprSet 类的子类,与 exprSet 类具有相同的特征,但应用于外 部储存的外部 Matrix 对象。 externalVector 包中的类分为两种,基类和索引类,它的函数可以将一个对象转换为 R 语 言基本向量或矩阵,计算矩阵的方差或协方差等。⑥芯片数据注释相关的包的配置与安装24 3基于 R/Bioconductor 的芯片数据分析平台的构建注释类包的主要作用是为在 Bioconductor 中处理不同的元数据包(meta-data packages)提供接口,这些元数据是来自各个数据库的注释数据。 参考 3.1.2 和 3.1.3 中包的安装方式,安装以下四个注释包(表 3.3) :表 3.3 Bioconductor 中用于注释芯片数据的包Tab 3.3 The packages used for annotation of microarray in Bioconductor 包的名称 annotate 功能简介 提供了对不同注释数据包的访问方法,为在 R 语言环境中处理不同的元数 据包提供统一的接口。 AnnBuilder 用来生成 Bioconductor 的注释数据包, 这些注释数据包收集了各种公共数据 库(如 GenBank、UniGene、LocusLink 等)的注释数据。 Resourcer 提供了一组函数, 这些函数可从 TIGR Resourcerer 上读取注释文件, 并构建 一个具有 Bioconductor 的元数据格式的注释数据包。 SNPtools 利用一些函数从 SNPper(http://snpper.chip.org/bio/snper_enter)上得到芯片 XML-RPC 服务,从而获取 Gene 相关的 SNP 信息。⑦基因本体学相关的包的配置与安装 所谓本体学 (ontology) 就是一套有向非循环结构的词汇表。 参考 3.1.2 和 3.1.3 中包的安装方式,安装以下三个基因本体学相关的包:goTools 包主要用于图形化 分析一组或多组芯片探针与哪些 GO 术语有关联,从而得出芯片上的探针主要与 哪些基因功能有关;ontoTools 包可将将一组词源实体集合转换成一套基因本体结 构;GOstats 包主要借助基因的 LocusLink id 和它对应的 GO 术语进行信息的互相 获取和转换,并由研究者所感兴趣的信息建立一些树状结构,进行统计和检索。 ⑧微阵列数据预处理相关的包 处理、分析和注释基因芯片数据是 Bioconductor 最主要的应用领域,它可用 于基因芯片数据的预处理与可视化,以及表达数据的分析和注释等。表 3.4 列举了 Bioconductor 中部分用于基因芯片数据预处理的包。 参考 3.1.2 和 3.1.3 中包的安装方式,配置并安装微阵列数据预处理相关的包。表 3.4 Tab 3.4 包的名称 affy affycomp 基因芯片数据预处理所用到的包The packages used for microarray data preprocessing 功能简介用于分析和注释来自 Affymatrix 寡核苷酸芯片平台的探针水平数据。 提供一组图形化工具,用来评价、分析 Affy 芯片数据的算法性能。25 重庆大学硕士学位论文包的名称 affydata affypdnn affyPLM gcrma makecdfenv annaffy marray matchprobes vsn功能简介 这是一组 Affy 芯片数据,用来举例说明 Affy 芯片数据的分析方法。 采用探针依赖最近邻法(PDNN)处理 Affy 芯片数据,计算基因表达数据。 用来分析 Affy 芯片数据的探针水平线性模型。 综合探针序列信息的背景校正和基因表达数据计算包。 根据 Affy 芯片描述文件创建相应的 CDF 环境。 面向 Affy 芯片数据的元注释工具包。 用于双色荧光(cDNA)微阵列数据分析的工具包。 用于微阵列探针序列分析的工具。 用于微阵列数据的便以稳定和校准转换的包。⑨芯片数据分析相关的包的配置与安装 在微阵列实验中,基因表达数据的后续分析显得尤为重要,Bioconductor 主要 有以下的包用于基因表达数据的后续分析和处理(表 3.5) 。这类包用于分析微阵 列数据,探索基因间的互作、样本之间的关系和识别 DEGs,其基本的方法包括基 因过滤、分类分析和聚类分析等。常见的有以下 14 个,除此之外还有一些由用户 开发的在线工具。 参考 3.1.2 和 3.1.3 中包的安装方式,安装以下 14 个芯片数据分析相关的包。表 3.5 Tab 3.5 包的名称 daMA 数据分析所用到的常见的包The packages used for microarray data analysis 功能简介主要用于设计双色因子微阵列实验, 并对相关的实验结果进行数据分 析和统计[68]。edd该包提供封装的参考分布函数,计算每个基因表达谱的分布函数,并 根据分布函数对基因进行分类。 也就是执行图形化方法和模式识别算 法用于分布类型的分类, 许多表达分布类型中成组的基因将导致许多 有效的步骤用于评估差异表达[69]。factDesign该包用于分析因子微阵列实验数据, 采用线性模型方法来筛选某因子 下的目的基因。genefilter该包提供了一系列根据芯片实验数据进一步筛选基因的工具, 过滤器 采用的标准包括:缺失数据的数目、反映基因表达水平变化的方差、 协方差分析的 p 值和 Cox 回归模型的 p 值等, 这些工具可以用来对基 因进行连续筛选[70]。26 3基于 R/Bioconductor 的芯片数据分析平台的构建包的名称 globaltest功能简介 该包应用于分析芯片实验数据, 研究一组基因表达数据是否和感兴趣 的临床诊断结果存在显著关系[71]。gpls使用广义偏最小二乘法(generalized partial least squares, GPLS)对 DNA 微阵列实验数据进行分类,包括 two-group 和 multi-group 等分 类函数,对数据进行两组或多组的分类[72]。multtest提供多组用于多重假设检验的函数, 用来确定微阵列实验中的不同表 达水平的基因[73]。pamr该包的主要功能是对基因表达数据进行分类,提供各种基于最邻近 法、缩小质心法等统计学方法的样本分类数据[74]。MeasurementError.cor该包适合于二阶测量误差模型, 用于估计双变量正态下两个随机变量 之间的相关性,主要用于分析基因表达数据间的相关性[75]。limma ROC该包使用线性模型来分析设计实验和评估 DEGs[76]。 该包是和受试者工作特征曲线(receiver operating characteristic, ROC) 相关的 R 语言的类和函数的集合,这些函数对 DNA 芯片实验数据进 行 ROC 分析。siggenes该包通过 SAM 以及对芯片的经典的贝叶斯分析(EBAM)来确定不 同的表达基因并估计检出率(false discovery rate) ,同时提供对原始 数据的芯片显著性分析[77]。splicegear RMAGEML该包主要用于对 RNA 的可变剪接进行分析[78]。 该包主要用于提供 MAGE-ML 格式的芯片数据与 Bioconductor 格式数 据间的联系和转换[79]。3.3 用于分析的基因芯片数据的获取3.3.1 常用的基因表达芯片数据库当前,收集和存储微阵列基因表达数据的最有影响力的数据库和网站有 NCBI 旗下的 GEO(Gene Expression Omnibus) 、EBI 旗下的 ArrayExpress 和斯坦福大学 微阵列数据库 SMD(Stanford Microarray Database) 。目前前两者最常用,SMD 数 据库正在整体迁移中。本研究使用的芯片原始数据均来自前两个数据库。 ①GEO 是由美国 NCBI 管理与维护的公共数据库,启动于 2000 年,是经过整 理和核对的在线基因表达数据库资源,主要提供基因表达数据的浏览、查询和检 索[80]。GEO 数据库中的记录是以不同的登录号来代表不同的数据类型,其登录编 号见表 3.6(其中***代表某具体数字号码) 。27 重庆大学硕士学位论文表 3.6 Tab 3.6 登录号分类 GPL*** GSM*** GSE***GEO 数据库中不同登录号的含义The meaning of various registration numbers in GEO database 含 义芯片平台编号,代表不同类型的芯片平台。 单张芯片编号,代表单张芯片描述的原始数据及处理后的荧光强度数据。 一个芯片实验的数据编号,代表一个项目中多张芯片数据的集合(有可能 包括多个芯片平台) 。GDS***人工整理过的样本组的芯片数据编号,代表具有相似实验条件、有生物学 意义、且在统计学上具有可比性的不同的芯片实验构成的实验组集。除此之外,GEO 数据库还提供一些简单的数据分析功能,如 DEGs 的筛选、 聚类分析等。 GEO 定义了两个数据子库: Datasets 存储以“实验为中心”的芯片数据, Profiles 储存以“基因为中心”的单个基因表达的数据。 ②ArrayExpress 是由 EBI 管理和维护的基因表达数据的公共数据库[81],是目 前世界上最大的微阵列数据库之一[82]。它主要包括三部分:实验注释和提交工具 MIAMExpress,从其他外部数据库或工具传输数据的通道,以及在线数据分析工 具 Expression Profiler[83]。其数据传输通道已可以与多家主要的芯片数据库和分析 工具交流,包括 SMD[84]、TIGR 基因芯片数据管理系统 [85]、芯片数据分析工具 J-Express [86]、MIAMExpress 的外部设施(例如位于德国海德堡的 EMBL 和剑桥大 学)和 RAD 数据库[87]等。3.3.2 Bioconductor 环境下微阵列数据的获取①读取 GEO 微阵列表达数据 要从 GEO 数据库中将特定的微阵列表达数据调入安装于本地的 Bioconductor 环境下进行运算,无论是本地导入还是在线导入 GEO 微阵列数据,均需借助 GEOquery 包[88]。所以,首先需要安装并载入 GEOquery 包。 1) 读取已下载至本地的数据: 1 gds&-getGEO(filename=system.file( “extdata/GDS***.soft.gz”, 2 +package=”GEOquery” )) 一般来说,上述命令下载的是 SOFT formatted familyfile ,但若后面指定 GSEMatrix=TRUE,则可以使用 Series Matrix File。 2) 在线获取 GEO 数据: 1 gds&-getGEO(“GDS***”) 上述命令用来在线获取编号为 GSD***的芯片数据信息至本地 根据不同的类型,getGEO 方法读取返回 GDS 类、GPL 类和 GSM 类对象,因28 3基于 R/Bioconductor 的芯片数据分析平台的构建GSE 可能包涉及到多个芯片平台,故读取 GSE 时返回结果为 GSM 类+GPL 类。 ②读取 ArrayExpress 数据库中的微阵列表达数据 R 语言下 ArrayExpress 包中包含的 ArrayExpress()函数可帮助从 ArrayExpress 数据库下载芯片数据, 并将它们导入 Bioconductor 计算平台[82]。 首先在 Bioconductor 平台下载入 Arrayexpress 包,然后运行如下命令: 1 AEset&-ArrayExpress( “E-GEOD-***”) 上述命令可将 ArrayExpress 数据库中编号为 E-GEOD-***的芯片数据组下载到 本地,并将其传递给 AEset 对象。3.4 微阵列数据的预处理与相关包的配置芯片数据预处理主要包括质量控制、对数转换、背景校正、归一化和探针数 据的归纳等步骤。 ①归一化之前的质量评价(Quality Control,QC) 为保证得到准确的分析结果和提高 DEGs 的检出效果,首先须保证用于检出 和分析的基因芯片质量合格[89]。这点对于 Affymetrix 基因芯片而言尤为重要,常 用一些 QC 图来鉴别[90]。最早期的检测主要依靠显微技术,近年来发展了依靠数 据还原为原始图像以及统计学检测的手段。其中,R/Bioconductor 平台下的函数 arrayQualityMetrics 就 可 以 进 行 芯 片 数 据 的 质 量 评 价 , 该 函 数 来 自 包 arrayQualityMetrics [91],其主要功能在于排除掉那些质量不合格的芯片,提高数据 分析的效率和准确性。具体操作如下: 1 library(arrayQualityMetrics) 2 arrayQualityMetrics(expressionset=AEset, outdir = “QAraw”, 3 +force=FALSE, do.logtransform=TRUE, intgroup=fac) 上述命令的意义在于:生成一个 HTML 格式的质量检测报告, expressionset 为 AffyBatch 或 ExpressionSet 类芯片数据对象,outdir 代表生成报告所在的目录(也 可自行设置一个文件路径) ,参数 do.logtransform 代表是否进行对数转换,intgroup 代表 phenoData 对象的列名。除此之外,还可以通过 Bioconductor 下的多种数据可 视化手段对原始芯片数据进行质量检验。 ②舍弃 QC 后不合格的芯片数据 在进行初步的质量检测后,根据质量检测报告的建议,合理舍弃那些不合格 的芯片数据,然后才可进行下一步的数据归一化。 ③数据的归一化 在芯片数据分析中,Affymetrix 芯片数据的处理业已成为目前的焦点之一。可 供选择的原初程序和一些新的方法分别被建议和广泛采用。在此以 affy 包来进行29 重庆大学硕士学位论文说明:affy 包是一个用于寡核苷酸芯片分析的 R 功能和分类包。当处理一些分析 时,它提供给用户非常高的灵活性,它让使用和巧妙地处理探针强度数据变为可 能[92]。 在 Bioconductor 下有很多种 Affymetrix 寡核苷酸芯片数据的归一化算法。 最常 用的有两种:一种是 RMA(Robust Multi-Array) ,全称多阵列对数强健算法。该 算法基于 20 组探针的信号分布来判断某个数据点是信号还是噪音,而不直接从用 PM 的信号值减去背景的 MM 信号值,该算法对于低噪音的实验有很大的适用性; 另一种算法为 MAS5.0 (由 Affymetrix 公司所开发的算法 [93] ) ,它适合应用于 Affymetrix 寡核苷酸基因芯片数据分析,其核心观点认为:观察值是由真实信号、 随机噪音和探针的影响三部分所组成的综合效应。当然除此之外,还有 dChip、 GCRMA 等多种算法。 在 Bioconductor 中,几乎所有的芯片数据归一化算法都可实现。其中,通过 如下的命令, 即可简单实现芯片数据 AEset 的 RMA 算法、 MAS5.0 算法和 GCRMA 算法的归一化,并将结果传递给 rAEset。最近出现了新的针对 Affymetrix 寡核苷 酸芯片的算法 Plier 算法,也可在 Bioconductor 中整合。 1 library(affy) 2 rAEset&- rma(AEset) # RMA method normalization 3 mAEset&-mas5(AEset) # MAS5.0 method normalization 4 library(gcrma) 5 gAEset&-gcrma(AEset) # GCRMA method norm

我要回帖

更多关于 python 读入数据 的文章

 

随机推荐