生物大数据 生物大数据是什么专业

从生物大数据到知识大发现:十年进展与未来展望--《科学通报》2016年36期
从生物大数据到知识大发现:十年进展与未来展望
【摘要】:生物和医疗大数据的快速大量积累是当今生命科学领域的一个重要特征,但从这些大数据能否获得关于生命现象规律的重大知识发现,是人们更关心的关键问题,也是2005年Science杂志展望的125个最具挑战性问题之一.本文从新一代DNA测序技术发展以及医学遗传学、合成生物学、精准医学、微生物组学等几个方面,回顾了近十年来生物大数据的重要发展和已经由此带来的科学进步,并对未来的发展方向进行了展望.
【作者单位】:
【基金】:
【分类号】:Q811.4【正文快照】:
15年前,日Nature杂志发表了长达62页的论文《人类基因组的初始测序与分析》[1],标志着历时十几年、耗资约27亿美元的人类基因组计划初步完成,人类对生命科学的探索进入了一个新的时代.在人类基因组计划开始初期,还有人怀疑花费如此巨大的人力物力获取人类基因组数
欢迎:、、)
支持CAJ、PDF文件格式,仅支持PDF格式
【相似文献】
中国期刊全文数据库
金碧辉;;[J];科学观察;2006年02期
;[J];遗传;2013年05期
于军;;[J];科学世界;2013年08期
,本刊编辑部;[J];科学中国人;2004年05期
李伟,印莉萍;[J];生物学通报;2000年11期
易家康;[J];世界科学;2000年10期
杨焕明;;[J];科学观察;2006年02期
杨立英;;[J];科学观察;2007年01期
张辉;孙坤;丁兰;梁前进;;[J];生物学通报;2008年08期
;[J];遗传;2009年06期
中国重要会议论文全文数据库
赵一;;[A];2004年中国西部药学论坛论文汇编(上册)[C];2004年
贺林;;[A];中国遗传学会功能基因组学研讨会论文集[C];2006年
刁现民;;[A];新观点新学说学术沙龙文集2:生命科学的思考与畅想[C];2006年
何晨阳;;[A];科技创新与绿色植保——中国植物保护学会2006学术年会论文集[C];2006年
;[A];培育生物产业,发展绿色经济——第五届中国生物产业大会·2011基因科学与产业发展论坛会刊[C];2011年
杨焕明;;[A];第十二次全国医学遗传学学术会议论文汇编[C];2014年
彭瑞骢;;[A];中国自然辩证法研究会第五届全国代表大会文件[C];2001年
魏尔清;;[A];第七次全国莨菪类药研究学术交流会论文汇编[C];2001年
赵国屏;;[A];培育生物产业,发展绿色经济——第五届中国生物产业大会·2011基因科学与产业发展论坛会刊[C];2011年
吕占军;王秀芳;谢英;段肖翠;;[A];高等院校遗传学教学改革探索[C];2010年
中国重要报纸全文数据库
贾少强 通讯员
王静思;[N];深圳商报;2010年
李勇;[N];医药经济报;2014年
雷云;[N];深圳商报;2014年
;[N];中国医药报;2002年
中科院院士、中科院北京基因研究所研究员
杨焕明;[N];人民政协报;2008年
刘传书;[N];科技日报;2009年
记者 李嫦娟 通讯员 蒋婷燕;[N];广东科技报;2009年
易运文;[N];光明日报;2009年
铁铮;[N];中国花卉报;2011年
生永明;[N];科技日报;2012年
中国博士学位论文全文数据库
王一;[D];复旦大学;2010年
白义春;[D];西北农林科技大学;2016年
赵永兵;[D];中国科学院北京基因组研究所;2014年
中国硕士学位论文全文数据库
黄震震;[D];浙江大学;2016年
汪金兔;[D];上海海洋大学;2012年
霍永霞;[D];安徽大学;2015年
孙秋实;[D];北京交通大学;2015年
谭珍连;[D];广西大学;2007年
项迎霞;[D];大连海事大学;2010年
张清;[D];天津大学;2010年
马坚;[D];复旦大学;2013年
魏君;[D];华中农业大学;2003年
高娜;[D];山东理工大学;2009年
&快捷付款方式
&订购知网充值卡
400-819-9993  “核心刊物”迎来了新期刊:科学通报,中国科学C辑:生命科学,这两份期刊均是由中国科学院和国家自然科学基金委员会共同主办的,我国学术期刊中的知名品牌,被国内外各主要检索系统收录,如国内的《中国科学论文与引文数据库》(CSTPCD)、《中国科学引文数据库》(CSCD)等;美国的SCI、CA、EI,英国的SA,日本的《科技文献速报》等。目前针对每期的重点内容,将展开详细推荐,欢迎读者共同参与……报道:生物医学是一门新兴的前沿交叉学科, 它综合了医学、生命科学和生物学的理论和方法而发展起来. 近年来随着先进仪器装备与信息技术等越来越广泛和深入的整合到生物技术中来, 生物医学研究中越来越频繁的涉及到大数据存储和分析等信息技术.
近期来自中国科学院青岛生物能源与过程研究所单细胞研究中心生物信息学团队,清华大学等处的研究人员总结和回顾生物医学大数据的生成、管理和分析相关的一系列问题,重点讨论人体微生物群落、单细胞表型和基因型、生物医学图像等新近出现的生物医学大数据形式, 以及相关数据分析和应用前景等。
生物医学是应用生物医学信息、医学影像技术、基因芯片、纳米技术、新材料等技术的学术研究和创新交叉领域. 随着以“社会-心理-生物”为代表的大医学模式的提出和系统生物学的发展, 形成了现代系统生物医学. 面向生物医学的系统生物学研究是与21世纪生物技术技术和大数据技术密切相关的领域, 是关系到提高医疗诊断水平和人类健康的重要研究领域. 随着生物分析技术和计算技术的快速发展, 生物医学产生了大量的数据. 21世纪以来, 随着高通量DNA测序的技术发展和逐步应用, 生命科学领域的数据量正在极速增长. 1977年实现了Φ-X174噬菌体全基因组测序; 2000年, 人类基因组草图被绘制完成. 21世纪尤其是2010年以来, 随着新一代测序技术的发展, 更大数量级的基因组数据产出日渐增加(从GB, TB级到PB, EB级): Illumina公司最新的推出的HISEQ X TEN测序仪3天内测序约1.8 TB的碱基数据). 大规模的基因组数据的分析和管理正在成为推动生命科学创新的重要源泉. 同时应指出的是生物医学大数据不仅仅来源于高通量的基因组和转录组测序. 目前其他高通量组学数据, 例如单细胞表型数据、动态生物医学图像等数据量也正在急剧增长. 生命科学的快速进步, 以及生物技术与信息技术的融合, 使得大数据贯穿从基础研究到药物开发到临床诊疗到健康管理的所有环节. 在基础研究领域, 除高通量基因组和转录组测序产生的数据外, 代谢组、蛋白质组等领域也正在极速增长, 而细胞表型、代谢过程、致病基因等的分析都亟需将不同类型的数据加以整合和解构, 从中挖掘出深刻而又非显而易见的生物学规律.
这篇文章总结和回顾生物医学大数据的生成、管理和分析相关的一系列问题, 其中重点讨论人体微生物群落、单细胞表型和基因型、生物医学图像等新近出现的生物医学大数据形式, 以及相关数据分析和应用前景等.
基于目前生物医学大数据的现状我们可以发现, 生物医学大数据的研究正处于蓄势待发状态: 适应于生物医学大数据的软硬件平台、大数据存储、大数据分析挖掘等方法等还不成熟, 制约着生物大数据的研究. 然而一旦相关研究获得突破并有所优化和应用, 将会全方位地支撑生物医学大数据的深入解构; 进而有助于对医学现象的趋势分析和预测, 服务于相关的遗传疾病研究、公共卫生监控、医疗与医药开发等广泛生物医学应用.
原文检索:
宁康, 陈挺. 生物医学大数据的现状与展望. 科学通报, 4C546 Ning K, Chen T. Big data for biomedicalresearch: Current status and prospective (in Chinese). Chin Sci Bull, 4C546, doi: 10.-00895 (/)版权所有,未经书面许可,不得转载
我来说两句(0)
[Ctrl+Enter]
知名企业招聘
医药/产业</
相关文章:
加载相关文章......
今日文章:
加载今日文章......
版权所有 生物通
Copyright&
, All Rights Reserved
联系信箱:没账号?一键数据猿账号
已有账号?
已有账号?
不容错过的资讯
大数据学堂
大数据企业推荐
大家都在搜  摘 要: 以初中生物课程中的生物圈这部分知识为切入点,应用大数据资源中的微课手段,举例介绍了如何将大数据资源应用到初中" />
免费阅读期刊
论文发表、论文指导
周一至周五
9:00&22:00
初级中学生物教学中大数据的应用
  摘 要: 以初中生物课程中的生物圈这部分知识为切入点,应用大数据资源中的微课手段,举例介绍了如何将大数据资源应用到初中生物教学过程中。 中国论文网 /4/view-7163024.htm   关键词:初中生物 & &大数据 & &应用    中图分类号:D63 文献标识码:A & & &文章编号:(5-01   生物(英语:Organism,又称生命体、有机体)是有生命的个体。生物最重要和基本的特征在于生物进行新陈代谢及遗传。自然界是由生物和非生物的物质和能量组成的,无生命的包括物质和能量叫做非生物,新陈代谢是生物与非生物最本质的区别。地球上的植物大约有50多万种,动物约有150多万种。多种多样的生物不仅维持了自然界的持续发展,而且是人类赖以生存和发展的基本条件。生物圈包括大气圈的底部,水圈的大部和岩石圈的表面。人类生活在生物圈中,人类活动对生物圈有一定影响。   以上是初中生物课中关于生物圈的一些知识,整体看来这部分知识点相对来说多且杂乱,从笔者长期生物教学过程中总结出以下结论:对于生物课,不少学生比较喜欢学,但是学过就忘,翻书能想起一点,闭卷考试时大脑一片空白。针对这一现象,笔者想从生物圈这部分知识点切入,通过大数据资源的应用,加深学生对这部分知识的理解和应用,探讨适合学生的教学方法。   大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。在维克托?迈尔-舍恩伯格与肯尼斯?库克耶合作编写的《大数据时代》一书中大数据是指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理[1]。大数据具有4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。有人把数据比喻为蕴藏着巨大能量的煤矿,而煤炭按照性质有肥煤、贫煤和焦煤、无烟煤等分类,而露天煤矿与深埋煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”,价值含量、挖掘成本比数量更为重要[2]。2015年9月,经李克强总理签批,国务院印发《促进大数据发展行动纲要》系统部署大数据发展工作,可见促进大数据的发展已经被提升到了国家层面。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。因此,在生物学教育过程中如何让利用好大数据资源,打造高效、优质的教育平台,是值得我们教育工作者认真思考的问题。   以初中生物课程中生物圈这部分为例,我们可以利用大数据平台下的电子信息技术和互联网技术发展网络课程,还能利用近年来新兴的微课以及大型开放式网络课程来丰富教学内容,加强学生的参与性,通过多元化的互动,提高学生的能动性。以下重点介绍微课,所谓“微课”是指按照新课程标准及教学实践要求,以视频为主要载体,记录教师在课堂内外教育教学过程中围绕某个知识点(重点难点疑点)或教学环节而开展的精彩教与学活动全过程。“微课”的核心组成内容是课堂教学视频(课例片段),同时还包含与该教学主题相关的教学设计、素材课件、教学反思、练习测试及学生反馈、教师点评等辅助性教学资源,它们以一定的组织关系和呈现方式共同“营造”了一个半结构化、主题式的资源单元应用“小环境”。因此,“微课”既有别于传统单一资源类型的教学课例、教学课件、教学设计、教学反思等教学资源,又是在其基础上继承和发展起来的一种新型教学资源。总而言之,微课就是以提供碎片化、移动化的学习新体验而兴起的新型生物课程路径。随着微博、微信等社交软件的兴起和迅速发展,微课的规模也越来越大。微课具有时间短、内容精、模块化、情景化、半结构化的特点,能帮助学生利用好零碎、松散的时间,提高学生的学习效率[3]。微课划分为11类,分别为讲授类、问答类、启发类、讨论类、演示类、练习类、实验类、表演类、自主学习类、合作学习类、探究学习类[4]。   对于初级中学的学生而言,生物课程不同于语数外等主科,而是相对次要的副科,也是最容易被学生忽略的科目之一。因此,通过建立学生QQ群或微信群,掌握《生物圈中的人》的最后一章“人类活动对生物圈的影响”的课程教学重点:一是人口增长及对环境的影响;二是人类破坏环境的后果;三是人类保护环境的重要性。在介绍人口增长对环境的影响时,除了播放相关纪录片或新闻视频帮助学生理解,还能通过群内自由交流发表学生的观点和意见,及时反馈并纠正学生认识上的误区。而且,这部分可扩展的知识很多,例如全国人口普查、计划生育的相关知识,以及近年来媒体讨论很多的全面放开二胎政策,以及这政策背后的一系列原因,失独家庭的困境等等。适当的课外扩展不仅可以让学生更直观的理解知识内容,还能避免学生出现“两耳不闻窗外事,一心只读圣贤书“的现象,毕竟多了解社会知识对树立正确的世界观、人生观有一定的帮助。在介绍人类破坏环境的后果时,可以加入《2012》、《后天》、《侏罗纪公园》等知名电影的经典片段,通过电影情节加深学生对人类破坏自然环境造成的一系列后果:森林遭受破坏,过度放牧草场破坏,河流污染,温室气体排放,物种灭绝,臭氧层破坏,土壤盐碱化,物种入侵,地下水过渡抽取造成地表下降等等。讲解第三部分人类保护环境的重要性时,可以让学生充分参与其中,首先可以在微课上介绍世界环保组织(IUCN)、世界自然基金会(WWF)、全球环境基金(GEF)、政府间气候变化专门委员会(IPCC)、绿色和平组织、地球之友等环保组织,还能在学生微信群里发布国家环保部网站链接,学生通过点击可了解最新的环保信息,知道怎么从自己做起,一点一滴保护环境。   综上所述,在大数据时代背景下,针对初中生物教学改革,我们应该尽可能与时俱进,开拓创新,努力思考教与学的辩证统一,勇于尝试新手段和新方法,以“为了一切学生,一切为了学生,为了学生的一切”的理念做一名新时代的教育工作者。   参考文献   [1]陶雪娇,胡晓峰,刘洋.2013,大数据研究综述. 系统仿真学报报,25: 142-146.   [2]http:///link?url=yR3tA91wPkvUOk2-fGfUH_mUITrl3We1wAeMuQ6SWZ13wal_YjUtEFPN4cXArk9Sn1P48FMVGsCAfGH6vPOFNSdE5kj-aK5Y0-dOdc7Gz07   [3]区淑廉,朱雯. 2015,基于大数据职中生物课程教学改革路径探究. 长春教育学院学报,31(13): 119-121.   [4]http:///link?url=_HFRHaxCOEz3eS1TETBXXDW2aA3Nnz3qYl_avd5h4argQbRyi1PxurYZzkvazzGP4TpcYzA1_5W6Z4m-iGuFba
转载请注明来源。原文地址:
【xzbu】郑重声明:本网站资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。
xzbu发布此信息目的在于传播更多信息,与本网站立场无关。xzbu不保证该信息(包括但不限于文字、数据及图表)准确性、真实性、完整性等。后使用快捷导航没有帐号?
Science:大数据催生大生物学
查看: 13626|
评论: 0|来自: 二代测序
摘要: “大数据”是如今最炙手可热的概念之一,但也容易被人曲解。名字本身意味着海量的数据,然而这只是一个开始。总体来说,大数据包含有三个“v”:数据的容量(volume of data)、数据处理的速率(velocity of process ...
“大数据”是如今最炙手可热的概念之一,但也容易被人曲解。名字本身意味着海量的数据,然而这只是一个开始。总体来说,大数据包含有三个“v”:数据的容量(volume of data)、数据处理的速率(velocity of processing the data)和数据源的多变性(variability of data sources)。这些都是要求使用大数据工具进行分析的信息的关键特性。尽管生物学家为了收集足够的数据,已经努力了数十年,但位于弗吉尼亚州阿什本的乔治华盛顿大学计算生物学研究所主任Keith Crandall表示,“生物学的新瓶颈在于大数据问题。”他举例指出,2002年4月公布的第一个人类基因组序列,集中了来自20个研究所的专家、基础设施和人员,历经13年的辛劳,花费了大约30亿美元,获得了大约30亿个核苷酸的顺序。Crandall说,如今“测出一个人的基因组仅需1000美元,一周就可以产生超过320个基因组。”随着生命科学家开始探索更多的方式来处理大数据的容量、速率和多变性,他们开始研发分析信息的新方法。不断扩张的容量在人类生物学大量信息的收集方面,制药产业早在数十年前就开始与大数据集打交道了。位于马萨诸塞州波士顿的默克公司研究实验室科学信息助理副总裁Jason Johnson说,“多年来,默克公司积累了成千上万例临床试验,有能力在数百万消除识别信息的病患记录中进行查询。现在我们拥有的下一代基因组测序,能够从每个样本中创造出兆兆字节的数据。为了处理如此多的数据,即使是大型制药公司也需要帮助。例如,瑞士巴塞尔的罗氏公司研发运营全球总监Bryn Roberts说,“罗氏积累了一个世纪的数据。在年进行了一次成百上千个癌症细胞系的大规模测序实验中,就翻了一倍多。”Roberts和他的同事想要从这些数据集和其他人多年前采集的数据中挖掘更多的价值。因此,他们与加州福斯特城的PointCross公司合作建立了一个数据平台,该平台可以灵活地搜索罗氏过去25年的研究数据,包括签约研究机构的外包数据。研究人员将挖掘这些数据以及成千上万个复合物的信息,利用现有知识来研发新药。可是,生物学家要想产生大量的数据,并不需要大型制药企业的基础设备。例如,考虑一下加州卡尔斯巴德生命技术公司的离子个人基因组仪(Ion Personal Genome Machine,PGM)系统。这种下一代的新设备能够在8小时内测出多达2千兆碱基(gigabases)的序列,而且它的市场定位是“个体化基因组仪”,能够放在科学家的实验台上。生命技术公司还有更大的Ion Proton仪器,能够在4小时或更短时间内产生大于10千兆碱基的数据。总体来讲,对于学术界和产业界的生命科学家来说,下一代测序技术创造了财富,也产生了阻碍。Crandall解释道,“我们无法有效地研究如此大量的基因组,除非我们的计算机软件能够满足这些大数据的需求。”因此,他的团队与波士顿大学医学院的医学助理教授W. Evan Johnson合作,开发了软件PathoScope,能够处理当今下一代测序(NGS)平台的数据,进而将千兆碱基的DNA信息转变成千兆字节(GB)的计算机数据。该软件将DNA样本与参考基因组做比对,以鉴定出病原体。Crandall说,“我们的数据集可以为成千上百的样本进行每个样本20GB的数据分析,在后续分析中每个样本又可产生上百GB的数据。”如此大量的数据在医疗保健领域尤为有用,因为药物研究者必须在设计实验时充分考虑人群的变异性。英国牛津大学转化医学教授 Chas Bountra说,“你无法从仅仅10 个人的研究中得到合理的结论,但是通过研究50万人,你可以从中汲取重要的结论。”大规模的研究可能会揭示疾病的遗传贡献,以及一种药物是否可以帮助到一部分病人,或者哪些个体更可能会表现出特定的失调。其他的专家也期望看到,遗传数据在医疗保健领域能产生越来越大的影响。“遗传学给我们提供了一个强有力的支点,去理解人们如何得病以及我们该怎样做”,位于英国牛津市的威康信托基金会人类遗传学中心统计遗传学教授Gil McVean说。例如,遗传信息可能会揭示生物标记,或某种特定疾病的表征物,类似于在某种类型癌症中的一个分子。McVean解释说,“遗传学能够告诉你,某个与疾病相关的生物标记是否值得进一步作为(治疗的)靶标进行深入研究。”例如,驱动某种类型癌症的分子可以成为治疗这种疾病的好靶标。为了应用这一理念,McVean领衔的研究团队通过李嘉诚(Li Ka Shing)捐献的3300万美元大额捐款,正在剑桥大学创建李嘉诚健康信息和发现中心(Li Ka Shing Centre for Health Information and Discovery)。该中心将成立一个大数据研究机构。总之,McVean说,该中心“会将分析数据的过程和遗传学结合在一个研究所里,这样我们将能够克服,在大数据收集和大数据集分析方面遇到的棘手而有趣的难题。”寻求高速率第二个“v”,也就是速率(velocity),描述了数据的处理和分析速度。研究人员需要快速分析处理不断增加的数据量。过去,分析基因相关的数据存在瓶颈。“传统上,这些分析平台已经约束了研究人员的生产效率”,位于马里兰州贝塞斯达的BioDatomics公司总裁Alan Taffel认为,“它们很难用,且要求生物信息人员的支持,而且它们在执行工作流程时非常慢。”实际上,他说,往往要花费几天甚至几周的时间来完成一项大型的DNA分析。鉴于此,BioDatomics公司开发了自己的BioDT软件,为分析基因组数据提供了400多种工具。它将这些工具整合进一个软件包中,以易于使用,而且可以超越任何台式电脑。BioDT在计算机集群上运行,包括了许多称为节点的设备,相互联通为一个整体进行工作。“至少需要4个节点”, BioDatomics的首席技术官Maxim Mikheev说。但是BioDT也能在更多的节点上运行,从而能更快地处理数据。“扩展性理论上是无限的。” Mikheev说,“有的集群能够用到4万个节点。”对于不倾向于构建计算机集群的用户来说,BioDT也可以通过云端获得。总之,Taffel说,BioDT“能够比传统系统执行工作流的速度快100倍。以前需要几天或几周的,现在只需要几分钟或几小时。”其他专家也看到了测序对新工具产生的需求。根据位于新泽西州皮斯卡塔韦的罗格斯大学电子计算工程系研究副教授Jaroslaw Zola表示,“几乎无处不在的下一代测序技术需要新的计算机策略来处理数据,从数据如何存储,如何转换,一直到如何分析。”这就意味着生物学家必须学习如何使用最前沿的计算机技术。然而,正如Zola所说,这“对信息技术专家施加了压力,以开发出让领域专家容易掌握的高效解决方式,并在确保效率的前提下,隐藏潜在、软件和硬件结构的复杂性。”这就需要新颖的算法,Zola也致力于此。多变性的版本第三个“v”,即多变性(variability),也给生物学家带来了极大的挑战。正如Bountra所说,“我们现在将许多来自不同领域、具有不同数据集的人聚集在了一起。”挑战之一就是生物学实验室拥有各种设备,但他们通常收集的数据是特定的文件格式。因此,总部设在加拿大多伦多的ACD/Labs公司开发的计算系统,可以在处理大数据时整合各种数据格式。ACD/Labs的全球战略主管Ryan Sasaki解释,“我们支持来自不同仪器的超过150种文件格式,这让我们可以将多种数据汇集到同一环境中,也就是我们的Spectrus数据库。这个数据库可以通过桌面客户端软件或网页访问使用,也可以通过其他的实验室信息系统进入数据库。”生物学的大数据还体现在新形态的多变性。例如,位于德国慕尼黑Definiens公司的科学家在进行一项被公司称为组织表型组学(tissue phenomics)的研究,也就是一个组织样本中的组成信息,包括细胞的大小、形态、吸收的染色剂和哪些细胞进行相互联系等方面。这一技术可以应用到一系列的研究中,例如追踪细胞在发育过程中特征变化的研究,测定环境因素对机体影响的研究,或定量测定药物对某些组织的细胞影响的研究。结构化数据如数据表格,并不能揭示药物处理或生物学过程的所有信息。我们对生物体的了解大多是以一种非结构化的形式存在,就像期刊论文的文本那样。正如默克公司的Johnson所说,“有千万种方式来描述生物学过程”,并且很难从文献中提取数据。在加州圣何塞的IBM公司Almaden研究中心,分析专家和研发人员Ying Chen和她的团队数年来,都在致力于文本挖掘工具的研发,目前正用于“加速药物发现的解决方案”。这一平台集合了专利、科技文献、基础的化学和生物学知识,还有1600多万种独特的化合物结构以及近7000种疾病的信息。利用这一系统,研究人员可以从中寻找可能对治疗某种疾病有用的化合物。其他公司也希望通过挖掘现有资源,以发现疾病的生物学机制以及治疗方式。位于硅谷的大数据公司NuMedii和位于纽约的智能科学信息提供商汤森路透公司,共同组建团队来寻找现有药物的新用途,称为药物再利用(drug repurposing)。“通过使用基因组数据库,整合各种知识来源和生物信息学方法,我们能够快速地发现药物的新用途。” NuMedii公司的首席科学家Craig Webb说,“我们随后利用该药物原有用途中的安全性,快速低成本地通过临床试验。”NuMedii公司为项目提供数据库和分析法,汤森路透公司则提供关于疾病和药物的深层知识。Webb说,其中一个项目中,研究人员从超过2500份卵巢癌样本中搜集基因表达数据,再利用多种计算机算法来预测现有药物是否具有广谱治疗卵巢癌或针对某种分子亚型的潜力。“大数据让我们可以广撒网来寻找线索,而‘大知识’则让我们能快速地选择出可供测试的组分。” Webb说。组合的复杂性马萨诸塞州剑桥市诺华生物医学研究所(NIBR)信息系统执行主任Stephen Cleaver在大数据的3个“v”之外,又加上了复杂性。他认为制药公司科研人员分析数据的方式是“通过某些病患个体,到病患群,再到整合掌握的所有信息”。这一过程很复杂。在医疗保健领域,大数据分析的复杂性也是源于对于不同类型信息的整合,如源自基因组、蛋白组、细胞信号转导、临床研究,甚至环境科学研究的数据。结果将可能产生全新的疾病治疗方法。但是马萨诸塞州剑桥市GNS Healthcare公司的共同创始人Iya Khalil问道:“你如何为这些数据赋予意义,并且从这些数据中获得新的启示,以提升我们对于病理机制的认识?”对于Khalil和她的团队成员来说,答案来源于机器的学习、数学、计算机算法和超级计算技术——它们整合在一起,从而探索疾病的根本途径,追踪患者对于特定治疗可能做出的响应。在GNS Healthcare公司,这一大数据分析项目依赖于一个被称为REFS的计算机平台,REFS代表着反向工程学和正向模拟的功能。简言之,该软件通过分析数据来构建特定疾病中潜在的分子网络,这是反向的部分;然后它利用这一信息去模拟某个化合物可能对通道的影响,这是过程的正向部分。除了医疗保健之外,REFS也可以应用于基础生物学研究。例如,Khalil和她的同事使用该技术,制作了一部分细胞复制循环过程的分子模型。对于Khalil和其他科学家而言,使用大数据的关键在于推动科学的发展。例如,在NIBR公司,Cleaver和他的同事想要确保得到信息量大、一手的最重要数据。“运行先进的数据挖掘方法是非常好的,但它必须能够启发下一个的科学假设。”他说。只有这样,今天的大数据才能改变明天的生物学和医学。原文检索:Mike May. Big Biological Impacts From Big Data. Science, 13 June 2014; DOI: 10.1126/science.opms.p1400086
刚表态过的朋友 ()
上一篇:下一篇:

我要回帖

更多关于 生物治疗截瘫 的文章

 

随机推荐