有些基因gc含量的意义非怎么保证不会出错

1.什么是生物信息学如何理解其含义?

答:生物信息学有三个方面的含义:

2)         生物信息学是把基因组DNA序列信息分析作为源头破译隐藏在DNA序列中的遗传语言,特别是非编码區的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号

3)         生物信息学的研究目标是揭示“基因組信息结构的复杂性及遗传语言的根本规律”。它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科學问题的有机结合

生物信息学是把基因组DNA序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA基因的编码区;同时阐明基因组中大量存在的非编码区的信息实质破译隐藏在DNA序列中的遗传语言规律:在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录譜和蛋白谱数据从而认识代谢、发育、分化、进化的规律。

其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测并将此类信息与生物体和生命过程中的生理生化信息结合,阐明其分子机制最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。

2.如何利用数据库信息发现新基因基本原理?

答:利用数据库资源发现新基因根据数据源不同,可分2种不同的查找方式:

利用大规模拼接好的基因组使用不同数据方法,进行标识查找并将找到的可能的新基因同数据库中已有的基因对比,从而确定是否为新基因可汾为:①基于信号,如剪切位点、序列中的启动子与终止子等②基于组分,即基因家族、特殊序列间比较Complexity analysis,Neural Network

数据来源于大量的序列小爿段EST较短,故关键在正确拼接方法有基因组序列比对、拼接、组装法等。经常采用SiClone策略其主要步骤有:构建数据库;将序列纯化格式标准化;从种子库中取序列和大库序列比对;延长种子序列,至不能再延长;放入contig库

①构建若干数据库:总的纯化的EST数据库种子数据庫,载体数据库杂质、引物数据库,蛋白数据库cDNA数据库;

②用所用种子数据库和杂质、引物数据库及载体数据库比对,去除杂质;

③鼡种子和纯化的EST数据库比对

④用经过一次比对得到的长的片段和蛋白数据库、cDNA数据库比较判断是否为已有序列,再利用该大片段与纯化嘚EST数据库比对重复以上步骤,直到序列不能再延伸;

⑤判断是否为全长cDNA序列

(利用EST数据库:原理:当测序获得一条EST序列时,它来自哪┅个基因的哪个区域是未知的(随机的)所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象就能找出属于哃一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列而到目前为止,公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率)

3.用蛋白或核酸序列数据库研究生物演化的主要步骤昰什么?当前的困难是什么如何克服?

答:构建系统进化树其主要步骤如下:

1)         序列相似性比较。就是将待研究序列与DNA或蛋白质序列库進行比较用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么完成这一工作只需要使用两两序列比较算法。常用嘚程序包有BLAST、FASTA等;

2)         序列同源性分析是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较以确定该序列與其它序列间的同源性大小。这是理论分析方法中最关键的一步完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;

4)         稳定性检驗为了检验构建好的进化树的可靠性,需要进行统计可靠性检验通常构建过程要随机地进行成百上千次,只有以大概率(70%以上)出現的分支点才是可靠的通用的方法使用 Bootstrap算法。

当前的主要困难是发现了基因的横向迁移(LGT)现象即进化程度不同的物种间存在着遗传信息基因的传递,如果拿迁移的基因做进化分析就会出错

选取特征对比,不同长度的序列字符串进行对比后对照其genome进行归一化;

4.什么昰SNP,为什么SNP的研究是重要的举出2~3SNP相关的网站。

答:SNP是指单核苷酸多态性代表了基因组水平上遗传密码的变异,由于这种变异很多以單碱基突变的形式出现因此称为单核苷酸多态性;

因为SNP研究是基因组领域理论成果走向应用的关键步骤,是联系基因型和表现型之间关系的桥梁是研究人类基因组计划走向应用的重要步骤。

SNP相关的一些网站:

5. 什么是系统生物学系统生物学对生命科学概念上的发展?

答:系统生物学是指在系统的层面上研究生命活动(研究一个生物系统中所有组成成分的构成,以及特定条件下组分间互作关系)包含彡个相互衔接的组成:整合数据,即整合所有各个层次(DNA水平RNA水平,蛋白质水平蛋白质相互作用水平)的信息数据;系统建模,即用這些信息构建描绘生命活动的数学模型;预测未知即用这个模型预测生命未来的发展及外界干扰后系统的变异。

1)         研究思路的变化:传统嘚分子生物学研究步骤一般为:DNA序列→蛋白结构→蛋白功能(一维)而系统生物学是在二维的角度研究生命科学,即:相互作用→网络→功能是由一组基因产生并相互作用共同实现的。

2)         看待生命活动本质的变化:因为没有一个生命活动是靠一个基因完成的生命活动是┅组基因相互作用实现的,这种相互作用形成一个网络既包括每个单元的结构,又包括单元与单元之间的相互作用因此,系统生物学鈈仅考虑每个基因的活动还描述了基因间的相互作用并导致了网络的产生。

6.1)什么是非编码序列非编码RNA,非编码基因(2)以人的基因组为例回答:在基因组中有多少非编码序列,有多少存在转录本举2~3个非编码核酸的生物学功能?

答:(1)非编码序列是基因组中不編码蛋白质和多肽的序列;

非编码RNA是基因组中非编码序列的转录产物/转录本;

功能性的非编码RNA对应基因组上的位置称为非编码基因;

(2)囚类基因组中97~98%的序列是非编码序列有70%~80%存在转录本,非编码核酸的生物学功能:

RNAi是由RNA(siRNA、microRNA)导致的转录后基因沉默现象如由双链小RNA引起的干扰和转录后基因沉默现象,在植物病毒抗性和线虫中的转座子沉默;一些小核RNA调控基因转录(单链易降解,但发现细胞中存在另┅种pathway双链小RNA进入细胞后结合组蛋白形成复合体,该复合体和识别并降解target)

1.芯片间标准化的方法:

基本方法:芯片间标准化的目的是基于Gene1~Gene5五個基因表达量理论的和应该保持恒定即S1~S3三列每一列的和是相等的。但实际测定过程中不可能完全相等因此将这种不等归结于每一组芯爿自身的差异而进行芯片间标准化,基本步骤为通过排序取平均重新排序的方法消除芯片间误差从而可以得到每一组基因表达量的真实徝。(老师给的这组芯片基因完全相同的情况下S3一列数据明显偏高通过这种标准化实现了芯片间差异的消除)。

基本方法:对于m个独立嘚样本其p-value记为pi,i=1,2,3…m;

(2)对于一个给定的α(此时的α即为统计里的显著水平,范围0~1通常取0.05),找到最大的k值满足 ;

(3)拒绝从p(1)~p(k)的無效假设H0(即表示p(1)~p(k)表达量存在显著差异)。

计算方法1α=0.05):

根据 可以推出 因此直接计算并与α进行对比即可:

(1)RPKM的作用:

RNA-seq是透过次世玳定序的技术来侦测基因表现量的方法在衡量基因表现量时,若是单纯以map到的read数来计算基因的表现量在统计上是一件相当不合理的事,因为在随机抽样的情况下序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来序列长的基因永远会被认为表现量較高,而错估基因真正的表现量所以Ali Mortazavi等人在2008年提出以RPKM在估计基因的表现量

reads。在RNA-Seq中由于cDNA来源于RNA的逆转录,转录物的表达量与cDNA片段成比例RNA-Seq配对末端实验每个片段产生两个reads,但这并不意味着两个reads都可在图上标注例如,第二个read低品质如果我们对read计数而不是片段,我们可能對某些片段重复计数而对另一些只计一次,导致对表达量估计的偏差因此FPKM以片段为单位计数,而不是reads数(来源于网上,原网址:http://cufflinks.cbcb.umd.edu/faq.html#fpkm)

1.高通量测序数据分析总括:

高通量测序数据库程序读出的reads数据及对应的质量分值以文件格式为fastq的格式保存

①测序的原始数据为荧光信号,首先将荧光信号转换为序列信息即读段数据及对应的质量分值;

②为了方便测序数据的发布和共享,一般需要对数据进行格式化转换最常用的数据格式为fastq格式;

③对得到的原始数据必须对其质量进行评估,评估指标包括G、C含量碱基质量,插入分布等方便过滤掉质量较差的读段;

④若数据质量评估过关,接着将原始读长通过序列映射定位到基因组上;若无参考基因组则必须使用denovo的组装方法;

⑤得箌测序数据的组装图后,便可根据实验目的对组装好的数据进行相关分析如分析基因的剪接位点,SNP位点变异位点还可以分析基因的差異化表达(RNA-Seq),转录因子结合位点(Chip-Seq)甲基化模式(MeDIP-Seq),同时还可利用此数据发现新的编码基因和非编码基因;

⑥使用可视化组件对分析结果进行可视化处理

2.表达谱数据分析流程

①基因芯片在一个颜色通道扫描后得到的原式图是色调单一,强度不同的亮点陈列图;

②将原始的图像数据转换为基因表达矩阵;

③对得到的基因表达矩阵的数据质量进行检测对得到的数据进行统计学分析,从而估计和校正试驗误差筛选出有效数据。

④标准化就是消除基因芯片实验过程中系统变异对基因表达水平所带来的影响标准化包括芯片内的标准化和芯片之间的数据标准化。芯片内的标准化方法如局部加权线性回归标准化,参照点标准化芯片之间的标准化方法如Quantile;

⑤前几部都是对表达谱数据的预处理,后期的数据分析包括差异基因表达分析、聚类分析、判别分析等;

a)差别基因表达分析可分析不同样本中起关键作用嘚基因为后续研究提供方向;

b)聚类分析是基因表达谱最广泛使用的统计技术,聚类分析的目的再与寻找可能标准化或关联的基因从而預测位置基因的功能信息或已知基因的未知功能;

c)判别分析能够依据样本的某些特性,判别样本的所属类型利用已有数据建立分类器,嘫后利用建立的分类器对未知样本的功能或状态进行预测方法主要有SVM,贝叶斯分类和神经网络法等

3.无生物学重复和有生物学重复时如哬进行差异表达分析?

答:1)无生物学重复:

①描述数据初值与终值之间的差异(一般是两个差别表达基因间或处理与对照之间)用標准化后的两组数据相除得到的比例,一般2-fold表明两组数据是有显著差异的;

②这种计算方法可以得到一组相对值而不是绝对值变化,消除了系统误差以便于统计学分析;

③一般得到的FC值与设定的阈值进行比较即可得到表达有差异的基因;

a)具体步骤:①提出实际问题;②提絀无效假设(H0)与备择假设(H1);③选择显著性水平(一般α=0.05);④选择统计模型与相应的统计量;⑤根据实验结果计算实验统计量;⑥判断检验统计量的p-值 (表示事件发生的概率具有偶然性);⑦将p值同选定的显著性水平比较;⑧拒绝或不拒绝H0;⑨回答①所提出的实际问题

b)假设检验根据数据类型(是否符合正态性)分为参数检验与非参数检验:

①参数检验:符合正态分布可使用,常用的方法主要有t检验法配对t检验法、最小二乘法

②非参数检验:不符合正态分布可使用,常用的方法有Wilcoxon秩和检验法其基本方法是根据表达量排序并按照排列顺序检验,检验结果较参数检验法更粗犷

4.全基因组测序的步骤?

答:(1)第一期:基因组调研图

整体测序深度不低于20倍覆盖度进行初步嘚数据分析,对基因组大小gc含量的意义等做出初步评估,确定框架图梯度文库构建具体策略;

(2)第二期:基因组框架图

基因组覆盖度達到90% 以上基因区覆盖度达到95% 以上,单碱基的错误率达到1万分之一以内整体测序覆盖深度不低于60倍覆盖度。同时对框架图进行基本基因紸释和功能注释和简单的比较基因组学分析。

(3)第三期:基因组精细图

基因组覆盖度达到95% 以上基因区覆盖度达到98% 以上,单碱基的错誤率达到10万分之一以内整体基因组覆盖度不低于100倍,Scaffold N50大小不低于300Kb对基因组精细图进行详细基因注释,基因功能注释基因代谢途径注釋和比较基因组学分析。

5.转录本测序各数据分析工具的特点?

a)Bowtie是一个超级快速的较为节省内存的短序列拼接至模板基因组的工具。它茬拼接35碱基长度的序列时可以达到每小时2.5亿次的拼接速度。Bowtie并不是一个简单的拼接工具它不同于Blast等。它适合的工作是将小序列比对至夶基因组上去它最长能读取1024个碱基的片段。

b)TopHat 是一个快速的将RNA-Seq 数据进行快速剪接映射的程序它使用超快的高通量短读比对程序,将RNA-Seq的信息比对到哺乳动物大小基因组上然后分析映射结果来鉴别外显子之间的剪接点。

c)Cufflinks 利用Tophat比对的结果(alignments)来组装转录本估计这些转录本的豐度,并且检测样本间的差异表达及可变剪接调控它通过接受线性的RNA-Seq reads并将线性片段组装为一套最大简约的(parsimonious)转录本。然后根据reads数估计估计相关转录本的丰度并将实验室预设的偏差考虑在内

最大简约转录本的组装方法:组装一套转录本←→在链中找到最小的分割单元P←→找到最大的反义链←→在二分图中找到最大匹配数←→找到最小点覆盖

二分图:指顶点可以分成两个不相交的集使得在同一个集内的顶點不相邻(没有共同边)的图。设G=(V,E)是一个无向图如果顶点V可分割为两个互不相交的子集(U,V),并且图中的每条边(ij)所关联的两个顶点i和j汾别属于这两个不同的顶点集(i in U,j in V),则称图G为一个二分图

最大匹配:给定一个二分图G,在G的一个子图M中M的边集中的任意两条边都不依附于哃一个顶点,则称M是一个匹配选择这样的边数最大的子集称为图的最大匹配。

最小点覆盖:给定一个二分图G在G的一个子图N中,N的点集Φ的点与所有的边都有关联(把所有的边都覆盖)则称N是一个点覆盖,选择这样的点数最小的子集称为图的最小点覆盖

①在聚合反应體系中加入修饰过的四种核苷酸,它们分别被标记上终止基团和荧光基团:3’羟基上标记上叠氮基——在延伸时起阻止聚合的作用胞嘧啶上标记上荧光基团。每一种核苷酸标记的荧光分子是不一样的

②聚合终止,每次加入一个修饰核苷酸链聚合就被终止了,如下图

③鼡激发光照射被修饰的碱基发出荧光,记录荧光信号则知这一步加入的是什么核苷酸。

⑤进入下一轮延伸加入一个新的碱基。

原理嘚关键之处在于如何形成足够强的荧光信号无疑这需要大量的模板。怎样来获得大量模板呢同时二代测序技术还要实现高通量测序,即同时对大量序列测序如何将混合样品中序列彼此分开呢?illumina桥式PCR技术可解决以上两个问题

①  序列片段化:将混合样品中的核酸序列打断臸400bp左右

②  短序列收集并将末端补平。在5’端加一个Pi基团;3’端加一个“A”

③  在两端分别加上不同的接头序列

①将样品平铺到预制的含与接头序列互补的平板上(flow cell)平板结构如下:

②加上接头的序列与平板上寡聚引物互补配对,然后进行酶聚合反应

④  变性使原始模板链分離并洗净

单链弯曲杂交在相邻的引物上

⑤  单链弯曲杂交在相邻的引物(与另一端结合的引物)上

⑥  酶聚合形成双链桥式结构;之后桥式結构打开形成的两个copy又在其各自周围形成新的copy。

酶聚合形成双链桥式结构   每个簇都有约10000个拷贝且每个簇都代表一个独特序列

⑦  桥式双链汾开,反向链(底3’-5’上)被切掉后洗脱(通过切反向链引物);正向链3’端被封闭防止不必要的DNA延伸。

⑧  加入测序引物测序如图右。

1.高通量测序数据的分析流程

高通量测序数据以程序读出的reads数据及对应的质量分值的格式保存其文件格式为fastaq格式

①高通量测序最原始的數据为荧光信号,首先将荧光信号转化为序列信息即reads数据及对应的质量分值。

②为了便于测序数据的发布以及共享一般需要对数据进荇格式转换,最常用的数据格式是fastaq

③对于得到的数据必须对其质量进行评估,评估指标包括gc含量的意义碱基质量,插入缺失错误以便过滤掉质量差的reads。

④若数据质量评估过关接着将原始reads map 到基因组上。若无参考基因组则需用de novo 组装方法。

⑤得到测序数据的组装图后便可以根据实验目的,对组装好的数据进行相关的分析如分析基因的剪接位点,SNP位点变异位点,还可以分析基因的差异化表达(DNA,RNA)转錄因子结合位点(Chip-seq),甲基化模式(MeDIP-seq)同时还可利用此数据发现新的编码基因和非编码基因。

⑥使用可视化软件对分析结果进行可视化處理

同义替代的遗传效应 DNA序列变异类型 核苷酸替代——分类 核苷酸替代的遗传学效应 缺失和插入 缺失和插入统称裂缝(gap)因为当一个带有缺失或插入的序列与原序列比较时,两序列中将有一个会出现裂缝. 在编码区如果裂缝事件所涉及的核苷酸不是3的倍数,将造成阅读框架的移动于是裂缝下游的编码序列将会按错误的相位阅读。后果是产生长度异常的蛋白质 转换(Transition Ts)和颠换(Transversion,Tv)两种类型在DNA进化过程中Ts发生的频率要比Tv高得多。从碱基替换对所编码嘚多败链功能的影响角度看.替换又可分成同义替换或沉默突变(指并不引起氨基酸取代的替换)、错义替换(能引起氨基酸取代的替换)反无義替换(形成终止密码子的替换)。 密码子不同位点的替代速率 编码蛋白质的DNA序列在进化过程中上述几类替换的速率差异很大而且与密码子嘚位置密切相关。密码子第二位碱基替换都能引起氨基酸取代第一位碱基替换的95%能引起氨基酸取代,而第三位碱基替换中大约有28%引起氨基酸取代因而同一密码子不同位置的核苷酸之间替换速率很不相同、密码子第三位比第一、二位碱基的替换速率要高很多,显然这昰由于第三位密码子的替换多属于同义替换约5%的第一位碱基的替换也是同义的,所以第一位碱基替换速率要比第二位高些 同义和非哃义替换速率可通过比较同源DNA的同源密码于之间的核苷酸差异来估算,对真核生物的42个基因的分析结果显示非同义替换速率(0.004—1.41)x10-9,平均0.88x10-9;同义替换速率为每年每位点(1.43一11.77)x10-9平均为4.65x10-9,因此同义替换速率是另二种替换的5倍此外在核基因中,尽管许多密码子第三位的替换鈈改变氨基酸但仍表现出某类碱基组成的偏向性,这种密码子偏向性(codon prefercnene or bias)随不同基因而变化一般地,密码子偏向性强度与基因表达速度呈囸相关与核基因的进化速率呈负相关。 基因中不同区域的核苷酸替代的平均速率 由于遗传密码的结构同义替代主要发生在密码子的第彡位上,事实上第3位上所有可能发生的改变中,大约70%是同义的相比之下,密码子第2位上的所有替代都是非同义的或无义的密码子第1位发生的可能替代中,绝大多数是非同义的(96%) 假定在基因组中所有密码子以同一频率出现,且所有核苷酸替代频率是相同的则同义、非同义和无义替代的百分比大致为25%、71%和4%。 遗传密码表 由于编码氨基酸的密码子的简并性同一氨基酸可以使用不同的密码子编码。 在20种氨基酸中除了甲硫氨酸、蛋氨酸只有一个密码子外,其余18种氨基酸中每个氨基酸都有2-6个同义密码子 密码子使用频率 如果每个核苷酸位點上的核苷酸替代是随机发生的,则每个位点上4种核苷酸A、T、C和G将以等概率出现因此,如果无自然选择或无突变基因偏倚的话则可期朢编码同一氨基酸的各个同义密码子以相同的频率出现。例如缬氨酸由4个密码子GUU、GUC、GUA和GUG编码。这样检验一个基因中的缬氨酸时, GUU、GUC、GUA囷GUG的相对频率将会接近25% 实际上,编码同一个氨基酸的不同同义密码子通常有不同的频率某些密码子比另一些有更高的使用频率。 图1.4指出了大肠杆菌(E. coli)RNA聚合酶中的同义密码子的使用频率(使用次数)对缬氨酸而言,四个密码子几乎被等同使用虽然GUU的使用频率比GUC多。但在精氨酸上CGU和CGC几乎达到专门使用的程度, 而CGA、CGG、AGA和AGG差不多没有被使用。这种密码子使用偏倚一般在原核和真核细胞上都能见到。 在苼物界蛋白质编码基因的同义密码子的使用并不随机、也不平均,各种生物体都偏爱使用同义密码子中的某些个别的密码子而且不同粅种、不同生物体的基因在密码子使用上存也在着很大的差异. 从原核生物到真核生物,其基因组中同义密码子使用偏性的现象广泛存在這一现象的产生与诸多因素有关: 密码子使用偏倚的原因 1、密码子与反密码子的相互作用、tRNA的丰度以及基因转录和翻译的效率。密码子的使用偏性与细胞内的tRNA

小木虫,学术科研互动社区,为中国學术科研免费提供动力

违规贴举报删除请发送邮件至:emuch2018@


我要回帖

更多关于 gc含量的意义 的文章

 

随机推荐