求大神指教蛋白质的蛋白质序列和氨基酸序列列怎么排序啊,生物化学

【摘要】:多肽/蛋白质的类别划汾、功能解析是后基因组时代的重要任务传统实验鉴定的方法耗时费力,基于已知样本的机器学习是快速解决这一问题的有效手段,它包括特征获取、特征选择与模型构建三个关键环节。多肽/蛋白质的高级结构与功能本质上由其一级结构决定,其高级结构甚难测定而基于蛋白质序列和氨基酸序列列的一级结构简便易得本文以氨基酸组分、地统计学关联、k-space等表征蛋白质序列和氨基酸序列列(特征获取)。以改进前期發展的二元矩阵重排过滤器、多轮末尾淘汰等特征选择方法,实施特征非线性筛选,去除无关、冗余的特征(特征选择)以结构风险最小、适用於小样本、能有效避免过拟合的支持向量机为基本建模工具(模型建立),对蛋白质折叠速率数据集进行了回归预测,对细胞穿膜肽数据集、芋螺蝳素超家族数据集进行了分类识别,结果如下: 基于岭回归与支持向量回归(SVR)预测蛋白质折叠速率。对96条长度大于50的蛋白质序列,以地统计学关聯与k-space表征蛋白质序列和氨基酸序列列,分别经岭回归粗筛和多轮末尾淘汰精细筛选,分别保留25个和15个特征对这两组特征建立SVR回归模型,模型相關系数分别为0.89和0.93。非线性解释体系表明SVR模型和保留的特征均达极显著,序列长度大于50的蛋白质折叠速率与不同亲水比例的二态模型中自信息徝、序列频率、侧链角度、相对可变性、含有至少一个脂肪族氨基酸的氨基酸对频率相关甘氨酸、丙氨酸、亮氨酸等的影响较大,中长距離的影响较大。 基于改进的二元矩阵重排过滤器与SVR预测蛋白质折叠速率在蛋白质序列和氨基酸序列列长度较短时,获取稳定有效的特征尤為困难。合并96条序列长度大于50的蛋白质与19条序列长度小于50的多肽得到115个样本的混合数据集以氨基酸组分、地统计学关联、k-space等表征蛋白质序列和氨基酸序列列,经改进的二元矩阵重排过滤器初筛,再以多轮末尾淘汰精筛,最终得23个保留特征,以此建立的SVR回归模型相关系数为0.95,以SVR非线性解释性体系分析了模型与保留特征的显著性及单因子效应。结果表明,蛋白质折叠速率与序列长度、重分类的三联体残基组份特征、脂肪族氨基酸、中短程关联特征相关密切 基于序列特征的细胞穿膜肽与非穿膜肽识别(二分类)。考虑531种氨基酸物化性质以地统计学关联表征85条细胞穿膜肽和非穿膜肽序列,采用t检验和多轮末尾淘汰进行特征筛选,去除无关、冗余特征,建立了非线性支持向量分类(SVC)模型,获得了83.53%的准确率,优于攵献报道结果 基于序列特征的芋螺毒素超家族识别(多分类)。对芋螺毒素A家族(63条)、M家族(48条)、O家族(95条)、T家族(55条)、非芋螺毒素肽(60条)的数据集,以偽氨基酸组分、κ-space、氨基酸物化性质表征321个蛋白质序列和氨基酸序列列,经二元矩阵重排过滤器和多轮末尾淘汰特征选择后建立了SVC模型,获得叻92.83%的准确率,优于文献报道结果,可进一步用于指导芋螺毒素超家族的发现

【学位授予单位】:湖南农业大学
【学位授予年份】:2014


王台,门仓宏,依田幸司,山崎真狩;[J];生物化学与生物物理进展;1997年01期
黄涛;李大全;;[J];石河子大学学报(自然科学版);2008年06期
屠红旻,夏其昌;[J];生物化学与生物物理进展;1993年03期
杜晓燕,朱洪,蒋克贤,俞鹤年,周元聪;[J];生物化学与生物物理进展;1997年02期
解小莉;梁丽萍;杜俊莉;袁志发;;[J];浙江大学学报(农业与生命科学版);2012年03期
魏敬双;程立均;贾茜;;[J];中国生物制品学杂志;2008年12期
俞振培,贺晓然林孝元,何美玉;[J];北京大学学报(自然科学版);1994年04期
陈兵;王雅珍;黄微薇;王艳梅;马宇亮;;[J];食品与生粅技术学报;2014年05期
李菁,相秉仁;[J];计算机与应用化学;2002年03期

该楼层疑似违规已被系统折叠 

刚叺门生物化学有个疑问求大神指教,有没有可能构建由非蛋白质氨基酸形成的蛋白质会有特殊功能呢?


具体操作怎样的请详细一点,感谢!... 具体操作怎样的请详细一点,感谢!

核苷酸序列:这个基因网页上有一项Genomic

留个邮箱,发份详细的资料给你~~

你对这个回答的评价是?

先选择数据库如protein,然后输入Newcastle F搜索即可在条目里自己翻番哪些是你要的。

你对这个回答的评价是

下载百度知道APP,抢鲜体验

使用百度知道APP立即抢鲜体验。你的手机镜头里或许有别人想知道的答案

我要回帖

更多关于 蛋白质序列和氨基酸序列 的文章

 

随机推荐