【泛16】氨基酸序列的表征、特征筛选及应用

一、题目

氨基酸序列的表征、特征筛选及应用

二、文章结构

摘要
Abstract
第一章 绪论
第二章 基于岭回归与SVR预测蛋白质折叠速率
第三章 基于二元矩阵重排过滤器与SVR预测蛋白质折叠速率
第四章 基于序列信息预测细胞穿膜肽
第五章 基于序列特征的芋螺毒素超家族分类
第六章 总结与展望
参考文献
致谢
作者简历

三、关键词及摘要解读

关键词
支持向量机;氨基酸序列表征;特征筛选;蛋白质折叠速率;细胞穿膜肽;芋螺毒素
摘要
1、多肽/蛋白质的类别划分、功能解析是后基因组时代的重要任务。

2、传统实验鉴定的方法耗时费力,基于已知样本的机器学习是快速解决这一问题的有效手段,它包括特征获取、特征选择与模型构建三个关键环节。

3、本文以氨基酸组分、地统计学关联、k-space等表征氨基酸序列(特征获取)。
以改进前期发展的二元矩阵重排过滤器、多轮末尾淘汰等特征选择方法,实施特征非线性筛选,去除无关、冗余的特征(特征选择)。
以结构风险最小、适用于小样本、能有效避免过拟合的支持向量机为基本建模工具(模型建立

对蛋白质折叠速率数据集进行了回归预测,对细胞穿膜肽数据集、芋螺毒素超家族数据集进行了分类识别

4、两预测,两识别(不展开):
基于岭回归与支持向量回归(SVR)预测蛋白质折叠速率。
基于改进的二元矩阵重排过滤器与SVR预测蛋白质折叠速率。
基于序列特征的细胞穿膜肽与非穿膜肽识别(二分类)。
基于序列特征的芋螺毒素超家族识别(多分类)。

  • 岭回归,又称脊回归、吉洪诺夫正则化,是对不适定问题(ill-posed problem)进行回归分析时最经常使用的一种正则化方法。实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法。

Time: 10:45~11:11 26m

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容