一、题目
氨基酸序列的表征、特征筛选及应用
二、文章结构
摘要
Abstract
第一章 绪论
第二章 基于岭回归与SVR预测蛋白质折叠速率
第三章 基于二元矩阵重排过滤器与SVR预测蛋白质折叠速率
第四章 基于序列信息预测细胞穿膜肽
第五章 基于序列特征的芋螺毒素超家族分类
第六章 总结与展望
参考文献
致谢
作者简历
三、关键词及摘要解读
关键词
支持向量机;氨基酸序列表征;特征筛选;蛋白质折叠速率;细胞穿膜肽;芋螺毒素
摘要
1、多肽/蛋白质的类别划分、功能解析是后基因组时代的重要任务。
2、传统实验鉴定的方法耗时费力,基于已知样本的机器学习是快速解决这一问题的有效手段,它包括特征获取、特征选择与模型构建三个关键环节。
3、本文以氨基酸组分、地统计学关联、k-space等表征氨基酸序列(特征获取)。
以改进前期发展的二元矩阵重排过滤器、多轮末尾淘汰等特征选择方法,实施特征非线性筛选,去除无关、冗余的特征(特征选择)。
以结构风险最小、适用于小样本、能有效避免过拟合的支持向量机为基本建模工具(模型建立)
对蛋白质折叠速率数据集进行了回归预测,对细胞穿膜肽数据集、芋螺毒素超家族数据集进行了分类识别。
4、两预测,两识别(不展开):
基于岭回归与支持向量回归(SVR)预测蛋白质折叠速率。
基于改进的二元矩阵重排过滤器与SVR预测蛋白质折叠速率。
基于序列特征的细胞穿膜肽与非穿膜肽识别(二分类)。
基于序列特征的芋螺毒素超家族识别(多分类)。
- 岭回归,又称脊回归、吉洪诺夫正则化,是对不适定问题(ill-posed problem)进行回归分析时最经常使用的一种正则化方法。实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法。
Time: 10:45~11:11 26m