【泛16】氨基酸序列的表征、特征筛选及应用

一、题目

氨基酸序列的表征、特征筛选及应用

二、文章结构

摘要
Abstract
第一章绪论
第二章基于岭回归与SVR预测蛋白质折叠速率
第三章基于二元矩阵重排过滤器与SVR预测蛋白质折叠速率
第四章基于序列信息预测细胞穿膜肽
第五章基于序列特征的芋螺毒素超家族分类
第六章总结与展望
参考文献
致谢
作者简历

三、关键词及摘要解读

关键词
支持向量机；氨基酸序列表征；特征筛选；蛋白质折叠速率；细胞穿膜肽；芋螺毒素
摘要
1、多肽/蛋白质的类别划分、功能解析是后基因组时代的重要任务。

2、传统实验鉴定的方法耗时费力，基于已知样本的机器学习是快速解决这一问题的有效手段，它包括特征获取、特征选择与模型构建三个关键环节。

3、本文以氨基酸组分、地统计学关联、k-space等表征氨基酸序列（特征获取）。
以改进前期发展的二元矩阵重排过滤器、多轮末尾淘汰等特征选择方法，实施特征非线性筛选，去除无关、冗余的特征（特征选择）。
以结构风险最小、适用于小样本、能有效避免过拟合的支持向量机为基本建模工具（模型建立）

对蛋白质折叠速率数据集进行了回归预测，对细胞穿膜肽数据集、芋螺毒素超家族数据集进行了分类识别。

4、两预测，两识别（不展开）：
基于岭回归与支持向量回归（SVR）预测蛋白质折叠速率。
基于改进的二元矩阵重排过滤器与SVR预测蛋白质折叠速率。
基于序列特征的细胞穿膜肽与非穿膜肽识别（二分类）。
基于序列特征的芋螺毒素超家族识别（多分类）。

岭回归，又称脊回归、吉洪诺夫正则化，是对不适定问题（ill-posed problem)进行回归分析时最经常使用的一种正则化方法。实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法。

Time: 10:45~11:11 26m

最后编辑于：2021.03.18 11:12:19

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。