一、题名
基于高维特征选择的定量序效关系研究(韩娜2013)
二、文章结构
摘要
Abstract
目录
第一章 绪论
第二章 序列参数提取与建模方法
第三章 HLA-A~*0201限制性CTL表位的QSAM研究
第四章 MHCⅡ类分子结合肽预测
第五章 大肠杆菌启动子的QSAM研究
第六章 总结与展望
参考文献
致谢
作者简介
三、关键词及摘要解读
关键词:定量序效模型;地统计学关联;二元矩阵重排过滤器;CTL表位;MHC分子;E.coli启动子
摘要
1、定量序效关系主要从生物分子一级序列出发定量研究序列与活性(性质)之间的内在联系,并给出恰当的函数描述,从而达到对未知目标功能预测及指导结构修饰和改造等目的。特征表征和特征筛选是定量序效研究中的两个重要问题。
2、合理的特征表征是决定定量序效研究的重要前提。一级结构决定了序列的高级结构与功能,且高级结构甚难测定而一级结构简便易得,本文提出了仅基于序列的直接表征法和地统计学关联与多尺度组分结合(Geostatistics Correlation-multi-scale Component,GC-MSC)表征法两种特征参数方提取法。
3、特征筛选是定量序效关系研究中的另一个关键。无关和冗余特征将影响预测精度并对模型解释带来困惑。从m个特征中选取最优特征子集理论上有2m种可能,在m较大时无法穷举。本文提出一种基于支持向量机并引入有条件随机矩阵的二元矩阵重排过滤器和多轮末尾淘汰相结合的高维特征筛选方法,能够有效地筛选出意义明确的特征,且具计算简单、筛选速度快等优点。
4、论文从序列表征和特征选择两个方面出发,以支持向量机(Support Vector Machine,SVM)作为基本工具,对152个HLA-A0201限制性CTL表位、IEDB数据库中4个HLA II分子结合肽综合数据集、38个E.coli启动子启动强度*进行了定量序效关系研究。
Time:09:06~09:34 28m