先来一张图,总结一下
蛋白质的结构描述
基因序列->氨基酸->组合表达成结构->氨基酸脱水缩合形成肽链,肽链折叠形成三级结构以后才能发挥作用。
蛋白质结构预测的原理
通过一堆原子的三维坐标组成。对一级结构的序列信息进行blast分析,得到详细的序列profile,其次是骨架原子的相互关系,rosetta平台通过建模将骨架原子的相对位置关系缩减为三个二面角。最后侧链R,也是通过二面角。蛋白质结构预测的实质是对坐标的预测,但是复杂度太高,目前使用二面角这种映射方式。
一级结构:氨基酸序列
核苷酸序列翻译为氨基酸序列
二级结构:周期性的结构构象(α螺旋,β折叠,无规卷曲)
α螺旋:最常见
β折叠:平行排列,一级结构可能相距很远,但是二级结构很接近
无规卷曲:无规律松散结构。
β转角:肽链发生急转弯(大于90°)
DSSP
将已经测定三级结构的蛋白质的各个位置指认出是哪种二级结构,然后再将氨基酸处于哪个结构单元指认出来。通过上传一个PDB文件(描述蛋白质三级结构的文件,可以从PDB数据库中get),获得该结构对应DSSP文件。输入值一定要是三级结构,不是一级的氨基酸序列。PDB数据库也可以直接下载dssp文件。(dssp不够直观)
从PDB网站获取二级结构信息:
PDB数据里存储的所有蛋白质的一级结构和二级结构序列都以Fasta格式存储在一个叫做ss.txt的文本文件里。(
https://cdn.rcsb.org/etl/kabschSander/ss.txt.gz
https://cdn.rcsb.org/etl/kabschSander/ss_dis.txt.gz
)
1.51.215.28/~gongj/biotools(排外!跟山大同学PY了一波才进去。)
蛋白质二级结构的预测
PSIPRED:http://bioinf.cs.ucl.ac.uk/psipred/
Jpred3:http://www.compbio.dundee.ac.uk/jpred/
PREDICTPROTEIN:http://www.predictprotein.org/
SSpro:http://scratch.proteomics.ics.uci.edu/
PSSpred:http://zhanglab.ccmb.med.umich.edu/PSSpred/
PREDATOR:http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::predator
GOR V:http://gor.bb.iastate.edu/
蛋白质预测在线分析常用软件集锦:http://muchong.com/html/200905/1338175.html
三级结构
三级结构是指整条多肽链的三维空间结构,即,包括骨架和侧链在内的所有原子的空间排列。第一个蛋白质的三维空间结构式由X射线衍射法测定的,现在还有核磁共振法。(有大小限制,200多个氨基酸的蛋白质)
三级结构可视化
VMD:
C原子是青色的,N原子是蓝色,O原子是红色的,H原子是白色的,还有少量黄色S原子。
左键3D旋转,右键平面旋转,中键放大缩小。
Mouse选项卡
Graphics下的Representations选项卡:
Style——以什么样式显示
Color——颜色
Selection——显示哪些原子
Multiply representation
调整完以后保存状态——Save Visulization State
Display and lable
Graphics-->colors
Pymol
根据某视频,用盗版发表文章,会被追责
但是,我在Pymol官网找到了这样一段描述:
“Open-Source Philosophy
PyMOL is a commercial product, but we make most of its source code freely available under a permissive license. The open source project is maintained by Schrödinger and ultimately funded by everyone who purchases a PyMOL license.
Open source enables open science.
This was the vision of the original PyMOL author Warren L. DeLano.”
从此描述来看,Pymol是一个开源项目,这是其创始者Warren Lyford DeLano老先生一直坚持的。
你大可以放心的免费使用源码编译后的Pymol用于学术研究。
具体有待研究。
蛋白质三级结构的预测
1.同源建模法:相似的氨基酸序列对应着相似的蛋白质结构
步骤:
①找到与目标序列同源的已知结构作为模板(目标序列与模板序列间的一致度要》=30%)
②为目标序列与模板序列(可以多条)创建序列比对,通过比对软件自动创建的序列比对还需要进一步人工校正。
③根据第二步创建的序列比对,用同源建模软件预测结构模型
④评估模型质量并根据评估结果重复以上过程,直至模型质量合格
SWISS-MODEL是一款全自动在线软件:https://www.swissmodel.expasy.org/
如果目标序列与模板序列一致度极高,那么同源建模法师最准确的方法
2.穿线法(I-TASSER):不相似的氨基酸序列也可以对应着相似的蛋白质结构
找能量最低的穿法,然后替换到模板结构里,因此计算量大的多,时间也多。
3.从头计算法(QUARK):蛋白质的三维结构决定于自身的氨基酸序列,并且处于自由能状态。
4.综合法:混合算法
选择:
模型质量评估
Saves提供6个模型质量评估软件。(http://services.mbi.ucla.edu/SAVES)
三级结构的比对
可用于探索蛋白质进化及同源关系
改进序列比对的精度
改进蛋白质结构预测工具
为蛋白质结构分类提供依据
帮助了解蛋白质功能
工具:
SuperPose Version 1.0
SPDBV
蛋白质分子表面性质
表面形状(VMD:SURF representation)
表面电荷分布
表面残基可溶性(即残基与溶剂接触的程度,也就是哪些地方掩埋在内部,哪些地方露在表面,哪些地方介于掩埋和暴露之间的中间状态)
第一步、VMD创建PSF文件
第二步、APBS计算表面电荷分布
四级结构:多个亚基形成的复合体
四级结构是独立的三级结构单元聚集形成的复合物,其中每个独立的三级结构称为亚基,也称为单体。含两个亚基的蛋白质称为二聚体,三个亚基称为三聚体........
四级结构的获取
X射线衍射法
冷冻电子显微镜技术
蛋白质分子对接(docking)
尝试所有可能的结合形式,并根据打分函数给每种形式打分排名。
对接的过程中会考虑:
形状互补
亲疏水性
表面电荷分布
Rigid Docking 刚性对接
ZDOCK:http://zdock.umassmed.edu
GRAMM-X:http://vakser.bioinformatics.ku.edu/resources/gramm/grammx
PDBePISA:蛋白质相互作用分析软件
柔性对接,等下次更新
蛋白质和小分子的对接过程
Autodock
下载并安装图形界面mgltools,载入小分子
小分子预处理:
edit下的Hydrogens,add,给小分子加上氢原子
edit-charges-computer gasteiger,给小分子加电荷
指定为对接的小分子:点ligand->input->choose->ad_ligand_select molecule for ad4
ligand->torsion tree->detect root,自动确定中心
ligand->torsion tree->choose torsion,确定对接过程中哪些键可以旋转
保存加工结构,ligand->output->save as PDBQT
删掉小分子:edit->delete->delete molecule
蛋白质预处理:
加H
加电荷
指定为对接的蛋白质:grid->macromolecule->choose->ad_protein->select````,保存
grid->setmap types->directly
grid->grid box 小分子只在画好的盒子里进行尝试对接,设置好
file->close saving current
grid->output->save GPF
假设所有文件都保存在test文件夹下,打开cmd,进入test,输入
autogrid4 -p test.gpf -l test.glg
虚拟筛选
化合物小分子数据库ZINC:
http://zinc.docking.org
保存为mol2格式,可以用autodock做分子筛选。
反向对接
反向对接:将一个小分子与多个蛋白质进行对接