分子模拟大揭秘
分子模拟作为一门跨学科的技术,已经成为化学、生物学、物理学、材料科学以及药物设计等领域不可或缺的工具。它通过计算机模拟提供了对分子行为的深入理解,从而揭示了分子结构与功能之间的关系。
本文旨在介绍分子模拟的基本概念、方法和应用,特别是针对药物设计和生物大分子研究的重要性。
01 分子模拟的介绍
1.1 分子模拟的定义
分子模拟,顾名思义,是针对分子而进行的一种模型操作,即根据分子图形学原理,采用理论计算方法如量子力学、分子力学、分子动力学等在计算机上模拟或模仿分子行为的一门技术。
分子模拟技术赋予了我们洞察微观世界的能力,它使我们能够观察和操作那些在传统意义上无法直接观察的化学小分子和生物大分子。
通过这项技术,我们可以将分子结构以三维形式可视化🔍,不仅能够清晰地看到分子的形态,还能通过交互式操作来移动分子、调整其尺寸、甚至进行多角度旋转。这种直观的交互方式使得测量分子内部的距离、键角和二面角变得轻而易举。
1.2 分子模拟的形式
分子模拟主要有两种形式,即静态模拟(Molecular Modeling)和动态模拟(Molecular Simulation)。
静态模拟只考虑分子中各原子的xyz三维坐标,即分子在某一时间点上的构象,主要采用量子力学和分子力学进行构象优化。
而动态模拟除xyz三维坐标外,还加入了时间t作为第四维,因而可以考察分子在某一时间段内的构象变化情况,主要采用分子动力学来模拟生物分子体系的动态变化过程。
就像拍照和录像一样,静态模拟就好比拍了一张照片,而动态模拟则好比拍了一段录像。
目前,分子模拟已成为药物分子设计中的基本工具。借助于分子模拟技术,人们能方便地阐释分子的真实结构和构象,对分子进行构象分析、量子化学、分子力学和分子动力学计算。
模拟生物大分子体系,模拟小分子-大分子之间、大分子-大分子之间的相互作用,进行构象搜寻、结构搜寻、分子设计等。
02 分子表面的复杂性
2.1 分子表面的定义
分子表面是指分子的外部边界,它定义了分子的三维形状。Lee和Richards是最早给出这一概念的科学家。
分子表面可分为范德华表面(van der Waals Surface)、溶剂可及表面(Solvent-accessible Surface)及其它分析表面如Connolly表面。
2.2 范德华表面
这是基于分子中原子的范德华半径定义的表面。
范德华半径是原子在分子间相互作用中所占据的空间的度量。
将所有原子的范德华半径想象成球体,这些球体叠加在一起就形成了分子的范德华表面和体积。
2.3 溶剂可及表面
这是分子表面中可以被溶剂分子接近的部分。通常使用半径为1.4 Å的水分子作为探针球来模拟溶剂分子。
当探针球接触到原子球时,记录下接触点,这些点构成了Connolly表面,而探针球心的轨迹则构成了溶剂可及表面。
2.4 Connolly表面
这是一种分析表面,由探针球与原子球接触的点和凹陷表面组成,用于描述溶剂可及表面。
2.5 小分子与大分子的表面差异
在小分子中,范德华表面和溶剂可及表面通常没有区别,因为小分子较小,溶剂分子可以轻易接近其表面;在蛋白质等大分子中,分子内部的区域可能无法被溶剂探针球接近,因此这些区域不属于溶剂可及表面。
在两个或三个原子结合的地方,范德华表面和溶剂可及表面可能会有所不同。原子间的缝隙可能无法被溶剂探针球进入,这些区域在溶剂可及表面中不被包括。
03 分子模拟常用名称
3.1 常用长度单位
常用长度单位为埃(1Å=10-10m)、纳米(1nm=10-9m)。化学键键长一般在埃的级
别,而分子大小一般在纳米级别。
3.2 常用时间单位
常用时间单位为微秒(1μs=10-6s)、纳秒(1ns=10-9s)、皮秒(1ps=10-12s)、飞秒(1fs=10-15s)。
蛋白质折叠运动一般在微秒级别,而分子动力学模拟的步长一般在飞秒级别。
3.3 常用数据量级
基本单位是比特(bit),1B(byte)=8 bit;1KB=1024 B;1MB=1024 KB;1GB=
1024 MB;1TB=1024 GB。
3.4 常用坐标系统
笛卡尔坐标(Cartesian Coordinates),即我们通常所说的直角坐标,以原点为参照中分子中每一个原子都具有x、y、z三个坐标值。
原点选择不一样,每个原子的坐标就不一样,分子相对原点做平移或旋转操作后,原子坐标也将不一样。
常用分子文件格式如Sdf、Mol2和Pdb都采用笛卡尔坐标。
内坐标(Internal Coordinates),只考虑分子中原子之间的相对位置,即指定一个原子为计算起点,用两个原子之间的距离(即键长)、三个原子形成的角度(即键角)和四个原子构成的二面角来表征分子的构型。内坐标通常表示为乙矩阵的形式,在量子化学计算等方面有广泛的应用。
04 分子文件格式
4.1 Mol文件格式
Mol文件格式最早是由美国MDL公司(现为法国达索公司下属的BIOVIA公司)开发的,含有组成分子的原子、键、连接性及坐标信息,几乎所有的化学信息学软件都可以读取Mol文件。
Mol文件既可以存储二维结构,也可以存储三维结构。Mol是应用最为广泛的小分子结构存储文件格式,很多其它的格式都是由Mol格式衍生出来的。下面以乙醛为例,解释下Mol格式内容。
MDL Mol File
5 4 0 0 0 0 0 0 0 0999 V2000
1.7857 0.0000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0
0.4214 0.0000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
2.3214 0.0000 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0
1.7857 0.0000 0.0000 H 0 0 0 0 0 0 0 0 0 0 0 0
2.3214 0.0000 0.0000 H 0 0 0 0 0 0 0 0 0 0 0 0
1 2 1 0
2 3 2 0
2 4 1 0
3 5 1 0
M END
标题:MDL Mol File 表明这是一个由MDL软件创建的MOL文件。
计数:5 4 0 0 0 0 0 0 0 0999 V2000 表示这个分子有5个原子、4个键,后面跟着的是一些附加信息,如0表示没有立体化学信息,999表示这是一个V2000格式的文件。
原子块:接下来的5行描述了每个原子的坐标和类型。每行代表一个原子,包含以下信息:x坐标;y坐标;z坐标;原子类型(C表示碳,O表示氧,H表示氢);其他占位符,通常用于存储额外的属性或用于软件特定的信息。
键块:1 2 1 0 和 2 3 2 0 以及 2 4 1 0 和 3 5 1 0 描述了原子之间的键。每个键用四个数字表示:第一个原子的索引;第二个原子的索引;键的类型(1表示单键,2表示双键);键的立体化学(0表示没有立体化学信息)
结束:M END 表示文件的结束。
一个Mol文件一般只包含一个小分子。当多个分子甚至成千上万个分子需要存储时,则可采用Sdf (Structure Data File)文件。
事实上Sdf文件是多个MoI文件累加在一起,各分子之间用四个“$”符号隔开,即在“M END”之后加上一行“$$$$”。
Sdf文件还有一个好处是可以添加分子的相关数据或信息,比如分子的供应商名称、分子的识别号码、分子的clogP值、分子量等,这些信息以如下形式输入,放在成键信息之后,“M END”行之前。
4.2 PDB格式
PDB文件格式最初由美国布鲁克海文国家实验室(Brookhaven National Laboratory)制定。该实验室在蛋白质数据库(Protein Data Bank,简称PDB)的构建中扮演了关键角色,因此开发了这种文本文件格式来详细描述数据库中生物大分子的三维结构。
这种格式的文件以“PDB”作为扩展名,它不仅记录了蛋白质和其他生物大分子的空间结构,还包含了相关的生物学信息,成为了生物信息学和结构生物学研究中不可或缺的数据资源。
值得一提的是,殷赋云在线平台提供了便捷的PDB结构处理服务🔍,用户可以免费且高效地利用这一资源,进一步推动科研工作的进展。
05 分子文件格式转换
由于分子信息处理时,通常需要多个程序依次完成,这就涉及不同文件格式之间的转换问题。殷赋云平台提供免费的在线服务可以完成这种转换。
随着计算能力的提高和算法的改进,分子模拟技术将在未来发挥更加重要的作用。它将不仅帮助我们更好地理解复杂的生物化学过程,还将在新药发现和材料设计中发挥关键作用。
此外,分子模拟的可视化工具将使得非专业人士也能够直观地理解分子层面的复杂现象。