在现代药物研发与化学研究中,化学数据库已成为不可或缺的重要工具,能够显著提升科研效率。基于研究人员构建的各类数据库,可以极大减少我们查阅和总结文献的时间与精力,实现“一站式”获取所需信息,从而有效加速科研进程。本文整理了几个常用化学领域的数据库,主要包括:摩熵化学、Chemspace、ChEMBL、ChemSpider和MatAid。接下来将详细介绍这五大数据库的检索方式、特点及功能使用,希望能够为相关领域的研究者提供实用参考与帮助。
01 摩熵化学:综合型化学数据库
摩熵化学数据库(https://chem.molaid.com)是针对化学家设计的化合物检索及智能合成分析工具,是一个国产化学数据库,旨在为化学研究提供高质量的检索服务。该数据库收录了海量的化合物信息、化学反应数据、物化性质数据、谱图数据、晶体信息数据、安全信息数据和商品信息数据,覆盖了化学研究的多个方面。
检索方式:化合物检索功能支持多种检索方式,包括化合物名称、分子式、CAS号、InChI、InChIKey等标识符检索,也支持结构式检索(精确结构检索、子结构检索、相似性结构检索)。

反应信息查询,这个算是摩熵化学数据库的一项特色功能,可通过一键检索快速获取相关化合物的反应信息,并支持按产物、反应物、产率等条件对结果进行二次筛选。该数据库的数据源自文献与专利,且能够追溯至原始文献。个人觉得这个功能很赞!

该平台的反应检索功能,支持定义多个物质的角色(反应物、产物、试剂、溶剂、催化剂等),快速找到目标反应方法。平台还提供逆合成分析功能,从目标分子出发,逆向推导可能的合成路径和原料。

摩熵化学拥有丰富的谱图数据库(含氢谱、碳谱、红外光谱、质谱、拉曼光谱),并提供强大的交互分析体验。我们可以悬停查看峰位数据,并且可以一键下载数据方便作图。为未知结构解析、化合物结构判断提供了专业的事实依据。更具备独特的谱图反向检索与谱图预测能力,能够更精准的确认物质结构,显著提升未知物解析与实验结果验证的效率和准确性。

摩熵化学收录100万条晶体信息,可查看晶体晶胞参数以及参考文献。更酷的是,我们可以在线查看和编辑晶体的3D结构图,并在调整参数后导出。

02 Chemspace:化合物检索与采购平台
Chemspace是一个搜索和订购小分子的开放平台:商品试剂、构建块和筛选化合物,这是早期药物发现研究和药物化学项目所需要的。Chemspace是世界上最大的小分子和生物制品在线目录,它整合了全球众多供应商的资源,目前在全球拥有130多家供应商,包括 Enamine、BLD Pharmatech、PharmaBlock Sciences 和 UORSY 等,拥有超过44亿种独特的小分子结构和超过50万种生物制品(抗体、肽和蛋白质以及生物制品试剂盒)的汇总目录,为药物研发、化学合成等领域的科研人员提供高效、便捷的化合物检索与采购服务。
除了支持分子搜索、筛选和对接操作,Chemspace还提供生物活性数据、分子砌块信息与采购流程等一体化服务,显著简化药物研发中的分子筛选与合成路径规划流程。其核心优势在于先进的虚拟合成与筛选功能,为药物研发工作提供高效、全面的技术支持。
Chemspace有一个化学结构绘图工具和一个具有不同高级过滤选项的复杂搜索模块。

可以按化学结构(精确匹配、子结构和相似性)、CAS号、MFCD号、smiles和InChIkey等浏览目录。Chemspace目录通过punchout与客户端ERP集成以及通过API与客户端应用程序(即KNIME、DataWarrior)提供。

产品被分为库存分子砌块,筛选分子,按需定制化合物等多种类型,并可按需筛选价格、分子量、规格、供应商等。

Chemspace提供多样性的多种化合物集,包括具有特定物理化学特征或性质的分子,如片段类(fragment-like)、先导类(lead-like),或者用于靶向一类生物靶标(如激酶)或某个特定蛋白(如 DYRK1A)。可将这些化合物库以SD文件格式下载,并能够基于相似性搜索或虚拟筛选的结果,灵活选取任意数量的化合物进行后续研究。

03 ChEMBL:生物活性数据库
ChEMBL是由欧洲生物信息研究所(EBI)与欧洲分子生物学实验室(EMBL)共同开发的一个专注于类药分子生物活性的专业数据库。数据来自主流药物化学杂志上发表的文献,以及 PubChem 生物活性数据和 BindingDB 的靶标,小分子结合数据等。内容包含了临床实验药物和批准药物的治疗靶标和适应症,大量类药化合物的生物活性、靶点结合、功能和ADMET 信息,获取这些数据可以进行多种类型的药物发现分析和决策。ChEMBL数据库规模庞大且持续增长,目前包含:2,496,335个化合物、21,123,501个活性数据和92,121文献等。

ChEMBL提供简单检索和高级检索选项,简单检索可输入药物名称,化合物名称,SMILES,靶点名称等;高级检索有三种模式,化合物检提供绘制结构,选择相似度进行筛选,蛋白质通过输入序列进行检索,也可以通过ChEMBL ID进行检索。

例如输入以“aspirin”为例,在搜索框内输入化合物名称。出现相关的化合物,左边有筛选框,罗列了检索到的该化合物各种特性的统计,包括分子类型(Type)、最大临床试验期(Max Phase)、违反五条规则的次数(#RO5 violations)、分子量(Molecular Weight)等内容,并且允许用户通过点击相应的数值浏览给定范围内的原始数据子集。

点击某一化合物名字,可查看该化合物的详细内容。

04 ChemSpider:化学结构搜索引擎
ChemSpider是由英国皇家化学会(RSC)运营的一个化学物质数据库,提供数百万种化学结构式,并整合了多项在线服务。该数据库规模庞大且持续扩展,目前涵盖超过1.29亿种化学结构,汇聚了来自278个不同的数据来源,丰富的物理化学性质数据,多种光谱数据(如核磁共振、红外、质谱等),供应商和商业可得性信息,文献引用和专利信息。
ChemSpider的数据来源广泛,涵盖学术机构、政府组织、化学品供应商、制药公司及其他公共数据库。目前已整合的信息包括海洋天然产物、ACD/Labs化学数据库、美国环保署(EPA)的DSSTox数据库,以及多家供应商提供的一系列化学物质信息。

检索方式:
标准查询方式包括系统名称、商业名称和同义词、登记号查询。
高级查询方式提供互动式搜索,通过化合物结构、化合物子结构,分子式以及分子量、CAS编号、供应商等进行高级搜索。还可以对搜索得到的结果进行进一进步的筛选以限定更小的搜寻范围。
ChemSpider还提供以iOS软件应用(iPhone/iPod/iPad)为平台的移动设备搜索,同时也支持安卓系统。

05 MatAid:化学相图数据库
摩熵相图MatAid是一个专门针对相图检索的数据库。平台检索模块涵盖40000+文献来源相图,完美覆盖常用金属、陶瓷、无机材料等体系。拥有合金相图、陶瓷相图、晶体信息等专业数据,包含来自材料科学、化学、物理学和工程学领域所有主要的多源整合数据。
MatAid相图数据库支持组元字符串、元素周期表检索查询方式。在检索输入框中输入以‘-’分割的元素字符串,或直接在元素周期表中通过点击的方式选择元素组合等方式进行相图查询。例如直接输入“Al-Mg”或在元素周期表选择“Al Mg”。


相图检索内容包括基本信息、来源信息、晶体系统信息、转变信息。我们可以点击相图放大查看;可显示鼠标所在位置的元素含量,单击可记录当前点的元素组成。

可查看3D晶体结构信息,鼠标左键可拖动3D晶体模型,滚轮可进行缩放。点击查看更多可跳转到晶体信息详情页,其包括3D结构、基本信息、晶胞参数、来源信息、原子坐标、试验细节等内容。

总之,这些数据库各有特色,满足着科研过程中不同维度的需求。对于化学家而言,最明智的策略是打破对单一数据库的依赖,根据具体研究任务的目标、阶段和需求,灵活选择、搭配使用不同类型的数据库工具。