Francesca Grisoni,Michael Moret,Robin Lingwood,Gisbert Schneider
Journal of Chemical Information and Modeling 2020
if = 4.72
简介
在最近的一项benchmark研究中表明在分子生成模型中,结构越简单的模型最终效果可能越好,和进化、基于规则和基于序列的方法相比,基于SMILES的RNN模型是最好的生成方法。
传统的RNN模型为输入的SMILES数据设置了一个开始符和结束符,模型从开始符开始,到生成结束符结束,从左到右单向地生成字符,这符合自然语言的习惯。但文章认为这一习惯不适应于分子smiles结构,与自然语言不同,分子smiles没有唯一定义的开始和结束,smiles表示可以从任何非氢原子开始并沿着任何方向生成。
文章设计了一个双向神经网络模型BIMODAL作为SMILES字符串生成器,模型设置了一个开始符G,然后在开始符左右两边交替生成字符,直到左右两边都生成了结束符E,这时模型才得到了一个完整的smiles。BIMODAL模型使用了两个LSTM网络,一个处理开始符左侧的smiles序列,一个处理开始符右侧的smiles序列,将两个LSTM网络输出结合起来传入一个全连接网络来产生新的字符。
在训练时,对于每个训练分子会使用多个相同的SMILES字符串,但每个重复包含不同(随机)位置的开始符,这起到了数据增强的效果。
文章的实验表明,使用随机位置开始符的BIMODAL模型在保持较高的唯一性和有效性的同时也能得到较高的新颖性。