2024-03-03
简单问hzj师兄关于其文章和课题:
1、师兄说:
报错说你的precision因分母为0无法计算,看看python读进去的label一列是否为正常的0和1?也有可能读错列了
2、做性质预测最好收集同一种实验方法/动物/标准下的标签值,如果数据里没有某种共性的话就算指标做得很高也难被认可。事实上,"端点"的定义是指定动物的指定实验,最好不要把太杂的数据混一起train及test
3、顺便我想问一下 师兄你写代码心得,我现在就感觉这种因为自己不是经常实践,十分依赖gpt和别人的代码
师兄回答:找个小课题从数据收集开始做就好了
4、训练写代码能力:
①把想实现的功能模块化吧,多写点函数,这样整段代码好写一点
②每个函数实现一个子功能吃进去某信息又输出某信息
③最后把几个函数串联起来可以一口气把原始输入算成想要的输出
5、关于学习python:
有基础语法就行了,接下来总有机会要去碰一些没用过的包(比如sklearn用于机器学习建模,pandas numpy用于表格类型数据操作,还有爬虫的一些包),熟悉pythonic code的写法,这期间会进步很大的
6、hzj师兄说:我们这些性质预测的文章很low,无价值,别浪费时间看
7、ERR alpha激动剂的设计和结构改造
师兄说接近我课题方向:https://github.com/AspirinCode/papers-for-molecular-design-using-DL#structure-based-deep-molecular-generative-models
introduction都写的和科普文差不多的,刚入门可以多读读
之前询问xjh师兄:
我了解到的一些有关设计和结构改造的课题一般都是先建个模型,然后各种方法进行虚拟筛选,比如孙慧敏师姐的这篇毕业论文就是这个思路。
我们实验室李冬萍师姐发过有关ERRα的3篇文章和1篇专利,其中2篇文章是分子动力学研究作用机制的,1篇文章和1篇专利是虚拟筛选得到激动剂的。你可能看过了,这里面对于了解ERRα以及2型糖尿病的背景还是有些帮助的。
我的研究内容也是上面差不多的思路,第一个课题是机器学习方法构建ERRα激动剂的分类模型,第二个是ERRα激动剂的分子生成和多种策略的虚拟筛选,也要解决选择性的问题。
errα这个端点数据量就摆在那儿,深度学习方法我试过一些简单的都不如机器学习。几个博士师兄师姐讲过预训练强化学习啊,多任务啊,元学习啊什么的,这些可能算是比机器学习要新的新方法吧
思路这块匮乏,参考下其他师兄师姐或组的文章,多拓展,这个课题比如网络药理学、深度学习和分子对接、动力学模拟 (就不要和组里面的人重复了)