0.写前在前面的话
如题,记录一下从零开始学习AI大模型的过程。
开始这个笔记的缘由,来自Datawhale公众号的文章
作为一个已经工作的苦命人,没有暑假,那就给自己创造一个暑假。说起暑假的标志之一,那就是夏令营。参加个夏令营,就当是过个暑假吧,为这平凡而闷热的时光增添一点乐趣和快乐吧。
看了一眼,跟当前工作最相关的,那就是分子性质预测挑战赛,最近一直想整理一下分子对接的相关内容,被各种事务拖延,趁着这个夏令营,赶紧完成吧。
1.学习方法和规划
1.1 定目标
作为一个半路出家的小白,不仅没有计算机及编程的基础,甚至连很多基本概念都不太懂,所以即使有速通教程,跑完后还是会一脸懵。在这里,我推荐一种入门新学科新领域的方法,那就是从结果倒推。简言之,就是先确定终点,然后从终点一直往起点走。比如这次,我的目标是把分子对接的流程和分子性质预测的内容结合起来。先不要管这个目标能不能实现,先在定个锚点,目标如果不合适,在后续前进过程中再不断调整,胜过一直在起点犹豫不前。
1.2 看教程
Datawhale真的出了个手把手的教程,看着速通教程,连鼠标往哪点都告诉你了,真的是,牵条狗都能跑完。但其实这个教程里还有很多隐藏的内容的彩蛋,多点几下,收获更多。自从进入代码领域,我发现其实很多问题,都可以在开发教程里找到,所以,遇事不决,去教程学。
1.3 去犯错
学习,就是一个犯错和纠错的过程。从错误中学习,尤其是学代码,那一条条报错和每一次的解决报错的过程,就是成长的印迹,也就是所谓的改bug。不要怕出错,大胆去试,遇到不懂的,就反复去看教程。
2.一些小结
2.1 几个常用的平台链接
S1提交结果
S2PP飞桨baseline流程
S3打卡链接
2.2 一些概念
baseline:中文翻译是基础,起点。在大模型中,baseline就是后续升级的基准点,更多内容可以参考机器学习中的baseline。
PROCT:(蛋白水解靶向嵌合体,proteolysis targeting chimeria),是一个双功能分子,由靶蛋白配体和E3泛素连接酶配体通过连接臂相连。PROTAC分子在进入细胞后,其结构中靶向目标蛋白的配体可特异性地与靶蛋白结合,另一端可以募集E3连接酶,形成目标靶蛋白-PROTAC-E3连接酶三元复合物。其中E3连接酶可介导泛素结合酶E2对目标靶蛋白泛素化,经过多轮泛素化后就有了多个泛素标签,三元复合物解离后,多聚泛素化的蛋白会被蛋白酶体识别从而有选择性地降解靶蛋白的水平。PROTAC 技术可用于靶向多种蛋白质,包括转录因子、骨架蛋白、酶和调节蛋白。这项技术从癌症到神经元疾病等不同领域都有应用。
Dmax:最大目标降解水平
DC50:半最大值降解浓度
参考文献:
Zou Y, Ma D, Wang Y. The PROTAC technology in drug development. Cell Biochem Funct. 2019;37(1):21-30. doi:10.1002/cbf.3369
Li K, Crews CM. PROTACs: past, present and future. Chem Soc Rev. 2022;51(12):5214-5236. Published 2022 Jun 20. doi:10.1039/d2cs00193d
最后,带上个tag #ai夏令营#datawhale#夏令营,一起过暑假吧,打工人。