心路历程:
接上篇从CAZy database中爬取数据+多恶心的数据都要坚持清洗,我拿到了一批带有Genbank protein accession的数据,无知的我居然手动在NCBI上搜索gene symbol然后粘到excel里!大概搜了几百个,一上午过去了,中午吃完饭,一边昏昏欲睡一边听着音乐机械的重复劳动,忽然一激灵,为什么我要做这种无聊的工作?
想起上回师兄炫耀说他存在的意义:做湿实验96孔板得到的数据,一条条往excel里粘贴需要半小时,他花十分钟写了个程序实现自动粘贴,就帮全实验室人解决了N个半小时。
Excuse me??? 我是个做生信的啊,为什么我要手动??为什么???
对自己呵呵呵了几声。
于是我爬了谷歌,度娘,又在群里请教了大神,总结了几种方法,按好用顺序排列:
-
https://biodbnet-abcc.ncifcrf.gov/db/db2db.php
最好用的,基本cover常见的任何ID - DAVID
不过听说老旧,于是没有尝试 - 谷歌上有biomaRt的教程,我执着的想用R装一波,尚未成功。
在此感谢小丫画图群中的某同学,不知他是否愿意透露姓名,我就不在此公开了。= =