中午看到了李沐大佬的《工作五年反思》,马上要从百度离职去腾讯了,突然也想记录一下我在百度这半年来的实习生活。
2020年11.18 我来到百度视觉技术部,一直干到2021年5月份。这期间我主要负责计算机视觉相关的研究工作,具体方向为分割相关的多任务学习。非常幸运,实习结束有了自己的第一篇一作顶会。半年时间过的很快,过程中也有了一些收获,遂在这里分享。
踏实做人,低调做事
初到百度,我还记得自己无论对人还是对事都显得自己好像无所不能一样。但其实部门里每一位同事懂得知识都远比自己多得多。这种时候就应该学会低调,不会就问,虚心请教。自己是来学习的,而不是来炫耀的。
科研没有想象中的那么简单
之前自己都是帮师哥们干干杂活,从来没有亲自做成功过一篇文章。真正开始做才会发现,科研并不是想出一个idea就能发文章。这个idea创新点够不够,idea 是否work,idea能否包装,你能否通过paper把你的idea有效的传递出来,rebuttle时你是否能够以较短的篇幅表达你的意思。这个过程中每一个都很困难。除了基本的代码能力以外,快速阅读文献,保持良好的科研嗅觉,会议投稿经验都非常重要。非常感谢我的上海mentor,有很多顶会的经验,让我少走了很多弯路,少做了很多无效实验。也非常感谢北京的mentor,让我知道踏实写出来代码比什么都重要。
工作并不会带来太大的提升,私底下的思考和学习才会
必要的摸鱼是必要的,有时候提前完成了工作不要说出来,这样才会给自己一些喘口气的时间。
代码检查、管理与版本控制很重要
论文投稿前一个月,我的很大一部分时间并不是在写论文,而是在反复跑之前已经跑过的实验。主要原因是因为我发现之前很多实验要么是代码写错了,要么是正向实验的模型丢了。我犯了太多次这样的错误,也让自己非常自责。
事实上,做实验时一些负向的实验记录下指标之后删除掉就行了,只维护最新版本和重要版本代码,留着他们只会占用空间和喧宾夺主。
另外删除也不能用rm命令,而是建一个delete文件夹,把要删除的文件mv到delete文件下,再定期删除。同时要有一个表格随时记录自己做过的实验名称,代码位置。
同时,写完代码后一定要check一下,代码是不是对的。一小会的检查时间会大幅度减少做实验的时间成本。
实验正向重要,负向后的分析也很重要
一开始跑实验,mentor给了我很多idea让我尝试,我基本没有一个做work的,同时这些实验也都是看到负向之后就不管了,也不去分析原因。但是mentor就会帮我分析原因:为什么负向,是实现的方式不对,是模块加的位置不对,还是参数没调好,还是这个东西对网络造成了意想不到的影响等等很多原因。很多时候更深一步的思考,会带来意想不到的效果。
idea有的来自于经验和论文 ,有的来自于对结果的分析
这一点和上一条密不可分,之前总觉得idea是看论文得到的,但是实习中发现,事情并没有那么简单。例如,有时候实验做完是负向的,要分析结果图为什么负向,bad case都有哪些,能够通过什么改进消除bad case,这些改进很有可能就是你的idea。
写paper首先追求能够将逻辑讲清楚,之后再包装
略
对于不会的东西,不能只是追求会用,还要追究本质原因
实习时很多东西都不会,最简单的如何在latex上敲公式我都不会,对于这种事情,最开始时我只是直接搜怎么敲就行了,但事实上这种方式一开始可行。到后期敲复杂的公式的时候,再用这种套路就不行了,必须弄懂敲公式的原理是什么,latex排版的基本规则,这样才能敲出来复杂公式。
类似的还有gumble softmax等等很多其他知识。再正确用完之后,一定要抽空花时间搞懂这些东西。
一件事情别人做起来很简单,对你来说可能很难,需要私底下加班完成
部门每周都会有papershare,每个人分享自己看过的论文。开始时我看大家准备的都很容易,简单看下论文就去讲了。我本以为我也可以,可是后来发现我看论文的功底根本不行,如果只是草率的看了看就去讲很容易就会被大家得提问问倒。这种情况下我只能私底下加班看论文,准备ppt。此类情况还有很多,不要以为别人做起来毫不费力,你就也可以应付过去。没有那个能力就只能老老实实花更多时间完成。
看论文看到能给别人讲明白为止才算看懂
略
看过的论文要有记录
是否开源代码,论文主题思想,按领域脉络记录,方便以后做research时复习。这点是上海的mentor在我离职时告诉我的,她说她读phd时的记录都还能找到,真的很强。
边沟通边思考、逻辑表达很重要
这点是从我小组长身上学到的。每次和小组长交流,我讲半天的东西小组长总能用几句话概括并讲给别人听。而且对于很多论文小组长总是听别人讲一遍就懂了,我一开始不明白这是怎么做到的。后来我才意识到,听别人讲话时边听边问自己问题,把一个个问题解决,这样就能快速汲取别人讲的精华了。这也是小组长在做的事。
还有一个沟通技巧,就是问问题时要实现思考好你的需求,不然就会问了半天别人也不知道你问了些什么。
日报、周报、项目报也许很烦人,但真的有用
做好每日计划,做好记录很重要,没有人会帮你记着你的事。
必要的social 和 connection很重要
刚开始实习时,我以为一些social无用,不如专心提高技术。后来发现,见到领导问个好,多和大家说说话,这些都会成为你以后某一天突然的优势和帮助。比如介绍对象时会想到你(其他人的经验)...
另外,百度真的有很多牛人,很有可能坐你旁边的人citation几百,坐你前面的人发了十几篇顶会。和他们打个招呼、混个脸熟,对以后无论是做学术还是找工作都是很有帮助的。
不要被metor PUA,不要被mentor的威胁恐吓住
略
做好代码记录,整个模型的流程都要记录的一清二楚,一定要保存好模型,保证可复现性
建议phd
剩余内容待更
Update : 2021.6.7 和在京东以及创业公司实习的朋友聊天,增加了一些他们谈到的内容