大家好,现在已经据五月底的生物技能树培训过去一个多月了,不知到大家在重复上课所上内容上有没有遇到问题,遇到问题又是如何去解决的呢?但是我在这个过程中却遇到很多问题,碰到很多坑。相信大家都有过这种体验,在以前上一些数据分析课时,同样的代码复制粘贴都能报错,这也是特别绝望的。我在上课期间感觉遇到的问题远不如下来自己操作碰到的多。再次非常感谢我们生物技能树的崔青美老师,期间遇到好几个问题都是在她的帮助下解决的。以下我就正式讲述我整个遇坑找坑填平坑的经历啦。
一、在自己的新服务器上配置软件
由于之前上课期间很多文件数据和软件都是老师已经共享到我们上课所用服务器上的,所以我在上课时安装软件什么的也基本是一气呵成,并没有遇到特别多的问题,有问题也是直接当场问了厉害的李师兄,哈哈。但是自己私底下在自己租来练手的新的服务器上安装这些软件就遇到问题了。首先就是自己下载这些软件真的特别慢,只有十多kb/s的速度很是让人抓狂。后来我想的办法就是,把老师配给我们服务器上的软件先传输到自己电脑,然后在通过自己电脑上传到我新的服务器上。其实用wget -c 也能下得比较快。老师配给我们的服务器速度是100kb/s左右,和用wget -c的速度差不多,然而不加-c 直接用wget下真的贼慢,反正我电脑告诉我要下3天,或者用迅雷黄金会员下,这个很多时候速度还是很靠谱的!!!!
二、建立hg38的索引
在做mapping时,一个数据库的索引是基础。hg38这个数据有3.05G特别大,网上直接下载很慢,大家要是下载可以参考我上面的建议。
我建的是bowtie2的库,bowtie2 --help 一下我没看懂,就参考的一些博客和视频,他们写的是 bowtie2-build hg38.fa hg38。代码倒是超级简单可是我的系统一直提醒我错了!!这个建库真的折磨我,后来实在没办法了我询问了崔老师,她发了我一个链接https://www.jianshu.com/p/071c1757ded1
bowtie2-build /home/qmcui/database/reference/hg38/hg38.fa hg38 --threads 5 #增加自己的线程,这串建库代码总共运行了6个多小时。
然后就对了。
三、操作中遇到的零碎却致命的问题
1,弄清文件目录
要清楚上课时每串代码下面文件目录里放的什么文件,准确在分析时定位到自己的文件,随时清楚自己现在所在什么文件目录下。如果在分析过程中输入一段代码后系统提示找不到该文件,建议大家直接进入自己文件所在目录下再输入自己的代码,一般就不会错。
2,使用软件时报错逼自己读懂 软件--help
3, 每生成的新文件,最好用zcat 文件名|wc -l 查看是否有内容或者问题
四、在此分享一个我遇到问题后解决问题的过程
在做RNA-seq时,在mapping时我遇到了第一个报错:
问过崔老师后,她提示我在-x后记得加索引前缀,开始我没明白老师的意思,后来查了一些简书和博客才明白。也就是我们建好的索引都有自己的文件名,比如我们hisat2构建好索引后,会产生几个新的文件(如:hg38.1.bt2)索引前缀也就是hg38。以上的代码就需要改成
:-x ./database/index/hg38。
我把改后的代码运行了一次,然后还是报错:
崔老师说提示memory是因为资源不够,我的电脑当时提交了12个线程,电脑资源不够了。于是我关闭了另一边的运行(当时我开了另一个终端占用6个线程构建索引),结果还是报错:
这时老师发了一个链接给我,上课时讲的运到问题的解决过程。我发现其实自己不知不觉中也是这样去寻找自己错误的。无耐基础太薄,还是没法通过这些步骤找到自己的问题。
最后崔老师让我查看自己的对比文件字节。用 zcat 文件名|wc -l 命令
终于发现是自己在上一步过滤数据时,进行了什么不对的操作导致我的2.fq.gz没有内容。最后我重新运行了上一步的代码之后一切就正常了。
总之,在每新生成一个文件后一定要及时用ls -ltrh查看文件进程,不然上一步的问题在下一步找真的特别头痛!!
当遇到报错时不要太紧张,不要隔好几天,甚至十天半个月也不想碰代码。遇到报错,按照老师讲的自己排除错误,实在还错等一天,再来处理,有可能时网速问题,或者去咨询一下专业的朋友或者老师。一定要学懂!!下面的查错的链接附上https://www.jianshu.com/p/2aecf90bf1f3
写到最后:其实我自己开始没有用培训时老师所用的hisat2,而是bowtie2,
我忽略了前者是对比RNA,后者对比DNA。自己的数据是RNA我却用bowtie2,对比出来只有四百多点,哎!hisat2对比出来有上万呢!!所以大家一定要正确了解每个软件的用途,不要像我牛头对马嘴,哈哈哈!!
我在老师培训时的服务器上运行的是老师ppt上的,基本未改一字,也没有出现过错误,然而自己的服务器上却频频出错,眼泪流下来。
我在用数据做hisat2对比的时候其实也报错了,自己改了一下代码,做了尝试但是一直提示:
希望有清楚的老师提点一下。感谢!
最后再次感谢崔老师,生物技能树的所有老师,以及参加培训过程中遇到的每一个朋友,我过去是个小白,到现在还算进门;从遇到错误一筹莫展,到现在自己不仅能解决自己的问题,也能为朋友解决一些问题。我感到自己有比较大的进步。谢谢大家!!