上篇文章主要讲述了转录组测序的上传与检测完整性,今天的内容是如何远程连接服务器并且查看测序文件的结构。
补充上篇文章
一般做转录组测序都会做三个生物学重复。因为大多数老师都会让学生做重复,就忘记提了。但是为了文章能够完全面对零基础的读者们,还是补充一下比较好。
另外服务器IP的话,我实验室的服务器连接在路由器上,因此我直接查看路由器的设置,看看IP是啥。不知道自己服务器的IP的话,问下实验室管理服务器的人是谁就知道了。
RNA-seq分析流程
转录组测序数据的结构
当成功上传服务器之后,就需要远程连接服务器上进行后续的操作。远程连接的软件有很多,我个人用的远程连接软件是MobaXterm(https://mobaxterm.mobatek.net/download.html。官方的网站,下载免费版安装即可。我就一直用的免费版的),因此这个软件可以在操作命令行的同时查看当前目录的文件。如下图:
这个是软件。
连接方式:
点击右上角菜单栏下面第一个Session,选择SSH。
Remote host:输入服务器IP。
Specify username :输入你的账号名。我的就输入hsq。
点击下面的OK。
然后出现下面界面(我的账号已经记住了密码,直接会进入命令行,下面的账号名叫qmh),让你输入密码。输入时界面是不会显示任何字符(防止他人看到),正常输入即可,回车就进入命令行模式。成功连接服务器。
转录组测序数据查看
首先服务器都是linux系统,跟平时用的windows电脑不一样,切换文件夹不能使用鼠标。Linux切换命令行是cd。下图是我的主界面:
我的转录组测序在zhanshi这个文件夹中,我就输入cd zhanshi/。(cd后面是有个空格)
回车就进入zhanshi这个文件夹中,想回到上一级目录,就输入cd .. (两个点)。
更多关于相关的cd命令,百度一看就懂。
(小技巧:如果当前目录只有一个zhan开头的文件夹,输入cd zhan时直接按下TAB键,会自动补全。若只有仅一个z开头的,输入cd z时直接按下TAB键即可)
测序数据主要是fq.gz的压缩文件。在Linux下,我一般查看文件的方式是cat 文件名|less -S(cat与less后各有一个空格),然后方向键上下左右看文件。如果想返回命令行,就按下q。而压缩文件一般使用zcat。比如我想查看s1_1.clean.fq.gz这个文件,就输入zcat s1_1.clean.fq.gz |less -S
就会显示下图。
测序文件中以4行文本作为一个reads的信息。
第一行:表示reads的ID名。
第二行:reads的序列,即(ATGC)。
第三行:+号(一般不管)。
第四行:reads的碱基质量。
我只关注第二行与第四行(一个碱基对应一个质量值,因此第二行与第四行的字母数完全相等)。
第二行是测序的碱基,这个没什么说的,是啥就是啥。
第四行是测序碱基的质量(即这个碱基测序准不准),用ACSII码表示。
关于第四行的碱基质量转换有点复杂。我只做简单说明,如果一个碱基出错的概率是0.001,那对应的Q值Q=-10log10(0.001)=30,如果测序质量值的体系是phred33,那在第四行的字母就是(30+33)对应的ACSII码为“?”。如果一个碱基出错的概率是0.01,Q值就是20,第四行的字母就是(20+33)对应的ACSII码为“5”。
目前高通量测序reads质量值有phred33体系和phred64体系(不同的测序公司不用的体系,大部分都是phred33),如何查看哪种体系使用如下命令。
zcat s1_1.clean.fq.gz | head -1000 | awk '{if(NR%4==0) printf("%s",$0);}' | od -A n -t u1 | awk 'BEGIN{min=100;max=0;}{for(i=1;i<=nf;i++) i="">max) max=$i; if($i73 && min>=64) print "Phred+64"; else if(min>=59 && min<64 max="">73) print "Solexa+64"; else print "Unknown score encoding!";}'
第三行显示是phred33体系。我目前见过的测序数据中(DNA重测序,转录组测序,甲基化测序)全部都是phred33体系。
关于介绍这个phred33体系的目的是:后续去除碱基时,软件需要选择是phred33还是phred64,所以就简单介绍下并且分享检测体系的代码。
一些题外话
首先关于下载软件与代码分享,一些官网的软件我仅仅放网站,大家稍微看下就能够下载,安装时不要不要不要选择C盘(只有R语言的软件我会安装在C盘),剩下的就是下一步下一步就可安装。一些不好下载的软件我会分享给大家。
我自己用的代码会直接放在文章中,大家都可以直接使用。关于学习代码部分来说,今天用的zcat s1_1.clean.fq.gz |less -S这个命令来说,我只简单介绍了一下zcat,但是后面的竖线与less -S我并没有介绍(|:管道操作符,可以将|前的内容直接输入后less中,而less -S表示将内容进行单行展示,如果输入less -SN会同时展示行数),可以直接输入zcat s1_1.clean.fq.gz,看看会怎么样(屏幕会不断刷新内容,这时按Ctrl+C 就会终止)。以后如果没有介绍|与less -S这种类似的代码含义,大家可以直接百度查看。而我会展示我自己的习惯(我查看文件一般都是用cat 文本名|less -S 或者 zcat 文本名|less -S)。因为我也不可能把所有的命令参数介绍完,只介绍我个人的习惯就可以了。
本节先介绍到这里,下节会介绍如何安装生物数据分析的软件以及fastqc软件检测测序文件。fastqc检测测序文件本节并没有介绍,因为忘了还需要告诉你们如何安装软件。