本篇文章主要站在你是分析数据者的角度来讲解,一些测序建库的原理与操作我只做简要说明,甚至一笔带过。关于更多详细内容大家都可以百度了解。主要的篇幅是从公司拿到双端测序的fq.gz后的故事。
准备:一台服务器,参考基因组,基因注释文件。
RNA-seq简介
转录组测序数据产生(简述)
将表型特异的组织提取RNA,然后送到测序公司,经过质检合格后,公司为RNA加接头,PCR富集,开始在仪器中测序。数据下机,发到客户手里。
转录组测序数据量与下机数据(简述)
不同物种的基因数量与大小都不尽相同,因此具体情况具体分析,可以跟导师商量讨论后在做决定。以我所在的实验室为例,二倍森林草莓基因组220M,共计大约34000个基因,一个样品测序数据量选择6G(这里的数据量指的是原始数据中碱基的数量,不是文件大小)。另外,测序策略一般都是选择双端测序,建库类型选择真核普通转录组文库。若注释基因组,则选择真核链特异性文库(此文库以后的文章会讲)。
公司的下机数据都是rawdata形式的,这是最原始数据,其中包含一些质量不好的碱基,并且还有接头序列。一般会让公司做去除接头并且去除质量不好的reads,拿到cleandata数据,做这个操作好像一个样加10块(这几天送样做三代测序和二代基因组重测序,公司告诉我这个操作不要钱,都是直接给客户cleandata)。总之,我实验室的其他人都是直接告诉公司要cleandata。Rawdata自己也要保存一份。并且公司还有给一个md5.txt之类的文本(文件很重要,检查文件的完整性)。
测序数据上传到服务器
我个人一直用Xftp7(https://www.xshellcn.com/xiazai.html)上传数据到服务器中,填写信息后就会把软件发到邮箱中,下载安装即可。安装后,点击右上角文件,新建。
名称:自己随便设置
主机:填写服务器IP。
方法:选择Password。
用户名与密码:填写你在服务器下的账户名与密码即可。
连接成功后,如下图。
两边都可以互相传输,用鼠标选择文件与要传输到的文件夹,右击传输即可。
检查文件的完整性
首先第一步先检查文件是不是完整的。因为可能在下载文件的过程中断网,电脑死机黑屏导致文件没有下载完全,但是没有消息提示你,因此必须检验文件是否完整。
举例:
这是公司给我的一个样品双端测序的文件,并且还有一个md5.txt文本。
hsq_md3.txt内容如下:
第二列是检验的文件名,第一列是文件对应的”数字密码”,检测时,如果能对应上第一列的数字,则文件完整。检测时,文件与md5.txt文本必须在同一目录下。
命令:md5sum-c hsq_md5.txt
结果如下:两个OK,表示文件完整。
我将s1_1.clean.fq.gz提取前1000行,文件名设置一样。结果如下:
可以看到s1_1.clean.fq.gz显示FAILED,说明文件不完整。
本节先介绍到这里,下节会介绍如何查看测序文件以及fastqc检测测序文件。
---End---