端午安康

今天转录学习第三天，开始进入实战的第一步----数据查找和下载

今天要被自己蠢哭了，自己挖坑自己跳，还给自己埋了2个多小时，真的不夸张，要被自己气死了！

走起！！！

数据从哪里来？

如果我们想利用已发表的数据进行分析和数据挖掘，首先第一步要找到和你做的方向相关的文献，然后在文献中寻找其公开数据的Accession ID；
实战文献为：RNA-Seq Transcriptome Profiling Identifies CRISPLD2 as a Glucocorticoid Responsive Gene that Modulates Cytokine Function in Airway Smooth Muscle Cells。
一般Accession ID会写在每篇文章的材料方法中，请仔细查找，关于GEO数据库，其数据存放分为四种类型：GSE，GSM，GPL，GDS
-GSE：将整个项目的一系列样本和平台关联起来，比如GSE17708（都是GSE+数字）
GSE=GPL+GSM
-GSM：对应一个样本的数据，只能对应一个平台，表示每个样本操作环境
-GPL：平台信息，包含微阵列或测序平台简要描述（GPL+数字）
-GDS：同一个平台的数据集
关于数据库详细的内容请参考小泽优秀作品：生物数据库ID，让我深入了解你

GEO数据库官网：官网 GEO官网

GEO首页

输入GSExxxxx后如下图，同时该页面的网址也可以作为快速查找GSExxxxx的快捷页面，只需要修改后面的数字为你目标数字即可

快速查找：(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE17708)

此页面有实验材料，方法等一些列关于实验组分的内容，可以帮你快速了解这篇文章数据结构。接下来我们将页面下拉，如下图

寻找SRA，得到SRPxxxxx

对于这篇文章的GSE ID如下图，基于以上步骤通过这篇GSE_ID最终可以得到SRPxxxxx

GSE

停！

说明：不是所有的文章都是以asscession GSExxxxx在文章中呈现，
如这篇： RNA-Seq Transcriptome Profiling of Upland Cotton (Gossypium hirsutum L.) Root Tissue under Water-Deficit Stress

PRJNA

搞什么事情和之前说的不一样，那么我们就将这个号输入到NCBI中最终也将得到SRPxxxxx，与其说我们在某个文章中找GSExxxxx或是什么其他的ID，倒不如我们找一句描述内容：Read count data was deposited或The RNA-seq data is available at the这一类表示数据已公开的ID就ok啦。另外！更说白了，我们最终就是要找SRPxxxxx。
-SRA：Short Read Archive
它的内容主要包括了原始数据、实验项目、实验设计、测序平台、样本数据等信息，同时具有一定的结构：
第一级：课题Studies：用SRP表示实验项目，一般一个study会包括多个experiments；
第二级：样本Samples：用SRS表示生物原材料的信息，每一个样本都有自己的属性；
第三级：实验Experiments：用SRX表示数据是怎么产生的，包括特定样本的测序文库信息；
第四级：数据Run：用SRR表示利用某种测序手段得到的原始数据。

找到SRPxxxxx后我们点击进去，这里存储了整个研究项目的各种信息，可以看到用的什么测序仪，多少run，数据量多少。为了更进一步去了解每个特定的SRR信息，我们要把它们导出(按箭头提示操作)：啥是run，我理解的就是Samples数，这篇文章ck组+处理组+生物学重复共有16个样本

1-4操作

随后如下图：

第一篇文章呈现结果

该图里面呈现了PRJNA_ID，Illumina HiSeq 2000，CDS，PAIRED，Tissue，SRA，数据大小等信息，并且展现了16 Runs，那这16 Runs都是什么呢，请回上面快速查找页面查看。

第二篇文献呈现结果

除了第一篇文章呈现的结果外，还包含了上面所说的SRP，SRA，SRA，SRX信息。

好啦，要开始下载数据啦，选择你要分析的组下载喽！！！

Accession List

点击Accession List后下载成为txt文件，但这里建议：
Windows推荐notepad++：https://notepad-plus-plus.org/
mac推荐sublime：https://www.sublimetext.com/

notepad++

太好啦！数据下好了，走咱去linux下玩去

-创建项目目录

前面已经建立好rnaseq项目目录
mkdir -p $HOME/rnaseq/{raw,clean,ref,qc,align,count,script}

-将下载SRRxxxx复制粘贴到linux中，使用cat命令

cat >ssr.ids
SRR1039521
SRR1039520
SRR1039517
SRR1039516
SRR1039513
SRR1039512
SRR1039509
SRR1039508
###新一行 Ctrl+c
###建立好后看看一样不
cat ssr.ids

-开始下载数据

使用conda，使用方法请回看学习小组Day3笔记--善良土豆

conda config --remove-key channels # 可以选择性忽略
conda config --add channels r 
conda config --add channels conda-forge 
conda config --add channels bioconda

然后创建一个专属rnaseq的分析环境，然后安装工具包sra-tools，使用这个工具包中的prefetch软件下载数据，最后激活环境，查看prefetch软件是否安装成功

conda create -n rnaseq python=2 sra-tools -y
# 创建好后激活
conda activate rnaseq ####如果激活失败，请用source activate rnaseq
# 测试一下prefetch是否可以使用
prefetch --help#出帮助文档即可，出来就是成功

prefetch直接加上上面下好的SRR号就可以直接下载数据喽！

但是这种方法下载速度咋那么慢呢，那咱就想办法让它提速！

请继续学习小泽又一优秀作品来吧，加速你的下载

wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
#安装
bash aspera-connect-3.7.4.147727-linux-64.sh
# 然后cd到根目录下看看是不是存在了.aspera文件夹，有的话表示安装成功
cd && ls -a
# 将aspera软件加入环境变量，并激活
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
# 最后检查ascp是不是能用了
ascp --help

ascp安装成功后，prefetch就会默认将下载方式从https转移到fasp，说明开启加速模式

via fasp

我们可以这样一步一步的下完每一个数据，但是这样好麻烦，那么我们继续提升便捷方法，循环

cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done

while循环，标准写法就是while read ...;do ...;done

如果我们担心中间出现一次服务器掉线，下载就会中断。为了避免这种情况导致的数据不完整，我们可以将任务放到后台，方法如下：

一是：使用nohup 加上面的那一行命令，然后结尾加一个&

nohup cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done &amp

二是：直接运行那一行命令，然后先手动ctrl + z 将任务挂起，然后输入bg 1 ，即运行刚刚挂起的程序

 cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done
 Ctrl + z
 bg 1

哦，对了，差点忘记，小泽推荐文献下载网站：

https://sci-hub.tw/10.1371/journal.pone.0099625，其实这个网站之前有关注过，我只是在有的资源下不下来的时候才会用它解决，很不错！！

sci_hub

今天先到这吧，我还有数据没下下来呢，明早要早起去下数据，今天的坑就在于觉得自己行了，echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc加粗记住你了，搞错了，当发现问题时，先自己研究一下，实在研究不明白，全部重头来，就会找到问题！晚安，导图也明天弄

生信星球转录组培训第一期Day3--善良土豆