首先,在文獻中找到了GSE號,在右上角中的GEO accession中輸入,來到了這一個頁面
1. 下載表達矩陣
拉到最後,下載GSExxxxxx_RAW.tar
2. 下載原始數據
找到Relation,這時候會出現三種情況:
1)找到sra
2)找不到sra,但是像下圖一樣出現其他GSE號,看文字描述,點擊RNA-seq的GSE號,最後找到sra
3)根本就沒有sra X_X
在點進GSE號後,還是沒有sra,那就回文獻中仔細看看吧,有可能根本就沒有
附上我的失敗經驗:在下載GEO數據時遇到的各種問題 - 简书
點擊了sra後就會進入這個頁面
然後就下載了一個csv檔案,如下:
1)利用可以用鏈接下載的軟件(如迅雷):download_path列
下載完成後,會得出一堆以lite.1為結尾的檔案,雖然不是.sra,但不影響下一步用fastq-dump
2)用sra toolkit :第一列
1. conda 環境:可以下載anaconda:Free Download | Anaconda
2. 下載sra toolkit github-ncbi-SRA toolkit
在終端中(單次下載):
conda activate
cd /xxx/xxx/xxx/sratoolkit.3.0.7-mac64/bin #進入解壓後檔案的bin中
./prefetch SRRxxxxx #第一列的號碼
簡單方便快捷的後台下載:
conda activate
cd /xxx/xxx/xxx/GSExxxx #進入檔案的下載路徑
soft= /xxx/xxx/xxx/sratoolkit.3.0.7-mac64/bin/prefetch #sra toolkit的路徑
nohup $soft --option-file prefetch.txt &>sam.txt&
有可能出現 ./prefetch.sh: line 1: 19358 Killed: 9
要到設定---私穩與保案---允許從以下來源下載的應用程式 中強制打開
如果還是不行的話,到/xxx/xxx/xxx/sratoolkit.3.0.7-mac64/bin中,用文字編輯打開prefetch文件強制打開。
等sra下載好後,就要轉為fastq:
首先,在終端中以 ls 獲取目錄下的所有文件名,然後放入txt中,但是這樣會有空格,很麻煩,怎麽辦呢?
把頁面拉一下就行了,只會生成一行一個
用文字編輯器生成一個sra.txt,把檔案名复制進去
***檔案最後一行要再換行,不然無法讀取最後一個檔案名
再用文字編輯器生成一個sra.sh,內容如下所示:
可更改的部分:
第三行 outdir fastq: fastq為輸出文件夾的名稱
第四行 done < sra.txt :sra.txt為上述包含sra檔案名稱的txt
如需.gz ,可以在--split-3後加上 --gzip
while IFS= read -r sra_file
do
nohup fastq-dump --outdir fastq --split-3 "$sra_file" &
done < sra.txt
將sra.txt與sra.sh放到當前目錄下,回到終端中,輸入以下命令為腳本添加可執行權限
chmod +x sra.sh
再輸入以下命令運行腳本就可以了
./sra.sh
***本菜鳥對Linux了解有限,目前有以下問題:
1. 76個樣本中少跑了一個,不知道為什麼
*231025已解決:在最後一行要再換行
有時間我再優化一下(頂鍋逃走