问题描述:使用wget下载GEO数据_weixin_43551076的博客-CSDN博客
本来打算下载一点GEO的单细胞数据(直接得到表达矩阵而非原始数据),但是复制了http链接后wget却无法下载?
我固然可以逐个点开GSM文件下载ftp,但这未免也太麻烦了吧?
我尝试改写http的格式:
- 先观察wget可下载的文件链接的格式
# RAW文件给出的链接,wget无法下载,但是点击该链接可以实现网页下载
https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE156441&format=file
# GSM文件给出的可以用wget下载的链接
https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSM4731566&format=file&file=GSM4731566%5FMTXDBA1%5F2rps%5FcountsMatrix%2Etxt%2Egz
https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSM4731562&format=file&file=GSM4731562%5FMTXBP04rpl%5FcountsMatrix%2Etxt%2Egz
https://ftp.ncbi.nlm.nih.gov/geo/samples/GSM4731nnn/GSM4731566/suppl/GSM4731566_MTXDBA1_2rps_countsMatrix.txt.gz
https://ftp.ncbi.nlm.nih.gov/geo/samples/GSM4731nnn/GSM4731562/suppl/GSM4731562_MTXBP04rpl_countsMatrix.txt.gz
我的改写:
Samples (GSM)
Series (GSE)
https://ftp.ncbi.nlm.nih.gov/geo/series/GSE15nnn/GSE156441_RAW.tar
运行失败,仔细查看
erythropoiesis - GEO DataSets - NCBI (nih.gov)
点击Download data
可以查看GEO文件的各种组织形式
下载.soft文件可以找到series的下载地址
ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE156nnn/GSE156441/suppl/GSE156441_RAW.tar
#运行wget
wget ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE156nnn/GSE156441/suppl/GSE156441_RAW.tar
下载成功