Phytozome 作为专门收录植物基因组的网站,在基因组数据的下载、查询、可视化浏览等方面做的都很不错。
为了下载整个Phytozome数据库,我先后使用了requests库,json解析器,ElementTree解析器,hashlib库等功能。
实现了自动化下载并解析最新数据库结构,MD5值校验本地文件,下载进度可恢复等功能。
为了方便大家使用,我先奉上我花了两天时间写的代码。
代码后面附上使用方式。
以下代码我已存取至GITHUB,地址为:
最新的为1.2版本,请直接去github取用,解决了老式登录方法无效的问题
https://github.com/liudab/phytozomedownloader
欢迎取用,如果要转发请询问本人。
# -*- coding: utf-8 -*-
"""
Created on Tue Jul 30 20:33:58 2019
@author: Bohan
"""
import requests,json,hashlib,os
from xml.etree import ElementTree
#引入requests。
session = requests.session()
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'
}
#add headers加请求头,前面有说过加请求头是为了模拟浏览器正常的访问,避免被反爬虫。
data={}
data['login']='XXXXXX@XXXXX.com' #这里替换成你自己的账户名Replace this with you ACCOUNTNAME in phytozome.jgi.doe.gov
data['password']='XXXXXXXXXXXXXX' #这里替换成你自己的密码Replace this with you PASSWORD in phytozome.jgi.doe.gov
def sign_in():
url = 'https://signon-old.jgi.doe.gov/signon/create' #把登录的网址赋值给URL sign_in URL
session.post(url, headers=headers, data=data)
cookies_dict = requests.utils.dict_from_cookiejar(session.cookies)
cookies_str = json.dumps(cookies_dict)
f = open('cookies.txt', 'w')
f.write(cookies_str)
f.close()
# 以上7行代码,是登录网站并存储cookies,signin the phytozome and save cookies
def cookies_read():
cookies_txt = open('cookies.txt', 'r')
cookies_dict = json.loads(cookies_txt.read())
cookies = requests.utils.cookiejar_from_dict(cookies_dict)
return (cookies)
# 以上4行代码,是cookies读取,read local cookies
def md5sum(filepath):
fd = open(filepath,"rb")
fcont = fd.read()
fd.close()
fmd5 = str(hashlib.md5(fcont).hexdigest())
return fmd5
#定义一个md5sum函数,返回校验值,def a function md5sum, to check and return md5 value of a certain file
def sdownloadfile(link,filepath,md5):
print('文件:'+link+' 正在下载') #you can use print('file:'+link+' is downloading') as englsih user
downloadfile=session.get(link)
with open(filepath,'wb') as f:
f.write(downloadfile.content)
fmd5=md5sum(filepath)
if fmd5==md5:
print('文件:'+filepath+' 下载并校验成功!') #you can use print('file:'+filepath+' is downloaded and it is intact!') as englsih user
else:
print('文件:'+filepath+' 校验失败!') #you can use print('file:'+filepath+' is failed in md5sum!') as englsih user
#定义一个sdownloadfile函数,从link下载文件,存储到filepath,并利用md5值对下载完成的文件进行MD5校验, download file and check it integrity
def createpath(file_path):
try:
if not os.path.exists(file_path):
print ('文件夹',file_path,'不存在,重新建立') #print ('folder',file_path,'is not exist, created it')
#os.mkdir(file_path)
os.makedirs(file_path)
except IOError as e:
print ('文件操作失败',e) #print ('IOError',e)
except Exception as e:
print ('错误 :',e) #print ('Error',e)
#定义一个createpath函数,检测所在目录是否存在,不存在则建立文件夹,check filedirectory exisit or not, if not create that folder
def getxml():
global fileurl
fileurl=[]
PHYTOALL='Phytozome'
xmldata=session.get('https://genome.jgi.doe.gov/portal/ext-api/downloads/get-directory?organism=Phytozome&organizedByFileType=false')
#输入API指定的版本名称
with open('./'+PHYTOALL+'.xml','wb') as xf:
xf.write(xmldata.content)
#下载对应版本的官方xml文件
xmlDoc = ElementTree.parse('./'+PHYTOALL+'.xml') #读取并使用ElementTree解析PhytozomeV12.xml文件,并命名为xmlDoc
folderl1 = xmlDoc.findall('folder') #使用findall功能找出子一级folder列表
print('目前数据库中有以下版本:\n') #print('The database have these Versions:\n')
number=1
for folderl1x in folderl1: #遍历一级folder列表
print(str(number)+'. '+folderl1x.attrib['name'])
number=number+1
pick=input('请输入你想下载的数据库,用数字表示:\n例如:2 输入后请回车\n') #pick=input('Pleas choose which version you want,input with number:\nFor example:2 After your input,pree Enter.\n')
folderl1name =folderl1[int(pick)-1]
folderl2 = folderl1name.findall('folder') #使用findall功能找出子二级folder列表
folderl2f = folderl1name.findall('file')
for folderl2fname in folderl2f:
folderpathl2 = "./"+ str(folderl1name.get('name'))+ "/"
fileurl.append(folderpathl2)
fileurl.append(folderl2fname.get('filename'))
fileurl.append('https://genome.jgi.doe.gov'+folderl2fname.get('url'))
fileurl.append(folderl2fname.get('md5'))
for folderl2name in folderl2: #遍历二级folder列表
folderl3 = folderl2name.findall('folder') #使用findall功能找出子三级folder列表
folderl3f = folderl2name.findall('file')
for folderl3fname in folderl3f:
folderpathl3 = "./"+ str(folderl1name.get('name'))+"/"+ str(folderl2name.get('name')) + "/"
fileurl.append(folderpathl3)
fileurl.append(folderl3fname.get('filename'))
fileurl.append('https://genome.jgi.doe.gov'+folderl3fname.get('url'))
fileurl.append(folderl3fname.get('md5'))
for folderl3name in folderl3: #遍历三级folder列表
folderl4 = folderl3name.findall('folder') #使用findall功能找出子4级folder列表
folderl4f = folderl3name.findall('file')
for folderl4fname in folderl4f:
folderpathl4 = "./"+ str(folderl1name.get('name'))+"/"+ str(folderl2name.get('name')) + "/" +str(folderl3name.get('name'))+ "/"
fileurl.append(folderpathl4)
fileurl.append(folderl4fname.get('filename'))
fileurl.append('https://genome.jgi.doe.gov'+folderl4fname.get('url'))
fileurl.append(folderl4fname.get('md5'))
for folderl4name in folderl4: #遍历4级folder列表
folderl5 = folderl4name.findall('folder') #使用findall功能找出子5级folder列表
folderl5f = folderl4name.findall('file')
for folderl5fname in folderl5f:
folderpathl5 = "./"+ str(folderl1name.get('name')) + "/" + str(folderl2name.get('name')) + "/" + str(folderl3name.get('name')) + "/"+ str(folderl4name.get('name')) + "/"
fileurl.append(folderpathl5)
fileurl.append(folderl5fname.get('filename'))
fileurl.append('https://genome.jgi.doe.gov'+folderl5fname.get('url'))
fileurl.append(folderl5fname.get('md5'))
file = open("./genome.links","w")
file.write(str(fileurl))
file.close()
return fileurl
#解析官方xml文件,将对应文件名称、路径以及MD5值存取至genom.links文件,格式为列表形式,4个数值循环存储,1路径,2文件名,3URL,4MD5值
def gettasklist():
global tasklist
tasklist={}
for i in range(int(len(fileurl)/4)):
onefilelist=[]
onefilelist.append(fileurl[i*4+2])
onefilelist.append(fileurl[i*4]+fileurl[i*4+1])
onefilelist.append(fileurl[i*4+3])
tasklist[i]=onefilelist
return tasklist
#合并文件路径和文件名,合成tasklist,格式为1URL,2路径+文件名,3MD5值
sign_in() #登录
getxml() #GETXML
gettasklist() #GETtasklist
for i in range(int(len(fileurl)/4)):
createpath(fileurl[i*4]) #解析官方xml文件,在根目录下创建所有子目录
def paralleldownload():
for j in range(int(len(tasklist))):
try:
if md5sum(tasklist[j][1]) != tasklist[j][2]:
sdownloadfile(tasklist[j][0],tasklist[j][1],tasklist[j][2])
print('共计'+str(int(len(tasklist)))+'个文件,'+'目前下载完第'+str(j+1)+'个文件') #print('There are total'+str(int(len(tasklist)))+'files,'+'We are downloading the number:'+str(j+1))
else:
print('第'+str(j+1)+'个文件已存在且与本地文件一致') #print('The No.'+str(j+1)+'file is already existing, and it don't need to be download again')
except FileNotFoundError as e:
sdownloadfile(tasklist[j][0],tasklist[j][1],tasklist[j][2])
print('共计'+str(int(len(tasklist)))+'个文件,'+'目前下载完第'+str(j+1)+'个文件') #print('There are total'+str(int(len(tasklist)))+'files,'+'We are downloading the number:'+str(j+1))
paralleldownload()
如何使用:
1.复制本文第一部分内容所有代码,存为download.py。
2.在以下内容处编辑,加入你自己的账户名和密码。
data={}
data['login']='XXXXXX@XXXXX.com' #这里替换成你自己的账户名Replace this with you ACCOUNTNAME in phytozome.jgi.doe.gov
data['password']='XXXXXXXXXXXXXX' #这里替换成你自己的密码Replace this with you PASSWORD in phytozome.jgi.doe.gov
3.直接输入以下代码,开始运行程序。
python3 download.py
程序运行起来大概是这样的
目前数据库中有以下版本:
1. PhytozomeV9
2. PhytozomeV13
3. PhytozomeV12_unrestricted
4. PhytozomeV12
5. PhytozomeV11
6. PhytozomeV10
请输入你想下载的数据库,用数字表示:
例如:2 输入后请回车
2
第1个文件已存在且与本地文件一致
第2个文件已存在且与本地文件一致
第3个文件已存在且与本地文件一致
第4个文件已存在且与本地文件一致
第5个文件已存在且与本地文件一致
第6个文件已存在且与本地文件一致
第7个文件已存在且与本地文件一致
第8个文件已存在且与本地文件一致
第9个文件已存在且与本地文件一致
第10个文件已存在且与本地文件一致
第11个文件已存在且与本地文件一致
第12个文件已存在且与本地文件一致
第13个文件已存在且与本地文件一致
第14个文件已存在且与本地文件一致
第15个文件已存在且与本地文件一致
第16个文件已存在且与本地文件一致
第17个文件已存在且与本地文件一致
第18个文件已存在且与本地文件一致
第19个文件已存在且与本地文件一致
第20个文件已存在且与本地文件一致
第21个文件已存在且与本地文件一致
文件:https://genome.jgi.doe.gov/portal/ext-api/downloads/get_tape_file?blocking=true&url=/Phytozome/download/_JAMO/5bfc65e246d1e61e989e5784/ZmaysPHB47_513_v1.0.fa.gz 正在下载
文件:./PhytozomeV13/ZmaysPHB47/v1.1/assembly/ZmaysPHB47_513_v1.0.fa.gz 下载并校验成功!
共计2961个文件,目前下载完第22个文件
文件:https://genome.jgi.doe.gov/portal/ext-api/downloads/get_tape_file?blocking=true&url=/Phytozome/download/_JAMO/5bfc65de46d1e61e989e577c/ZmaysPHB47_513_v1.1.transcript_primaryTranscriptOnly.fa.gz 正在下载
文件:./PhytozomeV13/ZmaysPHB47/v1.1/annotation/ZmaysPHB47_513_v1.1.transcript_primaryTranscriptOnly.fa.gz 下载并校验成功!
共计2961个文件,目前下载完第23个文件
文件:https://genome.jgi.doe.gov/portal/ext-api/downloads/get_tape_file?blocking=true&url=/Phytozome/download/_JAMO/5bfc65df46d1e61e989e577e/ZmaysPHB47_513_v1.1.transcript.fa.gz 正在下载
文件:./PhytozomeV13/ZmaysPHB47/v1.1/annotation/ZmaysPHB47_513_v1.1.transcript.fa.gz 下载并校验成功!
共计2961个文件,目前下载完第24个文件
文件:https://genome.jgi.doe.gov/portal/ext-api/downloads/get_tape_file?blocking=true&url=/Phytozome/download/_JAMO/5bfc65dd46d1e61e989e5779/ZmaysPHB47_513_v1.1.repeatmasked_assembly_v1.0.gff3.gz 正在下载
文件:./PhytozomeV13/ZmaysPHB47/v1.1/annotation/ZmaysPHB47_513_v1.1.repeatmasked_assembly_v1.0.gff3.gz 下载并校验成功!
共计2961个文件,目前下载完第25个文件
\
另外,如果你想通过nohup的方式
让我提供的脚本持续在后台运行直到任务完成。
你可以这样做:
1.复制本文第一部分内容所有代码,存为downloadnohup.py。
2.在以下内容处编辑,加入你自己的账户名和密码。
data={}
data['login']='XXXXXX@XXXXX.com' #这里替换成你自己的账户名Replace this with you ACCOUNTNAME in phytozome.jgi.doe.gov
data['password']='XXXXXXXXXXXXXX' #这里替换成你自己的密码Replace this with you PASSWORD in phytozome.jgi.doe.gov
3.在以下内容处编辑,加入你自己选择的数据库版本名称。
本脚本是通过getxml()函数中的pick值来选择的。
因此你需要更改代码中的pick值。
pick=input('请输入你想下载的数据库,用数字表示:\n例如:2 输入后请回车\n')
把上面的代码改成这样:
pick=2
4.直接输入以下代码,开始运行程序。
nohup python3 -u downloadnohup.py &>nohup.out& #后台运行脚本并将屏幕输出实时加入nohup.out文件
5.程序后台运行时,通过查看nohup.out监视进度。
tail -fn 50 nohup.out #查看最近50行输出内容
你大概能看到这样的结果
文件:https://genome.jgi.doe.gov/portal/ext-api/downloads/get_tape_file?blocking=true&url=/Phytozome/download/_JAMO/583cd9997ded5e2d305c36db/ZmaysPH207_443_v1.1.protein.fa.gz 正在下载
文件:./PhytozomeV13/ZmaysPH207/v1.1/annotation/ZmaysPH207_443_v1.1.protein.fa.gz 下载并校验成功!
共计2961个文件,目前下载完第43个文件
文件:https://genome.jgi.doe.gov/portal/ext-api/downloads/get_tape_file?blocking=true&url=/Phytozome/download/_JAMO/583cd9997ded5e2d305c36dc/ZmaysPH207_443_v1.1.gene_exons.gff3.gz 正在下载
文件:./PhytozomeV13/ZmaysPH207/v1.1/annotation/ZmaysPH207_443_v1.1.gene_exons.gff3.gz 下载并校验成功!
共计2961个文件,目前下载完第44个文件
文件:https://genome.jgi.doe.gov/portal/ext-api/downloads/get_tape_file?blocking=true&url=/Phytozome/download/_JAMO/583cd99b7ded5e2d305c36e0/ZmaysPH207_443_v1.1.gene.gff3.gz 正在下载
文件:./PhytozomeV13/ZmaysPH207/v1.1/annotation/ZmaysPH207_443_v1.1.gene.gff3.gz 下载并校验成功!
共计2961个文件,目前下载完第45个文件
文件:https://genome.jgi.doe.gov/portal/ext-api/downloads/get_tape_file?blocking=true&url=/Phytozome/download/_JAMO/58a238d27ded5e341aa7f858/ZmaysPH207_443_v1.1.defline.txt 正在下载
文件:./PhytozomeV13/ZmaysPH207/v1.1/annotation/ZmaysPH207_443_v1.1.defline.txt 下载并校验成功!
共计2961个文件,目前下载完第46个文件
文件:https://genome.jgi.doe.gov/portal/ext-api/downloads/get_tape_file?blocking=true&url=/Phytozome/download/_JAMO/583cd99a7ded5e2d305c36dd/ZmaysPH207_443_v1.1.cds_primaryTranscriptOnly.fa.gz 正在下载
文件:./PhytozomeV13/ZmaysPH207/v1.1/annotation/ZmaysPH207_443_v1.1.cds_primaryTranscriptOnly.fa.gz 下载并校验成功!
共计2961个文件,目前下载完第47个文件
文件:https://genome.jgi.doe.gov/portal/ext-api/downloads/get_tape_file?blocking=true&url=/Phytozome/download/_JAMO/583cd9997ded5e2d305c36da/ZmaysPH207_443_v1.1.cds.fa.gz 正在下载
文件:./PhytozomeV13/ZmaysPH207/v1.1/annotation/ZmaysPH207_443_v1.1.cds.fa.gz 下载并校验成功!
共计2961个文件,目前下载完第48个文件
文件:https://genome.jgi.doe.gov/portal/ext-api/downloads/get_tape_file?blocking=true&url=/Phytozome/download/_JAMO/583cd99a7ded5e2d305c36df/ZmaysPH207_443_v1.1.annotation_info.txt 正在下载
文件:./PhytozomeV13/ZmaysPH207/v1.1/annotation/ZmaysPH207_443_v1.1.annotation_info.txt 下载并校验成功!
共计2961个文件,目前下载完第49个文件
文件:https://genome.jgi.doe.gov/portal/ext-api/downloads/get_tape_file?blocking=true&url=/Phytozome/download/_JAMO/5c01c6de46d1e61e989ea5b1/Zmays_493_RefGen_V4.readme.txt 正在下载
文件:./PhytozomeV13/Zmays/RefGen_V4/Zmays_493_RefGen_V4.readme.txt 下载并校验成功!
共计2961个文件,目前下载完第50个文件
文件:https://genome.jgi.doe.gov/portal/ext-api/downloads/get_tape_file?blocking=true&url=/Phytozome/download/_JAMO/5c01c6de46d1e61e989ea5af/Zmays_493_RefGen_V4.DataReleasePolicy.html 正在下载
文件:./PhytozomeV13/Zmays/RefGen_V4/Zmays_493_RefGen_V4.DataReleasePolicy.html 下载并校验成功!
共计2961个文件,目前下载完第51个文件
文件:https://genome.jgi.doe.gov/portal/ext-api/downloads/get_tape_file?blocking=true&url=/Phytozome/download/_JAMO/5c83121846d1e64ae3ba2bf2/Zmays_493_APGv4.softmasked.fa.gz 正在下载