2023-6-13更新
太大的数据还是放弃下载吧
几个月过去,本来以为pyega3不行的话ascp肯定行
结果43T下载下来17T,c4gh解码失败了一半
有这些时间干点啥不好,裂开
3个月前完全没有想到会这么坎坷 -_- |||
查找数据集ID
一般在文章Methods或者Data Availability部分
申请数据
在EGA官网搜索栏输入数据集ID,就会看到这样的界面
给红框里这个联系人邮箱发邮件申请就可以,感觉一般是模板回复,甚至有一次周末给我秒回我整个人惊呆
邮件格式可以参考这个
准备材料
回复邮件里都会要求提供使用者(必须是PI,研究生不配独立申请哈哈哈)和机构负责人(我找的医院院长)签名的Data Access Agreement文件,协议内容大概就是保密啊不卖原始数据啊之类的(我走院长签名OA审批的时候还要我把协议全文翻译成中文真是服了,都是些法律相关术语,难道不应该行政科室的人更熟悉么-_- |||)
另外有的数据集会要求提供所有使用者的姓名职位邮箱电话,有的会要求提供一个固定公网IP用来接收数据,可能还有更奇葩的我没遇到
关于这个固定IP,我最后自费斥巨资500块在华为租了个弹性IP+云服务器解决
其实淘宝也有十几块的国内固定IP可以租,但毕竟是人遗相关,数据量又大,我就还是找了靠谱点的,免得到处出bug误事
回信求数据
常规下载
首先介绍一个大部分EGA数据集都在用的流程:
但是不要高兴得太早,我等了2天都没收到所谓的initial login details邮件(不是说好up to 24小时嘛),并且当我按照指示点进forget password链接,它完全就没任何反应,聪明的我立马猜到肯定是谷歌人机识别被墙了无法显示,但是我的梯子已经半年多无法使用,好不容易求到能用的梯子,我就收到这个报错
这就让我开始怀疑他们根本没给我注册账号
于是就开始了我的给helpdesk连环发邮件之路
等了一天没消息,怕是他没看到,再发一遍
结果刚发完我的第一个求助就被受理了,然后第二天我的第二次求助又被受理一遍,总之是解决了,速度也挺快
终于可以下载了,照着官网说明来,先下载下载工具pyEGA3(我python-3.6.14下载然后升级也就只能到pyEGA3-3.4.1,最新版是5.0.1)
然后就是很慢,氪金275包年100M带宽梯子,快了很多,但还是要1年多才能下载完
再次联系客服
客服残忍拒绝,要我试试最新版,我只想说用脚趾思考也知道新版一样烂,而且数据太大了
于是我抱着证明给他看pyEGA3真的不行的心态,去下载最新版
我的pip3只能更新到3.4.1,所以我就直接GitHub下载了
然后开始下载数据
python3 -m pyega3.pyega3 -cf confidential.json -c 5 fetch EGAFxxxxxxx --output-dir OUT_DIR
官网写的python,但我服务器python是2,python3才是3
然后我不知道为啥只能在pyega3父目录才能调用这个模块,不管了本急急国王无所谓
-c感觉相当于多线程下载,会快一些,官网建议好像是从30开始试,但我发现5就差不多到头了
总的来说官网介绍的步骤还是很清晰,选择也很多,但很多时候还是要自己长个心眼,不然就会因为很蠢的问题卡很久
果然一晚上就得到了心仪的报错,我当场就是一个邮件发给helpdesk
等回复,希望让我用Aspera且Aspera好用
个性化下载
有的机构就非常与众不同了,比如我这次这个要固定IP还要ftp协议传输的
我租的7M带宽90G存储1个月(妈的2月只有28天好亏),下载速度理论上是带宽除以8,但大陆到国外的路由比较堵,只开一个session的话速度只有100K/s,于是我大胆开了12个,这样白天路由不太堵的时候带宽会到10M还不错的,晚上10-12点就慢很多,这个数据集2.2T,一共400多个5G左右的小文件,穷学生只能随时手动把数据挪回课题组服务器,还好大陆内部速度很快,基本8M/s,希望1个月能搞定不要再多花钱了
(这个数据集要求ftp传输,所以要记得打开服务器的21端口哦,另外记得
mget -c
,这样下载中断了会自己重新连接)下载下来文件大小不完全一样,但是还好MD5对上了,吓我一跳 -_- |||
祝我好运吧
后续2023-2-25
ftp下载的那个大概3月3号就可以下载完,使用钞能力扩容到150G存储,带宽加到12Mbit/s, 每天可以下载100Gb左右,虽然总共也要花将近一个月,好歹是能看到希望
EGA自己提供软件下载的我已经有点佛了,43T的数据,1Mb/s的速度都达不到,各种报错,发好几次邮件过去也没人搭理,所以前两天在Github发了帖,还收到一位印度友人的评论说完全一毛一样的问题,甚至下载到最后还要来一个MD5不对应的终极折磨,我真的麻了,求求EGA不要再用pyEGA3折磨我,给我个Aspera账号吧
他们确实有在努力优化pyEGA3,但效果属实不咋地,软件下载的话conda应该是最方便的,一步到位,最新版,pip3 install 如果版本不够高就下不到最新的软件,然后就会被staff要求试试最新版的新参数,nmmd根本屁用没有
后续2023-3-7
ftp下载的顺利结束,虽然比预计晚了2天
Ega helpdesk回邮件给我Aspera账号啦,只是Aspera下载下来的文件是加密的,到时还得解密,不知道要花多久,但是下载速度可以有4.5-5MB/s了,虽然还是很慢,但MD5出问题的概率应该会低一些吧(求求了
本来想几个设备一起下载的,结果ascp它一个账号不支持双开,麻了
还好申请数据的时候给师兄账号也顺手申请了,试试能不能再要一个ascp账号吧
解密要另外提供一个邮箱,会收到一个神神秘秘的电子阅后即焚密码
等下完再说吧
ascp也是挺烦,不懂得断了自动重连的 (-_-||| 睡一觉起来发现刚睡下就断了,麻
后续2023-3-12
师兄申请Aspera账号的邮件惨遭拒绝,理由又是他妈的我们进行了一些优化你再试试不行再说
好在我的ascp多开成功,两台linux设备同时下载
但是windows设备怎么都用不了ascp,一直报failed to authenticate,所以我就在windows设备用回pyega3
pyega3现在速度也能到4MB/s左右,但有时候会连续好几个小时卡住,并且我下301GB的一个文件两次MD5 mismatch然后自动重开还没下载成功,它是真的不适合下载大文件