惭愧,文章拖了这么久又有重新审稿了,之前的编辑挺看好的,结果2020年年底闭刊了,编辑觉得还有问题需要修改,来不及2020年12月前见刊,于是改了2次还是被毙了,这提示我之后不能这么拖延症。
投到了bmc genomics,那边说要这个测序数据。
首先要去NCBI注册,这个别人写的很多,就不说了。然后我这个人比较不熟悉这些玩意,就写得清楚一点。
类似这个人的博客就说的比较清楚了,这里我直接把测序数据release了,应该没人偷我的数据吧。
https://www.maimengkong.com/m/?post=647
https://www.jianshu.com/p/6d5f735dafcc?from=singlemessage
补充一下,我们提交的时候如果有组织一点,都是需要建立bioproject和biosample,然后上传SRA数据到对应的bioproject或者sample,这些要一点时间,填SAMN号的时候需要。
填表的时候,如果是双端测序,就要两个文件。
然后就是上传测序数据,可以用网页上传也可以用Aspera,本地网页实在太慢了。
下载地址
https://d3gcli72yxqn2z.cloudfront.net/connect_latest/v4/bin/ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
也可以去官网自己找版本,https://www.ibm.com/products/aspera/downloads?list
要下载的是,IBM Aspera Connect,现在最新就是我发的这个3.11了
# 在linux环境下,找一个目录下载;从网页中下载该软件,w是断点续传
wget -c https://d3gcli72yxqn2z.cloudfront.net/connect_latest/v4/bin/ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
# 解压缩这个软件包,然后安装软件
tar -zxvf ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
sh ibm-aspera-connect-3.11.1.58-linux-g2.12-64.tar.gz
*安装完了之后会在用户的家目录生成一个.aspera
# 切换到家目录找到bin文件,添加一下环境变量
cd ~/
cd .aspera/
cd connect/
cd bin/
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
ascp --help # 用法可以用这个看
然后就是去ncbi下载key_file那个私钥文件,然后照抄
我这边的文件夹在我们组其他人的目录下,我建了个软链接上传的。
ascp -i <path/to/key_file> -QT -l100m -k1 -d <path/to/folder/containing files>
subasp@upload.ncbi.nlm.nih.gov:uploads/xxxxx(远程服务器给的东西)
ascp -i /mainsd/bigbear/aspera.openssh -k1 -d /home/bigbear/tmp
subasp@upload.ncbi.nlm.nih.gov:uploads/xxxxx(远程服务器给的东西)
还可以挂在后台,今天差不多就干了这么点事,菜狗的我
notice:
注意如果偷懒上传当前目录,preload folder也识别不到,只能上传目录的样子。
如果需要寻找SRA官方的帮助,需要提交submisson ID
文件格式只支持gz和bz2,如果用了其他例如gtz的格式会被NCBI打包退回(不要问我是怎么知道的)