2022-09-26-----随堂测验

下载Synechococcus elongatus UTEX 2973(accession no.为GCA_000817325.1 )的基因组注释文件,生成一个locus_tag和Name对应关系的表格?要求:只能使用一行shell命令,生成的表格以制表符分隔;并将shell命令和基因数目写在答案处。

打开网址,进入NCBI网站

https://www.ncbi.nlm.nih.gov/

点击Download
点击FTP

按genomes/all/GCA/000/817/325目录进入

点击目录 GCA_000817325.1_ASM81732v1
选择想要下载的文件,复制链接

wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/817/325/GCA_000817325.1_ASM81732v1/GCA_000817325.1_ASM81732v1_genomic.gff.gz  #通过复制的链接下载基因注释文件

复制链接,下载压缩包


查看下载的文件

gunzip GCA_000817325.1_ASM81732v1_genomic.gff.gz

解压文件,已经存在,询问是否覆盖,选择y

grep $'RefSeq\t' GCA_000817325.1_ASM81732v1_genomic.gff> test.tsv

生成table分隔文件

less test.tsv

查看文件内容

查看的结果

失败,文件中无此内容

grep $'RefSeq\t' GCA_000817325.1_ASM81732v1_genomic.gff|less   #查看抓取文件,无,失败

less GCA_000817325.1_ASM81732v1_genomic.gff   #查看文件内容

选取需要抓取的关键词

grep $'\tProtein' GCA_000817325.1_ASM81732v1_genomic.gff |head

抓取目标行

grep $'\tProtein' GCA_000817325.1_ASM81732v1_genomic.gff |sed 's/^.*;Name=//g'|sed 's/;.*;locus_tag=/\t/g'|sed 's/;.*$//g'|head

抓取目标列
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容