2022-09-19---生物软件及应用-作业1

一、下载Synechococcus elongatus UTEX 2973(accession no.为GCA_000817325.1 )的基因组注释文件,统计其中染色体序列(CP006471.1)前10kb有几个基因(gene)?

要求:只能使用一行shell命令,并将shell命令写和基因数目写在答案处。

登录NCBI官网https://www.ncbi.nlm.nih.gov

粘贴链接,下载文件

ls

查看文件

gunzip

解压

grep 'CP006471.1' GCA_000817325.1_ASM81732v1_genomic.gff |awk -v FS='\t'

-v OFS='\t' '{if($5<10000){print $5}}'|sort|uniq|wc -l  #错误,抓取的特定字符前未加^,导致中间出现特殊字符的基因也被统计进入,结果出错,应只要首字符为特定字符的序列

抓取结果为10

grep '^CP006471.1' GCA_000817325.1_ASM81732v1_genomic.gff |awk -v FS='\t' -v OFS='\t' '{if($5<10240){print$5}}'|sort|uniq

查看抓取内容大小

grep '^CP006471.1' GCA_000817325.1_ASM81732v1_genomic.gff |awk -v FS='\t' -v OFS='\t' '{if($5<10240){print$5}}'|sort|uniq|wc -l    #"grep' ' "抓取特定字符,FS表示如何切割文件

查看抓取序列数量

二、请按源代码编译安装的方式安装Hisat2软件;

1)软件源码下载地址:ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-source.zip

2)安装说明:https://ccb.jhu.edu/software/hisat2/manual.shtml#building-from-source

请将安装完成后的界面截图或出错的界面截图放在答案处。

(1)cp /disk1/shares/hisat2-2.2.0-source.zip ./

拷贝文件到当前目录

(2)cd hisat2-2.2.0

进入

(3)make

编译
编译成功

hisat2 -h

查看版本

2、错误

(1)查看文件目录

已经解压
出错


已经解压,是否更新


出错

三、请以apt-get软件包方式安装Hisat2软件。并将安装成功的界面截图贴在答案处。







选y



更新apt-get


安装软件,选Y


安装成功


查看
安装成功

错误情况

找不到,解决办法:重新安装


四、请按课件说明安装anaconda;并运行conda --version将返回的界面截图贴在答案处。

wget https://repo.anaconda.com/archive/Anaconda3-5.2.0-Linux-x86_64.sh

通过链接下载

cp /disk1/shares/Anaconda3-2021.05-Linux-x86_64.sh ./

将文件复制到当前目录

sh Anaconda3-2021.05-Linux-x86_64.sh

执行,按ENTER键继续,直到出现yes或no
选yes
按enter
等待安装
等待安装
回复no
安装完成
已经安装成功,接下来修改环境变量

echo 'export PATH=~/anaconda3/bin:$PATH' >>~/.bashrc

修改环境变量

source ~/.bashrc #重新执行环境变量

重新执行环境变量

conda --version

查看版本

错误情况

找不到conda,原因:下载安装过程中断,出现问题,解决办法:在目录中删除已下载文件,再重新下载。
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容