参考学习资料:https://mp.weixin.qq.com/s/n-C2P322ZWQyZ6-3EEKbxA
经常看到群里会有一些题目,然后都不知道怎么去做,先来学习一下前人经验
关于如何入门编程,你可能需要
以下是一些题目及答案示例
对FASTQ的操作:
- 5,3段截掉几个碱基
- 序列长度分布统计
- FASTQ 转换成 FASTA
- 统计碱基个数及GC%
对FASTA的操作:
- 取互补序列
- 取反向序列
- DNA to RNA
- 大小写字母形式输出
- 每行指定长度输出序列
- 按照序列长度/名字排序
- 提取指定ID的序列
- 随机抽取序列
高级难度:
- 根据坐标取序列
- 多文件合并
- 根据ID列表取序列
- GTF文件探索
- 简并碱基的引物序列还原成多条序列
- snp进行注释并格式化输出
01 下载安装bowtie2(内含测试数据)
先下载安装安装软件的工具 Bioconda (http://bioconda.github.io)
参考:https://mp.weixin.qq.com/s/FBsY8hRjTS6ih2RvY47I6Q
按照这个工具先删除电脑原来的版本,重新安装新的版本
$ wget https://repo.anaconda.com/miniconda/Miniconda3-latest-MacOSX-x86_64.sh
Miniconda3-latest-M 100%[===================>] 49.36M 381KB/s in 2m 10s
$ mkdir biosoft
$ mv Miniconda3-latest-MacOSX-x86_64.sh biosoft/
$ cd biosoft/
$ ls
Miniconda3-latest-MacOSX-x86_64.sh
$ bash Miniconda3-latest-MacOSX-x86_64.sh
Welcome to Miniconda3 4.7.12
#省略安装过程,一路enter,yes
optional arguments:
-h, --help Show this help message and exit.
-V, --version Show the conda version number and exit.
conda commands available from other packages:
env
#安装完成
$ conda list
#配置镜像:
$ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
$ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
$ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
$ conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
$ conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/main/
$ conda config --set show_channel_urls yes
$ conda config --add channels conda-forge
$ conda config --add channels r
$ conda config --add channels bioconda
#查看镜像
$ conda config --get channels
$ cat ~/.condarc
#删除镜像
$ conda config --remove channels
#新建文件目录安装软件
$ conda create -n test
conda activate test
$ mkdir bowtie && cd bowtie
$ conda install -y bowtie2
#同样是一路yes,然后如下结果显示正确安装
Preparing transaction: done
Verifying transaction: done
Executing transaction: done
(test) Cheng-MacBook-Pro:bowtie chelsea$
小知识点:
软件更新 : conda update 软件名
若不确定软件名称,可以先使用搜索: conda search fastqc
安装特定版本软件: ex. conda install bwa=0.7.12
软件卸载: conda remove 软件名
conda 卸载:
A :首先 rm -rf ~/miniconda3
B: 环境变量中去掉conda, vi ~/bash_profile 删除conda路径,退出保存
C: 删除隐藏的.condarc 、.conda以及.continuum文件
02 人类基因组的外显子区域的长度
题目:下载人类外显子的坐标文件,编写代码统计外显子区域的长度。
测试数据:
Bioconductor的TxDb.Hsapiens.UCSC.hg19.knownGene包
NCBI数据库:ftp://ftp.ncbi.nlm.nih.gov/pub/CCDS/current_human/

原本是想找到一个批量下载的工具,搜索到这篇推送让下载更方便
它首推了一个叫uGet的插件,在火狐浏览器里面支持使用的,下载安装后,发现有点问题:

提示不能使用,需要安装新的支持工具

然后去GitHub上查找了相关信息,发现这个插件也是支持Chrome的,然后尝试了一下发现可以用

直接右键点击需要下载的文件就可以看到多了一个通过这个插件下载的选项了。

将下载好的文件放在一个目录下,新建一个R session
R实现代码示例:拷贝了曾老师教程里面的代码后运行出了如下报错,然后我以为是没有安装什么包,把实例数据的包TxDb.Hsapiens.UCSC.hg19.knownGene安装了一遍,加载后仍然出现报错
> a=read.table(choose.files("ccds/CCDS_nucleotide.current.fna.gz"),sep = ' ',stringsAsFactors = F,header = T) # 选择你下的CCDs文件
Error in choose.files("ccds/CCDS_nucleotide.current.fna.gz") :
could not find function "choose.files"
之后去查这个函数到底在哪里,发现是在基础包里面,既然是基础包,我应该都安装了,为啥加载错误呢,问号一下发现,又闹了个笑话

估计这样的函数还有很多,但是有没有对应的mac版本可用的函数呢?我想这里应该有个列表,但是我觉得这种不同系统版本问题导致的函数不同应该挺多的,希望开发者找到一个合理的方法去解决,如果能统一就好了。