植物测序数据rRNA污染清理

由于实验技术或操作原因,有些高通量测序数据中存在大量的rRNA污染,评估和去除rRNA是后续分析的基础。

首先 到核糖体RNA数据库 silva(high quality ribosomal RNA databases)下载rRNA序列。
选择下载下面两个文件:

SILVA_138.1_LSUParc_tax_silva_trunc.fasta.gz  ## Large subunit (23S/28S ribosomal RNAs)
SILVA_138.1_SSUParc_tax_silva_trunc.fasta.gz ## Small subunit (16S/18S ribosomal RNAs)

解压以后使用下面的命令提取泛植物 rRNA

cat *.fasta|perl -ne 'BEGIN{$id=q{};$seq=q{}}chomp;if(/^>/){print $id,qq{\n},$seq,qq{\n} if ($id=~/Eukaryota;Archaeplastida/);$id=$_;$seq=q{}}else{$seq.=$_;}END{print $id,qq{\n},$seq,qq{\n} if ($id=~/Eukaryota;Archaeplastida/)}'|perl -pe 'tr/U/T/ unless /^>/' > panPlant.rRNA.fa
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容