搜寻序列

1.拿到的原始序列:

2.去除>chrM:

awk 'BEGIN{FS=" "}{print $2}' seq.txt > seq.01.txt

3.在末尾添加NGG:

发现换行符有问题:

cat -A seq.01.txt

^M是windows的换行符,应该去掉:

去掉:

sed -i 's/\r//g' seq.01.txt

cat -A seq.01.txt

添加NGG:

sed 's/$/&NGG/g' seq.01.txt | head

3.使用 seqkit locate 寻找:

F/R链+没有mismatch+全基因组

fasta=/media/shen/6a524d78-97d1-481c-b068-8116a4d007f8/sun/refdata/gencode_GRCm38/raw_fasta/GRCm38.p6.genome.fa

取第一个试下:

seqkit locate -i -p aagcactgaaaatgcttagaNGG $fasta -j 20

all:

for i in `cat seq.fine.txt`

do

echo $i greping.....

seqkit locate -i -p $i $fasta -j 20 -d >> result.txt

done

卧槽太慢了。

换个方法:

sed -i 's/\r//g' seq.txt

sed 's/$/&NGG/g' seq.txt > seq.fa

sed 's/ /\n/g' seq.fa > seq.fine.fa

小程序ref: https://github.com/ekg/fasta-to-fastq

$ chmod u+x fasta_to_fastq.pl

$ perl fasta_to_fastq.pl reads.fasta > my_converted_fasta.fq

# 转为大写:

$ cat seq.fine.fq | tr 'a-z' 'A-Z' > seq.fine.ok.fq

index=/media/shen/6a524d78-97d1-481c-b068-8116a4d007f8/sun/refdata/gencode_GRCm38/01_bowtie2/genome

bowtie2 -x $index -N 0 --end-to-end -a --reorder -U seq.fine.fq -p 10 -S seq.sam

不行...



应该用本地blast:

安装:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 一、前言 我们都知道,在Linux中一切皆文件,比如配置文件,日志文件,启动文件等等。如果我们相对这些文件进行一些...
    以七v为书阅读 5,506评论 0 5
  • 慢慢看,憋着急!很有用! 前言: 首先呢,在你的Linux系统中新建一个文件,Thanos.txt(紫薯侠赐予你力...
    刘小泽阅读 8,634评论 6 33
  • .bat脚本基本命令语法 目录 批处理的常见命令(未列举的命令还比较多,请查阅帮助信息) 1、REM 和 :: 2...
    庆庆庆庆庆阅读 12,656评论 1 19
  • 本文承接之前写的三十分钟学会AWK一文,在学习完AWK之后,趁热打铁又学习了一下SED,不得不说这两个工具真的堪称...
    mylxsw阅读 9,900评论 3 74
  • grep擅长查找,awk擅长分析(select),sed擅长批量编辑行 概述 SED的英文全称是 Stream E...
    piziyang12138阅读 4,457评论 0 3

友情链接更多精彩内容