2020-05-19 分析reference基因组conserved_up上游序列与转录起始关系

工具:

bedtools, a perl script(abundant_tss_count.pl)

数据:

1."/data/XYH/reference/wtf1-25_gene.bed":  bed6 file recording positions of  25 wtf genes in the reference genome


2."meiosis_*h.isoseq.bed":  transformated from isoseq "rep2"  bam files with bedtools bamtobed


3.“up_conserved_up.type.txt” :copied from the Email  2020年5月19日 (周二) 11:40 "Subject: upstream sequence types and Iso-Seq" from Dr.Du

流程:

step1: 查找落在每个wtf gene上的iso-seq reads,并计算read 第一个碱基相对于wtf conserved_up第一个碱基的位置


bedtools intersect -s -f 0.5 -a /data/XYH/reference/wtf1-25_gene.bed -b meiosis_${n}h.isoseq.bed -wo |awk '{if($6 =="+") {print $4"\t"$8-$2+1;} else {print $4"\t"$3-$9+1;}}' >meiosis_${n}h.wtf.tss.txt0

重要参数:

-s  控制reads与基因同一链方向

-f 0.5 read 与基因overlap的长度占基因总长度(从conserved_up到stop codon)50%以上

awk这部分命令用于计算每条read的转录起始位置

step1 result:


step2:用脚本abundant_tss_count.pl统计每个wtf 基因的reads数目,查找有多条reads一致的TSS sites,并计算在这一位置起始的reads占这个基因total reads的百分比,并输出上游序列类型信息以及以上的统计信息

重要参数设置

1.对于total reads <10条的基因不统计

2.对于某个位置,如果在该位置起始的reads 数占该基因total reads 10%以上或者表达量较高时,虽然在该位置起始的reads数目不到10%,但是 绝对数目>10时,报告这个位置,作为一个tss site,并输出在该位置起始的reads数目占total reads的百分比信息

step2 result


©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容