2023-01-05普通转录组-2_id转化

本文提供人的Ensemble上 GRCH38 基因组和genecode上最新的 v42版本注释,gene_id 分别和gene_symbol,transcription_id的对应关系

#参考 https://www.jianshu.com/p/9e62f9148932
#提取gtf注释文件中gene_id等与gene_name的对应关系g2s_vm42_gencode.txt;
#transcript_id to gene_name的t2s_vm42_gencode.txt 

cd ref/hum_GRCH38/idTransition 

wget https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_42/gencode.v42.chr_patch_hapl_scaff.annotation.gtf.gz
gunzip gencode.v42.chr_patch_hapl_scaff.annotation.gtf.gz

vim gtf_geneid2symbol_gencode.sh

#!/bin/bash
#提取gtf注释文件中gene_id等与gene_name的对应关系,便于下游id转换
gtf="gencode.v42.chr_patch_hapl_scaff.annotation.gtf"
### gene_id to gene_name
grep 'gene_id' $gtf | awk -F 'gene_id \"' '{print $2}' |awk -F '\"' '{print $1}' >gene_id_tmp
grep 'gene_id' $gtf | awk -F 'gene_name \"' '{print $2}' |awk -F '\"' '{print $1}' >gene_name_tmp
paste gene_id_tmp gene_name_tmp >last_tmp
uniq last_tmp >g2s_vm42_gencode.txt
rm *_tmp
### transcript_id to gene_name
grep 'transcript_id' $gtf | awk -F 'transcript_id \"' '{print $2}' |awk -F '\"' '{print $1}' >gene_id_tmp
grep 'transcript_id' $gtf | awk -F 'gene_name \"' '{print $2}' |awk -F '\"' '{print $1}' >gene_name_tmp
paste gene_id_tmp gene_name_tmp >last_tmp
uniq last_tmp >t2s_vm42_gencode.txt
rm *_tmp

bash gtf_geneid2symbol_gencode.sh
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容