粳稻参考基因组ID转换

World map showing that the genus Oryza is widely distributed, Rod et al 2018

粳稻参考基因组日本晴主要常用的有两个版本,分别为The Rice Annotation Project (RAP)(https://rapdb.dna.affrc.go.jp/index.html)和Rice Genome Annotation Project (RGAP7,MSU)(http://rice.plantbiology.msu.edu/index.shtml)。分别由两个团队进行维护,因此其注释基因数量和基因登录号也不相同。
RAP格式为“Os-Chr-g-number”,MSU格式为“LOC_Os-Chr-g-number”。

日常分析数据过程中会遇到两种格式ID相互转换的问题。PlantGSEA(http://structuralbiology.cau.edu.cn/PlantGSEA/)提供了非常方便的在线ID转换工具。本文也提供一个脚本来供研究者在无法登陆PlantGSEA网站时方便地完成ID转换。

STEP1:下载文件

ID对应文件下载自RAP网站,请点击以下链接下载:
https://rapdb.dna.affrc.go.jp/download/archive/RAP-MSU_2018-03-29.txt.gz

如果你对Python脚本使用有一些熟悉,那么,请使用以下示例脚本完成转换,如果你有更好的方法或者对脚本有意见,请留言交流。

脚本示例:MSU to RAP
relation={}
for i in open("RAP-MSU_2018-03-29.txt"):
    rap=str(i.split()[0])
    msu=str(i.split()[1])
    if msu!="None":
        if "," in msu:
            for a in msu.split(","):
                relation[a[0:-2]] = rap
        else:
            relation[msu[0:-2]] = rap

for j in open("your-id-list-one-gene-per-line.txt"):
    id=j.strip()
    if id in relation.keys():
        print(id,relation[id],sep="\t")
    else:
        print(id,"None",sep="\t")
脚本示例:RAP to MSU
relation={}
for i in open("RAP-MSU_2018-03-29.txt"):
        rap=str(i.split()[0])
        msu=str(i.split()[1])
        if rap!="None":
            relation[rap]=msu

for j in open("your-id-list-one-gene-per-line.txt"):
    id=j.strip()
    if id in relation.keys():
        if "," in relation[id]:
            s=relation[id].split(",")
            for a in s:
                print(id,a,sep="\t")
        else:
            print(id,relation[id],sep="\t")
    else:
        print(id,"None",sep="\t")

STEP2:配置环境

如果你未看明白以上说的是啥,你还想根据我的方法完成ID转换,请按照以下步骤完成环境配置:
正确安装Python3并配置好环境变量。Python3下载地址为:
https://www.python.org/downloads/

以上示例脚本及示例文件下载链接:https://github.com/yuhang5783/MSU_RAP_ID_Converter

STEP3:转换

示例脚本及文件

下载好示例脚本及文件后,将你想要转换的ID列表(单列)粘贴至your-id-list-one-gene-per-line.txt文件中,接着使用cmd+R调出WIN命令行,轻松完成转换。

# 转换到你的工作目录
cd C:\YourPATH\MSU-RAP
# 或者你想转换到其它分区
cd D:
cd D:\YourPATH\MSU-RAP
# 运行你想转换的类型、
# MSU转换到RAP,运行以下命令即可
 python msu2rap-converter.py > result.xls
# RAP转换到MSU,运行以下命令即可
 python rap2msu-converter.py > result.xls
MSU to RAP 结果示例
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 昨天发了如何一步下载水稻泛基因组的contig序列,就有小伙伴在后台问我如何下载水稻最新版日本晴参考基因组序列。由...
    xuzhougeng阅读 15,718评论 2 27
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,860评论 18 139
  • 林中有两条小路望不到头,掩埋在没有那脚印的落叶下,我选择的这一条,却说不出理由,穿过树林,翻过山坡,趟过小河,荡起...
    有缘遇见你阅读 326评论 0 0
  • 洛阳王利华 坚持分享第219天(2017.12.17): 最近再看“琅琊榜”,仍是比较喜欢的电视剧之一。看剧情...
    骄阳567阅读 679评论 0 0
  • 这是一面无限高的墙,我们生活在墙的顶端。 引子 望着幽邃的深空,躺在母亲怀里的孩子轻轻地问到: ...
    xjz2015阅读 471评论 6 3