生信分析:转录因子分析-NP-小麦再生

前一篇推送已经与大家分享了这篇发表在Nature Plants上的关于小麦再生的文章。涉及的生信分析非常丰富,其比较重要的是关于转录因子的分析。所以这次推送就其中重要的几项转录因子分析做一个教程。

一 TF注释

所谓注释,即我拿到一个基因,知道该基因属于什么TF家族,或者拿到一个TF家族,知道该家族包含哪些基因。

PlantTFDB和PlantRegMap是北京大学高歌课题组开始的目前使用最广泛的植物转录因子数据库,可以帮助我们方便快速的进行一系列转录因子分析。

图1

利用PlantTFDB数据库(http://planttfdb.gao-lab.org/index.php)对TF进行注释,该数据库已经对100多个物种进行了TF注释,如果我们研究的物种正好被注释且所选用的参考基因组一致,可直接下载。

按照图1标注的顺序即可下载该数据库已经做好的转录因子注释。

图2

图2

若我们研究的物种没有被该数据库注释或者选用的参考基因组版本不一致(如自己组装了新的参考基因组),那么需要我们提供蛋白序列或核酸序列以从头注释,见图2标注。

图3 输出结果

二 TF富集分析

通过注释,我们知道了该物种的每一个基因ID对应了哪一个转录因子。下一步我们想知道我们关注的一部分基因是否显著富集到某个TF家族。

无论是什么类型的富集分析,其原理都是一样的。做过GO富集或者KEGG富集的应该知道,在做富集分析之前,我们需要准备至少两个文件:

1、基因的注释:对于GO富集,注释是指某个基因属于哪个GO通路;对于KEGG富集,注释是指某个基因属于哪个KEGG通过;对于TF富集,注释是指某个基因属于哪个TF家族。

2、关注的基因list

图4 该物种的TF注释(两列,家族名称+基因编号)

图5 目标基因集(一列,基因编号)

做富集分析最常用的是R包 clusterProfiler

图6 TF富集分析代码

输出结果可用于后续可视化,可视化形式及代码与基因功能富集分析一致,不再展示。

图7 词云图

在这篇文章中,作者用到了词云图,是一种更美观、直观的方式。该图也可以用R来完成。

图8 词云图输入文件

词云图的输入文件有两列,第一列是展示的词,第二列是词频,见图8.

在富集分析的输出结果中,Pvalue越小代表该TF家族越显著富集,所以Pvalue应与词频做一个转化以统一。

用到的R包是wordcloud2

图9 词云图代码

图10 词云图输出结果

图11 

转录因子结合位点(Transcription factor binding site, TFBS)是与转录因子结合的DNA序列。当转录因子与DNA结合时,会组织Tn5的切割,从而在测序比对后会看到一个低测序深度区域(我们称之为转录因子的“足迹”),通过识别这个区域,我们可以找到TF发挥作用的潜在位点。

HINT(Hmm-based IdeNtification of Transcription factor footprints)是用鉴定足迹的常用方法,也是本文使用的软件。HINT是RGT软件的一项功能,软件主页

软件主页 https://reg-gen.readthedocs.io/en/latest/,这里有对该软件最详细的介绍,如果想深入学习可以去看一下。

利用HINT软件通过ATAC-seq数据鉴定转录因子足迹,输入文件是ATAC-seq数据的bam文件和pake文件(bed),输出文件是鉴定到的足迹(bed)

1、安装RGT pip install --user RGT --no-binary RGT

2、配置基因组

图12

该软件内置了人类、小鼠、斑马鱼、牛以及拟南芥的基因组,如果选用其他物种,需要自己仿照格式在~rgtdata/下构建好相应基因组文件,如本文用到的小麦,具体可参考https://reg-gen.readthedocs.io/en/latest/rgt/setup_data.html

3、运行HINT

rgt-hint footprinting --atac-seq SampleName.bam SampleName_peaks.narrowPeak --output-location=./test --output-prefix=./test --organism=test

注意:默认情况下,HINT对ATAC-seq执行偏差校正,因此必须使用正确的基因组信息,即加入正确的—organism

输出.info文件(统计信息)和.bed文件(足迹的位置)

四 鉴定TF与靶基因的对应关系

这篇文章中提到,只考虑了落在基因区和启动子处的ATAC-seq 峰,所以鉴定转录因子足迹,实际上是在找潜在的被TF调控的基因。下一步需要结合已知的TF的结合motif把TF与靶基因对应起来。

比较简单的方法可以利用PlantRegMap进行预测。

通过上面的预测可以获得TF与靶基因的对应关系,再结合转录水平进行筛选即可构建出相应的转录调控网络。

图13

本文使用 文章同步助手 同步

欢迎关注“我与生信”,定期分享生信相关文献,并分享文献中生信分析技能。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353

推荐阅读更多精彩内容