ChIP-seq数据分析学习资源总结

首先这个名字要写对:ChIP-seq,有很多论文没注意大小写,其实没理解每个字母所代表的含义。
ChIP-seq大致原理看一看:

image.png

Figure 1: Workflow of a ChIP-seq analysis: Chromatin in the nucleus (1) is cross-linked and sheared (2), followed by
enrichment of complexes containing the target protein using immunoprecipitation (3). Short reads obtained from
massively parallel sequencing (4) are mapped to a reference genome (5) yielding in a distribution of tags on the
genome (adapted from http://en.wikipedia.org/wiki/File:Chip_sequencing2.png 2008 - 02-29)
一句话说完,其实就是探索你要研究的蛋白在全基因组范围内的结合位点。
先用甲醛把细胞内蛋白和DNA结合的生理状态固定,类似照相机拍摄画面。之后就是打断这些DNA,再用你研究的蛋白抗体富集你研究的蛋白和DNA结合的这些碎片。获得这些碎片后再把蛋白和DNA解开交联。之后就是测序建库测序。

要看的论文很多。看过的先记录一下:
1,Practical Guidelines for the Comprehensive Analysis of
ChIP-seq Data
文章从数据质控,比对,peak calling,peak注释,motif分析都给出了注意点,值得一读
论文从数据的质控到最后的peak注释都给了很多说明。

2,硕士论文
基于ChIP-seq全基因组识别毛竹笋尖与鞭笋尖组蛋白修饰位点
文章使用了组蛋白修饰做了chip-seq,从实验流程到数据分析,详细。值得一看。特别是MACS的使用方法

3,视频教程
B站的https://www.bilibili.com/video/BV1Yx411x7kE

4,网上别人的实践
拟南芥的数据,准备实践一下
https://www.jianshu.com/p/78571f87bef9

MACS2 callpeak原理
https://www.plob.org/article/7227.html
https://hbctraining.github.io/Intro-to-ChIPseq/lessons/05_peak_calling_macs.html

记录一下笔记:
富集倍数:
实验样本的富集倍数要比对照组要大于2倍到50倍之间,太大倍数会被认为是建库时的PCR重复


image.png

两个图的含义


image.png
image.png

下面这张图是形象化地解释了上面这个图。视频亮点之一,其他跑流程的教程没有把图说明白。

左边曲线图是在整个基因组范围内,求出每段区间覆盖的reads数目的平均值,然后以X轴为为基因区间,Y轴为覆盖在某个区段的reads数,连成曲线图绘制。

右边热图是把基因组所有基因,每个基因内的TSS上下游区间内的所有reads数目加和,然后按照大小排序,再把每个区间内的reads按照示意图的表示给画出来。

实际两张图表示的一个意思,都是在全基因组范围内查看TSS上下游区间内的reads分布,也就是这个蛋白的富集区间就是在大部分基因的TSS周围。

(下次再忘记可以翻翻视频,43:28处开始讲这两个图含义)

一般来说,基因结合基因TSS位置,可能是结合很多基因,也就是广谱调控。

接下来视频是讲实际操作:


image.png

1,下载数据
1)下载数据的脚本
最好把下载的数据链接写在一个脚本里面。然后记录好数据的各种信息,方便日后查看。
2)文件改名的脚本,也可以写在一起,放进一个脚本


image.png

命名的规范:
命名之前的文件名字是啥。重新命名后的文件名字是啥。

要在过段时间后,还能知道这个文件当初是用来干嘛的。
举例:


image.png

293是细胞系
chip-seq是数据类型
control是对照
rep1是重复1
R1是PE测序的read1文件
fasq是文件类型
gz是压缩文件

2,质控
fastqc
可以把建立文件夹,质控等步骤的命令写在一个bash文件内,一起执行

3,比对
重点学习这部分,批处理脚本


image.png

比对结果


image.png

for循环嵌套:

外层循环每做一次,内层便全部做一次。

ps grep cut xargs -i kill -9
组合使用杀掉多个进程
4,过滤掉map质量分数低的reads

比对完后做mapQ>20的过滤,sam转为bam
异步操作就可以

samtools view -q 20 -h -b -o bam_file -@ 10sam_file &
-q 仅仅保存质量分数大于多少的reads
-h保留头文件
-b输出bam
-o输出文件
bam文件名字
-@ 核心数
sam文件名字

5,sort bam
6 peak calling
使用MACS2

90:50左右开始说MACS

完结-

视频有些是口误,自己鉴别。学到不少东西。下面自己要把循环脚本和代码规范练习一下。只记录了自己认为重要的东西。如果想学习,最好还是要看视频。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容