如何根据染色体坐标批量提取对应的DNA序列(bedtools)

这一篇小笔记是在我处理自己的数据的时候遇到的问题,经过查阅资料解决了,故记录下来。

比如现在:你需查找一段序列,比如说小鼠的chr10:105280000-105280550,我相信学生物的童鞋应该都知道应该怎么获得DNA序列,但是如果当我有上千条序列需要获得并把它们放在同一个fasta文件里的时候,应该怎么做呢?

方法如下:

Step1 你需要先拿到差异peaks

从ATAC-seq数据中分析得到的差异peaks,当然同样适用于chip-seq的数据:

> head(Q_T_Q_V_psig)
log2 fold change (MLE): condition Q_T vs Q_V 
Wald test p-value: condition Q_T vs Q_V 
DataFrame with 6 rows and 6 columns
                                  baseMean   log2FoldChange             lfcSE             stat               pvalue               padj
                                 <numeric>        <numeric>         <numeric>        <numeric>            <numeric>          <numeric>
chr10:105280000-105280550 9.37332336803852 3.53597545377286  1.04368265396652 3.38797951689085 0.000704095222812605                 NA
chr10:105469500-105469950 13.4771925765997 2.29247043028083  0.84387643836949  2.7165949018677  0.00659572827117144  0.353853732289383
chr10:107658700-107659600 58.6902716992164 1.13822876920294 0.433762615192843 2.62408222685789  0.00868828070349121  0.389236862222314
chr10:108153100-108153800 38.0887166659289 2.20816858694232 0.491153263586065 4.49588499284274 6.92811780142922e-06 0.0204186477574836
chr10:108452300-108452850 15.8518595117141 3.34668830781992 0.888088721665981 3.76841663020088 0.000164286335774994 0.0816701024146028
chr10:110183500-110184500 50.6887818370494 1.31842727975894 0.416836274255839 3.16293797153972  0.00156185605940921  0.204583310689789

随后把这个差异peaks表存成了csv文件。

Step2 在命令行里将一列分割成多列

从csv文件里提取某一列并存到另一个文件里,例如提取第一列($1):

$ awk -F"," '{print $1}' file.csv >> file1.csv

在linux里,再把csv文件的一列按照冒号分隔成两列,并存到另一个文件里:

$ sed 's/:/\t/' file.cvs > file1.csv

同样的,把csv文件的一列按照“-”短横杠进行分割:

$ sed 's/-/\t/' test1 > test2

处理后的文件:

$ head Q_T_Q_V_p01_chrlocation.csv
chr10   105280000       105280550
chr10   105469500       105469950
chr10   107658700       107659600
chr10   108153100       108153800
chr10   108452300       108452850
chr10   110183500       110184500
chr10   111636750       111637550
chr10   111684750       111685450
chr10   111840100       111840700
chr10   112000200       112000850

Step3 把csv改成bed后缀

直接鼠标右击“重命名”。
然后看一下bed文件:

$ head Q_T_Q_V_p01_chrlocation.bed 
chr10   105280000   105280550
chr10   105469500   105469950
chr10   107658700   107659600
chr10   108153100   108153800
chr10   108452300   108452850
chr10   110183500   110184500
chr10   111636750   111637550
chr10   111684750   111685450
chr10   111840100   111840700
chr10   112000200   112000850

Step4 安装bedtools

安装bedtools:

$ wget https://github.com/arq5x/bedtools2/releases/download/v2.29.1/bedtools-2.29.1.tar.gz
$ tar -zxvf bedtools-2.29.1.tar.gz
$ cd bedtools2
$ make

也有其他安装方法,见:Installation

Step5 根据染色体坐标位置批量提取相应序列

参考官网:getfasta
用bedtools根据已知的染色体坐标位置,获得fasta文件:

#-fi后面是你想从哪个fasta文件里提取序列,我这里是从小鼠基因组里提取
#-bed指的是你输入的文件类型是什么,这里我输入的是bed文件
#-bed后面跟的是上面我们拿到的染色体坐标文件
#-fo是输出结果储存的文件
$ bedtools getfasta -fi /media/yanfang/FYWD/RNA_seq/ref_genome/mm10.fa -bed Q_T_Q_V_p01_chrlocation.bed -fo Q_T_Q_V_p01_peakseq.fa

得到的fasta文件:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342