重复区域注释

1.UCSC上重复区域文件rmsk.txt.gz

将rmsk文件根据重复序列分类需求转换为bed文件:
grep LINE rmsk.txt | awk -F"\t" '{print $6,$7,$8,$10}' |sed 's/ /\t/g'>LINE.bed

重复类型:

Short interspersed nuclear elements (SINE), which include ALUs
散在重复序列是与串联重复序列的组织形式不同的另一类重复序列,是散在方式分布于基因组内的散在重复序列。
ALU 序列属于SINE, 人类基因组10%以上。Alu重复序列由于这种DNA序列中有限制性内切核酸酶AluⅠ的识别序列AGCT,所以称为Alu重复序列
Long interspersed nuclear elements (LINE)
重复序列单元长度在1,000 bp以上的散在重复序列称为长散在重复序列。
Long terminal repeat elements (LTR), which include retroposons
长末端重复序列(LTR):反转录病毒的基因组的两端各有一个长末端重复序列(5’—LTR和3’—LTR),不编码蛋白质,但含有启动子,增强子等调控元件,病毒基因组内的LTR可转移到细胞原癌基因邻近处,使这些原癌基因在LTR强启动子和增强子的作用下被激活,将正常细胞转化为癌细胞。
DNA repeat elements (DNA)
Simple repeats (micro-satellites)
重复单元为1-6个bp, 重复数目在5-50,也有可能更多。简单重复序列,比如 单碱基重复Tn、 二碱基重复(CG)n、三碱基(CAG)n重复等。
遗传多态性,突变率高于基因组其他区域
Low complexity repeats
低复杂重复
Satellite repeats
卫星序列, 重复单元、重复数目都比微卫星要多。
RNA repeats (including RNA, tRNA, rRNA, snRNA, scRNA, srpRNA)
Other repeats, which includes class RC (Rolling Circle)
环状DNA重复
Unknown

2.Repbase数据库:

https://www.girinst.org/repbase/
Repbase是最常用的重复DNA元件数据库

3.RepeatMasker :

http://www.repeatmasker.org/
RepeatMasker是一个筛选散布重复序列和低复杂度DNA序列的DNA序列的程序。 程序的输出是查询序列中存在的重复的详细注释,以及查询序列的修改版本,其中所有带注释的重复都已被屏蔽(默认值:由Ns替换)。
RepeatMasker利用精选重复库,目前支持Dfam(源自Repbase序列的配置文件HMM库)和遗传信息研究所的服务Repbase。

4.RepeatModeler:

http://www.repeatmasker.org/RepeatModeler/
是一个从头重复的家庭识别和建模包。 核心是两个从头重复发现程序(RECON和RepeatScout),它们采用互补计算方法从序列数据中识别重复元素边界和家族关系。 给定基因组数据库,RepeatModeler协助自动运行RECON和RepeatScout,并使用输出构建,改进和分类推定的散布重复序列的共识模型。

5.PILER

(Parsimonious Inference of a Library of Elementary Repeats)(初级重复文库的简明推理)在基因组序列中搜索重复元素。输入是一组一个或多个DNA序列。 通常,输入是基因组或基因组的子集,例如染色体。
PILER实现了四种搜索方法,每种方法都旨在找到特定的重复类。 它们总结在下表中:


6.GATK HC VariantAnnotator

-A 接参数 TandemRepeatAnnotator
-A 其他参数 https://www.jianshu.com/p/c1232ba4e2cc

INFO=<ID=STR,Number=0,Type=Flag,Description="Variant is a short tandem repeat">
INFO=<ID=RU,Number=1,Type=String,Description="Tandem repeat unit (bases)">
INFO=<ID=RPA,Number=.,Type=Integer,Description="Number of times tandem repeat unit is repeated, for each allele (including reference)">


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,701评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,649评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,037评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,994评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,018评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,796评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,481评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,370评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,868评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,014评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,153评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,832评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,494评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,039评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,156评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,437评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,131评论 2 356

推荐阅读更多精彩内容