1.UCSC上重复区域文件rmsk.txt.gz
将rmsk文件根据重复序列分类需求转换为bed文件:
grep LINE rmsk.txt | awk -F"\t" '{print $6,$7,$8,$10}' |sed 's/ /\t/g'>LINE.bed
重复类型:
Short interspersed nuclear elements (SINE), which include ALUs
散在重复序列是与串联重复序列的组织形式不同的另一类重复序列,是散在方式分布于基因组内的散在重复序列。
ALU 序列属于SINE, 人类基因组10%以上。Alu重复序列由于这种DNA序列中有限制性内切核酸酶AluⅠ的识别序列AGCT,所以称为Alu重复序列
Long interspersed nuclear elements (LINE)
重复序列单元长度在1,000 bp以上的散在重复序列称为长散在重复序列。
Long terminal repeat elements (LTR), which include retroposons
长末端重复序列(LTR):反转录病毒的基因组的两端各有一个长末端重复序列(5’—LTR和3’—LTR),不编码蛋白质,但含有启动子,增强子等调控元件,病毒基因组内的LTR可转移到细胞原癌基因邻近处,使这些原癌基因在LTR强启动子和增强子的作用下被激活,将正常细胞转化为癌细胞。
DNA repeat elements (DNA)
Simple repeats (micro-satellites)
重复单元为1-6个bp, 重复数目在5-50,也有可能更多。简单重复序列,比如 单碱基重复Tn、 二碱基重复(CG)n、三碱基(CAG)n重复等。
遗传多态性,突变率高于基因组其他区域
Low complexity repeats
低复杂重复
Satellite repeats
卫星序列, 重复单元、重复数目都比微卫星要多。
RNA repeats (including RNA, tRNA, rRNA, snRNA, scRNA, srpRNA)
Other repeats, which includes class RC (Rolling Circle)
环状DNA重复
Unknown
2.Repbase数据库:
https://www.girinst.org/repbase/
Repbase是最常用的重复DNA元件数据库
3.RepeatMasker :
http://www.repeatmasker.org/
RepeatMasker是一个筛选散布重复序列和低复杂度DNA序列的DNA序列的程序。 程序的输出是查询序列中存在的重复的详细注释,以及查询序列的修改版本,其中所有带注释的重复都已被屏蔽(默认值:由Ns替换)。
RepeatMasker利用精选重复库,目前支持Dfam(源自Repbase序列的配置文件HMM库)和遗传信息研究所的服务Repbase。
4.RepeatModeler:
http://www.repeatmasker.org/RepeatModeler/
是一个从头重复的家庭识别和建模包。 核心是两个从头重复发现程序(RECON和RepeatScout),它们采用互补计算方法从序列数据中识别重复元素边界和家族关系。 给定基因组数据库,RepeatModeler协助自动运行RECON和RepeatScout,并使用输出构建,改进和分类推定的散布重复序列的共识模型。
5.PILER
(Parsimonious Inference of a Library of Elementary Repeats)(初级重复文库的简明推理)在基因组序列中搜索重复元素。输入是一组一个或多个DNA序列。 通常,输入是基因组或基因组的子集,例如染色体。
PILER实现了四种搜索方法,每种方法都旨在找到特定的重复类。 它们总结在下表中:
6.GATK HC VariantAnnotator
-A 接参数 TandemRepeatAnnotator
-A 其他参数 https://www.jianshu.com/p/c1232ba4e2cc
INFO=<ID=STR,Number=0,Type=Flag,Description="Variant is a short tandem repeat">
INFO=<ID=RU,Number=1,Type=String,Description="Tandem repeat unit (bases)">
INFO=<ID=RPA,Number=.,Type=Integer,Description="Number of times tandem repeat unit is repeated, for each allele (including reference)">