Hi-Fi (High-Fidelity) 测序
-
高保真长读长测序技术,基于SMRT(Single Molecule Real-Time)测序平台。
- 提供高准确度的DNA序列数据,主要用于基因组组装、变异检测、转录组分析。它适合用于分析复杂的基因组区域,如重复序列和结构变异,通过长读长技术有效解决基因组组装中的问题。
Hi-C (High-throughput Chromosome Conformation Capture)
- 用于研究染色体三维结构的技术,能够捕获基因组中不同区域的物理接触信息,帮助绘制染色体折叠结构和基因组架构。
- 捕捉染色体三维空间中的相互作用,用于研究基因调控和染色体的高级结构。通过Hi-C数据,可以分析基因与远距离调控元件(如增强子)的物理交互,帮助解释基因调控的空间维度。
-
辅助基因组组装
详细的数据格式及其类型
1.Hi-Fi 测序数据示例
Hi-Fi 测序主要生成长读长的序列数据,其格式通常为FASTQ格式,包含序列的碱基信息和质量值。每条序列由四行组成:
第一行:以@开头,表示序列的标识符。
第二行:实际的DNA碱基序列(如AGCTTGA...),长度通常较长,可以达到几千到几万碱基(Hi-Fi测序是长读长)。
第三行:以+开头,表示序列的标识符或为空行。
第四行:对应的碱基质量值(质量得分),表示测序的准确度,符号通过ASCII编码表示。
2.Hi-C 数据示例
Hi-C 数据提供染色体之间的空间交互信息,通常以交互位点的形式表示。Hi-C 的常见格式有BEDPE和hic文件格式,其中BEDPE是一种简单的文本格式,描述染色体片段的物理交互,而.hic是特定的二进制格式,用于存储压缩后的三维基因组交互数据。
chr1 10000 10500:表示染色体1的一个片段,其位于位置10000到10500。
chr1 50000 50500:表示染色体1的另一个片段,位于位置50000到50500。
500:交互频率,表示两个染色体片段之间的交互强度(数值越大表示交互越频繁)。
k-mer分析
- monomeric unit (mer)
单体单元,单位是nt或者bp。
通常用于双链核酸中的单位,100 mer DNA相当于每一条链有100nt,那么整条链就是100bp。 - k-mer概念
在生物信息学中,k-mer是指包含在一段序列中的长度为k的子串。