Hi-Fi &Hi-C 测序技术

Hi-Fi (High-Fidelity) 测序

  • 高保真长读长测序技术,基于SMRT(Single Molecule Real-Time)测序平台。
  • 提供高准确度的DNA序列数据,主要用于基因组组装、变异检测、转录组分析。它适合用于分析复杂的基因组区域,如重复序列和结构变异,通过长读长技术有效解决基因组组装中的问题。

Hi-C (High-throughput Chromosome Conformation Capture)

  • 用于研究染色体三维结构的技术,能够捕获基因组中不同区域的物理接触信息,帮助绘制染色体折叠结构和基因组架构。
  • 捕捉染色体三维空间中的相互作用,用于研究基因调控和染色体的高级结构。通过Hi-C数据,可以分析基因与远距离调控元件(如增强子)的物理交互,帮助解释基因调控的空间维度。
  • 辅助基因组组装


    图源 生信小宝

详细的数据格式及其类型

1.Hi-Fi 测序数据示例

Hi-Fi 测序主要生成长读长的序列数据,其格式通常为FASTQ格式,包含序列的碱基信息和质量值。每条序列由四行组成:

第一行:以@开头,表示序列的标识符。

第二行:实际的DNA碱基序列(如AGCTTGA...),长度通常较长,可以达到几千到几万碱基(Hi-Fi测序是长读长)。

第三行:以+开头,表示序列的标识符或为空行。

第四行:对应的碱基质量值(质量得分),表示测序的准确度,符号通过ASCII编码表示。


Hi-Fi数据 FASTQ格式

2.Hi-C 数据示例

Hi-C 数据提供染色体之间的空间交互信息,通常以交互位点的形式表示。Hi-C 的常见格式有BEDPE和hic文件格式,其中BEDPE是一种简单的文本格式,描述染色体片段的物理交互,而.hic是特定的二进制格式,用于存储压缩后的三维基因组交互数据。

Hi-C BEDPE格式

chr1 10000 10500:表示染色体1的一个片段,其位于位置10000到10500。

chr1 50000 50500:表示染色体1的另一个片段,位于位置50000到50500。

500:交互频率,表示两个染色体片段之间的交互强度(数值越大表示交互越频繁)。

k-mer分析

  • monomeric unit (mer)
    单体单元,单位是nt或者bp。
    通常用于双链核酸中的单位,100 mer DNA相当于每一条链有100nt,那么整条链就是100bp。
  • k-mer概念
    在生物信息学中,k-mer是指包含在一段序列中的长度为k的子串。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容