1.PacBio HiFi 长读长测序技术

长读长测序能够检测长度为1,000到20,000个碱基或更长的DNA（或RNA）片段。这些片段通常来自于“原生”分子，这些分子是直接从生物样本中提取出来进行分析的。相比之下，大多数短读长测序技术只能检测50-300个碱基长度的片段。与大多数长读长方法不同，短读长测序解决方案无法有效地对原生分子进行测序，并且在分析之前需要对提取的DNA进行扩增。

“……虽然读长通常被认为是主导因素之一……，但我们的结果表明，HiFi 技术更高的测序准确性超过了读长所带来的好处。”

2.ccs数据格式

CCS（Consensus Coding Sequence）数据是PacBio SMRT（Single Molecule, Real-Time）测序技术中的一种高质量序列数据格式。CCS数据是通过将多个独立的subreads（子读取序列）对齐并合并成一个更准确的共识序列来生成的。这种数据格式具有以下特点：

高质量：CCS序列是经过质量控制和错误校正的，因此比原始的subreads具有更高的准确性。

长读取：PacBio测序技术可以产生平均长度在10,000到20,000碱基对的长读取序列。

数据结构：CCS数据通常包含以下信息：

序列标识符（Sequence Identifier）：唯一标识序列的ID。

序列（Sequence）：核苷酸序列。

质量值（Quality Values）：每个碱基的测序质量评分，通常以Phred+33或Phred+64编码。

文件格式：CCS数据可以存储在多种文件格式中，包括：

HDF5：一种用于存储和组织大量数据的文件格式，PacBio的SMRT Analysis软件使用这种格式。

BAM：二进制比对/映射格式，是一种用于存储测序读取与参考基因组比对结果的压缩格式。

FASTA：一种简单的文本格式，用于存储核苷酸序列或蛋白质序列。

附加信息：CCS数据文件可能还会包含一些附加信息，如测序过程中的原始信号强度、分子条形码、测序孔信息等。

分析工具：PacBio提供了一系列的软件工具来处理CCS数据，包括用于生成CCS的CCSGenerator，以及用于进一步分析的SMRT Link。

应用领域：CCS数据由于其高准确度和长读取长度，常用于基因组组装、基因表达分析、甲基化分析和RNA结构研究等领域。

查看压缩的ccs文件

zcat G00101.ccs.fastq.gz | head -n 10

@m64270e_220111_004519/31/ccs

TTGGAGGACAATAGGAACGACGTGAGAAGTAAACAGTCTAAAAAAGGAAACTCAGGCGCTG

+

~`O~~r~~~~~ll*Y~~~~~~~~g~~j~j~~~~v~~~~~<^~~~~u~T~~~~~~j~~~~~g~~~U~~~~~~~t~v~~~.~~~}n_z~~qpc~u~6~~3~~~~H~\~~~~q~{~~\~R~~u~~~~~S~~~~~F~~~u~@U~X_Mfe~`~~~~~~l~|~+Z>~\]]~~W~s}~~~~V~~n~~|~~~p~~\~~O~~k~~r~pt~v~]~~D~~~e~+~~U~)yhl~d}~bJ@`~~~~~~~~uj~~~&<~?

3.canu组装

canu是专门设计给组装PacBio或Oxford Nanopore长序列的一款工具。输入的序列可以是FASTA或FASTQ格式，未压缩或使用gzip（.gz），bzip2（.bz2）或xz（.xz）压缩的格式，暂时不支持zip文件（.zip）。

Canu支持断点运行，允许从系统中断或其他它常终止中断点运行。每次重新启动Canu时，它都会检查程序集目录中的文件，以决定下一步该做什么。例如，如果除了两个组装任务之外的所有任务都已完成，那么当其重新启动之后，Canu仅会进行运行所缺失的两个任务。为获得最佳结果，请勿在重新启动，中途时候更改Canu的参数。

Canu具有智能的检测功能。Canu能根据当前服务器所有可用的资源，自动检测计算资源并扩展调整自身参数的配置。当然你也可手动去调整，可以使用参数maxMemory和maxThreads明确限制内存和处理器的数目。

对数据的要求，对于真核基因组，理论上超过20倍的数据覆盖率，足以胜过当前的混合组装的方法。但Canu建议是，最小的数据深度范围为30倍至60倍。因为更深的覆盖度，将让Canu使用更长的读取进行装配，这将导致更好的组装结果。

Canu分三个阶段进行组装运作：

修正 (Corret)：修正阶段将会提高reads中碱基的准确性。

修剪 (Trim)：修剪阶段将reads修剪到，看起来像高质量序列，并删除可疑的区域，例如剩余的SMRTbell的adpaters。

组装 (Assemble)：组装阶段将reads排序为contigs，生成对应的共有序列(consensus suquences) 并创建可能的共有序列互相相连的路径。

HIFI组装命令（canu 2.2）

canu -p asm -d G00301 genomeSize=40m useGrid=false -pacbio-hifi /ifs1/01.RawData/01.HiFi/G00301.ccs.fastq.gz

生成的组装文件在asm.contigs.fasta，另外其他可能有用的文件asm.unassembled.fasta （没有被组装好的reads），asm.report （包含了每一步的运行信息）。

CLS组装命令

canu -p ecoli -d ecoli-pacbio genomeSize=4.8m -pacbio pacbio.fastq

Nanopore

canu -p ecoli -d ecoli-oxford genomeSize=4.8m -nanopore oxford.fasta

————————————————————————————————————

使用PacBio-HiFi数据的HiCanu一致序列通常远高于99.99%，官方文档说到不鼓励对这些组件进行任何后期处理/抛光，因为重复中的mis-mapping可能会导致错误。

对于PacBio数据集，Canu一致序列通常远高于99%的一致性。纳米孔的准确度因孔和基孔的不同而不同，但对于最新的数据，准确度通常在99%以上。精确性可以通过使用专门为该任务开发的工具来提高。

Canu推荐Arrow用于PacBio，Nanopolish或Medaka用于Oxford Nanpore数据。当Illumina reads可用时，FreeBayes可用于polish either PacBio or Oxford Nanopore assemblies.

4.falcon组装

FALCON是PacBio公司开发的一款用于三代基因组De novo组装软件。相比于HGAP4软件，FALCON软件的基因组组装原理基本一致。但FALCON使用命令行运行，更适合于大基因组的组装，且能分析双倍体序列，并在基因组组装结果中给出包含变异位点信息的等位基因序列（alternative contigs / a-contigs）和主要的基因组序列（primary contig / p-contig）。每一条a-contig都有其对应的p-contig序列。因此，FALCON软件适合双倍体物种的基因组组装，能给出单倍的基因序列。其基因组组装结果中的p-contigs序列总长度要小于其它基因组组装软件（例如Canu和HGAP）的基因组序列。

FALCON-Unzip则是真正的单倍型组装软件，它能在FALCON或HGAP4软件的基因组组装结果基础上，利用较长的PacBio reads进行单倍型分析，对p-contigs序列向单倍型进行转换，同时输出单倍型序列（haplotig）区块。

原理

第一轮是选择种子序列或者是数据集中最长的序列(通过length_cufoff设置)，比较短的序列比对到长序列上用于产生高可信度的一致性序列。PacBio称其为预组装(pre-asembled), 其实和纠错等价。这一步可能会将种子序列在低覆盖度的区域进行分割(split)或者修整(trim)，由falcon_sense_options参数控制，最后得到preads(pre-assembled reads)。

第二轮是将preads相互比对，从而组装成contigs(contig指的是连续的不间断的基因组序列, contiguous sequence)

用conda-forge通道终于安装上了

Falcon 是一个 Python Web 框架，它不是一个独立的命令行工具，而是一个 Python 包。因此，你不能直接通过 falcon 命令来运行它。相反，你需要通过 Python 来运行 Falcon 应用程序。

5.hifiasm组装

1. Hifiasm组装基因组的模式

HiFi-only assembly 模式（只有HiFi数据）

Trio-binning模式（HiFi数据+父母本二代Illumina测序数据）

Hi-C Integrated assembly 模式（HiFi数据+Hi-C数据）

端对端组装：HiFi+ONT模式（HiFi数据+ONT超长reads数据）

2. HiFi-only assembly 模式（只有HiFi数据）

2.1. 经典模式

命令

nohup hifiasm -o sample_prefix -t 32 Hifi.fq.gz 2>&1 > hifiasm.log &

参数

HiFi reads可以是fq或fa格式（fq的质量值会被忽略），可以是gz压缩格式。

-o指定输出文件前缀；-t指定线程。

用命令 2>&1 >hifiasm.log保存日志和报错内容到hifiasm.log文件。

2.2. 两种组装方式

单倍体分型组装（two partially phased assembly）

默认是以此方式组装。

单倍体分型组装生成一对文件（asm.bp.hap1.p_ctg.gfa和asm.bp.hap2.p_ctg.gfa），代表二倍体的两个单倍型。同时也会生成primary contigs文件asm.bp.p_ctg.gfa。

primary/alternate组装

加一个参数 --primary则指定primary/alternate组装方式。

命令： nohup hifiasm -o sample_prefix -t 32 --primary Hifi.fq.gz 2>&1 > hifiasm.log &

分别生成primary contigs和alternate contigs文件asm.p_ctg.gfa和asm._ctg.gfa。

3. Trio-binning模式（HiFi数据+父母本二代Illumina测序数据）

当父母本的二代Illumina reads可用时，也可以通过trio binning生成一对解析的单倍型的组装。

Hifiasm中用到的trio binning 技术是指利用父本、母本和子代的遗传信息对子代的单倍型划分的方法。该方法的有效性随着杂合度的增加而提高，极大地提升了等位基因组的组装质量。

命令

# trio-binning模式需要额外安装yak，两种安装方式任选一种

# source code

git clone https://github.com/lh3/yak

cd yak && make

# bioncda

conda install -c bioconda yak

# 运行组装

yak count -b37 -t16 -o pat.yak <(cat paternal_1.fq.gz paternal_2.fq.gz) <(cat paternal_1.fq.gz paternal_2.fq.gz)

yak count -b37 -t16 -o mat.yak <(cat maternal_1.fq.gz maternal_2.fq.gz) <(cat maternal_1.fq.gz maternal_2.fq.gz)

hifiasm -o sample_prefix -t 32 -1 pat.yak -2 mat.yak Hifi.fq.gz 2>&1 > hifiasm.log &

参数解释

命令中Illumina双端测序的父本paternal数据和母本maternal数据同时使用

4. Hi-C Integrated assembly 模式（HiFi数据+Hi-C数据）

当Hi-C数据可用时，可以生成一对解析的单倍型的组装。

李恒团队2022年在Nature biotechnology上发表论文Haplotype-resolved assembly of diploid genomes without parental data（https://www.nature.com/articles/s41587-022-01261-x），在Hifiasm中引入了Hi-C Integrated assembly 模式。

Hi-C Integrated assembly模式针对PacBio HiFi (High-Fidelity) 长读长测序技术和Hi-C (High-Throughput Chromatin Confirmation Capture) 测序技术进行了全新的设计。

该算法结合了HiFi数据中精确的局部单倍型信息和Hi-C数据中的长距离互作用信息以达到全局定相 (phasing)，从而获得不依赖亲本信息的染色体级别的单倍型组装结果。为了进一步提高组装质量，作者充分利用了组装图中的结构信息，以及其前期研究中的Graph-binning等策略。

这个模式组装后的基因组还未挂载在染色体上，仍然需要Juicer+3ddna+juicebox等软件进行染色体挂载。

这个模式的数据最易获得，所以也很常用。

命令

nohup hifiasm -o sample_prefix -t 32 --h1 HiC_1.fq.gz --h2 ample_HiC_2.fq.gz Hifi.fq.gz 2>&1 > hifiasm.log &

参数

用--h1和--h2指定Hi-C数据。

5. 端对端组装：HiFi+ONT模式（HiFi数据+ONT超长reads数据）

当ONT数据可用时，可以集成超长ONT数据生成端粒到端粒的组装

命令

nohup hifiasm -o sample_prefix -t 32 --ul ONT.fq.gz Hifi.fq.gz 2>&1 > hifiasm.log &

参数

用--ul指定ONT数据。

几个基因组组装软件