Hail是一个用于可扩展数据探索和分析的开源库,特别是基因组学,为各种规模的基因组分析提供强劲支持,云原生的基因组数据框架和批处理计算。Hail需要Python 3和Java 8 JRE, GNU/Linux 还需要 C 和 C++标准库(如果尚未安装)。
有关库的高级用法,请参阅概述,有关全基因组关联研究的简单示例,请参阅GWAS 教程,以及安装页面以开始使用 Hail。
最新版本0.2.80发布于 2021-12-15,实时更新中呀,未来可期!
Hail的特点
简化的分析
Hail Query 提供功能强大、易于使用的数据科学工具。查询各种规模的数据:从笔记本电脑上的小型数据集到云中的生物样本库规模数据集(例如UK Biobank,gnomAD,TopMed,FinnGen和Biobank Japan)。
基因组数据帧
现代数据科学由数字矩阵(参见Numpy)和表(参见R数据帧和pandas)驱动。虽然对于许多任务来说已经足够了,但这些工具都不能充分捕获遗传数据的结构。遗传数据将基质的多个轴(例如变体和样本)与表格的结构化数据(例如基因型)相结合。为了支持基因组分析,Hail引入了一种功能强大的分布式数据结构,结合了矩阵和数据帧的特征,称为MatrixTable。
输入统一
Hail MatrixTable统一了多种输入格式(例如.vcf、bgen、plink、tsv、gtf、bed 文件),并支持可扩展的查询,即使在 PB 大小的数据集上也是如此。Hail的MatrixTable抽象为科学提供了一个集成且可扩展的分析平台。
GWAS流程
Hail | GWAS Tutorial
提供Hail功能的广泛概述,重点是操作和查询遗传数据集的功能。我们进行了全基因组SNP关联测试,并证明了需要控制由群体分层引起的混杂。
详细流程,基本是Python代码,是不是对Python党非常友好,学起来呀!