AI前线
快手八卦!突破TensorFlow、PyTorch并行瓶颈的开源分布式训练框架来了!
八卦的特点如下:
- 并行性能显著提高:在 ImageNet 数据集上,相较当前开源分布式框架(PyTorch-DDP,Horovod,BytePS),当配置同样的算力(128GPU)与通信网络(100Gbps),达到相同的训练精度,Bagua 只需其他框架 80% 左右的时间;
- 对网络环境更鲁棒:由于有效的支持了各类算法优化(信息压缩,异步,和去中心化),Bagua 在各类网络环境下(包括不同延时和带宽)都体现出了良好的适配性。尤其是在高延迟低带宽的情况下,Bagua 体现出比其他框架更优的加速比,比如:在 10Gbps 网络带宽环境下,同样的 ImageNet 任务,Bagua 只需其他框架 50% 左右的训练时间来达到同样的训练精度;
- “一键式”使用:Bagua 对于端用户非常友好,现有利用 PyTorch 的模型都可以作为 Bagua 的输入,Bagua 将自动为其提供丰富的并行方案——只需增加几行代码,训练就可以运行在分布式集群上;
- 分布式通讯算法易拓展性:Bagua 提供了针对算法的高拓展性,对于分布式优化算法的开发者,Bagua 提供了有效的通讯抽象,开发者实现的新算法也可以直接复用 Bagua 的系统优化;
- 可用于工业级场景大规模使用:Bagua 为 Kubernetes 实现了定制化的 operator,支持云原生部署,同时考虑机器资源和故障问题,有机结合 PyTorch Elastic 和 Kubernetes 实现了容灾功能和动态训练扩缩容。用户可以通过使用 Bagua ,在少量机器空闲时就开始训练,在更多机器资源释放的情况下,训练任务自动扩容到更多机器。同时机器节点损坏时,自动剔除坏节点继续训练。方便工业级训练场景使用,也方便与机器学习平台结合使用。
- 安全、故障易排查:Bagua 通讯后端由注重内存安全、速度和并发性的 Rust 语言实现,在编译期就排除了大量的内存安全问题。同时基于 tracing 实现了分模块、分层级的 log 输出,使得实际场景中故障排查更加轻松。
机器之心
一天之内,两大AI预测蛋白结构算法开源,分别登上Nature、Science
使用氨基酸序列预测蛋白质形状的AphaFold2,终于开源了。
AlphaFold 网络由两个主要部分组成。首先,网络的主干通过一个称为 Evoformer 的新神经网络块的重复层来处理输入,产生一个 Nseq × Nres 阵列 (Nseq: 序列数,Nres: 残差数) ,它表示一个处理过的 MSA 和一个表示剩余对的 Nres × Nres 阵列。Evoformer 块包含许多新颖的基于注意力和非基于注意力的成分,它的关键创新是与 MSA 交换信息的新机制,并能直接推理空间和进化关系的配对表征。