AI算力如何高速运转 华为云全球首发GPU加速型容器
华为云·云容器实例(CCI)在全球首次公开了基于K8S的无服务器GPU加速容器实例。在此之前,华为云推出了基于K8S的容器实例全球首发,为容器实例服务提供了更丰富的计算选项,并为那些对高性能计算(如AI和视频处理)感兴趣的公司和开发人员带来了更多的游戏体验。对AI的需求呈爆炸式增长
以AI场景为例,OpenAI发布了一份研究报告,显示从2012年到2018年的6年间,单次AI训练的计算量增加了30万倍。这意味着训练的计算量每3.5个月翻一番,是摩尔定律的5倍。与此同时,人工智能在所有行业都很普遍,对人工智能计算能力的需求将呈爆炸式增长。公共云是一个更好的选择,如果你需要人工智能计算能力,因为它具有低成本的硬件,不需要关注基础设施和零交付周期的优势。随着容器技术被各个领域的开发人员所接受,我们发现它可以提供标准化的容器包,以解决AI场景中不同工具的环境依赖性。构建深度学习训练环境的用户必须准备一台带有GPU的机器,并安装Python、TensorFlow、GPU驱动程序等。如果您想从开发环境迁移到测试环境,或者从测试环境迁移到生成环境,则包括在环境迁移过程中如何确保环境的一致性。然而,容器提供的标准化打包功能提供了一个很好的解决方案,大大降低了人工智能平台的复杂性,允许多个培训框架共存,并大大简化了生产部署。目前,K8S已成为业界最主流的集装箱管理平台,提供灵活的编排调度系统,满足大规模并行AI分布式培训,大大提高了培训速度。因此,公共云GPU容器实例对AI用户越来越有吸引力。此次发布的GPU加速容器实例本质上是基于无服务器K8S提供GPU计算能力,这两种技术的结合将为AI、基因、视频处理等场景带来不同的体验。 避免保养。与传统的租赁云服务器和自己的IDC相比,GPU加速的容器实例不需要客户直接购买和管理GPU容器实例,同时考虑集群升级、社区bug修复、集群资源利用率等。与此同时,CCI还提供可视化Pod CPU/MEM/GPU监控功能,实时监控处理过程,大大简化了运营成本。 高性能的;华为云GPU加速云容器实例支持秒尺度缩放和高并行性,Kata容器启动速度为600ms,集群规模最大,可达10万个容器实例,客户可快速使用GPU实例实现分布式计算。例如,华为云EI使用这个GPU容器实例,在斯坦福DAWNBench测试中取得了前两名的好成绩,GPU线性加速比为0.8+。
低成本的。许多高性能计算时间都非常灵活,以人工智能训练为例,在许多场景中,客户以高速重复多次计算。华为云GPU加速云容器实例提供按需按秒计费,让客户在商业计算市场上真正消费,避免了每年打包带来的高昂成本。华为云和GPU加速云容器实例正在成为解决AI场景中各种环境问题的工具,展示了无服务器K8S上免维护、高性能和低成本计算能力的优势。未来,它将为高性能计算公司和开发人员提供更高效、更安全、成本更低的公共云服务,包括人工智能、基因和视频处理等行业。