(文/程)近年来,在数字化浪潮的推动下,传感器及其产生的数据量呈现爆炸式增长,对数据处理基础设施的需求也随之增加。根据国际超级计算大会(ISC)的统计,在高性能计算领域,超级计算系统的架构越来越多样化。在近几年的超级计算500强榜单中,使用GPU、FPGA等加速卡的异构计算系统比例呈上升趋势。
图:Alveo U55C数据中心的加速卡
最近,Xilinx在SC21全球超级计算大会上推出了新的Alveo U55C数据中心加速卡和基于标准、API驱动的集群解决方案,用于大规模部署FPGA。Xilinx数据中心部门高性能计算(HPC)产品经理Nathan Chang表示,Alveo U55C加速卡结合了当今所需的许多关键功能高性能计算和大数据工作负载。加速卡可以提供Alveo加速器产品系列中最高的计算密度和HBM2容量。结合Xilinx 基于RoCE v2的全新集群解决方案,可以极大地惠及运行大规模计算工作负载的各类客户,支持他们利用现有的数据中心基础设施和网络,实现基于FPGA的强大HPC集群。
图:赛灵思数据中心部门高性能计算(HPC)产品经理Nathan Chang
Alveo U55C Alveo U55C卡最重要的特性结合了当前HPC工作负载所需的许多关键特性。可提供更高的数据流水线并行度、出色的内存管理、优化的全流水线数据迁移,以及Alveo产品系列中最高的单位功耗性能。与它的前身产品Alveo U55C,Alveo U280相比,有很多升级。外观上,Alveo U55C采用单槽、全高半长(FHHL)外形尺寸;在计算能力方面,虽然Alveo U55C提供的计算能力没有变化,但是体积更小,计算密度有了很大的提升。功耗方面,Alveo U55C的最大功耗为150W,而Alveo U280的最大功耗为225W。此外,Alveo U55C将HBM2的容量翻倍至16GB。Nathan Chang解释说,功耗降低的原因是Alveo U55C去掉了DDR,使HBM2在存储卡方面增加了一倍,相当于高带宽数量增加了四倍。由于去掉了DDR,Alveo U55C的整个TDP功耗也下降了。
图:Alveo U55C与其前身Alveo U280的参数对比
在内森张看来,Alveo U55C有三个非常重要的特点:一是采用RoCE v2、DCBx,以及MPI,在现有网络和基础设施上为当前数据中心提供最前沿的计算集群。其次,现有的应用开发者可以在Vitis平台上使用一些现有的API、库和MPI来扩展工作量。第三是高性能。据他介绍,通过RoCE v2和DCBx技术,结合200 Gbps的带宽,Alveo U55C构建的集群解决方案使Alveo网络在性能和延迟方面与InfiniBand网络不相上下,且不锁定厂商。MPI(信息传输接口)集成功能使HPC开发人员能够利用Xilinx Vitis统一软件平台扩展Alveo数据管道。借助现有的开放标准和框架,现在可以跨数百个Alveo卡扩展性能,而无需考虑服务器平台和网络基础设施,同时共享工作负载和存储。
在应用程序和面向集群的高级编程的帮助下,软件开发人员和数据科学家可以使用Vitis平台来释放Alveo和自适应计算的优势。Xilinx在Vitis开发平台和工具流上进行了大量投资,旨在让没有硬件专业知识的软件开发人员和数据科学家更容易使用自适应计算。Vitis平台支持Pytorch、Tensorflow等主流AI框架,也支持C、C、Python等高级编程语言,使开发者能够使用特定的API和库构建领域解决方案,或者使用Xilinx软件开发套件,从而轻松加速现有数据中心的关键HPC工作负载。
应用案例谈及Alveo U55C的应用,Nathan Chang列举了几个常见的应用场景,比如几乎每个汽车厂商都在使用的碰撞仿真软件LS-DYNA。汽车厂商主要用它来测试汽车的冲击,从而检验仿真结果,保证汽车设计的安全性及其结构的完整性。然而,安全和结构系统的设计往往取决于模型的性能,因为它可以通过计算机辅助设计有限元方法(FEM)模拟来降低物理碰撞试验的成本。FEM求解器是驱动具有数亿个自由度的模拟的主要算法,这些庞大的算法可以细分为更基本的求解器,如PCG、稀疏矩阵和ICCG。与x86 CPU相比,LS-DYNA通过使用超并行数据流水线在大量Alveo卡上扩展性能,可以实现5倍以上的性能加速。这可以提高Alveo流水线中单位时钟周期的工作效率,并使LS-DYNA客户受益于突破性的模拟时间。
此外,他还介绍了一个图形分析的案例。"在加入Xilinx之前,我是一名创业者。当时我在石油天然气行业,主要工作是做求解地壳振动图形的AI和机器学习。正如我们所知,数据工程师、科学家和分析师在处理这类话题时会寻找一些数据的相关性。在寻找的过程中,我们发现了一个巨大的痛点,就是数据的孤岛越来越多,要把这些不同孤岛上的数据连接起来,真的非常困难。"他叹了口气。
然而,Nathan Chang表示,gallery data是一个科学家认为非常具有颠覆性的平台。它可以从孤岛中提取数据,使数据科学家可以专注于数据之间的关系,而不是看单一的图片。赛斯的合作伙伴TigerGraph是一家图形分析平台提供商。他们正在使用几个Alveo U55C卡来集群和加速两个最有效的算法,以驱动基于图形的推荐和集群引擎。图从孤立的信息孤岛中收集数据,并关注数据之间的关系。图形领域的下一个前沿是实时寻找答案。Alveo U55C将推荐引擎的查询和预测时间从几分钟降低到几毫秒。与基于CPU的集群相比,通过扩展多个U55C卡提供的出色计算能力和内存带宽,图形查询速度可提升45倍。分数也提高了35%,显著提高了置信度,将误报概率降到了较低的个位数。此外,他还列举了Alveo U55C在信号处理、医疗和金融方面的应用。
总结随着高性能计算迈向千万亿次大关,功耗将成为下一个难点。然而,典型的高性能计算架构,即CPU和GPU架构,难以提供可接受的单位功耗性能。因此,现在越来越多的高性能计算集群开始采用单机构计算架构,预计未来将有更多的计算能力部署在专用加速器上,而不是通用CPU上。对于降低整个HPC服务器集群功耗的目标,加速卡效果更好,功耗更低。加速卡的市场前景在未来会更加广阔。
标签:AlveoU55C数据计算