Liqid的现成AI超级计算机采用DGX-2

可组合的基础架构专家Liqid接受了Nvidia的DGX-2，这是AI计算的2 petaFLOPS超级巨星，而新贵表示，它已经使用现成的技术构建了类似的基于GPU的超级计算机，其价格仅为DGX-2和DGX的一半。在ResNet-50图像识别基准上提供了20%以上的性能提升。

Liqid的新系统LQD8360利用该公司的PCIe可组合结构，Dell Technologies PowerEdge R640服务器和多达20个Nvidia Quadro RTS 8000 GPU的扩展机箱，这些扩展机箱在单独的物理机箱或JBOG中将GPU封装在一起的GPU)。Liqid告诉我们，其Command Center软件与智能，低延迟，基于PCIe的架构相结合，使GPU可以在裸机级别与Dell Technologies R640节点进行动态配置。

结果：根据TensorFlow ResNet-50基准，LQS8360系统实现了每秒超过15,000幅图像的图像训练吞吐量，而DGX-2的则为12,000 /秒。

Liqid首席执行官兼联合创始人Sumit Puri对我们说：“它是世界上最快的单计算机之一。” “而且我们并不是通过构建一堆奇特的硬件来做到这一点的。为此，我们采用了标准的现成硬件，并组成了可产生世界最高性能的配置。现在……我们将在Dell进行SKU处理，客户将可以直接从Dell购买。”

普里拒绝透露具体的美元数据，他说LQD8360的价格将约为DGX-2的一半，后者的标价为399,000美元。

可以肯定的是，Puri并未为其系统申请“ DGX-2杀手”的称号。实际上，他说Nvidia是Liqid's的技术合作伙伴，Nvidia有助于调整LQS8360的性能。相反，他强调说LQS8360特别适合“视觉密集型”工作负载(例如监视视频的实时分析，面部识别，车牌识别，智能城市交通监控)，因此使用ResNet基准测试，该指标可每秒可识别的图像，可用于机器学习训练操作和推理。

这两个系统之间的主要区别在于它们各自的GPU：LQS8360使用了较便宜和较旧的Nvidia Quadro RTX 8000，而DGX-2采用了Nvidia的更新的，价格更高的V100 Tensor Core。

“ DGX-2基于V100平台，V100是一种特定类型的GPU，正在推动某些以数据中心为中心的工作负载，” Puri说。“英伟达很可能永远不会基于RT X 8000 GPU来构建DGX-2，因为它不是它们的最高端旗舰产品。我们发现的是采用RTX 8000并将其部署到我们的结构中并以适当的方式对其进行配置，在某些情况下，我们可以达到与DGX-2解决方案竞争的性能水平;在其他情况下，(LQS8360)实际上更适合渲染作业，而DGX-2可能更多机器学习…在某些工作负载下，客户可能希望使用V100，因为对于他们给定的工作负载而言，V100的表现会更好。

行业观察家Moor Insights&Strategy的 HPC和机器学习高级分析师Karl Freund 表示，Liqid出售LQD8360来渲染工作负载而非AI可能会取得更大的成功。他在一封电子邮件中告诉我们：“ Quadro RTX是a)通过较慢的(2X)PCIe与NVLink相连接，b)没有HBM内存，c)没有张量核心，”他在一封电子邮件中告诉我们。“但是他们能够将其中的20个打包到服务器中，这令人印象深刻。”

他还指出，尽管ResNet-50用于小图像，但“许多AI正在解决更大的问题，为此NVLink将提供更好的可伸缩性。” 关于这两个系统之间的价格性能差异，Freund表示，“对于渲染而言，这更重要，恕我直言，它也不需要以对延迟敏感的方式进行扩展。”

在构建LQD8360时，Liqid与电信提供商Orange Silicon Valley(戴尔是跨国电信运营商Orange SA(以前的法国Télécom)的子公司)合作。

LQD8360具有裸机的可组合性和经过优化的Dell BIOS，可以将多达20个RTX 8000 GPU分配给结构上的PowerEdge R640节点，而无需重新设计物理机箱，使其成为业内容量最高的扩展机箱(JBOG)。到Liqid。当配置有20个GPU(每个具有48GB的内存容量)时，系统将提供960GB的VRAM并启用Nvidia GPUDirect对等功能，从而允许在结构上每个GPU的内存区域之间进行高速直接内存访问传输，在两个GPU的内存之间存储和加载数据。此外，Liqid Command Center旨在通过在工作负载完成时将GPU重新分配给各个节点来最大程度地减少空闲计算资源。

该公司表示：“ Liqid的可组合解决方案通过优化GPU与CPU的比例并根据需要动态更改这些比例，从而降低了部署成本，从而显着提高了高密度计算环境的总体拥有成本。” “可组合模型使GPU可以即时集成到计算节点中，以通过软件定义的技术最大程度地利用这些强大的计算加速器。”

该系统因橙色硅谷与Liqid合作而无法使用。

“他们引入了我们的一些设备，并开始针对特定的用例进行测试，这些案例是针对最终用户的……围绕AI和GPU进行……，诸如将智能GPU部署在云中和边缘的事情，” Puri说过。

他说，LQD8360在诞生之初就只是一个“很小的沙箱”，而它却变得越来越大。“他们说的是，他们想要一个非常大的沙箱，以便他们可以调整一些AI算法，以查看可获得的最大性能。我们告诉他们，“嘿，如果您正在寻找可以提供此功能的沙箱，我们将为您组成一个。”

Liqid和Dell致力于调整PowerEdge BIOS以支持多个GPU。

“考虑一下–在1-U披萨盒中，戴尔从来没有理由在该BIOS中支持20个GPU，因为您不能放置多个GPU，对吗?因此，我们与戴尔合作，并获得了能够识别数十个GPU的BIOS。然后，我们回到了Orange……与他们的AI工程师一起对诸如Tensor之类的CUDA之类的东西进行调整，对诸如ResNet之类的应用程序进行调整，以了解我们可以从中获得多少性能。”

调整一直在继续，Puri告诉我们，截止到本周，Orange将系统的性能再降低了5%。