Intel多显卡AI推理方案思路解析：大显存、低TCO是重点

发布日期：2025-10-28 15:14 来源：http://www.openfpga.cn 点击：

今年年中的Computex展上，Intel发布了两款Arc Pro系列、Battlemage架构新品B50和B60显卡。其中的Arc Pro B60给我们留下了深刻的印象：尤其是24GB VRAM容量，以及197TOPS（INT8）算力——故而Intel界定这张卡面向“推理工作站”。当时Intel还给出了B60与隔壁RTX 2000 Ada、GeForce RTX 5060 Ti在主流LLM推理性能上的比较，强调B60能够以24GB的显存容量获得推理性能上的显著优势——尤其当代主流LLM模型，相比同档竞品的领先优势在2-3倍，也具备更好的成本效益。而更重要的是，Arc Pro B60可相对简单地基于PCIe实现多卡扩展，彼时Intel提供的数据是对于DeepSeek-R1-Distill-Qwen-32B FP8推理，在8k tokens的context window推理时，双卡就支持5-6个并发（5-6个人同时使用该AI服务）；扩展到四卡，96GB显存能支持50+并发，足够中小企业的AI使用需求。

更往上扩展，在Project Battlematrix（战斗阵列）推理工作站平台的加持下，扩展到8张Arc Pro B60显卡，可令显存达到192GB；另外今年Bilibili World展会上，我们还在铭瑄展位看到了基于Arc Pro B60的一卡双芯方案（基于PCIe bifurcation），单卡显存达到了48GB...

于是不出意料的，最近的湾芯展上，英特尔中国区显卡和AI高级产品总监徐金平再度提及“战斗阵列”平台，其最高规格已延展至8/16张显卡，384GB显存，支持100B+参数模型。面向目标客户时，似乎在Arc多卡阵列方案上，Intel对Arc Pro B60又有了更进一步的应用预期...

电子工程专辑已经就Arc Pro B60显卡规格做了详细撰文，本文不再赘述，其基本规格包括24GB显存（单芯）、456GB/s显存带宽，160个XMX矩阵扩展疫情总共197TOPS INT8峰值算力，120-200W TBP，PCIe Gen 5 x8接入主系统。

企业特性支持方面，“50+专业设计类软件性能优化和认证”，操作系统与上层全栈验证测试之外，也支持远程管理、SRIOV（单物理GPU在多虚拟机间共享）、VDI（Virtual Desktop Infrastructure）虚拟化特性。

基于PCIe扩展多卡支持的特性上：同服务器之上的GPU通信支持GPU Direct P2P；跨服务器集群，则支持GPUDirect RDMA——虽然现阶段我们还没有看到这类集群实例，但徐金平说在8/16卡机之外也“可以部署多卡集群，做网络互联”，实现scale-out层面的性能扩展。

如前文所述，“战斗阵列”本质上是个系统级多卡节点。基于B60，如果采用一卡双芯48GB VRAM的显卡，单台设备8卡；或普通方案16卡，就能提供总共384GB显存，支持运行100B“甚至200B的FP8大语言模型”。

Intel官方推“战斗阵列”推理工作站平台的原因在于，“AI不只关系到一张显卡，还和整个系统服务器有关”。徐金平说，就硬件层面，“战斗阵列”“本质上是给各家服务器加上显卡，做硬件层面的结构兼容”——诸如散热等系列测试；软件层面则提供容器化方案，涵盖“针对LLM优化的Linux软件栈”，并做全栈验证——“1-2个月定期推一个版本给客户”。

通过“硬件和软件整体的整合验证”，“‘战斗阵列’项目的出现，让产品和应用之间的距离更近了”。硬件层面，“Intel可以为客户提供服务器加速卡整套方案”；软件层面，“我们帮助客户做基本验证与优化，让客户能够快速部署应用。”

硬件层面的验证不必多说——从显卡、系统搭建成本，以及AI推理吞吐角度，徐金平谈到B60多卡系统具备相当的成本优势。

而企业客户更关注的软件及工具链方面，从主流框架（如PyTorch, vLLM），到Intel所做oneAPI的支持、包括深度神经网络库OneDNN、“卡间通信的OneCCL”等，皆有备齐。“我们阶段性发布容器，客户可以直接从官网下载——里面包括底层驱动、OneAPI相关的库、PyTorch、vLLM等一系列堆栈。”

基于开源、开放软件做开发生态是Intel一直以来做AI解决方案的思路，这一点我们在以往的文章里也有过详细介绍；而作为商业企业，面向客户提供经过验证的全栈打包方案，自然也是必须。

“当然如果客户期望写底层代码，将硬件性能发挥到百分之百，Intel也提供相关的库，像是ECMD、SYCL（DPC++？）。”

另外徐金平还谈到，Intel除了会做上述全栈及底层库的验证，还会“把不同参数的大模型都做验证，并给到客户”：“我们会第一时间响应客户，验证并适配他们所需的大模型和对应参数，提供技术支持。”

今年已经宣布支持Arc Pro的板卡与OEM厂商数量相较去年多了不少。比如工作站方面，“好几家合作伙伴都在跟我们做工作站适配，我们的配合、验证有一些已经在落地”。徐金平表示受制于合作复杂性，虽然现在还不便透露落地案例，但基于B60的多卡解决方案的确已经在很多行业落地。

“比如教育行业，有客户基于Arc Pro系列多卡方案做教育方面的部署，给学校做类似一体机式的服务；还有物流行业，以及智慧公园、智慧工厂，都已经有了落地案例。有的已经完全进入了量产，有的还在研发和适配过程中。”

Intel对于Arc Pro B60的主要定位是“企业和边缘应用的‘甜点’GPU”。在企业部署中，在分层架构之下，企业中央级（私有云、公有云）、部门级/边缘域（AI服务器/工作站），再到企业员工个人级（AIPC），AI计算精度、吞吐需求由高到低，Intel均有对应的覆盖方案。

“为什么说B60是企业架构下的‘甜点’GPU。”徐金平在演讲中给出的上面这张PPT，明确了从边缘盒子、个人电脑——酷睿CPU搭配B60显卡、INT4精度推理为主的方案，到至强D处理器搭配双B60显卡方案、可达成FP8精度更大参数量推理的边缘设备；

上至至强W、双socket至强SP平台搭配4卡可实现50并发（32b模型）的通用工作站/2U服务器，以及扩展8卡/16卡的AI专用、4U服务器——即前文提到最大程度的单服务器扩展。不同规模应对不同应用场景和吞吐需求，并可基于并发与模型规模需求，做弹性选择。

Intel认为，上述4U服务器扩展16张B60显卡，达成200并发、2000tks/s吞吐，“已经能够很好地服务于中型企业一个部门的日常AI使用。”“所以B60是一款主流AI显卡。”“后续我们会有更完善的路线图，产品能够很好地覆盖更多使用场景和价格区间，推动企业更好地部署AI落地。”

徐金平总结Arc Pro B60的竞争优势，除了显卡本身，还包括（1）软件方面拥抱开源、开放生态，搭配软件方面的长期投入及与社区的合作，造就“软件方面的优势”；（2）在计算领域的多年耕耘与积累（包括PC、数据中心），对目标客户需求的精准把握；（3）部署成本优势，“相比其他产品，有着更好的TCO”。

铭瑄在Bilibili World展示的“一卡双芯”、48GB显存的Arc Pro B60显卡

最后值得一提的是，前不久Intel在媒体会上谈Panther Lake处理器技术时，提了一句下一代Arc独显会采用Xe3P架构——这显然破除了此前Intel准备放弃显卡业务线的传言。虽然徐金平在答记者问时并未明确Intel未来是否可能推去除图形功能单元、更纯粹的计算或AI加速卡，但从他的发言来看，Intel做显卡产品的决心还是在的。这对选择Intel显卡，无论图形渲染还是计算/AI加速卡的用户而言，都至关重要。

新闻资讯

联系我们

Intel多显卡AI推理方案思路解析：大显存、低TCO是重点

Intel多显卡AI推理方案思路解析：大显存、低TCO是重点

发布日期：2025-10-28 15:14 来源：http://www.openfpga.cn 点击：

相关标签：

扫描二维码