杭州海莱电子科技有限公司

新闻资讯

联系我们

杭州海莱电子科技有限公司

地址:浙江省杭州市滨江区南环路3760号保亿创艺大厦1301

电话:13115710854微信同号

网址:www.openfpga.cn


Intel多显卡AI推理方案思路解析:大显存、低TCO是重点

您的当前位置: 首 页 >> 新闻动态 >> 行业新闻

Intel多显卡AI推理方案思路解析:大显存、低TCO是重点

发布日期:2025-10-28 15:14 来源:http://www.openfpga.cn 点击:

今年年中的Computex展上,Intel发布了两款Arc Pro系列、Battlemage架构新品B50和B60显卡。其中的Arc Pro B60给我们留下了深刻的印象:尤其是24GB VRAM容量,以及197TOPS(INT8)算力——故而Intel界定这张卡面向“推理工作站”。当时Intel还给出了B60与隔壁RTX 2000 Ada、GeForce RTX 5060 Ti在主流LLM推理性能上的比较,强调B60能够以24GB的显存容量获得推理性能上的显著优势——尤其当代主流LLM模型,相比同档竞品的领先优势在2-3倍,也具备更好的成本效益。而更重要的是,Arc Pro B60可相对简单地基于PCIe实现多卡扩展,彼时Intel提供的数据是对于DeepSeek-R1-Distill-Qwen-32B FP8推理,在8k tokens的context window推理时,双卡就支持5-6个并发(5-6个人同时使用该AI服务);扩展到四卡,96GB显存能支持50+并发,足够中小企业的AI使用需求。
更往上扩展,在Project Battlematrix(战斗阵列)推理工作站平台的加持下,扩展到8张Arc Pro B60显卡,可令显存达到192GB;另外今年Bilibili World展会上,我们还在铭瑄展位看到了基于Arc Pro B60的一卡双芯方案(基于PCIe bifurcation),单卡显存达到了48GB...
于是不出意料的,最近的湾芯展上,英特尔中国区显卡和AI高级产品总监徐金平再度提及“战斗阵列”平台,其最高规格已延展至8/16张显卡,384GB显存,支持100B+参数模型。面向目标客户时,似乎在Arc多卡阵列方案上,Intel对Arc Pro B60又有了更进一步的应用预期...
电子工程专辑已经就Arc Pro B60显卡规格做了详细撰文,本文不再赘述,其基本规格包括24GB显存(单芯)、456GB/s显存带宽,160个XMX矩阵扩展疫情总共197TOPS INT8峰值算力,120-200W TBP,PCIe Gen 5 x8接入主系统。
企业特性支持方面,“50+专业设计类软件性能优化和认证”,操作系统与上层全栈验证测试之外,也支持远程管理、SRIOV(单物理GPU在多虚拟机间共享)、VDI(Virtual Desktop Infrastructure)虚拟化特性。
基于PCIe扩展多卡支持的特性上:同服务器之上的GPU通信支持GPU Direct P2P;跨服务器集群,则支持GPUDirect RDMA——虽然现阶段我们还没有看到这类集群实例,但徐金平说在8/16卡机之外也“可以部署多卡集群,做网络互联”,实现scale-out层面的性能扩展。
如前文所述,“战斗阵列”本质上是个系统级多卡节点。基于B60,如果采用一卡双芯48GB VRAM的显卡,单台设备8卡;或普通方案16卡,就能提供总共384GB显存,支持运行100B“甚至200B的FP8大语言模型”。
Intel官方推“战斗阵列”推理工作站平台的原因在于,“AI不只关系到一张显卡,还和整个系统服务器有关”。徐金平说,就硬件层面,“战斗阵列”“本质上是给各家服务器加上显卡,做硬件层面的结构兼容”——诸如散热等系列测试;软件层面则提供容器化方案,涵盖“针对LLM优化的Linux软件栈”,并做全栈验证——“1-2个月定期推一个版本给客户”。
通过“硬件和软件整体的整合验证”,“‘战斗阵列’项目的出现,让产品和应用之间的距离更近了”。硬件层面,“Intel可以为客户提供服务器加速卡整套方案”;软件层面,“我们帮助客户做基本验证与优化,让客户能够快速部署应用。”
硬件层面的验证不必多说——从显卡、系统搭建成本,以及AI推理吞吐角度,徐金平谈到B60多卡系统具备相当的成本优势。
而企业客户更关注的软件及工具链方面,从主流框架(如PyTorch, vLLM),到Intel所做oneAPI的支持、包括深度神经网络库OneDNN、“卡间通信的OneCCL”等,皆有备齐。“我们阶段性发布容器,客户可以直接从官网下载——里面包括底层驱动、OneAPI相关的库、PyTorch、vLLM等一系列堆栈。”
基于开源、开放软件做开发生态是Intel一直以来做AI解决方案的思路,这一点我们在以往的文章里也有过详细介绍;而作为商业企业,面向客户提供经过验证的全栈打包方案,自然也是必须。
“当然如果客户期望写底层代码,将硬件性能发挥到百分之百,Intel也提供相关的库,像是ECMD、SYCL(DPC++?)。”
另外徐金平还谈到,Intel除了会做上述全栈及底层库的验证,还会“把不同参数的大模型都做验证,并给到客户”:“我们会第一时间响应客户,验证并适配他们所需的大模型和对应参数,提供技术支持。”
今年已经宣布支持Arc Pro的板卡与OEM厂商数量相较去年多了不少。比如工作站方面,“好几家合作伙伴都在跟我们做工作站适配,我们的配合、验证有一些已经在落地”。徐金平表示受制于合作复杂性,虽然现在还不便透露落地案例,但基于B60的多卡解决方案的确已经在很多行业落地。
“比如教育行业,有客户基于Arc Pro系列多卡方案做教育方面的部署,给学校做类似一体机式的服务;还有物流行业,以及智慧公园、智慧工厂,都已经有了落地案例。有的已经完全进入了量产,有的还在研发和适配过程中。”
Intel对于Arc Pro B60的主要定位是“企业和边缘应用的‘甜点’GPU”。在企业部署中,在分层架构之下,企业中央级(私有云、公有云)、部门级/边缘域(AI服务器/工作站),再到企业员工个人级(AIPC),AI计算精度、吞吐需求由高到低,Intel均有对应的覆盖方案。
“为什么说B60是企业架构下的‘甜点’GPU。”徐金平在演讲中给出的上面这张PPT,明确了从边缘盒子、个人电脑——酷睿CPU搭配B60显卡、INT4精度推理为主的方案,到至强D处理器搭配双B60显卡方案、可达成FP8精度更大参数量推理的边缘设备;
上至至强W、双socket至强SP平台搭配4卡可实现50并发(32b模型)的通用工作站/2U服务器,以及扩展8卡/16卡的AI专用、4U服务器——即前文提到最大程度的单服务器扩展。不同规模应对不同应用场景和吞吐需求,并可基于并发与模型规模需求,做弹性选择。
Intel认为,上述4U服务器扩展16张B60显卡,达成200并发、2000tks/s吞吐,“已经能够很好地服务于中型企业一个部门的日常AI使用。”“所以B60是一款主流AI显卡。”“后续我们会有更完善的路线图,产品能够很好地覆盖更多使用场景和价格区间,推动企业更好地部署AI落地。”
徐金平总结Arc Pro B60的竞争优势,除了显卡本身,还包括(1)软件方面拥抱开源、开放生态,搭配软件方面的长期投入及与社区的合作,造就“软件方面的优势”;(2)在计算领域的多年耕耘与积累(包括PC、数据中心),对目标客户需求的精准把握;(3)部署成本优势,“相比其他产品,有着更好的TCO”。
铭瑄在Bilibili World展示的“一卡双芯”、48GB显存的Arc Pro B60显卡
最后值得一提的是,前不久Intel在媒体会上谈Panther Lake处理器技术时,提了一句下一代Arc独显会采用Xe3P架构——这显然破除了此前Intel准备放弃显卡业务线的传言。虽然徐金平在答记者问时并未明确Intel未来是否可能推去除图形功能单元、更纯粹的计算或AI加速卡,但从他的发言来看,Intel做显卡产品的决心还是在的。这对选择Intel显卡,无论图形渲染还是计算/AI加速卡的用户而言,都至关重要。


相关标签:

在线客服
分享