业界首个!顾忌张量 × 商汤大安设:国产GPGPU推理本钱反超 A100
顾忌张量科技有限公司与商汤科技大安设团队协调晓喻,凯旋在国产GPGPU集群上结束了业界首个以“顾忌—测度—退换”一体化为中枢的PD分离商用推理集群,并在着实坐褥环境中踏实开动。测试数据表示,该有盘算推算轮廓推感性价比达到同代英伟达A100的150%,象征着国产算力体系在大模子交易化落所在面初度具备了体系级竞争力。
这次打破为国产算力生态找到了互异化打破旅途。PD分离从硬件优化升级为顾忌中心的想象范式。在MemOS体系中,分离架构可延迟至行为展望、高下文有盘算推算、顾忌布局等更高维度,成为全体架构的有机构成部分。这也预示着C端场景讲求过问“顾忌推理”时间。
打破性能天花板
在昔时一年中,“PD分离”(Prefill与Decode分离)已成为大模子推理优化的要津技艺标的。可是,单纯依靠硬件层面的遮挡,其性能提高存在自然上限。跟着DeepSeek-R1等高性能模子从B端走向C端大限度期骗,“顾忌”已成为影响用户体验与本钱结构的中枢变量。

顾忌张量旗下中枢家具MemOS行为业内首个以顾忌为中心的系统级基础门径,翻新性地将大模子分解结构差异为参数顾忌、激活顾忌、明文顾忌三类,变成了跨时期规范的智能退换链路。该系统简略细巧决策哪些测度应前移至Prefill阶段,哪些必须留在Decode能力,以及任务的保留、左迁或淘汰政策。
“惟一当PD分离与顾忌结构深度耦合,重构‘顾忌—测度—退换’全体体系,才有契机着实打破传统性能上限。”顾忌张量技艺负责东说念主示意。MemOS与PD分离的迷惑,履行上是为高速算力通说念配上了一套精密的“交通指引系统”,将分离架构的后劲发扬到极致。
从优化手段到推理范式
本次相助中,商汤大安设提供了系统级基础门径赞成,其IaaS层高效算力池与智能退换能力为模子推理提供了踏实底座。Ignite框架则结束了多后端推理适配、KVCache优化、要津算子加快等性能增强,变成了齐备推理优化链路。
算丰信息为集群提供了核默算力支抓,处理通盘高性能GPGPU测度资源、大限度存储及高速互联收罗,确保了PD分离架构的高效踏实开动。
在这一协调架构中,MemOS的顾忌体系映射为了明晰的物理单干:
P域(Prefill Domain) 成为“顾忌工场”,专注于影子高下文展望与KV Cache批量预生成,这类蒙眬明锐型任务得以连合处理,不再干豫及时交互;
D域(Decode Domain) 则演出“及时交互前台”,专注于用户央求解码,确保首字生成时期(TTFT)的超低延迟;
跨节点KV Cache 通过高带宽互联与零拷贝旅途结束“即产即用”,MemOS的激活顾忌机制与商汤大安设的通讯优化变成互补,极大裁减了传输支出。
“这是一次体系级的结构共振,”商汤大安设架构师指出,“PD分离为MemOS提供了高速算力通说念,而MemOS则为PD分离注入了细巧到顾忌单位的业务退换逻辑。”
全面越过传统架构
在严格的坐褥级评测环境下(包括2k输入、1k输出、TTFT<2s的SLA敛迹、72小时稳态开动),该协调有盘算推算交出了令东说念主注宗旨收获单:
集群全体蒙眬量提高75%,从基础部署的107.85 tokens/s跃升至189.23 tokens/s;单卡并发能力提高20%,从每卡25.00并发提高至29.42并发,显耀增强了C端高并发场景的承载能力;TTFT全程踏实小于2秒,Decode域因责任单一化而幸免了资源霸占……轮廓推感性价比达到同代英伟达A100的150%,在琢磨负载与SLA敛迹下结束了体系级正面越过。
“这些数据标明,国产GPU已不再仅仅‘能跑大模子’的替代选项,而是着实具备了承载R1级C端业务的体系能力。”顾忌张量交易化负责东说念主说。
打造顾忌原生AI基础门径
基于这次凯旋执行,顾忌张量与商汤科技盘算推算在以下标的长远相助:
一方面,将围绕更大限度国产GPGPU集群,构建齐备的顾忌驱动活水线推理底座,变成“影子高下文—激活顾忌—PD分离—多级缓存—AIOps”的可不雅测、可演进基础门径体系。
另一方面,两边将在Prefill行为展望自治化、多级顾忌处理、跨任务永劫顾忌一致性、Agent轨迹顾忌等前沿标的抓续探索,为陪同式AI、具身智能及复杂任务编排提供赞成。
从更宏不雅视角看,这次打破象征着国产算力体系正从“参数测度”走向“顾忌测度”,从“静态推理”走向“动态活水线”,从“模子中心”走向“顾忌中心”。在AI技艺快速演进的下半场,国产算力基础门径不再仅是追逐者,更有契机成为下一代推理范式的界说者之一。
