与此同时,即便是在现有一代显卡产品上,摩尔线程仍在与合作伙伴推进软硬件协同优化。硅基流动今日宣布:已在MTT S5000显卡上实现国产GPU推理性能的明显提升。
按照硅基流动公布的实测数据,通过系统级工程优化与FP8精度加速后,摩尔线程MTT S5000单卡Prefill吞吐达到4000 tokens/s以上,Decode吞吐超过1000 tokens/s。
为了便于理解,硅基流动还给出了与NVIDIA H100的对比:在同一场景下,H100在Prefill阶段的性能约为6500 tokens/s;而MTT S5000可实现4000+ tokens/s的实测吞吐,折算相当于H100约61%的实测性能。
需要指出的是,上述对比主要聚焦于Prefill阶段,但对于国产显卡而言,能够在该阶段达到H100 60%以上的实测表现,依旧被认为是一次值得关注的进展。

MTT S5000是摩尔线程基于平湖GPU架构推出的AI显卡,首次支持FP8,FP8算力可达到1024TFLOPS;作为对照,NVIDIA H100的FP8性能接近4000TFLOPS。
关于硅基流动与摩尔线程如何针对S5000进行系统级优化,更多细节可参考其官方稿件。该案例也反映出:国产GPU即便在部分参数上仍有差距,通过工程优化、精度加速与系统协同,仍可能持续提升实际推理表现,并在特定场景下带来超出预期的变化。
从产业视角看,摩尔线程当前的挑战除硬件规模与工艺等因素外,软件生态与工具链成熟度也仍难与NVIDIA相比;但随着国内厂商协同推进适配与优化,生态侧也正在发生变化。未来数年,随着硬件规模与软件生态持续完善,无论AI卡还是游戏卡,出现更具竞争力、甚至让NVIDIA感受到压力的产品并非没有可能。

0
0