55 → 282 tok/s: How I got Qwen3.5-397B running at speed on 4x RTX PRO 6000 Blackwell
产品/方法概述
- 一句话介绍: 一个针对英伟达 Blackwell 架构工作站显卡(SM120/RTX 5090/6000 Ada)的定制化 CUTLASS 算子优化方案。
- 核心问题: 解决了 Blackwell 消费级/工作站显卡因共享内存(99KB)小于数据中心版本(228KB)导致无法运行高性能 MoE GEMM 算子,被迫回退到慢速路径的痛点,将吞吐量提升了近一倍。
- 实现方式: 通过修改 CUTLASS 源代码中的 `sm120_blockscaled_mma_builder.inl`,将 K 维度切片从 128 缩减至 64 以适配较小的共享内存,并修复了对应的缩放因子布局逻辑。