Flash-MoE: Running a 397B Parameter Model on a Laptop
产品/方法概述
- 一句话介绍: Flash-MoE 是一个超大规模模型推理框架,通过自定义 Metal 计算管道和 SSD 流式读取技术,让普通的消费级 Mac 笔记本也能运行 397B 参数量的混合专家模型 (MoE)。
- 核心问题: 解决了超大模型(如 Qwen 2.5-397B)对显存/内存容量的极端依赖问题,让无法支付高昂 H100 集群费用的个人开发者或小型机构能在本地廉价硬件上运行顶级性能模型。
- 实现方式: 摒弃 Python 框架,采用 C/Objective-C 及手写 Metal 着色器,利用 SSD 作为权重存储仓库,结合极端量化(2-bit)和专家数量裁剪(从10降至4)来降低 I/O 压力和计算量。