Free ASIC Llama 3.1 8B inference at 16,000 tok/s - no, not a joke
产品/方法概述
- 一句话介绍: Taalas 是一家由前 Tenstorrent 创始人创办的硬件公司,通过将 AI 模型(如 Llama 3.1 8B)直接“固化”到 ASIC 芯片上,实现了每秒 16,000 token 的极致推理速度。
- 核心问题: 解决了大模型推理延迟高、吞吐率低以及通用 GPU(如 H100)推理能效比不足的问题,满足了毫秒级实时响应的需求。
- 实现方式: 摒弃通用 CPU/GPU 架构,采用“模型即电路”的方案,将模型参数和计算逻辑直接通过硅片设计硬编码(或紧密集成在片上存储中),使用 TSMC 6nm 工艺。