GLM-4.7-Flash
产品/方法概述
- 一句话介绍: GLM-4.7-Flash 是一款专为高吞吐、低延迟设计的轻量级(31B 参数)多模态大模型,旨在竞争 GPT-4o-mini 和 Claude Haiku。
- 核心问题: 为开发者解决了在复杂任务(如代码编写、长文本处理)中,高性能模型成本过高、推理速度慢,而极小模型(如 8B 以下)逻辑能力不足的平衡难题。
- 实现方式: 采用 355B 总参数量的 MoE 架构(31B 激活参数),通过模型蒸馏技术实现,支持 128k 上下文并针对代码和逻辑推理进行了深度优化。