GPT-5.2 xhigh, GLM-4.7, Kimi K2 Thinking, DeepSeek v3.2 on Fresh SWE-rebench (December 2025)
产品/方法概述
- 一句话介绍: 基于最新 SWE-rebench 测试集(2025年12月)的顶级大模型软件工程能力竞技场。
- 核心问题: 为开发者和企业提供在真实、动态的代码仓库环境下,各主流及开源 AI 模型(如 GPT-5.2、GLM-4.7、DeepSeek 等)解决复杂编程任务的客观能力对比,解决“刷榜”导致的能力虚标问题。
- 实现方式: 通过定期的 Fresh SWE-rebench(新鲜/更新后的测试集)对模型进行闭卷评估,采用 Agentic(代理式)工作流测试模型在多文件编辑、调试和工具调用方面的综合表现。