I tested 11 small LLMs on tool-calling judgment — on CPU, no GPU.
产品/方法概述
- 一句话介绍: 这是一个针对端侧小型语言模型(SLMs)在 CPU 环境下进行工具调用(Tool-calling)及决策准确度的基准测试方案。
- 核心问题: 解决了开发者在无 GPU 设备上部署 AI Agent 时,难以评估 0.5B-4B 小模型在工具调用决策中“过度触发(滥用工具)”和“决策约束”能力的问题。
- 实现方式: 基于 Ollama 和 bitnet.cpp,使用 Python 编写测试套件,通过构造诱导性提示词(Trick Prompts)量化评估模型在 4K 上下文下的逻辑判断能力。