NanoGPT Slowrun: Language Modeling with Limited Data, Infinite Compute
产品/方法概述
- 一句话介绍: 一个探索在极小数据集(如1MB)下通过“无限算力”压榨模型性能极限的实验性Benchmark。
- 核心问题: 针对高质量语料库枯竭的未来趋势,解决如何在数据匮乏环境下,通过架构优化、二阶优化器和参数搜索实现模型能力最大化的问题。
- 实现方式: 基于NanoGPT框架,通过反转传统的算力受限假设,利用多轮迭代、模型集成、超参数搜索及更复杂的优化算法在微量数据上进行深度训练。