新的开源数学模型 Light-R1-32B 仅需 1000 美元的训练成本即可超越同等的 DeepSeek 性能

机器人与人群接触显示数学方程式的交互式屏幕

研究人员推出了 Light-R1-32B,这是一种新的开源 AI 模型,经过优化可解决高级数学问题。它现在在Hugging Face上以宽松的 Apache 2.0 许可证提供,企业和研究人员可以免费获取、部署、微调或修改,甚至可以用于商业用途。

该模型拥有 320 亿个参数(模型设置数量),在第三方美国邀请赛数学考试 (AIME) 基准上的表现超越了类似规模(甚至更大)的开源模型,如 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B,该基准包含 15 道专为超高级学生设计的数学题,时间限制为 3 小时。

该模型由梁文、肖芬瑞、何欣、蔡云克、奇安、段振宇、杜益民、刘俊辰、唐立夫、吕晓伟、邹浩胜、邓永超、贾首胜和张向正开发,在竞争性数学基准上超越了之前的开源替代方案。

令人难以置信的是,研究人员在不到六个小时内就完成了该模型的训练,使用了 12 个 Nvidia H800 GPU,估计总成本为 1,000 美元。这使得 Light-R1-32B 成为开发高性能数学专业 AI 模型最容易获得和最实用的方法之一。然而,重要的是要记住,该模型是在阿里巴巴开源Qwen 2.5-32B-Instruct的一个变体上训练的,据推测,Qwen 2.5-32B-Instruct 本身的前期培训成本要高得多。

除了该模型之外,该团队还发布了其训练数据集和脚本以及评估工具,为构建以数学为中心的人工智能模型提供了一个透明且易于访问的框架。

Light-R1-32B 的推出遵循了其竞争对手(如微软 Orca-Math)的类似举措。

新的数学王诞生

为了帮助 Light-R1-32B 解决复杂的数学推理问题,研究人员对一个没有配备长链思维 (COT) 推理能力的模型进行了训练。他们应用了基于课程的监督微调 (SFT) 和直接偏好优化 (DPO) 来改进其解决问题的能力。

经评估,Light-R1-32B 在 AIME24 上取得了 76.6 分,在 AIME25 上取得了 64.6 分,超过了 DeepSeek-R1-Distill-Qwen-32B,后者的得分分别为 72.6 分和 54.9 分。

这种改进表明,基于课程的训练方法有效地增强了数学推理能力,即使是从最初缺乏长 COT 的模型进行训练也是如此。

公平的基准测试

为了确保公平的基准测试,研究人员根据常见的推理基准(包括 AIME24/25、MATH-500 和 GPQA Diamond)对训练数据进行了净化,以防止数据泄露。

他们还使用 DeepScaleR-1.5B-preview 实现了基于难度的响应过滤,最终为第一阶段的监督微调形成了 76,000 个示例的数据集。第二个更具挑战性的数据集包含 3,000 个示例,进一步提高了性能。

训练结束后,团队合并了多个经过训练的 Light-R1-32B 版本,从而获得了额外的收益。值得注意的是,尽管该模型是数学专业的,但它在科学推理任务 (GPQA) 上保持了强大的泛化能力。

企业如何受益

Light-R1-32B 是根据 Apache License 2.0 发布的,这是一个宽松的开源许可证,允许免费使用、修改和商业部署,而无需开源衍生作品。对于希望集成或定制专有应用程序模型的企业、AI 开发人员和软件工程师来说,这是一个有吸引力的选择。

该许可还包括免版税的全球专利授权,可降低企业的法律风险,同时避免专利纠纷。企业可以在商业产品中自由部署 Light-R1-32B,保持对其创新的完全控制,同时受益于开放透明的AI 生态系统。

对于 CEO、CTO 和 IT 领导者来说,Apache 2.0 确保了成本效率和供应商独立性,消除了许可费用和对专有AI 解决方案的限制性依赖。AI 开发人员和工程师可以灵活地微调、集成和扩展模型,不受限制,使其成为专门的数学推理、研究和企业 AI 应用的理想选择。

然而,由于该许可证不提供任何担保或责任保障,组织应该在关键环境中部署 Light-R1-32B 之前进行自己的安全性、合规性和性能评估。

低成本数学问题解决训练和优化的透明度

研究人员强调,Light-R1-32B 提供了一种经过验证且经济有效的方法来训练专业领域的强大长 CoT 模型。

通过分享他们的方法、训练数据和代码,他们旨在降低高性能人工智能开发的成本门槛。展望未来,他们计划探索强化学习 (RL),以进一步增强模型的推理能力。