现已推出:通过 Azure AI Foundry 为 Copilot+ PC 提供 DeepSeek R1 7B 和 14B 精简模型 – 进一步扩展边缘 AI
在微软,我们相信人工智能的未来正在发生——从云端到边缘。我们的愿景是大胆的:将 Windows 打造为人工智能创新的终极平台,其中智能不仅存在于云端,还无缝交织在整个系统、硅片和边缘硬件中。在我们
最近宣布将 NPU 优化版本的 DeepSeek-R1 1.5B 精简模型直接引入 Copilot+ PC 的基础上,我们又迈出了一步,通过 Azure AI Foundry 为 Copilot+ PC 提供 DeepSeek R1 7B 和 14B 精简模型。这一里程碑加强了我们致力于提供快速、高效且为实际应用而构建的尖端人工智能功能的承诺——帮助开发人员、企业和创作者突破可能的界限。
首先推出的是搭载 Qualcomm Snapdragon X 的 Copilot+ PC,随后是 Intel Core Ultra 200V 和 AMD Ryzen。
在神经处理单元 (NPU)上运行 7B 和 14B 参数推理模型的能力是人工智能民主化和可及性的重要里程碑。这一进步使研究人员、开发人员和爱好者能够直接从他们的 Copilot+ 电脑上利用大规模机器学习模型的强大功能。这些 Copilot+ 电脑包括一个每秒可执行超过 40 万亿次运算 (TOPS) 的 NPU。
NPU 专为在设备上本地运行 AI 模型而构建,效率极高
内置于 Copilot+ PC 中的 NPU 专为以卓越的效率运行 AI 模型而设计,可平衡速度和功耗。它们可确保持续的 AI 计算,同时最大程度地降低对电池寿命、热性能和资源使用的影响。这样 CPU 和 GPU 就可以自由地执行其他任务,让推理模型运行更长时间并提供出色的结果 — 同时让您的 PC 保持平稳运行。
由于语言模型的新缩放定律,高效推理的重要性日益凸显,这表明推理过程中的思路推理可以提高各种任务的响应质量。模型“思考”的时间越长,其质量就越好。这种方法不是增加参数或训练数据,而是利用额外的计算能力来获得更好的结果。DeepSeek 精简模型证明了即使是小型预训练模型也可以凭借增强的推理能力大放异彩,当与Copilot+ PC上的 NPU 结合使用时,它们将为创新带来令人兴奋的新机会。
推理出现在一定最小规模的模型中,这种规模的模型必须使用大量 token 进行思考才能在复杂的多步骤推理中脱颖而出。虽然 NPU 硬件有助于降低推理成本,但同样重要的是在消费级 PC 上为这些模型保持可管理的内存占用,例如 16GB RAM。
突破 Windows 的极限
我们的研究投资使我们能够在系统级别和模型级别进一步突破 Windows 的极限,从而带来 Phi Silica 等创新。通过对 Phi Silica 的研究,我们能够创建一个可扩展的平台,用于在 NPU 上进行低位推理,以最小的内存和带宽负担实现强大的性能。结合本地计算提供的数据隐私,这使应用程序开发人员可以轻松实现检索增强生成 (RAG) 和模型微调等高级场景。
我们重用了QuaRot等技术、用于快速响应第一个 token 的滑动窗口和许多其他优化,以支持 DeepSeek 1.5B 版本。我们使用内部自动量化工具 Aqua 将所有 DeepSeek 模型变体量化为带有 QuaRot 的 int4 权重,同时保留大部分准确度。使用我们用于优化 Phi Silica 的相同工具链,我们快速将所有优化集成到具有低精度权重的高效ONNX QdQ模型中。
与 1.5B 模型一样,7B 和 14B 变体对嵌入和语言模型头使用 4 位块量化,并在 CPU 上运行这些内存访问密集型操作。包含上下文处理和标记迭代的计算密集型转换器块对权重使用 int4 每通道量化以及 int16 激活。我们已经在 14B 模型上看到了大约 8 tok/秒(1.5B 模型非常小,显示接近 40 tok/秒)——随着我们利用更先进的技术,进一步的优化即将到来。有了这一切,这些灵活的语言模型可以思考更长时间、更努力。
这种持久的创新之路使我们能够更快地优化 DeepSeek 模型(7B 和 14B)的更大变体,并将继续使我们能够带来更多新模型以在 Windows 上高效运行。
立即开始
开发人员只需下载AI Toolkit VS Code 扩展即可访问 DeepSeek 模型的所有精简版本(1.5B、7B 和 14B)并在 Copilot+ PC 上运行它们。以 ONNX QDQ 格式优化的 DeepSeek 模型可在 AI Toolkit 的模型目录中找到,直接从 Azure AI Foundry 中提取。您可以通过单击“下载”按钮将其下载到本地。下载后,尝试使用该模型就像打开 Playground、加载“deepseek_r1_1_5”模型并向其发送提示一样简单。
在 Copilot+ PC 和 Azure 上运行模型
Copilot+ PC 提供的本地计算功能是 Azure 所启用功能的扩展,它为开发人员提供了更大的灵活性,可以在设备上训练和微调小型语言模型,并利用云处理更大规模的密集型工作负载。除了针对 Copilot+ PC 优化的 ONNX 模型外,您还可以通过单击“DeepSeek R1”下的“在 Playground 中试用”按钮来试用 Azure Foundry 中托管在云中的源模型。当您试验模型并准备好部署时,AI Toolkit 是您开发人员工作流程的一部分。借助此 Playground,您还可以轻松测试 Azure AI Foundry 中提供的 DeepSeek 模型以进行本地部署。通过这种方式,开发人员现在可以从云到客户端访问通过 Azure AI Foundry 提供的最完整的 DeepSeek 模型集。
Copilot+ PC 将高效计算与 Microsoft 通过其 Azure 服务提供的近乎无限的计算相结合。推理能够跨越云和边缘,在 PC 上持续循环运行并根据需要调用云中更大的大脑——我们正在进入一种新的持续计算模式,为我们的客户创造价值。人工智能计算的未来变得更加光明!我们迫不及待地想看到我们的开发者社区利用这些丰富的功能进行新的创新。请继续提供反馈!