蒸馏会让DeepSeek等大模型都变成白菜价

DeepSeek刚给米国好好的上了一课。李飞飞团队更狠，上周他们发了篇新论文，再次降低了复刻o1能力的成本，低到什么程度呢？26分钟，20美元，可真是给老外整破防了！就在硅谷还在烧钱比显卡数量的时候，李飞飞团队直接甩出王炸——他们最新搞出的黑科技，把复刻顶级AI模型的成本砍到了白菜价。现在只要在淘宝花140块钱租半小时显卡，再买杯奶茶的功夫，就能把OpenAI砸了几个亿美金搞的o1模型扒下来，直接把硅谷大佬们整不会了。

这么牛，他们究竟做了什么？

蒸馏：站在大模型巨人的肩膀上

先通俗解释下什么是蒸馏，做个基础概念扫盲。

1. 什么是“蒸馏”？想象一下，你有一个非常聪明的“大模型”，它经过了大量的训练，能够很好地完成各种复杂的任务（比如回答问题、识别图片等）。但这个大模型体积很大，运行起来很耗时间和资源，不太适合在一些资源有限的设备（比如手机、嵌入式设备）上使用。于是，我们想让这个大模型把它的“知识”（比如对问题的理解、对图片的识别能力等）传授给一个小模型。这个小模型体积小、运行快，更适合在资源受限的环境中使用。通过“蒸馏”，小模型可以学到大模型的关键知识，从而在性能上接近大模型，但又保持了小模型的高效性。2. “蒸馏”是怎么实现的？

大模型的“知识”：大模型在处理数据时，会输出一些中间结果（比如对每个类别的置信度）。这些中间结果包含了大模型对数据的理解和判断，是它的“知识”。
小模型的学习：小模型在训练时，不仅会学习原始数据的正确答案，还会学习大模型的这些中间结果。就好像学生不仅要学习课本上的答案，还要学习老师对问题的详细解析。
训练过程：通过这种方式，小模型逐渐学会模仿大模型的行为，最终能够像大模型一样处理数据，但体积更小、运行更快。

3. 通俗例子假设你是一个经验丰富的厨师（大模型），你会做很多复杂的菜，并且知道每道菜的关键步骤和技巧。现在你想教一个新手厨师（小模型）做菜。你不会直接把所有的菜谱都给新手，而是通过示范（展示你做菜的过程和中间步骤），让新手观察和学习。新手通过模仿你的动作和理解你的思路，逐渐学会了做菜的关键技巧，并不需要试验为什么这样的火候和调料，最终也能做出好吃的菜。在这个过程中：

大模型的输出（比如每道菜的步骤和技巧）就像是“蒸馏”中的“知识”。
小模型的学习（观察和模仿大模型的行为）就像是“蒸馏”中的“学习过程”。

4. 为什么要做“蒸馏”？

效率：大模型虽然强大，但运行起来很慢，占用资源多。小模型通过“蒸馏”学习后，可以在资源有限的设备上快速运行，同时保持较好的性能。
部署方便：小模型更适合在手机、物联网设备等资源受限的环境中使用，而大模型通常只能在服务器上运行。
节省成本：训练大模型需要大量的计算资源和时间，而小模型通过“蒸馏”可以复用大模型的知识，减少训练成本。

李飞飞团队研发的S1模型呈现出独特的”技术混血”特质——其架构核心源自阿里通义千问开源小模型的底层框架，而思维链推理能力则嫁接自谷歌Gemini 2.0系列中的Flash模块。值得关注的是，谷歌近期已将该系列模型的”实验性”标签移除，Gemini 2.0 Flash不仅正式投入商用，更深度整合至谷歌地图、搜索等核心产品线。在模型构建过程中，研究团队采用创新性的”思维复刻”策略：通过人工精选的千道基准问题库，完整记录Gemini 2.0 Flash在解题过程中的动态思维轨迹，并将这些高阶认知数据转化为训练素材，对Qwen2.5-32B-Instruct模型进行定向调优。这种”思维蒸馏”式训练使S1展现出接近Gemini的复杂问题处理能力。

声明：文中观点不代表本站立场。本文传送门：https://eyangzhen.com/424862.html

蒸馏会让DeepSeek等大模型都变成白菜价

作者专栏

架构师影响力