蒸馏会让DeepSeek等大模型都变成白菜价

DeepSeek刚给米国好好的上了一课。李飞飞团队更狠,上周他们发了篇新论文,再次降低了复刻o1能力的成本,低到什么程度呢?26分钟,20美元,可真是给老外整破防了!就在硅谷还在烧钱比显卡数量的时候,李飞飞团队直接甩出王炸——他们最新搞出的黑科技,把复刻顶级AI模型的成本砍到了白菜价。现在只要在淘宝花140块钱租半小时显卡,再买杯奶茶的功夫,就能把OpenAI砸了几个亿美金搞的o1模型扒下来,直接把硅谷大佬们整不会了。

图片

这么牛,他们究竟做了什么?

蒸馏:站在大模型巨人的肩膀上

先通俗解释下什么是蒸馏,做个基础概念扫盲。

1. 什么是“蒸馏”?想象一下,你有一个非常聪明的“大模型”,它经过了大量的训练,能够很好地完成各种复杂的任务(比如回答问题、识别图片等)。但这个大模型体积很大,运行起来很耗时间和资源,不太适合在一些资源有限的设备(比如手机、嵌入式设备)上使用。于是,我们想让这个大模型把它的“知识”(比如对问题的理解、对图片的识别能力等)传授给一个小模型。这个小模型体积小、运行快,更适合在资源受限的环境中使用。通过“蒸馏”,小模型可以学到大模型的关键知识,从而在性能上接近大模型,但又保持了小模型的高效性。2. “蒸馏”是怎么实现的?

  • 大模型的“知识”:大模型在处理数据时,会输出一些中间结果(比如对每个类别的置信度)。这些中间结果包含了大模型对数据的理解和判断,是它的“知识”。
  • 小模型的学习:小模型在训练时,不仅会学习原始数据的正确答案,还会学习大模型的这些中间结果。就好像学生不仅要学习课本上的答案,还要学习老师对问题的详细解析。
  • 训练过程:通过这种方式,小模型逐渐学会模仿大模型的行为,最终能够像大模型一样处理数据,但体积更小、运行更快。

3. 通俗例子假设你是一个经验丰富的厨师(大模型),你会做很多复杂的菜,并且知道每道菜的关键步骤和技巧。现在你想教一个新手厨师(小模型)做菜。你不会直接把所有的菜谱都给新手,而是通过示范(展示你做菜的过程和中间步骤),让新手观察和学习。新手通过模仿你的动作和理解你的思路,逐渐学会了做菜的关键技巧,并不需要试验为什么这样的火候和调料,最终也能做出好吃的菜。在这个过程中:

  • 大模型的输出(比如每道菜的步骤和技巧)就像是“蒸馏”中的“知识”。
  • 小模型的学习(观察和模仿大模型的行为)就像是“蒸馏”中的“学习过程”。

4. 为什么要做“蒸馏”?

  • 效率:大模型虽然强大,但运行起来很慢,占用资源多。小模型通过“蒸馏”学习后,可以在资源有限的设备上快速运行,同时保持较好的性能。
  • 部署方便:小模型更适合在手机、物联网设备等资源受限的环境中使用,而大模型通常只能在服务器上运行。
  • 节省成本:训练大模型需要大量的计算资源和时间,而小模型通过“蒸馏”可以复用大模型的知识,减少训练成本。

李飞飞团队研发的S1模型呈现出独特的”技术混血”特质——其架构核心源自阿里通义千问开源小模型的底层框架,而思维链推理能力则嫁接自谷歌Gemini 2.0系列中的Flash模块。值得关注的是,谷歌近期已将该系列模型的”实验性”标签移除,Gemini 2.0 Flash不仅正式投入商用,更深度整合至谷歌地图、搜索等核心产品线。在模型构建过程中,研究团队采用创新性的”思维复刻”策略:通过人工精选的千道基准问题库,完整记录Gemini 2.0 Flash在解题过程中的动态思维轨迹,并将这些高阶认知数据转化为训练素材,对Qwen2.5-32B-Instruct模型进行定向调优。这种”思维蒸馏”式训练使S1展现出接近Gemini的复杂问题处理能力。

声明:文中观点不代表本站立场。本文传送门:https://eyangzhen.com/424862.html

联系我们
联系我们
分享本页
返回顶部