Lex Fridman5万字播客开年实录:2000美元AI 月费背后,藏着最后一张阶层跨越的门票
日期:2026-02-20 18:42:01 / 人气:21

DeepSeek时刻
Friedman:接下来的对话将全面探讨人工智能的前沿现状,包括过去一年AI领域激动人心的技术突破与进展,以及对未来一年发展趋势的展望。虽然部分内容涉及深奥的技术细节,但我们将确保在不牺牲深度的前提下,让非专业领域的听众也能理解。本期节目非常荣幸能邀请到AI社区备受推崇的两位专家:Sebastian Raschka和Nathan Lambert。他们既是卓越的机器学习研究员和工程师,也是极具影响力的传播者、教育者、作家及活跃的社交媒体博主。
Sebastian撰写的两本书籍——《从零开始构建大语言模型》与《从零开始构建推理模型》,无论是对初学者还是专家都极具参考价值。在机器学习领域,深刻理解事物的最佳途径莫过于从零开始亲手构建。Nathan目前担任Allen Institute for AI的Post-training负责人,并撰写了关于Reinforcement Learning from Human Feedback(RLHF)的权威著作。二位在Substack等平台均经营着高质量的专栏,Sebastian在YouTube设有课程,Nathan则拥有自己的播客,非常值得关注。
观察当前AI发展的视角之一是所谓的“DeepSeek时刻”。2025年1月,中国公司DeepSeek发布了DeepSeekR1,其以极低的计算成本实现了顶尖的性能水平,令业界震惊。自此以后,AI领域的科研与产品竞争全面加速。首先探讨一个尖锐的问题:谁在这场竞争中占据领先地位?从全球视野来看,是中国企业还是美国企业更胜一筹?Sebastian,你对此有何看法?
Sebastian:“领先”是一个内涵广泛的术语。就“DeepSeek时刻”而言,DeepSeek通过发布开源模型,无疑赢得了开源模型开发群体的支持。竞争的胜负应从不同时间维度审视:短期、明年以及未来十年。在2026年的今天,可以确定没有任何一家公司能垄断某项技术。这主要是因为研究人员在不同实验室和公司之间频繁流动,技术扩散极快。
因此,技术获取层面不会出现单一的赢家。真正的差异化因素将在于预算规模和硬件资源的限制,核心思想很难被私有化垄断,但实现这些思想所需的资源各不相同,目前尚未看到“赢家通吃”的局面出现。
Friedman:你的观点是什么?
Nathan:各家实验室的投入方向各异。明确一下当前的时间节点:目前市场对Anthropic发布的ClaudeOpus4.5模型表现出极高的关注。过去几周我一直在使用该模型进行开发,其热度甚至已趋于一种文化现象。这种热度的演变非常有趣。回顾几个月前,Google发布Gemini3时,其市场营销和初期的震撼力极强,曾被视为Google夺回AI架构优势的关键时刻。然而,随着11月底ClaudeOpus4.5的问世,尽管Gemini3依然是一款我仍在使用的优秀模型,但其产品差异化优势正在缩小,相关讨论度也显著下降。
我同意Sebastian的观点,即创意空间是流动的。但在企业文化层面,Anthropic以重注代码能力著称,目前其ClaudeCode产品表现出色。即便核心创意可以自由流动,但研发效能和组织文化往往会成为瓶颈。Anthropic目前展现出的组织稳定性是一种优势。另一方面,中国的技术实力不容小觑,其拥有的研究实验室远不止DeepSeek一家。DeepSeek在中国引发的浪潮,正如ChatGPT最初在美国引发的聊天机器人热潮一样,目前中国有大量科技公司正在发布极具竞争力的Open-weight前沿模型。
在某种程度上,DeepSeek作为中国顶尖开源模型厂商的地位正面临智谱及其GLM模型、MiniMax以及Kimi的强力挑战,后两者在近几个月的表现尤为亮眼。2025年DeepSeek的出现是一个关键的叙事转折点,它为更多中国公司发布优秀的Open-weight模型提供了平台和契机。如果这种商业模式轨迹持续下去,美国科技公司现有的模式可能会面临风险。不过目前的情况是,美国用户普遍愿意为AI软件付费,而中国及全球其他地区的软件付费意愿历史表现较低。
Friedman:DeepSeek等模型因其Open-weight属性深受用户青睐。中国科技公司还会坚持发布Open-weight模型多久?
Nathan:预计这种趋势还会持续几年,目前在美国,这类模型尚无清晰的商业模式。我长期关注开源模型研究,一些中国公司已经意识到,由于安全考量,许多美国及其他地区的IT企业不会订阅中国公司的API。
这些公司通过发布Open-weight模型,可以有效渗透并参与到美国快速增长的AI消费市场。这是一个非常务实且有效的策略,此外,政府也可能意识到这有助于提升国际影响力,从而提供政策激励以维持这一态势。尽管模型研发耗资巨大,未来可能会出现行业整合,但在2026年,预计Open-weight模型开发者的数量将超过2025年,其中许多优秀的参与者都来自中国。
Friedman:Sebastian,你有什么补充吗?
Sebastian:关于你提到的DeepSeek可能失去领先地位,我们必须考虑到,目前它仍保持微弱领先。其他公司的进步并非因为DeepSeek停滞不前,而是它们借鉴了DeepSeek的核心思路。例如Kimi采用了类似的架构进行训练,这种“跳跃式发展”会导致在特定时间点,拥有最新模型的公司表现更佳。这再次印证了目前不存在绝对的赢家,竞争呈现出动态更替的特点:一方发布新技术,另一方随即跟进并迭代。通常情况下,最新的模型往往就是性能最强的模型。
Nathan:各家企业的驱动力截然不同,DeepSeek极其神秘,而像MiniMax或ZhipuAI这样的初创公司,甚至已经提交了IPO申请。这些公司正致力于赢取西方市场的认可,并开展了大量推广工作。由于DeepSeek是由对冲基金(幻方量化)背景创立的,目前尚不明确这些市场动机是否会改变其模型开发的思路。我们并不完全清楚他们使用这些模型的具体用途,也不确定他们是否在意这些外部因素。
Friedman:DeepSeek在沟通上确实很保守,其技术报告对模型原理的描述并不透明。但在Open-weight方面,他们依然保持着开放。谈到ClaudeOpus4.5的热度,我们必须区分:一部分热度仅限于社交媒体X的信息茧房,而另一部分则来自真实的活跃用户群。ChatGPT和Gemini显然更侧重于服务那些只想解决日常生活问题的庞大用户基础。因此,编程领域的热度可能无法完全代表实际的大规模应用情况。
Sebastian:用户的使用习惯具有惯性,正如你所言,品牌认可度至关重要。ChatGPT问世已久,用户已经形成了“肌肉记忆”,其推广模式如同飞轮般自我驱动。LLM的个性化定制也是一个关键点,例如ChatGPT的记忆功能。用户可能订购个人版处理私事,但由于工作与生活的界限,在职业场景下可能无法直接沿用。
企业可能会限制员工在工作中使用个人账户。这就引出了一个有趣的现象:用户可能会同时拥有多个订阅。例如,一个订阅专门用于处理纯粹的代码任务,不涉及个人图像或兴趣爱好,完全服务于工作;而另一个则用于个人生活。未来,这种多场景、多订阅的使用模式将成为主流。
模型的现在与未来
Friedman:哪个模型赢得了2025年,而谁又将问鼎2026年?
Nathan:在消费级聊天机器人的语境下,这本质上是关于“你是否愿意押注Gemini能超越ChatGPT”的问题。直觉告诉我,这是一场极具风险的赌局,因为OpenAI拥有极强的先发优势。尽管2025年的发展势头更倾向于Gemini,但考虑到Google是从较低的起点出发的。值得赞赏的是,Google能够在组织架构调整的混乱中成功推进该项目。
然而,看空OpenAI并非易事。尽管其内部运营常显混乱,但他们在产品交付方面表现卓越。个人对GPT-5的评价褒贬不一,但它确实通过核心的Router(路由)功能为公司节省了大量成本,使得大多数用户不再过度消耗其GPU资源。因此,很难将我个人喜好的模型功能与真正面向大众市场的产品完全剥离。
Friedman:关于2026年,谁会胜出?
Nathan:尽管风险很高,我仍预测Gemini会继续拉近与ChatGPT的差距。当两家公司都在极大规模的体量下运作时,Google的规模优势将得以体现,他们更有能力将研究与产品线进行有效分离。外界常听闻OpenAI内部运营混乱,且带有浓厚的追逐高影响力目标的初创公司文化。而在软件和企业端,Anthropic已经多次证明了其成功的潜力。当然,GoogleCloud拥有丰富的产品线,建立Gemini的品牌影响力对其至关重要。随着GoogleCloud业务的持续推进,其在生态系统中的角色将变得愈发复杂,因为它更多是在基础设施层面与Azure和AWS竞争,而非单纯的模型提供方。
Friedman:所以在基础设施层面,GPU资源能提供核心优势吗?
Nathan:很大程度上是的。NVIDIA芯片的利润率极高,而Google具备从底层硬件到顶尖软件栈的全栈开发能力,无需支付这部分高额利润,且在数据中心建设上拥有先发优势。鉴于硬件采购周期长且成本利润极高,Google在基础设施层面拥有深厚的历史优势。即便会出现新的范式,那也更有可能来自OpenAI。他们的研究部门屡次证明了将全新研究构想转化为实际产品的能力,例如DeepResearch、Samara以及o1推理模型。这些定义行业方向的成果大都出自OpenAI,这也是其作为组织的核心竞争力。因此,很难低估OpenAI。预计今年的重点将围绕“规模化”以及优化模型中那些易于改进的“低垂果实”。
Friedman:显然,智能水平与响应速度之间存在权衡。这正是GPT-5试图在后台解决的问题。普通大众究竟更看重极致的智能,还是更看重响应速度?
Sebastian:这种多样性很有必要,或者说应该提供切换选项。以我个人的使用体验为例,大多数情况下我只想快速查询信息,这时我会使用ChatGPT快速提问并获取结果。对于大多数日常任务,现在的自动模式表现良好,用户无需手动指定是否开启思考模型。但有时我确实需要专业模式。比如当我有写好的内容需要深度核查时,我会要求ChatGPT进行全面检查:参考文献是否准确?逻辑是否严密?是否存在格式错误或图表编号错误?这类任务我并不追求即时反馈,我可以先去处理其他事情,晚饭后再回来查看结果。这种选项至关重要,如果每一个查询都要被迫等待10到30分钟,那将令人难以忍受。
Nathan:听到你还在使用Router模式和非思考模型,我感到非常惊讶。我的反应是,你怎么受得了?我已经重度使用ChatGPT很长时间了,甚至从未碰过GPT-5的非思考版本。非思考模型的语气及其产生错误的倾向是硬伤。其错误率明显更高。这种转变源于OpenAI发布O3模型时,那是第一个能进行深度搜索、寻找多方来源并完成集成的模型。自那以后我就养成了习惯。现在无论是处理工作还是查询信息,我只使用GPT5.2Thinking或Pro模式。比如在查阅论文或代码引用时,我会同时开启五个Pro查询,每个查询分别针对特定的论文反馈或公式推导。
Sebastian:我有一个有趣的例子,说明了有时确实需要极致的响应速度。在参加这次播客录制前,我正准备出门,家里的一台本地GPU正在运行一个长期的RL实验。通常出门前我会拔掉不用的电器插头以防万一。结果我误拔了GPU的电源。当时我妻子已经在车里等我了,情况非常紧急。我当时需要尽快写一个Bash脚本来重新运行不同的实验和评估任务。虽然我熟悉Bash接口和终端操作,但我当时没时间思考,我只需要系统在10秒内给我正确的命令。
Friedman:这场景确实很有趣,那你最后用了什么?
Sebastian:我用了响应最快的非思考模型,它立刻给出了串联不同脚本的Bash命令,包括将输出重定向到日志文件的指令。在那种匆忙的情况下,这帮了大忙。虽然我本可以自己想出来,但当时真的没时间。
Friedman:在车里等着、必须马上出发、还得插回GPU电源并生成脚本——这听起来像电影情节,真希望当时有录像。
Nathan:对于快速查询,我会选择使用Gemini。我会将Thinking模型用于处理所有信息类任务,而将Gemini用于处理那些有时也可以通过Google搜索到的快速、简单的事务。Gemini在解释事物方面表现出色,其知识库背景深厚,且Gemini应用最近的体验显著提升,非常适合这类场景。
至于代码编写或任何形式的哲学讨论,我会使用ClaudeOpus4.5,并且始终开启ExtendedThinking。事实上,ExtendedThinking和Inference-timeScaling只是让模型变得更加聪明的一种方式。这些前沿功能的进展至关重要,因为你永远不知道它们会解锁哪些新的使用案例。
此外,有时我会使用Grok获取实时信息,或者在AITwitter上发现有趣的内容时,用它进行深入挖掘。值得一提的是,Grok4发布后,其Pro变体版本表现极其出色,给我留下了深刻印象。尽管如此,由于长期使用ChatGPT形成的习惯,我经常会下意识地打开ChatGPT应用。总而言之,我会根据需求切换使用多种不同的工具。
Friedman:我也确实会使用Grok4的Heavy模式进行调试,特别是那些其他模型无法解决的高难度Debug任务,它是目前表现最好的工具。不过,你说ChatGPT是最好的界面,这很有趣。对我而言,Gemini才是更好的界面。可能是因为我非常认可它在“大海捞针”(NeedleinaHaystack)测试中的表现。如果我需要寻找非常具体的信息,并确保模型能够完整追踪上下文中的所有细节,Gemini始终是我的首选。
有趣的是,如果某个模型在某一天的特定查询或提示中赢得了用户的青睐,用户就会觉得这个模型更好,并会坚持使用一段时间,直到它再次做出某些愚蠢的反应为止。这就像一种“阈值效应”:当模型展现出某种智慧,你会爱上它;但当它表现不佳时,你又会立刻转向Claude或ChatGPT。
Sebastian:这种使用习惯就像使用其他任何工具一样——在它出问题之前你会一直使用它,直到遇到瓶颈才考虑更换LLM。这与我们选择文本编辑器、操作系统或浏览器的逻辑一致。虽然市面上有很多浏览器选项,如Safari、Firefox和Chrome,它们功能相对接近,但只有在需要特定扩展程序或遇到兼容性问题时,用户才会选择切换。通常不会有人为了测试同一个网站,特意在不同浏览器中输入相同内容进行对比,除非网页无法渲染或加载失败。因此,用户往往会沿用现有工具,直到它无法满足需求才会去探索其他选项。
Nathan:关于“长文本上下文”功能,我此前一直是Gemini的忠实用户。但GPT5.2发布博文中的长文本测试得分令人惊叹,许多人都在猜测这是否源于某种算法层面的重大突破。在一次小版本更新中,其性能表现从30%飞跃到了70%左右。目前技术迭代极快,追踪所有进展变得非常困难,但我现在确实对GPT5.2的长文本能力持更积极的态度。然而,如何真正有效地测试这些功能,依然是一场无止境的博弈。
Friedman:耐人寻味的是,我们都没有从用户使用体验的角度讨论中国模型。这说明了什么?
Sebastian:这反映了目前模型性能与平台化建设之间的差距。目前开源模型更多是以其技术参数和开放性闻名,而在用户交互平台和生态建设上,尚未形成像西方主流模型那样的全球影响力。
Nathan:此外,许多公司提供低成本的开源模型推理服务。例如通过OpenRouter,可以方便地进行多模型调度,也可以在PerpFridmanity上运行DeepSeek。我们目前都在持续使用OpenAIGPT-5Pro。用户普遍愿意为那一点边际上的智能提升付出的额外成本。目前看来,美国公司的模型在输出质量上确实更胜一筹。
核心问题在于,这些模型是否能在未来几年保持领先地位。只要其性能占优,我就愿意付费。有分析指出,由于出口管制等因素,中国模型的部署方式可能不同,例如在Replica上使用的GPU较少,导致响应较慢且错误类型不同。对于美国用户而言,速度与智能的平衡是决定性因素。这可能会促使中国公司在其他维度展开竞争,比如提供免费服务、大幅降低成本或通过差异化产品激发生态系统创造力。但归根结底,目前美国模型表现更优,因此我们选择使用它们。虽然尝试其他开源模型很有趣,但我通常不会将其作为主力。
Friedman:我们之前未提及编程这一核心应用场景。我目前交替使用Cursor和ClaudeCode,因为两者的交互体验截然不同,且各有千秋。你们二位都有大量的编程需求,目前倾向于使用什么工具?
Sebastian:我目前使用VSCode的Codex插件。它以插件形式存在,提供能访问代码库的聊天界面,非常便捷。相比之下,ClaudeCode似乎更具智能体特性。它能介入更多环节,甚至为用户完成整个项目。目前我尚未完全接受这种模式,或许是因为我有较强的控制欲,仍希望了解底层细节。因此,Codex目前对我而言是一个完美的平衡点——它能提供辅助,但不会成为完全替代品。
Friedman:我必须提到,我使用ClaudeCode的原因之一是为了培养“用英语编程”的技能。这种体验与在Cursor中管理代码生成细节、查看Diff并进行手动调整完全不同。相比于微观管理,ClaudeCode能让你在宏观层面进行设计与引导,在项目推进过程中深度理解代码。这提供了一种全新的编程思维。此外,ClaudeCode似乎更好地发挥了ClaudeOpus4.5的潜力,非常适合与其他工具并排使用。
Nathan:你可以同时开启ClaudeCode、Cursor和VSCode,并在这些工具中选择相同的模型进行提问。这种对比非常有趣,ClaudeCode在该领域的表现确实出类拔萃,令人惊叹。
Friedman:二位在研究、编程、教育以及写作等多个领域都极具实力。Nathan,希望你的RLHF专著能尽快面世。
Nathan:该书目前已开启预售,并提供完整的数字化预印本。我正在对其物理版本进行排版优化。在生活高度数字化的今天,亲手创造出色的实体作品是一件非常有成就感的事情。
Friedman:Sebastian是知名的机器学习研究员,也是多本影响力著作的作者。我再次强烈推荐他的《从零开始构建大语言模型》以及新书《从零开始构建推理模型》,从零开始构建系统确实是最强有力的学习方式之一。
Sebastian:亲手构建LLM的过程极具乐趣且收获颇丰。正如你所言,这是理解事物运行逻辑的最佳方式。书中的图表可能存在疏漏,概念解释也可能被误读,但代码不会。如果代码能够成功运行,就证明它是精确无误的。这就是编程的魅力所在——它从不撒谎,其本质是数学。即便书中存在难以察觉的错误,由于阅读时无法实时运行其中的数学逻辑,读者很难发现;但代码的正确性是可以即时验证的。
Friedman:我非常认同《从零开始构建大语言模型》这本书的价值。屏蔽外界干扰,沉浸在书本中是一种极佳的体验。我读过几本历史书,这种深度阅读的过程让内心感到宁静。在编程方面,利用LLM进行开发确实更有乐趣。同理,配合LLM阅读也是如此。虽然应该尽量减少分心,但使用LLM可以丰富阅读体验,提供更多背景信息。对我而言,这种方式能显著提高产生灵感的频率。
Sebastian:完全同意。我想澄清的是,我并非建议不使用LLM。我个人的习惯是分阶段进行:第一遍采用离线专注模式;之后再利用LLM进行第二遍深入研读并做笔记。我会有意识地克制立即查阅信息的冲动,通过第二遍复读来建立更严谨的知识结构。有时书中的后续章节会解答之前的疑问,有时则需要时间去沉淀思考。虽然每个人的偏好不同,但我建议在阅读书籍时,将使用LLM作为第二阶段的辅助工具,而不是首选。
Friedman:我的建议恰恰相反。我倾向于在阅读初期就使用LLM来构建完整的背景脉络,以此了解即将进入的知识领域。我会尽力避免从LLM切换到社交媒体或博客,因为那样会陷入信息碎片化的陷阱。你会不自觉地被他人的观点或某个话题的争论所吸引,从而脱离纯粹的知识领域,坠入互联网的琐碎纷争中。如果单纯让LLM提供核心背景和宏观构思,阅读效率会更高。尽管有些书籍本身在宏观引导方面做得很好,但并非所有书都能做到这一点。
Nathan:这就是我喜欢ChatGPT应用的原因,它在电脑中为AI提供了一个专属空间,让你能专注于此,而不是将其淹没在浏览器无数乱七八糟的标签页中。ClaudeCode的产品设计非常出色,它极具互动性,作为一个界面,它能引导AI真正介入并处理现实世界的任务,这种体验非常愉悦。它与Codex之间存在一种难以言喻的差异:ClaudeCode给人感觉更加亲切且富有吸引力,而由OpenAI提供的Codex虽同样强大,但在交互细节上显得略微生硬。ClaudeCode让从零开始构建项目变得充满趣味,用户无需过度关注琐碎细节,只需信任系统能够完成任务。例如在构建网站或进行数据分析等刷新工具链的工作中,它的表现非常优秀。我的博客会抓取HuggingFace的数据,长期追踪每个数据集和模型的下载量。
以前这些数据处理可能要耗费我几天时间,但现在Claude能轻松搞定。这让我拥有足够的全局感知能力去确认趋势是否合理并核查细节。这种优秀的界面充当了中介,让开发者无需再处理那些维护不同Web项目时枯燥乏味的底层工作。
开源模型
Friedman:好。刚才我们讨论了许多Closed-weight模型,现在来谈谈开源领域。在当前的开源LLM景观中,哪些模型最令你感兴趣?哪些脱颖而出,原因又是什么?我们已经提到了DeepSeek。
Nathan:你想看看我们在不看笔记的情况下,随口能说出多少个名字吗?DeepSeek、Kimi、Minimax、ZhipuAI。这些都是目前表现强劲的中国模型。
Sebastian:还要加上MistralAI、Gemma,以及ChatGPT的开源版本GPT-OSS。实际上NVIDIA也有一个非常酷的模型NEMOTRON3。尤其在去年年底,涌现了大量优秀模型,比如Qwen。
Nathan:是的,Qwen确实是一个显而易见的名字。我刚才正试图列举出至少10个中国模型和10个西方模型。OpenAI发布了自GPT-2以来第一个Open-weight模型。当我在撰写关于OpenAI开源模型发布的文章时,人们纷纷感叹时光荏苒,因为GPT-2仿佛已是另一个时代的产物。但事实上,GPT-OSS是一款非常强劲的模型,并在某些领域展现出了其他模型所不具备的优势。
从我个人的职业角度出发,我也会推广一些西方公司的成果。在美国和欧洲,都有许多完全开源的模型。我目前任职于Allen Institute for AI,我们一直在构建Olmo。该项目不仅发布模型,还开放了训练数据和代码。现在,业界在发布完整训练资源方面已形成了良性竞争,以便让更多人能够参与这些模型的训练。
此外,还有Institute for Foundation Models(又名LLM360),他们发布了K2系列模型。Apertis是一家瑞士研究财团,而HuggingFace推出的SmallLLM也非常受欢迎。NVIDIA的Nemotron系列也开始发布相关数据。同时,斯坦福大学的Marin社区项目正在构建一套流程,让人们能通过提交GitHubIssue来实现新想法,并在稳定的语言模型协议栈中运行。相比2024年,现在的名单已经大幅扩充。
此前,该领域似乎只有AI2一家在坚持。现在更多人的加入有助于深入理解大语言模型。值得注意的是,中国的开源语言模型规模往往更大,这赋予了它们更高的峰值性能,尤其是采用Mixture-of-Experts(MoE)架构的模型,其表现非常出色。相比之下,来自美国和欧洲的Gemma或Nemotron等模型此前倾向于较小规模,但这一现状正随着MistralLarge3的发布而改变——该模型是一款巨大的MoE模型,架构与12月发布的DeepSeek非常相似。初创公司RCAI与Nemotron也都预告了参数量远超1000亿的MoE模型,甚至在2026年第一季度会出现4000亿参数级别的模型。今年用户在选择中国模型与美国开源模型之间的平衡点将会发生改变,我个人对此非常期待。
Friedman:首先,非常佩服你能脱口而出这么多名字。不过,你刚才是不是漏掉了Llama?我们谈到了Llama,它在2024年和2025年无疑是开源界的顶梁柱。Meta通过持续发布各参数规模的高质量模型,确立了西方开源的标准。
Nathan:确实,即便在2026年,Llama依然是许多开发者和初创公司的默认起点。Meta的资源优势让他们能够提供极其完善的文档和生态系统支持,这是许多其他实验室难以企及的。不过,随着模型规模不断突破,单靠这一系列模型已不足以覆盖所有垂直需求。
Sebastian:没错。在专业化和效率优化方面,我们看到更多专注于特定任务的开源模型。例如,有些模型专门针对数学推理进行了长达数月的持续训练,或者是在特定语言的代码库上表现优异。这种多样性让开发者可以根据具体的GPU预算和推理时延要求,选择最合适的工具。
Friedman:这其实引出了一个重要的话题——推理成本与效能。DeepSeek之所以被称为“时刻”,是因为它证明了极致的架构优化可以显著降低模型运行的边际成本。这种“平民化”的高端智能对2026年的AI普及至关重要。
Nathan:完全同意。如果顶尖智能只能由少数几家巨头垄断,那么创新的速度会大打折扣。正是因为这些开源模型的存在,迫使闭源模型厂商不断突破边界,同时也将AI的使用门槛推向了前所未有的低位。
Sebastian:展望未来几个月,我更期待看到这些模型如何在本地端侧设备(EdgeDevices)上运行。随着量化技术和NPU硬件的进化,在手机或笔记本电脑上运行百亿参数级别的模型将不再是难事。这种隐私与性能的平衡,将是下一阶段竞争的焦点。
对于用户来说,有些人只是在本地使用模型,就像使用ChatGPT那样。但对于公司而言,拥有这些模型是一个巨大的突破,因为你可以对其进行定制。你可以对它们进行训练,增加后训练(post-training),添加更多数据,使它们专业化。比如转化为法律、医疗模型等任何你需要的方向。你刚才提到了LLaMA。中国开源权重模型的吸引力在于其许可协议甚至更加友好。它们基本上是不受限制的开源许可,而如果你使用像LLaMA或Gemma这样的模型,通常会附带一些附加条件。
这就像是用户数量上的一个上限。如果你超过了,比如,几百万用户,你就必须向Meta之类的公司报告你的财务状况。虽然它是一个免费模型,但它是带有附加条件的,而人们更喜欢没有束缚的东西。所以这也是为什么除了性能之外,中国的开源权重模型如此受欢迎的原因,因为你可以直接使用,没有任何隐性限制。
Nathan:在这方面,生态系统已经有所改善,但这主要归功于下游的新供应商提供了此类开放许可。有意思的是,当你提到PerpFridmanity时,它显示K2 Thinking托管在美国,这正是一个确切的例子——我以前从未见过这种情况,但这恰恰说明了人们对此类问题的敏感性。Kimi K2 Thinking和Kimi K2是一款非常受欢迎的模型。人们评价说它在创意写作和处理一些软件任务方面表现非常出色。人们在不同的模型中总能发现一些他们喜欢的独特特质。
Fridman:在这些模型探索出的有趣想法中,有哪些是你觉得特别有意思并想聊聊的吗?
Sebastian:也许我们可以按时间顺序来梳理。如果只看2025年,当然有1月份发布的DeepSeekR1。不过,它是基于2024年12月发布的DeepSeekV3构建的。在架构方面有很多看点。令人着迷的是,你仍然可以——我是说,这是我在从零开始的编码项目中所做的——你仍然可以从GPT-2开始,通过添加组件将其演化成这种新型模型。所以它们在血统上是一脉相承的,有着非常紧密的联系。
随口举几个DeepSeek的例子,其独特之处在于混合专家模型。当然,他们并不是MoE的发明者,我们可以稍后再详细讨论MoE的含义。但在深入细节之前,我先列出这些特性:混合专家模型,以及多头潜变量注意力,这是对注意力机制的一种改进。
在2025年,这些开源权重模型的主要区别在于通过各种微调来优化推理或缩减KV缓存的大小。我们稍后也可以定义一下什么是KV缓存。其目的是为了更经济地处理长文本,从而缩小KV缓存。那么我们能做哪些改进?大多数改进都集中在注意力机制上。DeepSeek使用了多头潜变量注意力。此外还有分组查询注意力,目前仍非常流行。它不是由这些模型发明的,可以追溯到几年前,但它是另一种选择。我记得滑动窗口注意力也几乎被重新启用了。正是这些不同的细微改进让模型变得与众不同。我曾在一篇文章中将它们放在一起进行过对比。
令人惊讶的是,它们非常相似。区别仅仅在于中间层Transformer块的重复次数不同,或者是人们微调的一些小参数。但最棒的一点是,无论怎么改,它都能运行。你可以调整归一化层的位置,从而获得一些性能提升。在消融研究中,我通常能很好地展示移动某个组件对模型的影响——有时移动位置并不会让模型变好或变坏。
实现Transformer并让其保持运行的方法实在太多了。目前依然盛行的大思路包括:混合专家模型、多头潜变量注意力、滑动窗口注意力和分组查询注意力。到2025年底,我们看到研究重点转向了让注意力机制在推理过程中的Token预测上实现线性扩展。例如Qwen3Next,它加入了门控Delta网络。这有点像受状态空间模型(SSM)启发的做法,即拥有一个需要不断更新的固定状态。但它本质上让这种注意力机制变得更廉价,或者说用一种开销更小的操作取代了原有的注意力机制。
Fridman:退一步说,聊聊通用的Transformer架构或许也很有用。
Sebastian:也许我们应该从GPT-2的架构开始谈起。Transformer源于《Attention Is All You Need》这篇论文。在那篇论文中,Transformer架构由两部分组成:编码器和解码器。而GPT则专注于解码器部分。它本质上仍然是一个神经网络,内部集成了这种注意力机制。你每次预测一个Token,将其传递给一个嵌入层。Transformer块由注意力模块和一个全连接层组成,中间还穿插着一些归一化层。本质上,这就是带有注意力机制的神经网络层。
从GPT-2演进到GPT-OSS时,出现了诸如混合专家模型层之类的改动。MoE并不是由GPT-OSS发明的,它已经出现了几年,但本质上是一种优化手段。今天,我们要讨论的是如何在不增加每次前向传播计算开销的情况下,把模型做大。Transformer内部有一个全连接层。如果听众熟悉多层感知器,你可以把它想象成Transformer内部的一个小型多层感知器或全连接神经网络层。由于它是全连接的,所以开销非常昂贵。
如果你有1,000个输入和1,000个输出,那就是100万个连接。这是Transformer中非常耗费资源的部分。为了将其扩展到多个前馈网络,我们不再只使用一个——假设你现在有256个这样的网络,如果同时运行它们,开销会变得极其恐怖。但你并不会同时使用所有的网络。现在你拥有一个“路由器”,它会根据输入的Token决定:在这个语境下,调用哪一个全连接网络会比较有用。在这里,这个网络就被称为一个“专家”。所以,“混合专家模型”意味着你拥有多个专家。
根据你的输入内容,比如它偏向数学计算,模型就会调用与翻译不同的专家。它可能会咨询不同的专家。虽然分工并不总是那么界限分明——比如哪个专家负责数学很明确,但负责西班牙语的专家可能就模糊一些——但核心思想是,你在网络中封存了更多的知识,但并不是所有的知识在每一时刻都会被调用。那样做会非常浪费。所以在生成Token的过程中,你会更加具有选择性。模型中有一个“路由器”,它会选择哪些Token应该进入哪个专家模型。这增加了模型的复杂性,训练起来也更困难。
这里面有很多可能出错的地方,比如“专家崩溃”之类的问题。我想这就是为什么Olmo3仍然使用稠密(Dense)架构的原因。我是说,Olmo模型既有混合专家版,也有稠密版。“稠密”也是一个术语。这里需要区分“稠密”和“稀疏”。混合专家模型被认为是稀疏的,因为虽然我们有很多专家,但每次只有少数几个处于激活状态。这就是所谓的稀疏。而稠密则恰恰相反,你只有一个完全连接的模块,并且它始终被完整调用。
Fridman:那么,或许现在也是谈论KV缓存的好时机。不过在此之前,先放大视角来看,从GPT-2到今天,底层架构到底实现了多少新想法?这些架构之间的差异到底有多大?
Sebastian:可以想象一下混合专家模型。GPT-OSS中的注意力机制,采用了分组查询注意力机制。所以这只是对多头注意力机制的一个微调。这是其一。他们还将层归一化替换成了RMSNorm,但这只是另一种不同的归一化层。算不上巨大的改变,更像是一种微调。至于非线性激活函数——熟悉深度神经网络的人都知道——这就好比把Sigmoid换成了ReLU。它并没有从根本上改变网络,只是一种微调。所以,它们在根本上并没有那么大的不同,依然是相同的架构。你基本上可以通过添加这些改动,把一个模型转换成另一个模型。
Fridman:从根本上说,它们仍然是同一种架构。
Sebastian:是的。例如,你之前提到过我的书,书里用的是GPT-2模型,因为它简单且体量很小,大约只有1.2亿个参数。但在补充材料中,我有近三个“从零开始”的项目。包括从零开始构建Gemma3以及其他类型的模型。我总是从我的GPT-2模型开始,通过微调或添加不同的组件,就能演化成另一种模型。从某种意义上说,这就像是一个演化谱系。
Fridman:您能为大众建立一个直观的理解吗?因为从宏观角度来看,AI领域正处于飞速发展之中;但与此同时,从底层逻辑来看,模型架构其实并没有发生根本性的改变。那么,这种剧烈变革和演进究竟发生在什么地方?主要的增长点又在哪里?
Sebastian:开发或训练神经网络包含多个不同的阶段。首先是预训练。在过去,例如GPT-2时期,重点几乎全部在于预训练。而现在,流程已经演变为预训练、中期训练以及后训练。目前的重点正处于以“后训练”为核心的阶段。诚然,如果通过更大规模、更高质量的数据进行扩展,预训练依然能带来优势。但我们现在拥有了GPT-2时期所不具备的能力解锁。例如,ChatGPT本质上是一个GPT-3模型,而GPT-3在架构上与GPT-2是相同的。真正的新变量在于引入了监督微调以及基于人类反馈的强化学习。因此,进步更多体现在算法层面,而非架构本身。
Nathan:我还想补充一点,系统层面也发生了巨大的变化。如果你关注NVIDIA的发布会,你会听到他们谈论诸如FP8甚至FP4精度这类技术。目前的情况是,这些实验室正在探索如何将更强大的算力集成到单个模型中,从而实现更快的训练速度并喂入更多的数据。通过这种方式,你可以更迅速地找到更优的模型配置。当你进行大规模训练时,一个关键指标就是“单显卡每秒处理的token数”。比如,仅通过开启FP4训练,你就能将这一数值从10K提升到13K。这意味着模型中每个参数占用的内存更少了。由于存储的信息量变小,通信开销也随之降低,训练速度自然就提上去了。
所以,所有这些系统层面的优化,支撑了数据和算法层面上更快速的迭代试验,这形成了一个不断循环的闭环。这也就是为什么从模型架构上看它们似乎一模一样,但用于训练这些模型的代码库却早已天差地别,这一点很难直观地描述出来。虽然GPU本身在进化,但即便抛开这点不谈,现在训练一个像GPT-OSS20B规模的模型,其实际耗费的时间也要比当年训练GPT-2时快得多。
Sebastian:正如你所提到的,例如在混合专家模型中,我们采用了FP4优化。这显著提升了吞吐量,确实在速度上带来了飞跃。但从某种意义上说,这并不会赋予模型全新的能力。这更多是关于我们能在多大程度上“粗略化”计算,而不至于导致模型性能严重下降。不过,我确实看到了一些可以替代Transformer的方案正在崭露头角。
目前出现了文本扩散模型,这是一个完全不同的范式。这类模型可能仍会使用Transformer架构,但它们不再是自回归式的Transformer。此外还有Mamba模型,它属于状态空间模型,虽然它们也存在一些权衡和取舍。但客观事实是,目前还没有任何架构能真正取代“自回归Transformer”在SOTA模型中的地位。如果你追求极致的性能,依然会选择它;只是现在出现了一些成本更低的替代方案。在这些替代方案中,我们做出了一些妥协。虽然架构不再是单一的天下,各种小众架构正在涌现,但谈到最顶尖的模型,本质上依然是源自GPT-2的那种自回归Transformer架构。
Fridman:我想这里的大问题在于,我们已经深入讨论了预训练背后的架构。那么,扩展定律在预训练、后训练、推理、上下文长度、数据以及合成数据(syntheticdata)等方面,是否依然稳健地发挥着作用?
Nathan:我倾向于先从扩展定律的工程定义开始,这能为我们理解现状提供背景。扩展定律本质上是一种幂律关系。你可以这样理解:在X轴上,你缩放的是算力与数据的组合(这两者某种程度上是类似的);而Y轴则是模型对预测下一个token的准确率。我们之前提到过,目前的主流模型都是自回归模型。简单来说,如果你给模型喂一段它从未见过的文本,它在训练后的预测准确度有多高?人们发现,扩展定律揭示了一种极具可预测性的关联。
这一工程术语在2026年依然适用,但现在的问题是:用户能从中得到什么?目前出现了更多维度的扩展方式。例如,OpenAI的O1系列模型因引入了“推理时间扩展”而闻名。此外,还有一个不那么广为人知、但同样重要的突破:强化学习训练的扩展。你会发现,如果在强化学习阶段增加投入,性能在Y轴上会随着X轴(强化学习投入)的对数增长而呈现线性提升。
所以,现在的扩展定律主要分布在三个轴上:首先是传统的预训练扩展,即模型有多大,数据集有多大。其次是强化学习扩展,这是我们稍后会详细讨论的“试错学习”,我们之后会对此进行更精确的定义。最后是推理时间算力,即让模型在解决特定问题时生成更多的中间token。
我对这种模式非常看好,因为这三个轴目前依然有效。虽然那些“低垂的果实”大多已被摘完,但尤其是在过去一年中,我在带验证奖励的强化学习(RLVR)领域做了很多工作。RLVR结合了推理时间扩展,这正是为什么这些新模型(如O1或DeepSeek-R1)用起来感觉截然不同的原因。过去,模型会立即给出第一个token;而现在,它们会先消失几秒、几分钟甚至更久,在给出最终答案之前,先在后台生成这些隐藏的思维链。
Nathan:这就是推理时间扩展的全部意义。从模型能力演进的角度来看,这是一种美妙的阶梯式增长(step function)。它解锁了我们之前讨论过的工具使用(tool-use)以及更强大的软件工程能力。这种进步几乎完全归功于带验证奖励的强化学习训练,它让模型能够非常轻松地掌握这些技能。如果观察模型的推理过程,你会发现当模型生成大量token时,它实际上是在不断尝试:它尝试调用一个工具,观察返回结果,接着尝试另一个API,评估返回信息并判断是否解决了问题。
在训练过程中,模型能非常迅速地学会这种操作。最终,这为模型提供了一个通用的基础,使其能够非常出色地在你的代码库中使用CLI命令、处理Git操作、移动文件、组织目录或搜索更多信息。如果一年前我们坐在这里,可能很难想象模型能做到这些。但这一切就在今年发生了,并彻底改变了我们对AI用法的认知。这种进化非常神奇,释放了巨大的价值。虽然目前还不清楚下一个类似的突破点在哪里,但我们最终会走向持续学习。尽管AI的某些领域目前热度很高,但没人能确切预知下一个这种阶梯式的跨越何时到来。
训练阶段演进:从""堆数据""到""精准投喂""
Fridman:你刚才分享了很多深刻的观点。我想稍微拆解一下,你提到你对各种形式的扩展(scaling)都持乐观态度。我们刚才只聊到了预训练的开端,这是否意味着预训练层面的扩展已经摘完了所有低垂的果实?预训练的扩展是已经进入了平台期,还是说你对它依然抱有信心?
Nathan:预训练已经变得极其昂贵。而且当你尝试扩展预训练规模时,这其实也意味着你将来需要向用户提供一个体积巨大的模型。目前业界已形成一种模糊的共识,即像GPT-4这种级别的模型,其最大参数量大约在1万亿左右。不过,也有很多传闻说,随着训练效率的提升,模型实际上正在变小。你肯定希望模型能更小一些,因为这样推理服务的成本就会按比例下降。对于这些模型来说,训练成本相对于服务数亿用户的推理成本而言,其实是很低的。比如DeepSeek有一个很著名的案例,其预训练成本按云端市场价计算大约只需500万美元。我们在Olmo3论文的2.4节中详细记录了GPU集群用于训练的时长,这其中包括了工程问题和多次尝试等因素。租用集群来处理训练模型中的各种难题大约需要花费200万美元,实际上很多人花费100万到1000万美元就能训练出一个模型。
但服务数百万用户的持续性推理成本,则需要耗费高达数十亿美金的算力。租用一千张GPU每天可能要花费10万美元,而这些公司可能拥有数百万张GPU。你可以看到让这些机器运行起来的成本有多高,所以关键问题在于:如果扩展规模确实能带来更好的模型,那么在经济上它是否值得?
随着AI开始解决更具吸引力的任务,我们会缓慢地推动其边界。比如像Claude Opus4.5这种能写出直接运行的代码的模型,就能让一切变得有意义。我在七月份启动了一个名为“Atom Project”的项目,它类似于美国的完全开源模型。那是一个很有氛围的代码网站,我有自己的工作,负责绘图和杂项事务。
Fridman:所以你谈到的是扩展定律中Y轴的微妙差异,即用户体验到的提升与基准测试中体现的提升,在实际智能表现上可能是不同的。但尽管如此,关于预训练,你直觉上认为如果继续扩大算力规模,模型还会变得更好吗?先不考虑经济上的可行性,单纯从规律的角度来看,模型会变得更聪明吗?
Nathan:是的,会。有时候这听起来可能有些令人幻灭,尤其是当你听到那些AI公司的领导层说,他们正计划将算力规模再提升13个数量级时。但从根本上说,这种提升不太可能停止。最终的情况可能是,由于计算量激增带来的各种挑战,我们甚至无法再对更大规模的扩展进行测试了。
目前有很多讨论都在关注2026年,因为届时非常庞大的Blackwell计算集群、千兆瓦级别的设施以及超大规模云服务商(hyper scalers)都将上线。这些电力和数据中心合同大多是在2022年和2023年签署并启动的,也就是在ChatGPT出现的前后。因此,建设这些更庞大的集群来训练模型,大约需要两到三年的交付周期。虽然显然大家对建设更多数据中心有着巨大的兴趣,但目前的症结在于,人们都在关注这些新集群的到来,这意味着各大实验室将拥有更多的算力用于模型训练。
他们将会利用这一点,但这并非理所当然。我已经看到了巨大的进展,因此我预期,并且确实期待看到更大规模的模型。可以说,我们今年更有可能看到2,000美元的订阅服务。
我们已经见过200美元的订阅服务。这可能会再次增长10倍。这些都是可能出现的情况,它们都源于这种更大规模、能提供更多前沿技术的模型。
Fridman:所以,如你所知,有报道称xAI将在26年初达到1吉瓦规模,并在年底达到满负荷的2吉瓦。在缩放法则(Scaling Laws)的背景下,他们会如何利用这些算力?这很大程度上是用于推理还是用于训练。
Nathan:结果是以上皆有。模型训练过程中的所有决策最终都会回到预训练阶段。如果要在模型上扩展强化学习(RL),仍然需要决定能够支持这一点的架构。
我们正在讨论使用不同注意力机制的其他架构。我们也在讨论混合专家模型(MoE)。MoE模型的这种稀疏特性使得生成效率大幅提高,这已成为后期训练(Post-training)的重要组成部分。你必须准备好相应的架构,以便真正扩展这些计算资源。
大部分计算资源仍然投入在预训练中,因为你依然可以把模型做得更好。你始终希望回顾并优化这一点,始终希望获得尽可能最好的基础模型。在几年内,这将会达到饱和,而强化学习(RL)的计算时长则会持续增加。
Fridman:是否有人不同意你的观点,认为预训练基本上已经过时了?他们认为一切都关乎于扩展推理、扩展后期训练、扩展上下文、持续学习、扩展数据以及合成数据。
Nathan:人们确实有这种倾向并以此方式描述,但这并非正在发生的实际情况。
Fridman:但我听下来,你对推理侧的各种扩展方案以及推理本身都持乐观态度。
Sebastian:这确实是个很复杂的话题。基本上,训练和推理扩展是你获取收益的调节旋钮。在拥有无限计算资源的世界里,你会希望两者兼顾。训练、推理扩展和训练就像一个层级体系,包含预训练、中期训练(mid-training)和后期训练(post-training)。改变模型大小、增加训练数据或训练更大的模型,都能让模型获得更多知识。比方说,你会得到一个更好的基础模型。过去我们叫它“基座模型”(foundation model)。但假设这个模型在预训练期间或预训练之后,还无法解决你最复杂的任务,你仍然可以通过其他解锁阶段,比如中期训练或非上下文(non-context)阶段,例如使用RLVR进行后期训练,来解锁模型在预训练中所掌握的知识能力。
多做预训练能得到更好的基座模型,以便后续解锁,但正如Nathan所说,这变得太昂贵了。我们没有无限的计算资源,所以你必须决定:是花更多资源把模型做大,还是做其他权衡?在理想世界里你会全都要,从这个意义上说,扩展(scaling)依然非常有活力。你确实能得到更好的模型,但正如我们在GPT4.5上看到的,有时候这并不值得。因为在当前阶段,你可以通过其他技术解锁更好的性能,尤其是看推理扩展时。今年O1的出现带来了巨大的收益,它让一个小模型在某些方面比像GPT4.5这样预训练规模更大的模型走得更远。所以,我不会说预训练扩展已经过时了,只是目前有其他更具吸引力的扩展方式。但在某个时刻,你终究还是希望在预训练上取得进展。
你还需要考虑:为什么要花这个钱?如果你把钱花在预训练上,它更像是一种固定成本。你训练好模型,它就永久拥有了这种能力,你可以一直使用。而对于推理扩展,你不需要在训练时花钱,但后续每一条查询(query)都要花钱。然后就是数学计算问题:如果我的模型半年后就要更换,它能在市场上维持多久?也许花500万、1000万甚至1亿美金去训练就不值得了。也许我只会做更多的推理扩展并从中获取性能。这可能在用户查询方面花费我200万美金。这变成了你有多少用户以及算账的问题。
ChatGPT目前的处境也很有趣,他们有很多用户,所以需要走更廉价的路线,比如使用一个稍小一点的GPT-5模型。对于其他有不同权衡的公司,例如处理数学奥赛或某些数学问题时,ChatGPT或OpenAI拥有专有模型。我敢肯定那只是一个经过更多微调的模型,但大部分是依靠推理扩展来在特定任务中达到峰值性能,而你并不需要模型一直处于那种状态。长话短说,预训练、中期训练、后期训练和转录(transcaling)都是你想做的。今年大家只是在寻找那个能带来最高性价比的最优比例。
Fridman:我想现在正是定义预训练、中期训练和后期训练的好时机。
Reschka:预训练(pre-training)就是经典训练方式:用交叉熵损失在海量语料上做“下一个token预测”,语料来自互联网、书籍、论文等。
它这些年有变化:过去更像“能塞就塞”,现在更强调数据质量与配比,不只是原始数据,还会加入合成数据(syntheticdata)。合成数据不一定是AI凭空编造;也包括把现有内容(如文章、维基条目)改写成更结构化的问答、摘要或重写版本,从而让数据更清晰、更精炼。直观地说,结构更好、语法标点更规范的数据,能让模型更快学到正确表达与规律,训练效率更高。
因此规模化仍然有效,不只是数据量在起作用,更在于让数据“更适配训练”的方法在进步。
而mid-training(中训练)通常与预训练算法相同,但更专门化:会针对某些能力做强化,比如长上下文(long context)。之所以不在预训练阶段大量做长上下文,是因为这类长文档本来就不够多,因此会单独设置阶段。
Nathan:另一个现实问题是灾难性遗忘:神经网络学到新东西时,可能会弱化对其他内容的掌握;因此中训练也带有“更选择性地喂高质量内容,让模型最后看到的更像精华”的意味。
Reschka:post-training(后训练)则是各种精炼与对齐:监督微调(SFT)、DPO、带可验证奖励的强化学习(RL)、人类反馈等。成本结构上,预训练非常烧钱;RL相对少一些。RL通常更像“解锁/调动”预训练中已有的知识,偏技能学习与解题策略,而不是再大量灌入新知识。确实有论文讨论用RL做预训练,但更多还是玩具示例,生产环境并不常见。
Nathan:很多人直觉上觉得合成数据不适合训练,但实验室里常见的一类“合成数据”来自OCR/Almost-OCR:网络上有大量PDF与数字文档,很多并非天然可直接抽取文本,于是用Almost-OCR把其中内容提取出来,形成可能达到“数万亿token”的候选预训练数据。预训练数据规模通常以“万亿token”计:研究者小模型可能是5–10万亿;公开资料里Qwen被提到过达到约50万亿;也有传闻称一些闭源实验室能到约100万亿。
实际流程往往是先把潜在数据大量收集进一个“漏斗”,再通过过滤与筛选,把其中很小一部分用于真正训练。
此外,像“用ChatGPT给出的高质量答案作为训练样本”也属于合成数据;关键差别在于质量:高质量、低幻觉的合成数据与早期充满幻觉的合成数据价值完全不同。
Reschka:有人注意到OLMo-3可能用更少的数据训练,却取得更好性能,这常常归因于数据质量更高。
Nathan:更一般地说,如果算力允许,人们往往也希望训练更久;大模型参数更多、容量更大,通常需要更多token才能继续提升,而小模型在token增加到一定程度后更早“趋于饱和”。在某些团队里,当模型规模还没做得特别大时,把数据质量做到最好往往是最自然的起点。
数据战争:质量、来源与法律雷区
Fridman:关于数据质量这件事:有没有一些“低垂的果实”,也就是还能比较容易地继续提升的地方?
Nathan:至于数据质量怎么提升,更多像持续“拧螺丝”:开源世界里“公认最强的预训练数据集”会不断更替,比如AI2的Dolma、HuggingFace的FineWeb、以及DCLM(DataCompLanguageModel)等方向。
与此同时,互联网越来越封闭,可用的CommonCrawl虽巨大,但关键在过滤与裁剪:用分类器与规则把超大数据集修剪成最高质量、且最贴合任务的部分。因为评测目标变了,最优数据配比也会变:过去更看重知识与对话,现在还要求数学与代码能力;要训练推理模型,就必须重混合整个数据集。
常见做法是:从GitHub、StackExchange、Reddit、Wikipedia等不同来源采样,构造多种配比,用小模型快速试训,再用评测结果(甚至简单线性回归)反推出更优的数据混合方案。随着“代码环境、网页导航”等新任务变热,实验室会引入新数据并重做预训练配比,以便让后训练更顺利、更有效。
Fridman:有没有一些有趣的轶事:哪些数据源特别高质量,但我们可能想不到?
Nathan:一些看似意外但很高价值的数据源包括Reddit与大量PDF。
Reschka:尤其科研论文PDF,如arXiv。
Nathan:是的,例如AI2长期运营SemanticScholar,为此收集并处理了大量可公开访问的学术PDF;把这些数据挖掘、清洗、结构化后可以产生显著价值。
这类工作高度依赖熟练研究者与大量工程劳动:找到更好的新数据、把数据做干净,或者把基础设施优化到让实验整体提速,往往比“华丽算法点子”更常构成团队的大部分贡献。
Reschka:同时,训练数据也常是最敏感的商业与法律风险点之一,因此“隐藏或避免泄露训练数据来源”本身也会占据大量精力。
Nathan:另一个趋势是只用“明确授权”的数据训练:CommonCrawl更像全网爬取,许多内容并未明确授权;相对地,有人主张只用清晰许可的数据以满足合规(例如面向欧盟要求)。
Reschka:这在实践中还存在灰区:比如购买了电子书或纸书后是否允许用来训练,仍有争议。随着数据价值被广泛认识,大公司会主动寻求私有数据合作,而很多私营机构会更保护自己的数据,把它视为未来护城河。
进一步看,在制药、法律、金融等行业,企业可能会搭建内部模型、用自家专有数据训练;这会让“规模化”在领域应用上继续有效,因为许多关键数据本来就不对外开放(如临床试验数据)。
Nathan:关于数据这点,有件事大家可能好奇:这在2025年发生过,但我们好像很快就忘了——Anthropic在法庭上输了,被判要向作者支付15亿美元。Anthropic好像买了成千上万本书并扫描它们;因为他们买了书,所以在法律上被认定没问题,这个程序正在推进。另一方面,他们也用BT下载过一些书;法庭似乎认为“盗版下载”这条路径使他们需要承担责任,要向作者支付数十亿美元——这真的是一个让人瞠目结舌的诉讼,仿佛突然出现又很快被大家淡忘了。那可是天文数字,对VC生态来说也是。
Fridman:这些案件会定义人类文明的未来。因为很明显,数据驱动了这一切,而其中又有非常复杂的人类张力。你们俩都是作者,你们能共情。
Nathan&Reschka:是的
Fridman:某种意义上,你把心血、汗水、甚至眼泪都写进作品里;如果有人在未经允许的情况下用你的作品训练模型、不给你任何承认或回报,这确实会让人感觉像被偷走了一样。
Reschka:而且正如Nathan说的,这里还有两层:一种是买了书再训练,这是否公平仍可争论;另一种是直接用盗版书训练——连最起码的补偿都没有。人们更愤怒的,往往就是后者。
Fridman:对,但总要有某种补偿机制。这很像当年音乐走向流媒体(比如Spotify)时发生的转变:补偿应该长什么样?你得定义这种模型,并把一整套规则想清楚。
还有一个大家普遍好奇的问题:随着LLM越来越常用,即便在arXiv、GitHub上,越来越多的数据本身就是LLM生成的。面对这种世界,你怎么办?这会是多大的问题?
Nathan:最大的难题在基础设施和系统层面;但从AI的角度看,这几乎是不可避免的。
Fridman:所以本质上会变成:LLM生成的数据由人类来筛选与校对。
Nathan:是的。而且很多开源贡献者确实正在被严重消耗,如果你有一个很热门的开源仓库,就会有人想:“哦,我也想做开源AI,这对我的职业生涯有好处。”然后他们就开始“vibe coding”(凭感觉写代码),随手写点东西就丢进来——你可能会越来越多遇到这种情况。
Reschka:我有一个叫ml-extend的仓库,是我当学生的时候做的,大概10到15年前吧。它到现在在某些算法上仍算比较受欢迎的库,尤其像频繁模式挖掘(freQwent data mining)这一类。最近大概有两三个人在很短时间内提交了大量PR。我确实觉得这些PR里有LLM参与的痕迹。作为维护者,我有两点感受:第一,我有点被淹没了——我没时间逐行读,因为这毕竟是个老库,对我来说优先级也不高。
但同时我也某种程度上挺感激的。因为人们容易忘记的一点是:不只是“用了LLM”,背后仍然有一个人——有一层人工在做验证。某种意义上,这也很像数据标注的过程。
而最贵的环节之一,就是在RL、尤其人类反馈阶段拿到高质量的标注数据。这里也类似:它会经历一些流程,最后你反而能得到更高质量的东西。所以我并不完全反感。它确实会让人压力很大,但也有它的价值。
Fridman:感觉上,纯LLM生成的数据,和“LLM生成+人在回路(human-in-the-loop)做验证”的数据,有本质差别。哪怕验证只覆盖很小一部分代码行。
Reschka:是的。这放到很多场景都成立:有些人会想“我直接用LLM学XYZ就行了”,这当然可以,但你要意识到:也许有一个专家用LLM写了很具体的代码,然后他又做了大量人工工作——把不够好的部分筛掉、把好的部分整理出来,等于是替你“预消化”(pre-digest)了,这能节省你时间。这就是增值点:有人在过滤信息,或者至少有人在正确使用LLM。很多时候,这些劳动你是“免费”获得的。
比如你读一篇文章——假设是一篇Substack。你当然也可以让LLM给你一些看法,但你可能连该问什么都不一定知道。
我仍然觉得,读原文本身有价值:因为你是专家,你能判断哪些知识是真的精准、该被纳入,然后你给我一个非常到位的“高管摘要”(executive summary)。这价值非常大,因为我就不需要自己花三到五小时去啃,避免中间还吸收到错误信息。某种意义上,这也解释了:即使有LLM,写作者仍然有未来空间——专家可以帮你省时间。
Fridman:有件事挺迷人的:去对比“摘要”和“原文”。哪怕是“同样一页长度”的摘要对比同样一页的原文,也很有意思。你会发现LLM的摘要会把“尖锐的边缘”磨掉:它到底从原文里去掉了哪些信号?
Nathan:我经常讲的就是“声音”(voice)。
Fridman:声音?我很想听你解释“声音”是什么意思,那很有力量。但有时不仅是声音——甚至是洞见(insight)会被删掉。删掉一个洞见,你其实是在根本上改变原文的含义。所以我一直很失望:LLM在抓住核心洞见这件事上真的很差,而真正好的摘要恰恰就是抓洞见。即使我写了非常复杂、很精心的prompt,拼命去挖洞见,也还是差一点。这里背后其实有很深的哲学问题:什么是人类知识与智慧?什么叫“有洞见”?但回到你说的“声音”,你具体指什么?
Nathan:当我写作时,我很多时候是在做这样一件事:把研究者脑子里很“生”的东西写出来。
研究者是在理解边界上尝试把一个想法表达出来,他们在把一种“感觉”硬翻译成文字。我写作时会尽量保留这种状态,所以文字读起来会显得很原始(raw),但信息密度又很高——有的人能抓住,有的人抓不住,这其实就是研究的本质。
而语言模型不擅长这一点。尤其是它们几乎都经过了基于人类反馈的强化学习(RLHF):这套机制会聚合很多人的反馈,从某种意义上把模型行为“平均化”。在这种过滤器存在的情况下,模型要变得非常犀利、非常“刀锋般精准”(incisive)会很难。
这也是RLHF研究者面临的一个很根本、也很漂亮的问题:RLHF的确极大提升了模型可用性,让模型变得更好用;但它的问题设定里像打了个结——有个你绕不过去的矛盾。我说的“声音”就是:这些语言模型缺少那种深层表达的先验——一种“我到底想抵达什么”的内在驱动。
我不觉得这完全不可能。也有模型会震撼到人。比如我很想试试当年的BingSydney——它是不是更有“声音”?因为它经常会失控、跑偏……历史上那种很吓人的例子(比如让记者离开妻子之类)当然不可能用于大规模公开部署,那太危险了。但这也像一种权衡:RLHF过程是不是在某些方面加上了限制、磨平了锋芒?
Fridman:对前沿实验室和公司来说,这确实是个可怕的位置,因为有几百万人在用这些系统。
Nathan:去年GPT-4o被下架时有很大反弹。我个人没怎么用过那个模型,但我和OpenAI的一些人聊过:他们已经到了会在半夜收到用户邮件的程度——用户能察觉到部署里很细微的差异,然后写邮件说:“我的朋友不一样了。”他们会去找员工邮箱,把这些信息发给他们,因为他们对那一套“模型权重+配置”形成了很强的依恋,而那东西正是被部署给用户的。
这在TikTok上也能看到:你打开它——我不怎么用TikTok——但据说五分钟算法就“抓住你”了,像锁死一样。而推荐系统也是语言模型在做的一类事情。语言模型也会出现类似现象:你跟它聊五分钟,它就“懂你了”。很多人其实还没准备好面对这一点。比如小孩——真的别把这个给小孩,至少在我们搞清楚发生了什么之前别给。
Fridman:但还有一个机制会出现:随着LLM被越来越多使用……不幸的是,人类处境里确实有人会自杀。记者往往会对自杀事件做大量报道,并且很可能把它和LLM联系起来,因为他们能拿到对话证据。一个人在生活中真的很挣扎、很抑郁、甚至有自杀想法时,他很可能会和LLM聊这些。那么记者就会说:“这次自杀是因为LLM。”接着公司出于法律风险等原因,会越来越多地把模型的“棱角”磨掉,让它尽可能通用、尽可能无害、尽可能模板化。
在这个领域运营真的非常难:当然你不希望LLM以那种程度伤害人类;但另一方面,人类体验的一部分恰恰是——进行丰富的、充实的对话,被挑战、从而成长。你需要那种“边缘感”、那种锋芒。而这对做RLHF的研究者来说极其难:因为你实际上是在处理“人的处境”(human condition)。
Nathan:这些公司的研究者普遍动机都很好。Anthropic和OpenAI的文化也确实很希望把技术做成对世界有益。但这事太难了,以至于我会想:“哎,我不想做这个。”一方面,很多人把AI当作健康盟友,觉得可以私密地聊健康问题;但它又会延伸到心理健康等议题上:令人心碎的是,这可能会成为把某些人推过边缘的那根稻草,但也可能会救下另一些人。作为研究者训练模型时,我会觉得:比如我不想训练并公开发布图像生成模型,因为我不想让某个人在自己笔记本电脑上就拥有一个能伤害他人的工具。
我所在的公司也没有那种能安全支撑这件事的基础设施。所以很多领域都需要有人带着足够的复杂度意识和足够的决心去推进:这就是一个极其难的问题。
Fridman:而且作为社会、作为这些技术的用户,我们也得确保自己是在进行复杂讨论,而不是单纯制造恐慌:比如“科技巨头在伤害人”“在偷数据”等等。事情比那复杂得多。这些公司里有非常多人真的很在乎帮助别人。他们考虑的是全球范围内完整的人类体验,不只是硅谷:美国各地的人、全世界的人,他们的需要是什么。要设计一个系统,去帮助不同年龄段、不同文化、不同心理状态、不同精神状况的人,这非常困难。
Nathan:我只希望AI出现的时机能不同一点:因为科技巨头在普通人中的名声已经很低了,而AI又如此昂贵,几乎注定会由大公司来做——需要巨大资源。还有人说美国是在“把经济押注在AI上”来搞这轮建设。偏偏这两件事纠缠在一起,就让沟通环境变得极其艰难。我应该去和更多讨厌大科技、把AI视为其延续的人聊天。
Fridman:你其实还建议过一个应对方式:在整个系统里找到“能动性”(agency)。与其无力地坐着、被动消费那些快速淹没互联网的AI垃圾内容,不如用AI去构建东西:做产品、做app……第一,这能帮你建立直觉;第二,这很赋权——你能理解它怎么工作、弱点在哪。这样你的声音才有力量,你才能说:“这太扯了,这是坏用法;这是好用法。”你也会更“接入系统”,理解更深,从而作为消费者更好地影响它、引导它。
Reschka:你提到能动性很好。与其忽视它、说“我不用”,长期来看更健康的方式可能是:它已经在那里了,你不可能把它塞回去,就像当年的互联网和计算机一样。问题变成:我怎样最好地使用它?它怎样帮我把自己抬升一个层级?但我担心的一点是:如果你把它完全用在你最喜欢做的事情上,你喜欢的那件事可能反而消失了——这也许会导致倦怠。比如我让语言模型替我写完所有代码,那就没有“写代码”这件事了,我只是在管理一个替我写代码的东西。两年后,如果我每天八小时都这么干,我还会觉得满足吗?我还会为自己做出来的东西感到骄傲吗?我还会对工作兴奋吗?
Fridman:说到“享受”,这里有个挺有意思的点:最近有一项调查,样本大约是791名职业开发者——职业的意思是从业10年以上。
Nathan:10年很久。
Fridman:是啊,在今天这个时代,甚至当初作为初级开发者都算久了。
这份调查里有不少令人意外的发现:他们按初级和资深开发者做了拆分,但总体结论是:无论初级还是资深,都会在他们“实际交付上线”(code they ship)的代码里使用AI生成的代码。这不是拿来玩玩、不是学习用的,而是会上线的代码。大概有25%的人——多数人的比例在50%或更高。更有意思的是:如果你“上线代码里超过50%是AI生成的”,资深开发者更可能属于这一类。
不过,你又不希望AI把你热爱的东西夺走。
这也和我的经验吻合:大约80%的人觉得,把AI纳入工作流程后,工作要么“更有一点乐趣”,要么“明显更有乐趣”。
Reschka:这取决于任务。从我个人使用来说:比如我有个网站,偶尔要改一些小地方,我其实不享受做这些。那AI能帮我实现网站上的东西,我完全欢迎。但另一方面,当我解决一个复杂问题时——比如遇到bug,我追bug、找到bug,那感觉是世界上最爽的事之一,你会非常快乐、非常有成就感。可如果你连“思考bug”都不做,直接就去问LLM,那你永远不会有那种感觉。
当然可能有个折中:你先自己试,实在找不到,再用LLM。这样你不会被挫败感拖住,它帮你跨过去,你就能回到你真正喜欢的事情上。这些统计数字的一个局限是:它把所有情境平均了——我们并不知道大家是在核心任务上用AI,还是在一些本来就很无聊、很琐碎的任务上用AI。
而从某种意义上说,AI特别适合做那些“很花功夫但又很无聊”的事。比如我太太前几天:她有个播客,类似读书讨论/读书会,她在把shownotes从Spotify搬到YouTube,结果链接不知道怎么就坏了。有些节目因为书太多,大概有一百个链接——要手工一个个修简直痛苦。我就说“试试ChatGPT”。我们把文本拷进去,它把链接都修好了。从原本可能要两小时逐个点开改,到现在几乎无缝搞定,完全不沮丧。这类场景我相信每个人都有:AI对那种无聊且机械的事真的很有用。
Fridman:对我个人而言,说到编程,你提到debug的乐趣……我享受的一个主要来源(更偏向像Cursor这种本地/编辑器里的体验,而不是纯云端写代码)是:我有一种“搭档”的感觉——像结对编程(pairprogrammer)。它不那么孤独。你把debug说得像巨大的快乐。
不,我会说debug更像:你在沙漠里走了好几天,终于喝到一口水。关键在于你跳过了“穿越沙漠受苦”的那段。如果有个朋友——他也未必能直接找出bug,但能给你一些直觉、一些提示;你们一起在沙漠里走,最后一起找到那口水。至少对我来说,这可能反映了编程体验里的孤独感——“不孤独”本身就是一种快乐来源。
AI时代的学习与创造
Reschka:这也许和“延迟满足”有关。我从小就这样:我更喜欢期待圣诞礼物的过程,而不是拿到礼物的那一刻。我会期待,但一到手就结束了,反而有点失落。食物也类似:你越饿越觉得好吃。你说debug也对:它不总是快乐,很多时候很挫败,但一旦解决,就很爽。
不过也有个“金发姑娘区间”(Goldilocks Zone):难度太高就是浪费时间。还有一个挑战是:未来人们怎么学习?我们刚才看到的数据里,资深开发者上线的AI生成代码比初级更多,这很有意思。直觉上你会以为反过来:初级更可能因为不会做而依赖AI。那这可能意味着:要么AI还不够强,搞不定那些任务;要么专家更擅长用AI——他们更知道在哪用、怎么用、怎么审查代码,因此也更信任结果。
但社会将来会面临一个问题:如果你从来不自己做,你怎么成为专家?我自己的学习方式一直是先自己尝试。比如数学教材,你直接看答案当然也能学到东西,但如果你先做过,再看答案,你会用完全不同的方式理解它:因为你知道怎么把它放进自己的认知框架里。
如果语言模型一直唾手可得,人们还会不会愿意经历“挣扎”?挣扎不好受,它就是挣扎。如果你让语言模型替你做完一切,你可能永远跨不过那个门槛,也就得不到“专家使用LLM时那种更高层级的解锁”。所以这也像一个“恰到好处”的甜蜜点(Goldilock sweet)
如果你让语言模型(LM)替你做所有事,到某个时刻你就很难真正迈出下一步;于是你可能得不到那种——作为专家使用LLM时本可以得到的——“解锁”。
所以这里有一个“金发姑娘甜蜜点”(Goldilocks sweet spot):也许诀窍是——你专门留出一些离线时间,比如每天两小时,认真学习;其余时间再用语言模型。人还是得继续投资自己,而不是什么都“交给LLM”。
Fridman:对,我们作为一个文明整体、也作为每个个体,都得各自找到那个Goldilocks区间。在编程语境里,作为开发者也是一样。我们这段很有意思的对话从预训练、中训练讲起,现在讲到后训练。我们进入后训练吧:后训练里有很多有趣的东西。后训练有哪些值得关注的想法?
Nathan:2025年最大的一个点,是“带可验证奖励的强化学习”(reinforcement learning with verifiable rewards,RLVR)。这一块的训练是可以规模化的:你反复做“生成—评分”的迭代循环(generate–grade loop)。这让模型学到很多有趣的行为,尤其是在工具使用和软件能力上:比如搜索、自己跑命令、看输出。与此同时,这种训练还非常漂亮地支持了“推理时扩展”(inference-time scaling)。
后来大家发现,这个范式和“推理时扩展”天然地连在一起:RL训练会促进推理时扩展。当然,推理时扩展本来也可能通过别的路径被发现,但这里像是一次完美风暴:模型变化很大,而训练方式是其中的关键因素。这也极大改变了人们做后训练的方式。
Fridman:你能解释一下RLVR吗?它因为DeepSeekR1被广泛讨论。你能讲讲它怎么工作的?
Nathan:可以。一个有趣的事实是:RLVR这个术语最早是我们团队提出的,来自我们在Tulu3上的工作,比DeepSeek更早。我们并不想把“规模化RL的普及”功劳揽到自己身上——DeepSeek才是做出训练突破的人——但对学术圈来说,一个“好玩”的插曲是:你可以命名一个概念,并影响讨论。因为闭源实验室能公开说的东西有限;学术界即便没有算力去训练大模型,也可以通过提出框架、命名概念,把社区组织起来。RLVR这个词就起到了这种作用:社区可以围绕它形成共识与讨论,这很有意思。
DeepSeek的突破在于:他们把强化学习规模化了。做法是——让模型生成答案,然后判断这次输出对不对;这个“对不对”(准确性)就作为强化学习的奖励。
经典强化学习里,一个智能体在环境中行动,环境给它状态与奖励,目标是最大化奖励。放到语言模型里,奖励通常来自一组“可验证任务”的正确性,比如数学题、编程任务。到了事实性(factual)领域会开始变得模糊一些:某些事实也算可验证;或者是一些指令约束,比如“只用以A开头的单词回复”,这类也都能在某种意义上验证。
RLVR的核心思路是:找大量这样的可验证问题,让模型反复尝试,并持续做RL的梯度更新。这套基础设施是从“基于人类反馈的强化学习”(RLHF)演化来的:在RLHF时代,你优化的是一个“学出来的奖励模型”,它近似聚合人类偏好;而RLVR改变了问题域,把奖励变成更可验证、更清晰的信号,于是优化可以扩展到更大规模,进而引发了模型能力与使用方式的重大变化。
Fridman:RLVR适合哪些领域?
Nathan:最典型的是数学和代码。然后还有很多工作在做所谓的“评分细则/量表”(rubrics)。这和大家听过的“LLM-as-a-judge”(让LLM当裁判)有关:比如我训练集里有一批问题,我再用另一个语言模型去问:“一个好的答案应该长什么样?”于是你可以让模型对同一题反复尝试,并按这个rubric打分。
这就不再像数学/代码那样“严格可验证”,但rubrics这条路线,以及其他更模糊的科学类问题,正是大家关注的地方:他们在努力把这套方法推向更开放的领域,让模型学到更多东西。
Reschka:那是不是就叫“带AI反馈的强化学习”(reinforcement learning withAIfeedback)?
Nathan:那是更早的叫法,来自Anthropic的Constitutional AI论文。很多概念就是这样周期性地更名、演化。
Reschka:退一步说,RLVR的美妙之处在于:你给LLM一道题(比如数学题),你知道标准答案是什么;你让它自己去想怎么得到这个答案。你并不强约束它怎么做,最多加一点约束,比如“用同一种语言,不要西英混杂”。总体上你是比较放手的:只给题目与答案,让模型自己找到通向正确答案的路径。
而实践里,一个很漂亮的现象是:模型往往会给出逐步推导的过程——像学生、或者像数学家推导解法那样。它一边用这些步骤完成任务,一边这些步骤又反过来提升了它的准确率。
这也连接到你刚才说的“推理时扩展”(inference scaling):粗略地说,就是在推理阶段投入更多算力。这里的体现往往是:模型用更多token。R1论文里也展示过:训练得越久,回答越长;输出会随着时间增长,token数变多,所以推理更贵。对简单任务来说这会更昂贵,但这些解释过程能提高正确率。
还有一些论文表明:模型写出来的解释未必正确,甚至可能和答案无关,但奇怪的是——仅仅“做了解释”这件事,依然可能帮助模型。这一点很耐人寻味。
我不想拟人化LLM,但这有点像人类做题:遇到复杂题,你会拿草稿纸一步步算,会划掉、会修正。模型也会自我纠错。我记得R1论文里把某个现象称为“aha moment”,因为模型自己意识到错了,然后说类似“啊我做错了,让我再试一次”。很酷的是:这一切几乎是“只给标准答案、让它自己摸索”自然涌现出来的——它在某种意义上表现得像人类会做的事。尽管LLM并不以人的方式思考,但这种相似性很有意思。
另一个很好的副作用是:对我们人类来说,看到这些步骤很有用——它能建立信任,也方便我们复核、从中学习。
Nathan:这里信息量很大。今年也有不少争论:这些语言模型里的“aha moment”会不会其实是“假的”?因为在预训练里,模型基本上已经看过整个互联网;你一定见过人类讲解推导过程,甚至像数学课讲稿那样的转写:你试一下,“哦我弄错了”,再改。RLVR很擅长的一点,是把这些行为“放大”(amplify)——因为它们非常有用,能让模型想得更久、并检查自己的工作。
我同意这很美:训练让模型把这种行为强化到一个极其有用的程度,最终答案变得更好。
Reschka:我给个更上手的例子:我用RLVR在Math500上训练Qwen3 base模型。基座模型准确率大概15%。只做50个step,几分钟内,准确率从15%提到50%。你不能跟我说这完全不是在学东西——它不可能……
Nathan:这个Qwen的例子很微妙。今年有两篇论文专门谈Qwen的数据污染(data contamination),其中一篇我也参与了。他们在一个特殊的mid-training阶段训练了很多——我们刚才也提过一点——而且他们训练的题目和测试数学题几乎是同构/近似的。
Reschka:所以它会很怪:他们训练过很多与数学几乎一样的题。
正因为如此,你会看到RL在这里并不是“教会模型新的数学知识”。50步做不到这件事。知识其实已经在预训练里了,你只是在把它解锁出来。
Nathan:但我还是不同意你这个前提,因为里面有很多诡异的复杂性,你很难证明。一个指向“诡异”的证据是:你拿Qwen3所谓base模型,随便找一道数学数据集的题——比如你在屏幕上搜“math data set HuggingFace”,这些题往往是文字题:“Alice有五个苹果,拿走一个……给了三个人……”这类。
对Qwen系列模型,人们怀疑的一点是:你只改数字、不改叙事文字,它居然能在不使用工具的情况下给出非常高精度的十进制答案。这暗示它在某个阶段见过与测试集几乎一样的题,并且曾借助工具得到高精度答案;但一个不带工具的语言模型通常不该凭空给出这种高精度结果。
因此研究社区里有很大争论:很多强化学习论文用Qwen训练、并在这些数学基准上评测;而基准又被多篇论文指出存在污染——那你到底能信多少?这也导致RLVR一度被贴上“主要是在学格式(formatting)”的名声:因为增益来得太快,似乎说明能力已经在模型里。可这里确实很复杂,也不是严格受控实验,所以我们并不真正知道。
Reschka:但如果你说的不成立,那蒸馏就不该有效。蒸馏至少在一定程度上确实能工作。但最大的问题还是污染:我们根本不知道训练数据里有什么。除非你有一个真正全新的数据集,否则几乎无法彻底排除。
而且不止数学数据集:像MMLU这种选择题基准也一样。如果你稍微改一下格"
作者:天美娱乐
新闻资讯 News
- 开年第一家人形机器人倒闭了02-27
- 2026年春节出游市场的几个反常,...02-27
- 大年初一吃寿司,黄牛叫价150元,...02-27
- 人均40的面馆,集体押注“现炒浇...02-27

