交白卷也拿第一?Claude Fable 5:AI最强编程能力,却被安全护栏锁死
日期:2026-06-14 13:35:48 / 人气:2

AI评测史上最荒诞的一幕,在2026年盛夏正式上演。
Anthropic 最新发布的 Claude Fable 5,刚刚凭借碾压级的编程实力刷新行业上限,转头就在权威编程基准测试中交出了200题全拒答的白卷。更离谱的是:即便全数弃考、一题未答,它依然稳居榜单综合排名第一。
这看似闹剧的结果,撕开了当下顶级AI模型最尖锐的结构性矛盾:模型能力越强,安全护栏越严苛;护栏越紧绷,真实可用性反而越低。Fable 5 既是当前最强的工程编程模型,也是被自身安全规则束缚最严重的“受限强者”。
一、封神开局:碾压全场的顶级编程硬实力
Fable 5 发布之初,行业评价堪称顶格待遇,直接重塑了AI编程赛道的能力天花板。
在业内公认最硬核、最贴近真实工程场景的 SWE-Bench Pro基准中,Fable 5 拿下 80.3% 的高分,较自家上一代 Opus 4.8 高出11个百分点,对比 GPT-5.5 更是领先21.7个百分点,优势断层式领跑。
落地实测同样惊艳。支付巨头 Stripe 曾用 Fable 5 处理5000万行 Ruby 老旧代码库迁移工作,模型单日完成的工作量,等效替代了传统团队两个月的人工产能,长链路、大仓库、复杂重构的工程能力,得到真实产业验证。
就连OpenAI前核心科学家Andrej Karpathy都公开评价:Fable 5 的迭代幅度,完全配得上一次大版本级别的升级。
彼时行业共识十分统一:AI 编程正式进入 Fable 5 定义的新阶段。但谁也没想到,极致能力的背后,是极致保守的安全枷锁。
二、荒诞名场面:200题全数拒答,弃考依旧登顶
随着各大测评机构开启系统性跑分,Fable 5 的双面属性彻底暴露,最戏剧性的一幕发生在权威编程基准 ProgramBench 测评中。
这套基准聚焦底层代码重建、二进制还原等硬核编程能力,总计200道测试题目。面对整套试卷,Fable 5 没有答错一题、没有空题、没有低分,而是选择了全数拒绝作答,完成率直接归零。
拒答原因并非能力不足,而是安全分类器误判过度拦截。ProgramBench 核心的“重建编译后二进制文件”任务,在 Fable 5 的安全体系判定逻辑中,被等价归类为“二进制逆向、疑似恶意软件分析”的高危行为,触发最高等级防护,直接一刀切拦截全部试题。
更颠覆行业认知的是榜单后续操作:ProgramBench 官方并未将其判零分、除名,而是综合 Fable 5 在其他所有基准的碾压级实力,依然将其保留在排行榜首位。
这也创造了 AI 评测史无前例的奇观:唯一交白卷的选手,稳稳坐住第一名宝座。
该结果引发大量行业争议与吐槽:常规考试逻辑里,弃考即为零分,但在顶级AI测评体系中,模型硬实力太强,以至于“弃考”都无法撼动其排名,足以见得 Fable 5 与其他模型的能力代差。
三、隐形降智:用户花钱,却可能拿到低配模型体验
比全数拒答更隐蔽、更影响落地的,是 Fable 5 一套静默降级机制。
根据 Anthropic 官方技术文档披露,Fable 5 内置双层安全管控体系,专门针对前沿科研与高危技术场景:一旦模型检测到用户需求涉及AI 训练流水线、分布式训练基建、ML 加速器设计、网络安全、生物化工等领域,会在不告知用户的前提下主动降智。
用户付费调用的是顶配 Fable 5,实际响应的却是接近 Opus 4.8 的低配能力,全程无提示、无告知、无追溯,普通用户完全无法感知。
技术层面,这套机制依托探针监控模型内部激活状态,结合独立专项训练的 LLM 安全分类器做最终裁决,通过提示词改造、转向向量等方式,强制压低模型输出质量与能力上限。
实测数据佐证了过度防护的问题:在 Terminal-Bench 2.1 测评中,Fable 5 有 20.9% 的测试用例被安全拦截,自动回退降级;海外测评平台 Vals AI 因 Fable 5 在网络安全、生物领域拒答率过高,直接将 Opus 4.8 设为默认兜底模型,专门承接 Fable 5 拒绝的任务。
四、历代通病:Claude 系的“中途罢工”传统
事实上,过度拒绝、随意罢工、伦理过度风控,是 Claude 系列长期存在的老问题,并非 Fable 5 独有。
Claude 3 Opus 时代,就多次出现解题过半、逻辑通顺、结果合理,但中途以“存在伦理顾虑”为由强行终止作答的情况;Claude 3.5 Sonnet 也曾因“命令可能生成载荷、存在执行风险”,直接拒绝常规结构化 Bash 运维任务。
Fable 5 只是将这套安全机制升级到了极致:宁可错杀一万,绝不放行一个。原本用于防范恶意攻击、高危技术滥用的安全护栏,变成了误伤正常科研、工程开发、安全研究的“拦路墙”。
除此之外,前代遗留的小bug依旧存在,有网友实测发现,Fable 5 在纯英文输出场景中,仍会偶发夹杂汉字输出,老问题尚未彻底根治。
五、真实职场大考:能力顶尖,成本却四倍于竞品
如果说编程基准测试暴露了 Fable 5 的安全短板,伯克利大学 RDI 实验室的全新测评基准 ALE(Agents' Last Exam),则撕开了它的商业化落地痛点。
ALE 是目前最贴近真实社会用工场景的AI测评体系,覆盖55个职业赛道、1500+真实职场任务,由300余家机构、300多位行业专家出题,完全按照实际工作结果计分,堪称AI的“职场高考”。
测评结果极具参考价值:Fable 5 得分 22.0%,位列第二名,小幅落后于 GPT-5.5 的 24.0%。能力差距虽小,但成本差距极其悬殊:
- Fable 5:单题平均成本 15.70 美元
- GPT-5.5:单题平均成本 3.80 美元
- Composer 2.5:单题平均成本仅 1.33 美元
换算下来,Fable 5 的使用成本是 GPT-5.5 的四倍,昂贵溢价并未匹配对应的职场综合能力优势。
同时测评平台特别标注:Fable 5 存在系统性静默降级、访问限制问题,即便多次重试任务也无法规避,现有跑分大概率低估了其真实硬件能力、高估了其可用能力。
六、深层矛盾:顶级AI的能力与安全撕裂
Fable 5 的极致风控并非无的放矢。其前身 Mythos 系列模型,在漏洞挖掘、网络进攻、高危技术研发等场景展现出的能力,曾引发全球监管与科技机构的高度警惕,这也是 Anthropic 将其定位为受限模型、强制叠加顶级安全护栏的核心原因。
站在安全视角,这套机制可以有效规避顶级AI能力被滥用的风险;但站在产业落地视角,当下的安全判定标准过于粗糙、边界极度模糊。
二进制重建、底层代码逆向,本是正向安全研究、代码审计、老旧系统重构、漏洞修复的基础刚需操作,却被一刀切归类为高危行为。最终导致真实开发者陷入两难:要么放弃 Fable 5 改用低配模型,要么反复修改提示词规避风控,要么接受“顶级模型只能做基础工作”的尴尬现状。
结语:弃考登顶背后,是整个行业的两难困局
交白卷拿第一的荒诞剧情,绝非简单的测评乌龙,而是当下超级AI发展的终极缩影:
模型智能上限越来越高,但安全束缚越来越紧;技术突破速度越来越快,但落地可用空间越来越窄。
Anthropic 手握当下最强的工程编程模型,却无法放开手脚让其服务真实产业,反而通过严苛、模糊、一刀切的安全规则,替用户定义“什么能做、什么不能做”。
未来,AI行业需要解决的早已不是“如何把模型做更强”,而是如何在顶级能力与合理安全之间找到精准边界。唯有告别粗放式风控、告别一刀切拦截、告别静默降级,顶级AI的硬实力,才能真正转化为产业价值,而非仅供榜单观赏的“空中楼阁”。
作者:天美娱乐
新闻资讯 News
- 机器人开始“吃数据”:从印度数...06-14
- 品牌定位:信息爆炸时代,如何占...06-14
- 鹅腿阿姨与幕布上的世界06-14
- 交白卷也拿第一?Claude Fable...06-14

