Claude 发布 Fable 5 “神话级” AI 模型：强大到离谱！也贵得吓人……

北京时间 6 月 10 日凌晨，Anthropic 没有任何预热，直接突袭式地把压箱底的大招给放出来了。这一次发布的，是 Claude Fable 5 —— 第一款面向公众开放的 Mythos“神话”级 AI 模型。

这个“传说中”的 Claude 新 AI 模型不仅是性能猛兽，而这次还面向“复杂、长任务”的大型规划执行能力和成功率实现了巨大的跃迁！比如在大型代码库迁移、Agent 式自主工作流、超长上下文分析、科学研究和视觉理解等多类高价值场景里，Fable 5 展现出了明显的领先优势。

无碍订阅/购买 Claude 成品会员

支持开通 Claude 会员的虚拟卡

更多：热门 API 中转站推荐

你现在，可以通过虚拟信用卡 + 短信验证开通官方 Claude 会员、订阅/购买成品 Pro / Max 账号、使用第三方中转 API 等方式来使用 Fable 5 模型。

更多：AI 人工智能相关内容

"Fable" 这个词翻译过来是「寓言」，意为故事、传说；而它的兄弟 Mythos 则是「神话」的意思。光看命名就能感受到 Anthropic 的野心，甚至自信得有点自恋。Anthropic 把自家整个产品线都用艺术形式命名：轻量的 Haiku（俳句）、通用的 Sonnet（十四行诗）、旗舰的 Opus（拉丁语「作品」）、现在的 Fable（寓言），以及那个依然神秘的 Mythos（神话）。

由于模型过于强大，甚至不得不加一层安全锁？

Fable 5 和 Mythos 5 有什么区别？事实上它们共享同一套底层模型架构，如孪生兄弟一般，但 Anthropic 认为 Mythos 5 实在太过强大了，害怕会有人利用它使坏，于是给它套上了一层“安全锁”也就是大家说的护栏，这便形成了今天的主角——Fable 5 模型。

简单理解来说，Fable 5 就是 Mythos 5 的“加锁”版。相比 Mythos 的“全开放”，Fable 的核心区别在于它会用安全护栏会判断你的请求，如果涉及网络攻击、生化武器相关内容，或者系统检测到你在试图「蒸馏」这个模型，它就会自动降级切换到上一代模型 Opus 4.8 来回答。而 Mythos 5 则把安全限制解除了，但目前仅限于少数白名单里的网络安全类合作伙伴使用。

这就造成了一种既荒诞又现实的局面：你用着最贵的套餐，但遇到某些提问，系统悄悄把你切换到了上一代模型。但先不急着吐槽。为什么 Anthropic 要这么做？是因为这款模型在网络安全领域的能力确实已经强到可以被滥用的程度！

Mythos 能轻松发掘出很多操作系统、浏览器等关键软件里藏了十几年甚至二十几年的高危漏洞，放在防守者手里是安全利器，但放在黑客手里就成超级漏洞挖掘机了。所以他们给 Mythos 装上护栏——即你能用上的 Fable 5，再把它推向公众，某种程度上这确实是一种负责任的做法……只不过这套护栏偶尔误伤无辜，这就是另一个话题了。

无需置疑的超级性能：

性能方面， Fable 5 用数据说话，几乎在这个行业最重要的评测维度上都拿下了 SOTA（当前最佳），而且领先幅度在某些场景下大到有些离谱。Stripe 那个已经广为流传的案例：Fable 5 在一个 5000 万行 Ruby 代码库里，一天之内完成了整个代码库的迁移——而这项工作若靠人工，需要一整个团队耗费两个多月时间。就连刚刚加入 Anthropic 的前 OpenAI 联合创始人 Andrej Karpathy 也忍不住感慨，这是「和去年 11 月 Claude 4.5 同等级别的重大跨越」，还说这是他第一次真实感受到「完全不去看代码」这个想法不是玩笑，而是一种真实的诱惑。

Fable 5 模型定价：

定价方面，Fable 5 的价格是每百万输入 Token 10 美元、每百万输出 token 50 美元，是上一代旗舰 Opus 4.8 的两倍。如果拿 DeepSeek V4-Pro 的现行 API 价格来对比，Fable 5 的输入价格大约贵了 23 倍，输出价格大约贵了 57 倍。在整个行业都在打价格战的当下，Anthropic 偏偏逆势提价，活脱脱把 AI 卖成了奢侈品基础设施。

至于使用窗口方面，从发布日当天到 6 月 22 日，Pro、Max、Team 及企业版订阅用户可以免费使用 Fable 5，不需要额外付费；但 6 月 23 日之后，就要改成按量消耗 usage credits 了。官方表示，如果容量允许，免费窗口可能延长，未来也会「尽可能快地」把 Fable 5 重新纳入订阅方案的标准权益——听上去有点含糊，说白了就是：「不确定是否和什么时候撑得住，先用免费把人拉进来再说。」

跑分不讲武德！Fable 5 的能力，到底强在哪？

看一个模型发布有哪些重点，有个取巧的办法：看厂商把哪个指标放在最显眼的位置。Fable 5 的评测榜单，开头两项就是 SWE-Bench Pro（编码）和 FrontierCode（Agent 编程）。

先看 SWE-Bench Pro，Fable 5 拿下 80.3%，Opus 4.8 是 69.2%，GPT-5.5 是 58.6%，Gemini 3.1 Pro 是 54.2%。差距不算小，但这个基准其实相对偏向「模型有多听话」，不完全等于真实工程表现。

真正让人在意的是 FrontierCode Diamond。这是 Cognition（就是做 Devin 那家）推出的新基准，测的不是「代码能不能跑通」，而是「代码能不能被真实开源项目的维护者接受并合并进主干」——任务来自 Celery、Mattermost 这类真实项目，每道题专业开发者要打磨四十多个小时。在这项测试中，Opus 4.8 只有 13.4%，GPT-5.5 只有 5.7%，而 Fable 5 拿到了 29.3%，接近第二名的两倍多。专业评测者也指出，过往 AI 模型的能力曲线有迹可循，而 Fable 5 的成绩直接冲出了旧有的数据趋势线。

其他关键数据：

测试项目	Fable 5	Opus 4.8	GPT-5.5	Gemini 3.1 Pro
SWE-Bench Pro	80.3%	69.2%	58.6%	54.2%
FrontierCode Diamond	29.3%	13.4%	5.7%	—
Terminal-Bench 2.1	88.0%	82.7%	83.4%	70.7%
HLE（含工具）	64.5%	57.9%	52.2%	51.4%
Blueprint-Bench 2	38.6%	14.5%	36.2%	26.5%
OSWorld	85.0%	83.4%	78.7%	76.2%
ExploitBench Cap%	78.0%	40.0%	34.0%	—

Karpathy 第一时间在 X 上分享了自己的上手感受，说这是一次「配得上大版本升级的跃迁式进步」，称其非常令人兴奋；Claude Code 团队成员也说 Fable 5 会让你感受到一种从未有过的气质。

无需人工介入：真正接管软件工程，不只是写几行代码

Fable 5 在编码方面的强项，不是「能写代码」，而是「能像一个独当一面的工程师一样扛下整个项目」，从设计架构到施工验收全搞定。

不仅 Stripe 的案例已经反复被提及，Cursor CEO Michael Truell 也称 Fable 5 是「最先进模型」，「打开了一类此前所有模型完全够不到的长周期问题」；GitHub 首席产品官 Mario Rodriguez 则直接说这款模型处理复杂、长周期编码任务的自主性和可靠性，"超过了此前任何基准"。

如沃顿商学院教授 Ethan Mollick 描述的那样：以前的 AI 模型就像一个聪明的实习生，你得把任务拆成小块一步步喂给它；Fable 5 更像你把目标甩给他、第二天早上来收活儿的大厂大头兵——能自己拆任务、自己调子代理、自己验证中间结果、自己处理异常。他在测试中给了 Fable 5 一个 15 页的设计文档，模型独自工作了九个半小时，最终产出了一套叫 Concord 的复杂软件，包含完整逻辑和可运行代码，整个过程几乎不需要人类介入。

视觉能力：纯看截图就能通关游戏

Fable 5 已经成为视觉任务上的新 SOTA 模型。它能从详细的科学图表中提取精确数值，能够执行复杂的视觉任务，比如仅凭截图还原一个 Web 应用的完整源代码。

最「炸裂」的案例来自《宝可梦：火红》（Pokémon FireRed）：之前的 Claude 模型即便配备了提供额外辅助工具的外挂系统，在游玩这款游戏时仍显吃力；而 Fable 5 仅凭极简的纯视觉辅助，没有地图、没有导航、没有隐藏游戏状态，硬生生靠「看着屏幕」就通关了全流程

长上下文与 Agent 能力：任务越长，优势越大

Fable 5 的一个核心卖点是：任务越长、越复杂，它对其他模型的优势就越明显。官方表示它在长时运行任务中可以处理数百万 Token 而不失焦点，并通过自身笔记来改进输出。

Anthropic 用《杀戮尖塔》（Slay the Spire）做了测试：赋予模型对持久性文件级记忆的访问权限后，Fable 5 的表现比 Opus 4.8 提升了 3 倍，进入游戏最终关卡的频率也高出 3 倍。

Ethan Mollick 还委托 Fable 5 构建一张等时线地图（显示从任意城市出发在特定时间内能到达的范围）。Fable 5 接到指令后，主动启动多个子代理收集了超过 2200 条具体航班和铁路数据，一边等研究结果一边写代码，启动对抗性工作组让两组子代理互相验证数据准确性，甚至搞清楚了多久有一班船去太平洋上的皮特凯恩岛——整个过程近 10 个小时，Mollick 本人的参与极其有限。他自己都感叹：「我感觉自己不再是巫师，更像是位甲方——我描述想要什么，我付钱，我评判结果，魔法发生在我看不到的地方。」

科学研究与知识工作：窥见未来的能力

科研这一块是 Mythos 5 的「重头戏」，也是 Anthropic 至今不敢完全开放的核心原因之一。

药物设计方面：Anthropic 内部蛋白质设计专家借助 Mythos 5，将药物设计流程中某些环节的效率提升了约 10 倍。在无需人工辅助的情况下，14 个蛋白质靶点中有 9 个产出了有潜力的候选药物。
科学假说生成方面：Mythos 5 是 Anthropic 首个能够持续提出新颖且令人信服的科学假说的模型。在与 Opus 级模型的盲测对比中，该公司科学家约 80% 的情况下更倾向于 Mythos 5 提出的分子生物学假说，其中一个关于大肠杆菌（E. coli）蛋白质新机制的假说，已在另一个独立实验室的研究中得到了证实。
基因组学研究方面：Mythos 5 在超过一周的自主工作中，整合了涵盖 138 个物种、数百万单细胞数据，自主设计并训练了一个机器学习模型，其跨物种识别同功能细胞的效果，超过了发表在 Science 上的模型——而且体积小了 100 倍。

此外，在知识工作上，Fable 5 在 Hebbia 面向高级推理能力的 Finance Benchmark 中拿到了所有模型中的最高分，在基于文档的推理、图表和表格解读上也有明显提升。AI 工作台公司 Hex 表示，Fable 5 是第一个在他们核心分析基准上拿到 90% 分数的模型。

三道锁：安全护栏拦住了什么，又拦不住什么

Fable 5 的“安全分类器”独立运行，实时检测用户请求，触线就转给 Opus 4.8 处理。具体限制分为三类：

第一道锁：网络安全。从漏洞发现到攻击规划，全部拦截。Anthropic 投入了一千多小时的漏洞赏金测试，没有找到任何通用越狱方案。外部红队测试的结论是：Fable 5 对有害网络查询的防护是所有测试模型中「最坚固的」。
第二道锁：生物学和化学。这是争议最大的一刀。官方表述是「大部分与生物学和化学相关的请求，都会回退到 Opus 4.8」。理由是 Mythos 级模型在这个领域的能力具有高度双重用途风险——它既能推进基因治疗，也可能被用于设计危险病毒。Anthropic 测试发现 Mythos 5 在 AAV 病毒设计上的表现，仅靠生物学推理就超过了专门的蛋白质语言模型。但问题在于，这一刀砍得实在太宽了：普通科学家问线粒体被拦、问癌症研究被切换、问牲畜生物常识也中招——这些误伤让部分研究人员非常不满。有用户直言：「如果你是科学家或医生，这款模型并不适合你。」
第三道锁：模型蒸馏。如果系统检测到有人试图大量调用来复制 Fable 5 的能力、训练竞品模型，会直接回退到 Opus 4.8。前两道锁是真正的安全考量，第三道锁的性质则更接近商业防护。Anthropic 把三者打包进同一套系统，但背后的动机并不完全一样。

另外值得注意的是，Anthropic 还特别限制了一件事：你不能用 Fable 5 去开发新的大语言模型。官方文件里的措辞是「限制 Claude 在针对前沿 LLM 开发请求中的有效性」，有人调侃这是 Anthropic 挖护城河的方式。

价格：当所有人在降价，Anthropic 居然把 AI 卖成了奢侈品

Fable 5 和 Mythos 5 的定价如下。可以看到价格是 Claude Opus 4.8（$5 输入 / $25 输出）的整整两倍，比 GPT-5.5 输入贵一倍、输出贵约三分之二。

输入：$10 / 百万 token
输出：$50 / 百万 token
缓存输入：$1 / 百万 token

与此同时，DeepSeek V4-Pro 的 API 价格已经降到输入 $0.435、输出 $0.87；国产模型小米 MiMo-V2.5-Pro 同样是输入 $0.435、输出 $0.87，还宣称最高降幅可达 99%；谷歌 (Google) Gemini 3.5 Flash 输入只要 $1.5。

简单算一下：Fable 5 的输入价格比 DeepSeek V4-Pro 贵约 23 倍，输出价格贵约 57 倍。在整个行业打价格战的背景下，Anthropic 像是站在裂缝另一边，冷冷地说：「我不参与这场价格战。」

当然，Anthropic 的算盘也很清楚——如果一个模型真的能把两个月的工程工作压缩到一天，那它当然敢贵。它不打算拿 Fable 5 去做便宜模型能做的事情，日常问答、轻量写作、普通代码补全，根本不需要上 Fable 5。它真正的战场是：大型代码库迁移、长上下文文档分析、复杂企业流程、网络安全防御、科研假设生成——这些高价值任务里的时间。

总结：值不值，取决于你把它用在什么地方

如果你现在是 Claude Pro、Max 或 Team 订阅用户，6 月 22 日之前一定去试试，这段时间是免费窗口。

Fable 5 真正发光的场景是：大型代码项目重构、复杂研究分析、需要高自主性的 Agent 工作流、深度视觉理解、长文档分析。在这些场景下，它带来的不只是「快一点」的体验升级，而是真实的生产力质变——任务的复杂度边界被推远了，过去「够不着」的事，现在变成了「有可能」。

但如果你的工作主要是日常问答、简单写作、普通代码补全，Fable 5 对你来说可能性价比并不高。贵是真贵，而且涉及生物、化学或网络安全研究的专业人士可能会频繁撞上「安全土啬」，体验反而不如预期。