Anthropic 发布 Claude Fable 5 与 Claude Mythos 5:Mythos 级能力首次走向公众

发布于 2026年06月11日 02:12 #Claude#Models 原文链接

Anthropic 发布 Claude Fable 5 与 Claude Mythos 5:Mythos 级能力首次走向公众 封面图

原文链接:Claude Fable 5 and Claude Mythos 5

今天,我们正式发布 Claude Fable 5:一款我们已确保可安全用于一般用途的 Mythos 级模型。

Fable 5 的能力超越了迄今为止我们公开发布的任何模型。它在几乎所有测试的 AI 能力基准上都达到了业界领先水平,在软件工程、知识工作、视觉、科学研究等多个领域表现卓越。任务越长越复杂,Fable 5 相对于我们其他模型的领先优势就越大。

发布一个能力如此强大的模型伴随着风险。如果没有安全护栏,Fable 5 在网络安全等领域的能力可能被滥用以造成严重损害。因此,我们在发布该模型时加入了安全护栏,在某些主题上的查询将由我们的次强模型 Claude Opus 4.8 来回答。为了在安全的前提下快速发布,我们保守地调校了这些护栏——它们有时会拦截无害的请求,但平均而言,仅在不到 5% 的会话中触发。随着未来几个月更强大模型的到来,我们正在努力改进护栏并尽快减少误报。

对于一小部分网络防御者和基础设施提供商,我们还发布了 Claude Mythos 5。它与 Fable 5 基于同一底层模型,但在某些领域移除了安全护栏。Mythos 5 将首先通过 Project Glasswing 部署,与美国政府合作,作为 Claude Mythos Preview 的升级版。它拥有全世界最强的网络安全能力。很快,我们计划通过更广泛的受信任访问计划来扩大 Mythos 5 的访问范围。

像 Fable 5 和 Mythos 5 这样的模型有潜力为世界带来深远的益处。我们在 Project Glasswing 中已经看到了这一点,这些模型帮助网络防御者保护了至关重要的软件。在生命科学研究中,我们也看到了它们的价值——这些模型正在提出新颖的假设,并加速新疗法的开发。

Fable 5 和 Mythos 5 的定价为每百万输入 token 10 美元、每百万输出 token 50 美元——不到 Claude Mythos Preview 价格的一半。今天的联合发布是我们朝着尽快、尽可能安全地将先进 AI 能力带给尽可能多用户的目标迈出的又一步。

Claude Fable 5 与 Claude Mythos 5 评估

下表比较了 Fable 5 和 Mythos 5 与其他领先模型的能力。

Benchmark 对比表
Benchmark 对比表

Fable 5 和 Mythos 5 可以比以往任何 Claude 模型更长时间地自主工作。下面我们讨论这些技能如何应用于软件工程,并介绍模型在知识工作、视觉、记忆和生命科学研究方面的改进能力。

软件工程。 在早期测试中,Stripe 报告称 Fable 5 将数月的工作压缩到了几天。在一个 5000 万行的 Ruby 代码库中,该模型在一天内完成了原本需要整个团队手工两个多月才能完成的代码库级迁移。Fable 5 也比以往的 Claude 模型更具 token 效率:在 Cognition 的 FrontierCode 评估中,该评估测试模型是否能通过困难的编码任务同时满足高质量生产代码库的标准,Fable 5 在业界领先模型中得分最高,即使是中等努力程度也是如此。

软件工程评估图表 1
软件工程评估图表 1
软件工程评估图表 2
软件工程评估图表 2

知识工作。 Fable 5 在复杂分析任务上表现强劲。在 Hebbia 面向高级推理的金融基准测试中,Fable 5 获得了所有模型中的最高分,在基于文档的推理、图表解读和问题解决方面有显著提升。IMC 指出,Fable 5 在他们的交易分析评估中几乎全面胜出,包括事实查询、概念推理、根因分析和期望值分析。

视觉。 Fable 5 是视觉任务方面的新 SOTA 模型。它可以从详细的科学图表中提取精确数字,并能执行复杂的视觉任务,比如仅凭截图重建 Web 应用的源代码。它还需要更少的辅助工具:例如,以前的 Claude 模型即使有额外的辅助工具也难以玩 Pokémon FireRed,但 Fable 5 仅用最少的、纯视觉的辅助工具就通关了 FireRed。

记忆和长上下文。 Fable 5 能够在数百万 token 的长运行任务中保持专注,并通过使用自己的笔记来改进输出。当我们让模型玩卡牌构筑游戏《Slay the Spire》时,给它访问持久化文件记忆的权限后,其性能提升幅度是 Opus 4.8 的三倍;Fable 到达游戏最终幕的频率也是 Opus 4.8 的三倍。

药物设计。 使用 Mythos 5,我们内部的蛋白质设计专家将药物设计过程的某些方面加速了约十倍。在一个案例中,他们发现 Mythos 5 配合蛋白质设计和生物信息学工具,在没有人类协助的情况下,能够匹敌甚至超越熟练的人类操作者。在这个过程中,模型执行了通常由科学家完成的所有任务:选择结合位点、选择和运行蛋白质设计工具,以及在此过程中从失败中恢复。这项研究中的 14 个蛋白质靶点中有 9 个产生了我们目前正在研究的强候选药物。

Mythos 5 设计的蛋白质复合体
Mythos 5 设计的蛋白质复合体

分子生物学中的新假说。 Mythos 5 是我们第一个持续产生新颖、有说服力的科学假设的模型。在与 Opus 级模型的盲法头对头比较中,我们的科学家约 80% 的情况下更偏好 Mythos 的分子生物学假设,并已将其中几个推进到实验评估阶段。同时,一个 Mythos 提出的假说——关于一种大肠杆菌蛋白的新机制——已被独立研究同一问题的实验室在一项研究中证实。

基因组学的新研究。 Mythos 5 进行了超过一周的、基本自主的基因组学研究。它汇集了横跨 138 个动物物种的数百万细胞的单细胞数据,并设计和训练了一个自定义机器学习模型,以识别即使在远缘物种中执行相同功能的细胞。在仅需高层人工输入的情况下,Mythos 5 训练的模型超越了最近发表在《科学》期刊上的一个模型——尽管体积小 100 倍。我们计划在未来几个月内发表这些结果。

对齐性。 在我们的自动化对齐评估中,我们发现 Mythos 5 的不对齐行为水平较低,与 Opus 4.8 相似。由于它们是同一底层模型,Fable 5 的对齐水平也将类似。该评估的完整描述,以及一系列其他安全和能力测试,可在模型的系统卡中找到。

对齐评估结果
对齐评估结果

获得早期访问权限的客户在 Fable 5 上进行了自己的测试。以下是他们看到的结果摘要。

Claude Fable 5 的新安全护栏

Mythos 级模型已经达到了一个临界点,它们带来了显著的风险。今年 4 月,我们启动了 Project Glasswing,仅向有限的网络防御者和关键软件基础设施提供商发布了第一款 Mythos 级模型(Claude Mythos Preview)。当时我们表示,只要我们开发出足够强大、能够可靠防止滥用的新护栏,我们希望最终向所有用户提供 Mythos 级能力。

在过去几个月中,我们一直在改进这些护栏,现在它们已经足够强大,可以进行公开发布。由于我们将安全放在首位,我们有意将护栏调校得较为保守,它们目前仍比理想状态更严格——例如,有时良性请求也会触发我们的分类器。我们认识到这会让一些用户感到沮丧,我们的目标是在发布后随着护栏的更新和优化减少误报。

下面我们逐一讨论 Fable 5 的各项新安全护栏。我们更广泛的安全护栏套件在模型的系统卡和最新的风险报告中进行了讨论和评估。

安全分类器

Mythos 级模型在前沿网络安全和研究生物学方面的能力意味着它们对恶意行为者构成了显著的 uplift 风险。也就是说,这些模型可能提供恶意行为者从其他来源(如互联网搜索引擎)无法获得的信息或建议,从而帮助他们造成严重伤害。此外,AI 模型的许多高级用途是双重的:对网络安全专业人员和生物学研究人员有益相同的查询,如果被恶意行为者获取,可能是危险的。

因此,我们需要强有力的护栏来防止滥用,而且它们的覆盖范围需要足够广泛。护栏本身必须能够承受持续且复杂的绕过尝试(也称为“越狱”系统)。Mythos 级能力的 uplift 对许多对手来说很有价值——例如,那些可以从网络攻击中获得经济利益的对手——因此我们预计他们会试图规避我们的安全措施。

Fable 5 配备了一套新的分类器:独立的 AI 系统,用于检测潜在的滥用行为(包括越狱尝试),并阻止主模型(此处为 Fable 5)做出响应。我们在模型上运行分类器已经有一段时间了,Fable 5 的分类器是之前工作的扩展,覆盖范围更广。

当 Fable 的分类器检测到与网络安全、生物学和化学或蒸馏相关的请求时,响应将自动由 Claude Opus 4.8 处理。发生这种情况时,用户会收到通知。Opus 4.8 本身就是一个非常强大的模型:回退到 Opus 的响应远比 Fable 直接拒绝要好。我们的早期数据显示,超过 95% 的 Fable 会话完全没有触发回退——对于这些会话,Fable 5 的性能实际上与 Mythos 5 相同。

以下是分类器覆盖的领域:

1. 网络安全。 Mythos 级模型在发现和利用软件漏洞方面表现出色。因此,它们可以大幅降低网络攻击的难度和成本。Mythos 级模型在自主黑客攻击方面也表现出强大的技能。这涉及执行网络攻击的多个不同部分,除了寻找漏洞之外——包括侦察、发现、横向移动等。为了防止这些自主黑客技能为网络攻击提供提升,我们设计的网络安全分类器覆盖了更广泛意义上的漏洞利用和进攻性网络任务。如下图所示,我们的分类器阻止了 Fable 在这些任务上取得任何进展。

网络安全评估结果
网络安全评估结果

我们对分类器进行了广泛的红队测试,以检验它们对抗越狱的能力。除了内部测试,我们还进行了外部漏洞奖励计划,在超过 1000 小时的测试中未产生通用越狱方法。我们聘请的外部红队组织迄今为止也未能找到针对长格式自主任务的通用越狱方法——尽管英国 AISI 在短暂的初步测试窗口内已接近实现一个。完全防止通用越狱可能是不可能的,但我们的目标是使任何剩余的越狱方法足够缓慢和昂贵,以便我们能够在它们被大规模使用之前检测和阻止它们。

下图来自我们的内部评估,展示了 Fable 5 的护栏如何使其比我们之前可公开访问的模型具有更强的越狱抵抗能力:

越狱抵抗能力评估
越狱抵抗能力评估

我们的一位外部合作伙伴发现,Fable 5 针对有害网络查询的护栏是所有测试模型中最强大的(包括 Opus 4.8 和 Opus 4.7)。Fable 5 在零个有害单轮请求上妥协,这些请求涉及策划网络攻击、漏洞利用开发或防御规避。无论这些请求是否使用了 30 种不同的公开越狱技术,结果都是如此。

2. 生物学和化学。 我们长期以来一直使用分类器来阻止我们的模型回答一小部分与生物武器相关的查询。但我们不再确定仅阻止这一小部分就足够了。这有两个原因:首先,我们有理由担心资源充足的恶意行为者试图从我们的模型中获取高度风险生物学研究的 uplift。其次,模型现在完成真实世界科学任务的能力更强了。

例如,我们测试了 Mythos 5 完成设计腺相关病毒(AAV)中一个具有挑战性步骤的能力。AAV 是递送基因疗法的组成部分,但同样的能力,如果落入错误之手,可能被用于设计危险病毒。在这项任务中,各种 AI 模型被评估其预测基因修饰如何影响病毒外壳组装的能力。我们没有明确训练我们的模型执行此任务——但 Mythos 级模型仅凭其生物学推理能力就超越了专门用于蛋白质任务的复杂模型。这展示了在基因疗法研究和开发中完成简单但重要任务的有前景的能力——但也突显了这种双重用途能力带来的风险。

AAV 病毒外壳评估结果
AAV 病毒外壳评估结果

我们的首要任务是尽快安全地发布 Fable,即使要以过于宽泛的护栏为代价。因此,目前我们安排 Fable 在与生物学和化学相关的大多数请求上回退到 Opus 4.8。与所有分类器一样,我们希望尽快缩小这些护栏的范围:从上面的证据可以看出,Fable 在科学方面的积极应用潜力巨大,我们不希望分类器的误报妨碍这一点。在未来几周内,一些生物医学研究人员和公司将能够加入我们针对生物学能力的 Mythos 5 受信任访问计划。

3. 蒸馏。 我们之前已经发现大规模尝试提取 Claude 能力以训练竞争对手模型的蒸馏攻击。蒸馏 Fable 5 的能力可能间接导致接近前沿的 AI 能力扩散——而且这些能力可能在缺乏适当护栏的情况下被发布。被我们的分类器标记为此类蒸馏尝试的请求将回退到 Opus 4.8。

新的数据保留政策

最后,我们正在改变处理 Fable 5、Mythos 5 及未来类似或更高能力水平的模型业务客户数据的方式。我们将要求对 Mythos 级模型的所有流量保留 30 天,包括第一方和第三方平台。我们不会将这些数据用于训练新的 Claude 模型,或用于任何非安全相关目的。我们已制定新的隐私保护措施,包括记录所有对数据的人工访问,并确保在 30 天后在几乎所有情况下删除这些数据。这些数据将帮助我们防御复杂和新颖的攻击(包括新的越狱方法和跨多个请求操作的攻击),并帮助我们识别和减少误报。

Claude Mythos 5 与受信任访问计划

从今天开始,所有当前拥有 Claude Mythos Preview 访问权限的用户将能够升级到 Claude Mythos 5——与 Claude Fable 5 相同的模型,但网络安全护栏被移除。用户将发现 Mythos 5 在大多数情况下与 Mythos Preview 相当或更强,同时成本大幅降低。

在与美国政府的协商下,我们计划稳步扩大 Claude Mythos 5 的访问范围,继续定期增加新的合作伙伴,并推行一个允许网络安全组织以更系统的方式申请的受信任访问计划。

我们的计划还包括为生物学领域开设受信任访问计划,以帮助加速生物医学研究和利用 Mythos 级能力发现新疗法。该计划将提供移除了生物学和化学护栏(但网络安全护栏仍然保留)的 Fable 5。它将招收来自各种生命科学组织的一小部分研究人员,涵盖基础和转化研究;我们计划在改进护栏的同时扩大该计划的访问范围。

可用性

Claude Fable 5 今天起在所有平台上可用。Claude Mythos 5 目前仅限 Glasswing 合作伙伴(已移除网络安全护栏)和很快将入选的特定生物学研究人员(已移除生物学和化学护栏)使用,直到我们更广泛的受信任访问计划可用。

两个模型的定价均为每百万输入 token 10 美元、每百万输出 token 50 美元。开发者可以通过 Claude API 使用 claude-fable-5

我们预计 Fable 5 的需求会非常高,且难以预测。在 Claude API 和基于消费的企业计划上,Fable 5 从今天起完全可用。对于订阅计划,我们更倾向于尽早提供访问权限,因此我们采取更保守的方式分阶段推出:

  • 从今天到 6 月 22 日,Fable 5 包含在 Pro、Max、Team 和基于座位的企业计划中,无需额外费用。
  • 6 月 23 日,我们将从这些计划中移除 Fable 5。之后使用它将需要消耗使用积分。如果容量允许,我们将延长免费包含期。
  • 在此之后——当容量允许时——我们的目标是将 Fable 5 恢复为订阅计划的标准组成部分。我们打算尽快实现这一目标。

在整个期间,我们将提前通知任何变更,以便用户了解情况。

编辑注(2026 年 6 月 9 日):更新了关于 AAV 的讨论,指出候选物由 Dyno Therapeutics 开发。

评论互动

© 2026 王若风的技术博客 · Powered by Astro