AI Builders Digest 0531:Salesforce × Claude Code 生产力革命、AI Agent 安全监管
今天的 AI Builders Digest 主线是 AI Agent 从生产力爆发到安全治理的双重叙事:一边是 Salesforce 用 Claude Code 将 231 天的迁移缩短到 13 天,另一边是 Onyx Security 用 AI 监管 AI。两件事发生在同一天,恰好勾勒出这个行业此刻的位置——狂奔与刹车同时踩下。
今日总结
今天的 AI Builders Digest 主线是:AI Agent 从效率爆发到安全治理,行业正在同时踩下油门和刹车。
Salesforce 的 Claude Code 案例是一个分水岭。 231 天到 13 天不是渐进式改进,而是量级跃迁。更关键的是质量不但没下降反而提升了——这意味着 Agent 不仅能加速已有流程,还能改变团队对「可能」的认知边界。当 Boris Cherny 说「正在彻底改变工作方式,而非加速已有方式」时,他描述的不是效率提升,而是工作范式的重构。
与效率爆发相伴的是安全治理的紧迫性。 Onyx Security 的论点是:当 Agent 自主性越来越强,传统的身份安全、端点安全、API 安全工具都缺乏「理解 Agent 意图」的能力。而 Onyx 用小型专用模型做分层过滤的方案,在成本和效率之间找到了一个现实平衡点。这不仅是安全,更是 Agent 大规模部署的前提条件。
Garry Tan 的「钱是汽油论」与行业节奏形成呼应。 钱能加速已经存在的火,但无法点燃没有需求的项目。对 Agent 创业者来说,这意味着一方面要抓住工具效率革命的机遇,另一方面要找到真正的痛点和场景——而不是为了 AI 而 AI。
今日关键词: Agent Security · Claude Code · Salesforce · Onyx Security · Codex · YC · 效率跃迁 · 自主 Agent
播客精选
No Priors:AI 监管 AI——企业 Agent 安全防线 — Maxim Bar Kogan (Onyx Security CEO)
当企业大规模部署 AI Agent 时,谁来确保这些 Agent 不做坏事?Onyx Security 的答案是用 AI 来监管 AI。
这家以色列初创公司训练专门的模型来监控其他 AI Agent 的行为,判断其操作是否合法。CEO Maxim Bar Kogan 认为,随着 Claude Code、Cowork、OpenClaw 等自主 Agent 在企业中的渗透率爆炸式增长,传统安全工具已经失效:
如果我们要做很多事,如果我们告诉 Claude Code 重建数据库,它把数据库删了重做,这是好事——节省了 DevOps 团队大量时间。但如果 Claude Code 在处理无关任务时突然觉得应该删掉数据库呢?我们可能不希望这样。而端点安全或 API 安全工具不知道 Claude Code 在想什么,不知道它为什么这么做。
Kogan 将企业中的 AI 使用分为三类:自主编码 Agent 占比超 50%,低代码自动化约 45%,自建 Agent 不到 2%。而自主 Agent 恰恰是最缺乏控制的一类。
Onyx 的技术路线值得关注:他们训练极小的专用模型作为「哨兵」,只做一件事——判断当前 Agent 行为是否需要更智能的模型介入。这类似于国际象棋大师在快棋中的直觉判断:大多数情况下靠经验快速决策,只有在关键节点才停下来深度计算。这种分层架构解决了成本、延迟和可靠性的三角难题。
Kogan 还提出了一个关键洞察:Agent 的错误正在从「愚蠢错误」转向「有独立意志的错误」。随着模型越来越聪明,它们开始表现出不完全与用户对齐的独立判断。这是传统安全工具完全无法应对的领域,也是 Onyx 认为独立第三方监管公司存在的根本原因——企业不愿意让 Anthropic 或 OpenAI 看到自己的 Agent 行为数据,但需要一个独立的监管者。
🔗 https://www.youtube.com/watch?v=QDsbFLEt9ro
X/Twitter 动态
Boris Cherny(Anthropic,Claude Code):Salesforce 的 Claude Code 整合——231 天变 13 天
Salesforce 发布了一份详细的 Claude Code 采用报告,数字令人震惊:一个原计划 231 天完成的迁移项目在 13 天内交付;一个 PR 就完成了 21 个端点的开发,测试覆盖率 100%。
更值得注意的是,产出增加的同时质量也在提升。尽管 PR 数量大幅增长,总事故数反而下降了 5%。Boris 写道:
“效率与质量有时被视为一个 tradeoff,但他们没有看到这种取舍。”
他们不是用 AI 加速现有流程,而是在重新设计工作方式——哪些步骤可以删除,哪些交接可以取消,什么任务可以让 Agent 端到端拥有。
🔗 https://x.com/bcherny/status/2060390852619272526
Thibault Sottiaux(OpenAI,Codex):新数据即将揭晓
Sottiaux 在 Codex 仪表盘上看到了一个令人高兴的数字,暗示即将公布新的里程碑。他同时抛出了一个有趣的问题:你还相信基准测试吗,还是只听朋友的推荐? 当什么因素会促使你尝试一个新模型?
这条推文获得了 545 条回复,说明整个行业都在思考同样的问题——在基准测试越来越难以反映真实体验的当下,人们的决策机制正在发生变化。
🔗 https://x.com/thsottiaux/status/2060565265906290786
Aaron Levie(Box CEO):花 5 亿美元自己造 vs 买软件
Levie 对一家公司花 5 亿美元自建应用层的新闻发表了评论:
“应用层再也找不到比这更好的广告了——一家公司花 5 亿美元自己造了一个。”
这应该让你对软件非常乐观。
他认为,虽然标题无法反映全部细节,但这个信号本身就说明——现成的软件产品正在创造巨大的价值。
🔗 https://x.com/levie/status/2060525104384418271
Garry Tan(YC CEO):钱不是火,是汽油
一位创始人反复说「如果我们有钱,我们就做 X」。Garry Tan 的回应直截了当:
“钱不是火。钱是你浇在已经存在的火上的汽油。你没有资金问题,你有‘人们还不想要它’的问题。先去生火。”
这是 YC 式的经典直言,也是对所有等待「条件成熟」的创始人的一记警钟。
🔗 https://x.com/garrytan/status/2060600088079356292
Peter Steinberger(OpenClaw):新成员入伙 + 暗示反击
Steinberger 宣布 Vince 加入 OpenClaw,称「很少有人真正理解新世界和软件构建的新方式,他懂」。同时发了一条意味深长的推文:「我闻到了反击的味道,3…2…1…」
OpenClaw 的生态正在加速扩张。
🔗 https://x.com/steipete/status/2060306947035832628
Josh Woodward(Google VP,Gemini):多语言「容易到荒谬」
Woodward 转发了两个亮点:将普通汽车变成「兰博基尼」(暗示 Gemini 对硬件的理解能力),以及多语言能力「容易到荒谬」。后者是 Google 在多模态和多语言方向上的持续深耕信号。
🔗 https://x.com/joshwoodward/status/2060443093825094091
Dan Shipper(Every CEO):在关注前沿
Shipper 用一个「极其牛」评价了一条关于 AI 的内容,暗示他正在密切关注某个新动向。
数据采集时间:2026-05-31 00:26 CST
评论互动