HyperFrames vs Remotion：AI Agent 视频制作新路线

发布于 2026年05月19日 01:02 #Video

将视频制作改造为AI Agent可稳定执行的工程任务，视频成为可审查、可验证的构建产物
视频制作拆解为工程流水线，HTML是Agent最易写对的视觉格式，确定性渲染是关键
HyperFrames与Remotion差异：前者以HTML为Agent视频语言，后者以React为视频语言
开源视频制作赛道分层，包括React视频、HTML视频、解释动画、自动剪辑、AI流水线

大家好，我是若风。

这两天我看了一个很有意思的开源项目：heygen-com/hyperframes。截至 2026 年 5 月 19 日，它在 GitHub 上已经有 19.2k Star，涨得很快。

一开始我以为它只是又一个 “HTML 转视频” 工具。毕竟这件事听起来不新鲜：用浏览器渲染页面，截图，丢给 FFmpeg，最后合成 MP4。很多人自己写脚本也能做个简化版。

但把 HyperFrames 的 README、官网文档、CLI、渲染流程，以及它和 Remotion 的对比放在一起看以后，我发现重点不是“它能不能渲染视频”。说实话，这个转折还挺有意思，因为我一开始也差点把它归到“浏览器截图 + FFmpeg”的工具箱里。

真正有意思的地方在于：它把视频制作这件事，重新改造成了 AI Agent 能稳定执行的工程任务。

这句话听起来有点绕，我换个说法。以前我们说“用代码做视频”，默认对象是开发者：你写 React、写 Python、写 timeline、写插值函数，然后用工具把它渲染出来。现在 HyperFrames 的对象更像是 Agent：你给它一个主题、一份文档、一个网页、一个产品页面，它能生成 HTML、安排动画、预览、修错、再渲染。这个变化不大，但挺关键的——视频不再只是剪辑软件里的时间线，它开始变成一个可以被代码审查、可以被 CI 验证、可以被 Agent 反复修改的构建产物。

直说吧

HyperFrames 最值得看的，不是“HTML 也能做视频”这个表层卖点，而是它押注了一个方向：

未来很多短视频、产品演示、教学动画、数据可视化视频，不会先进入剪辑软件，而是先进入代码仓库。

它的核心判断有 5 个。

第一，视频制作会被拆成工程流水线。 文案、素材、动画、配音、字幕、渲染、压缩、版本管理，本来就是一串可编排步骤。只要每一步能被结构化描述，Agent 就可以接管大量重复劳动。别问我怎么知道的，很多“做条视频很快”的需求，真正耗时间的不是剪那一下，而是反复改 10 个小细节。

第二，HTML 是 Agent 最容易写对的视觉格式。 Remotion 的赌注是 React 组件，Motion Canvas 的赌注是 TypeScript 动画 DSL，Manim 的赌注是 Python 场景对象。HyperFrames 更激进：直接让 Agent 写 HTML、CSS、GSAP 和数据属性。

第三，确定性渲染比“看起来能跑”重要。 官网文档强调它是 frame-by-frame、seek-driven 的渲染方式，同一输入应该得到同一输出。对 Agent 来说，这很关键，因为 Agent 不能只靠“我感觉动画差不多”交付。它需要的是可复现的帧，而不是一次侥幸成功的播放。

第四，开源视频制作赛道正在分层。 Remotion、HyperFrames、Motion Canvas、Manim、MoviePy、Editly、Revideo、Pixelle-Video 解决的不是同一个问题。有人管浏览器渲染，有人管动画表达，有人管剪辑合成，有人管 AI 素材流水线，有人管从主题到短视频的全自动生成。

第五，HyperFrames 不是 Remotion 的简单替代品。 它更像是面向 Agent 工作流的一次重构：把“开发者写组件”改成“Agent 写网页”，把“项目工程”改成“视频构建任务”。

一句话概括：

HyperFrames 的野心，是把视频从剪辑工作台搬进 Agent 的执行循环。

HyperFrames 到底是什么

从官方介绍看，HyperFrames 是一个开源视频渲染框架：你用 HTML 定义视频内容，用 data-start、data-duration、data-track-index 这类属性描述时间线，再通过 CLI 预览和渲染。最小路径大概是这样：

npx hyperframes init my-video
cd my-video
npx hyperframes preview
npx hyperframes render

它要求 Node.js 22+ 和 FFmpeg，渲染时会通过 headless Chrome 捕获每一帧，再交给 FFmpeg 编码。官网文档里也把流程拆得很清楚：先 doctor 检查环境，再 preview 看浏览器预览，最后 render 输出 MP4、MOV 或 WebM。

我自己试着跑了一下，从 npx hyperframes init 到浏览器里看到第一个可交互的预览，大概 3 分钟。默认模板生成的是一个带文字淡入效果的简单 composition，HTML 结构一目了然。说实话，那一刻我还挺意外的——不是因为它多炫，而是因为它太朴素了，朴素到你觉得自己也能写。但恰恰是这种朴素，才让 Agent 有下手的空间。

如果只是这样，它可能只是一个工程化包装。但 HyperFrames 真正不一样的地方，是它从一开始就把 Agent 当成一等公民。README 里给的第一种 Quick Start 不是“开发者先读教程”，而是：

npx skills add heygen-com/hyperframes

也就是说，它会把框架知识打包成 skills，让 Claude Code、Cursor、Gemini CLI、Codex 这类编程 Agent 知道怎么写 composition、怎么用 GSAP timeline、怎么跑 CLI、怎么处理媒体、怎么从网站生成视频。

这点很重要。

很多工具说自己“AI-friendly”，实际意思是“你可以问 AI 怎么用我”。HyperFrames 更进一步：它把“怎么正确使用我”写成 Agent 可加载的操作说明。不是把文档丢给模型让它猜，而是把正确路径提前铺好。

这就像从“给人看文档”变成“给 Agent 装驱动”。

它的技术底座：网页、时间线、逐帧捕获

HyperFrames 的技术路径并不神秘，反而很直白。

它把一个视频看成一个网页，页面里的元素不是随便出现，而是带着时间属性：

<div
  id="stage"
  data-composition-id="demo"
  data-start="0"
  data-width="1920"
  data-height="1080"
>
  <video
    data-start="0"
    data-duration="5"
    data-track-index="0"
    src="intro.mp4"
  ></video>

  <h1 class="clip" data-start="1" data-duration="4" data-track-index="1">
    Welcome to HyperFrames
  </h1>
</div>

这套设计的好处，是把“视频时间线”藏进了普通 HTML 结构里，开发者能看懂，Agent 也能生成。更关键的是，动画运行时不是只能选一种——HyperFrames 通过 Frame Adapter 模式支持 GSAP、Lottie、CSS 动画、Three.js、WAAPI、Anime.js 等方式，不是要求所有人都改写成某个专属 DSL，而是尽量复用 Web 生态里已经成熟的动画表达。

渲染时，它走的是确定性路线：把时间 seek 到某一帧，等待页面进入对应状态，捕获当前画面，再编码。官网介绍里提到 frame = floor(time * fps)，每一帧通过 Chrome 的 beginFrame 捕获，再交给 FFmpeg。

这就是它和普通“录屏式”工具最大的差别。

录屏像是拿摄像机对着浏览器拍一遍，期间任何抖动、延迟、资源加载问题都可能混进去。逐帧捕获更像编译：第 137 帧应该是什么状态，就让页面直接到第 137 帧，然后拿结果。这个差别在人工预览时可能不明显，但一旦进入自动化流水线，就会决定你后面是安心还是崩溃。对人来说这是工程质量，对 Agent 来说这是生存条件——它最怕的不是“不会写 HTML”，而是“无法判断自己生成的东西有没有稳定复现”。如果每次渲染结果都飘，它就没法进入修复循环。

为什么 HeyGen 要开源这个东西

HeyGen 本身做 AI 视频，按直觉讲，它完全可以把 HyperFrames 做成内部工具，或者包装成 SaaS 功能。

但它选择开源，我理解有两个原因。

第一个原因，是视频生产的上游正在代码化。

今天很多视频不再从素材库和剪辑软件开始，而是从一段需求开始：把这个 PDF 变成 45 秒 pitch，把这个 CSV 变成柱状图竞赛，把这个产品页面变成 9:16 发布视频，把一篇文章变成带字幕和旁白的讲解。以前这些需求听起来像“找个会剪辑的人”，现在越来越像“给 Agent 一条可执行任务”。

这些需求的共同点是：输入很结构化，输出很重复，风格可以模板化，中间过程需要迭代。

这正是 Agent 擅长的地方。

第二个原因，是 HeyGen 需要一个更开放的“视频前端”。

AI 视频平台如果只提供最终渲染结果，会很难进入开发者工作流。开发者需要的是可控的中间层：我能不能改 timeline？能不能换字幕样式？能不能接自己的 TTS？能不能从网页生成？能不能在 CI 里跑？

HyperFrames 把这层打开了。

它不是在替代 HeyGen 的 AI 视频能力，而是在补一个“Agent 可以操作的视频制作层”。如果这个层变成生态入口，HeyGen 后面无论接 avatar、配音、口播、翻译，都会更自然。

和 Remotion 的真正差异

说到代码做视频，绕不开 Remotion。

Remotion 的定位很清楚：用 React 编程式生成视频。它有 Studio、Player、Server-side Rendering、Lambda、Cloud Run、Captions、Recorder 等一整套产品能力，GitHub 上截至 2026 年 5 月 19 日已经有 47.2k Star。它成熟、文档完整、生态强，很多商业级项目已经在用。

但 Remotion 有两个前提。

第一，你要接受 React 是视频表达语言。

第二，你要接受它的许可证边界。Remotion 代码在 GitHub 上，但官方 README 也提醒，它是特殊许可证，在某些公司场景下需要公司许可证。

HyperFrames 的切入点刚好不同。

它说：别让 Agent 学 React 组件树了，让它写 HTML。

这个差异不只是语法喜好，而是生产方式的差异。

如果你的团队本来就是 React 技术栈，想做高度组件化、参数化、可复用的视频系统，Remotion 依然很强。尤其是你需要 Remotion Lambda 这类生产渲染能力时，它的成熟度不是新项目能马上追上的。

但如果你的核心场景是“让 Agent 快速把内容变成视频”，HyperFrames 的 HTML 路线就更轻。Agent 不需要先把一段网页重写成 JSX，也不需要绕过 React 组件边界；它可以直接生成一个能预览的 HTML composition，再用 CLI 修。

我更愿意把它们看成两种入口：

所以，HyperFrames 不是一句“干掉 Remotion”就能概括。

更准确的说法是：Remotion 把 React 变成视频语言，HyperFrames 把网页变成 Agent 的视频语言。

还有哪些流行的开源视频制作项目

我顺手把同类项目也梳理了一遍。这里要先划清边界：所谓“制作视频”，其实至少有 5 条路线。

1. React 到视频：Remotion

Remotion 是这一代“代码做视频”最有代表性的项目。它的优势是 React 生态、组件复用、Studio 预览、服务端渲染和云端渲染能力完整。

它适合做参数化视频：比如每个用户一条年度报告视频，每个商品一条促销视频，每场比赛一条自动战报。你把数据喂进去，React 组件负责把数据变成镜头。

它的问题也很明确：如果团队不是 React 体系，学习成本会被放大；如果你非常在意 OSI 意义上的开源许可证，也要认真看它的商业授权边界。

2. HTML 到视频：HyperFrames 和 Helios

HyperFrames 是这篇文章的主角。它更像 Agent 时代的视频构建工具：HTML 作为 composition，GSAP / Lottie / CSS / Three.js 作为动画层，Chrome + FFmpeg 作为渲染层。

我还看到了一个新项目 Helios，方向也类似：让浏览器原生动画变成视频，强调 CSS、WAAPI、GSAP、Framer Motion 等 Web 标准动画可以直接工作。它目前规模还小，但思路值得观察，因为它和 HyperFrames 站在同一个趋势上：不要重新发明动画语言，尽量驱动浏览器本身。

这条路线的核心优势，是贴近 Web。

如果未来 Agent 要把网站、产品页、PPT、数据面板变成视频，这条路会很自然。

3. 动画编辑与解释型视频：Motion Canvas 和 Manim

Motion Canvas 是一个 TypeScript 动画库加实时预览编辑器，官方说它适合制作信息型矢量动画，并同步旁白。它截至 2026 年 5 月 19 日有 18.5k Star，MIT 许可证。

它的气质很像“开发者版 After Effects for explainer video”：不是拿素材剪辑，而是用代码生成动画。尤其适合技术讲解、课程视频、产品概念动画。

Manim 则更经典。它是 Python 生态里的数学动画引擎，3Blue1Brown 把这种风格带火以后，Manim Community 继续维护社区版本。它截至 2026 年 5 月 19 日有 38.5k Star，适合数学、物理、算法、科普解释类视频。

Motion Canvas 和 Manim 的共同点是：它们非常适合“解释一个抽象概念”。

缺点也明显：它们不是通用短视频流水线。你要先会写动画逻辑，才能得到好结果。

4. 自动剪辑与素材合成：MoviePy、Editly、Revideo

MoviePy 是 Python 视频编辑库，能做剪切、拼接、标题、合成、特效、音视频读写。它截至 2026 年 5 月 19 日有 14.6k Star，适合写自动剪辑脚本、批处理视频、做数据驱动的素材拼装。

Editly 是 Node.js 生态里的声明式视频编辑工具，用 JSON / JS 描述 clips、images、audio、titles、transitions，再用 FFmpeg 合成。它的定位更接近“命令行版模板剪辑器”。

Revideo 则是从 Motion Canvas fork 出来的项目，目标是把原本偏独立编辑器的能力，改造成开发者可以拿来构建视频编辑应用的库。它强调 TypeScript 视频模板、动态输入、渲染 API 和 React 预览组件。

这条路线更偏“后期合成”。

它不一定负责创造素材，而是把已有视频、图片、音频、字幕、模板编排到一起。

5. AI 全自动短视频流水线：Pixelle-Video

值得注意的是 AIDC-AI/Pixelle-Video，它不是 HyperFrames 这种“渲染框架”，而是更接近完整短视频工厂。

它的 README 里写得很直接：输入一个主题，自动完成视频文案、AI 配图/视频、语音解说、背景音乐和一键合成。项目支持 Web 界面、ComfyUI、RunningHub、Edge-TTS、Index-TTS、多种 LLM、横竖屏模板、自定义素材、数字人口播、图生视频、动作迁移等能力。截至调研时，它在 GitHub 上有 18k Star，Apache-2.0 许可证。

这类项目的价值，不在于它的底层渲染多优雅，而在于它把“创作流程”打包好了。

如果说 HyperFrames 更像一把工程师手里的视频构建刀，Pixelle-Video 更像一条面向内容生产者的自动化流水线。你不一定关心每一帧怎么 seek，你关心的是：给它主题，多久能出一条能发的平台短视频。

它也提醒我们一件事：开源视频制作工具不只会沿着“更好的代码渲染框架”演进，也会沿着“更完整的内容生产系统”演进。

一张赛道地图

把这些项目放到一起看，我会这样分：

这张表里最关键的不是 Star 数，而是时间线由谁控制。Remotion 让 React 控制时间线，HyperFrames 让 HTML 和可 seek 的动画控制时间线，Motion Canvas / Manim 让动画代码控制时间线，MoviePy / Editly / Revideo 让剪辑脚本和模板控制时间线，Pixelle-Video 让 AI 内容流水线控制时间线。

这个判断比“谁更流行”更重要。因为你选工具时，真正要问的不是“哪个项目 Star 多”，而是：

我想控制的是画面逻辑、素材拼接、动画表达，还是整条内容生产流程？

这个问题想清楚，后面的选型会轻松很多。

HyperFrames 适合什么，不适合什么

我觉得 HyperFrames 适合 4 类场景。

第一类是产品演示视频。

比如一个 SaaS 新功能上线，你希望快速生成 20 秒介绍：标题淡入、界面截图滑动、三个功能点逐个出现、最后 CTA。用 HyperFrames 写 HTML + CSS + GSAP 很自然，Agent 也容易改。

第二类是网页转视频。

它本来就有 website-to-video 的技能入口。把已有网站、落地页、数据页面变成视频，比让 Agent 重新设计一套 React composition 更顺。

第三类是数据可视化短视频。

CSV、报表、榜单、GitHub Star 变化、融资时间线，这些都可以先变成 HTML 图表，再加动画和旁白。

第四类是 Agent 驱动的视频生产。

这可能是最核心的场景：你不想亲自调 timeline，而是希望 Agent 先生成一个版本，你看预览以后用自然语言改：“标题再大一点，节奏快一点，3 秒处加一个 lower third，结尾换成深色背景。”

但它也不适合所有场景。做高度复杂的商业视频编辑器，Remotion、Revideo 或自建渲染服务可能更成熟。做数学证明、算法可视化、物理模拟，Manim 仍然更专业。批量剪素材、拼 B-roll、处理很多真实视频片段，MoviePy / Editly 这种剪辑库更直接。想一句话生成完整短视频而且不想碰代码，Pixelle-Video 这种流水线项目会更接近需求。

HyperFrames 最舒服的位置，是中间那层：

你愿意用 Web 技术表达画面，但希望 Agent 替你完成大部分搭建、迭代和渲染。

几个容易踩坑的判断

这里我再补 3 个反面判断，免得这篇文章看起来像“哪个都挺好”。

一个常见的误区是把“能生成视频”当成同一种能力。Remotion 和 HyperFrames 解决的是可编程渲染，MoviePy 和 Editly 解决的是素材合成，Pixelle-Video 解决的是从主题到成片的流程自动化，它们都能输出 MP4，但中间控制权完全不同。

另一个容易忽略的是许可证和生产化边界。Remotion 很成熟，但它的商业授权边界需要提前看清楚；HyperFrames 是 Apache-2.0，但分布式渲染能力还不像 Remotion Lambda 那么完整。选型时只看 demo 会很爽，真正上线时卡住的往往是这些不性感的地方。

还有一点：别期待 Agent 一次做出“审美完美”的视频。更现实的路径是让 Agent 先生成结构正确、可预览、可渲染的版本，然后人类用自然语言做 2 到 3 轮导演式修改。我的直觉是，未来很长一段时间里，Agent 更像助理剪辑师，而不是完全替代导演。

对开发者的启发

这类项目让我想到一个更大的变化：过去几年，开发者一直在把“文本”工程化——Markdown 变博客，Prompt 变模板，文档变知识库。现在轮到视频了。

视频以前很难进入工程系统，因为它太重、太感性、太依赖剪辑软件和人工审美。一个 .prproj、一个 .aep、一个 Final Cut 工程，对程序员来说都不像可 diff、可 review、可自动化的产物。坦白讲，这也是我以前对“自动做视频”没那么兴奋的原因：如果最后还是回到一个黑盒工程文件里，那程序员能参与的空间就很有限。

但短视频、产品演示、教学动画、数据可视化视频，很多并不需要电影级自由度。它们需要的是模板、节奏、结构、清晰的信息层级，以及稳定产出。

这就给了代码视频工具机会。

更准确地说，给了 Agent 机会。

因为 Agent 最怕的是开放式创作，最擅长的是有约束的生成。HTML composition、React component、Python scene、JSON edit spec、ComfyUI workflow，本质上都是把视频创作的自由度收束成可执行结构。

这也是为什么我看好这个方向。

不是因为所有人都会开始写代码剪视频。

而是因为越来越多视频会先被结构化，再被渲染出来。

到底该用哪个

我的建议很简单。

如果你已经在 React 技术栈里，要做参数化视频产品，先看 Remotion。

如果你想让 Agent 直接从网页、文档、数据生成视频，优先试 HyperFrames。

如果你做解释型动画、课程、技术演示，看 Motion Canvas；如果是数学和科普动画，看 Manim。

如果你要批量剪素材、合成字幕、拼音频，看 MoviePy 或 Editly；如果你要把这件事产品化成视频编辑应用，可以研究 Revideo。

如果你的目标是“一句话出短视频”，尤其是中文内容、口播、配图、TTS、模板合成这一整套，Pixelle-Video 值得单独试。

但不管选哪一个，我会盯住一个问题：

这个工具能不能让时间线被机器稳定理解？

能，它就可能进入 Agent 工作流。

不能，它就还是人的剪辑工具，只是多了几个脚本入口。

说点自己的感受

HyperFrames 让我最有感触的一点，是它没有试图发明一个更复杂的视频世界，反而回到了最朴素的东西：HTML、CSS、动画库、Chrome、FFmpeg。这些东西开发者已经会了，Agent 也大概率写得出来。所以它真正做的，不是把视频工具做得更像剪辑软件，而是把视频制作做得更像软件工程。

这可能就是下一波变化的开始。以前我们说“视频是内容”，后来我们说“视频是模板”，现在，视频开始变成一次构建。而只要它能被构建，Agent 就会想办法参与进去。