MiMo API 降价背后的技术逻辑：最高降幅 99% 的秘密

发布于 2026年05月27日 14:35 #Models #翻译

分层KV Cache优化提升缓存容量5倍，缓存成本降低80%
Hybrid模型Cache Read Overlap进一步降低推理成本
1:7稀疏比使prefill计算量等效10层GQA，原始成本远低于行业
降价后API接近满负荷运转，仍保持收支平衡
实惠API拉动推理需求，带动芯片、数据中心等AI硬件链条发展

原文链接：https://x.com/_LuoFuli/status/2059618247553745204

MiMo API 降价背后的技术逻辑：

降幅最大的是 Input（Cache Hit），高达 99%。核心原因在于我们的推理框架现已支持针对 SWA（Sliding Window Attention）的分层 KV Cache 优化。生产推理引擎测试显示，该优化将缓存 Token 容量提升了 5 倍，相当于缓存成本降低了 80%。

再加上 Hybrid 模型中多个 Full Attention 模块之间的 Cache Read Overlap，实际成本进一步降低。

Input（Cache Miss）和 Output 的价格也降低了 60%-80%，这主要得益于模型架构带来的极致 1:7 Full:SWA 稀疏比（70 层 MiMo-V2.5-Pro 的 prefill 计算量大约等同于一个 10 层的 GQA 模型）。这使得我们的原始推理成本远低于行业平均水平，定价中自然留出了 2-3 倍的利润空间。本次调价，我们决定将这些结构性成本优势直接让利给开发者。

按降价后的新 API 价格运行，我们的生产推理引擎已接近满负荷运转，但仍能基本保持收支平衡。

我们此前建议 LLM 公司不要“盲目降价”，正是因为极少有模型架构和推理优化能做到 API 不亏本运行。如果更多节省算力和 KV Cache 的架构出现，加上更好的推理 Infra 来降低 API 成本，将形成行业的良性循环。

更重要的是，价格实惠、性能优异的模型 API 将拉动真实、持续、规模化的推理需求。这种上游需求将拉动整个 AI 基础设施链条的发展——包括芯片、服务器、光模块、PCB、液冷、电力、储能和数据中心——成为 AI 硬件系统性重估的战略支点。

长远来看，这将为训练和推理管线注入更经济、更易获取的算力，加速全球 AGI 在多个地区和技术路线上的并行进化。

更多技术细节，我们后续会发布详细的 Blog 文章。

评论互动