MiMo API 降价背后的技术逻辑:最高降幅 99% 的秘密
MiMo API 降价背后的技术逻辑:
降幅最大的是 Input(Cache Hit),高达 99%。核心原因在于我们的推理框架现已支持针对 SWA(Sliding Window Attention)的分层 KV Cache 优化。生产推理引擎测试显示,该优化将缓存 Token 容量提升了 5 倍,相当于缓存成本降低了 80%。
再加上 Hybrid 模型中多个 Full Attention 模块之间的 Cache Read Overlap,实际成本进一步降低。
Input(Cache Miss)和 Output 的价格也降低了 60%-80%,这主要得益于模型架构带来的极致 1:7 Full:SWA 稀疏比(70 层 MiMo-V2.5-Pro 的 prefill 计算量大约等同于一个 10 层的 GQA 模型)。这使得我们的原始推理成本远低于行业平均水平,定价中自然留出了 2-3 倍的利润空间。本次调价,我们决定将这些结构性成本优势直接让利给开发者。
按降价后的新 API 价格运行,我们的生产推理引擎已接近满负荷运转,但仍能基本保持收支平衡。
我们此前建议 LLM 公司不要“盲目降价”,正是因为极少有模型架构和推理优化能做到 API 不亏本运行。如果更多节省算力和 KV Cache 的架构出现,加上更好的推理 Infra 来降低 API 成本,将形成行业的良性循环。
更重要的是,价格实惠、性能优异的模型 API 将拉动真实、持续、规模化的推理需求。这种上游需求将拉动整个 AI 基础设施链条的发展——包括芯片、服务器、光模块、PCB、液冷、电力、储能和数据中心——成为 AI 硬件系统性重估的战略支点。
长远来看,这将为训练和推理管线注入更经济、更易获取的算力,加速全球 AGI 在多个地区和技术路线上的并行进化。
更多技术细节,我们后续会发布详细的 Blog 文章。
评论互动