6.6万人排队！小米旗舰“超速”模型延长体验时间，官方：500强争着用

智东西（公众号：zhidxcom）
作者 | 陈佳
编辑 | 云鹏

智东西6月24日报道，昨日，小米MiMo开放平台发布公告，宣布延长旗下MiMo-V2.5-Pro-UltraSpeed模型的聊天体验与API接入体验期限。该模型于6月9日上线，原定体验窗口截至6月23日，但由于申请量远超预期，团队决定延长开放时间。

▲关于MiMo-V2.5-Pro-UltraSpeed限时体验延期的通知（图源：小米MiMo）

官方数据显示，截至6月23日，MiMo-V2.5-Pro-UltraSpeed已收到超过6.6万个使用申请，申请者包含世界500强公司、行业头部企业与个人开发者，涵盖法律、金融、通信、物流、汽车制造、文化传媒、高校等多个领域。

小米MiMo团队在公告中称，申请量“远超预期”，并强调“极致的推理速度将带来行业全新的使用场景与范式”。

延期后，用户可继续申请内测，已审核通过的用户可继续使用，具体下线时间将根据资源情况另行安排。

回顾此前的发布情况，MiMo-V2.5-Pro-UltraSpeed是小米MiMo团队与AI推理系统团队TileRT联合推出的极速推理模式，首次在万亿参数（1T）旗舰模型上突破1000 tokens/s的输出速度，峰值可达约1200 tokens/s。

该模型基于MoE架构，总参数量1T，单次前向传播激活参数约420亿，支持100万token超长上下文。

6.6万人排队！小米旗舰“超速”模型延长体验时间，官方：500强争着用

▲雷军发文宣布MiMo-V2.5-Pro-UltraSpeed新进展（图源：新浪微博）

小米称，UltraSpeed的实现路径不依赖Cerebras晶圆级芯片或Groq定制SRAM芯片等专用硬件方案，而是在一个标准8卡通用GPU节点上，通过模型侧和系统侧协同优化，让1T模型突破1000 tokens/s输出速度。

模型侧，小米采用FP4混合量化，主要对MoE Expert进行FP4量化，其他模块保留较高精度，以降低模型体积和访存压力。同时，MiMo引入DFlash投机解码，用块级Masked并行预测替代传统Draft模型逐token自回归，让大模型一次验证更多候选token。

系统侧，TileRT为FP4量化和DFlash流程定制编译引擎与计算核，并通过常驻内核引擎、异构流水线协作等方式减少算子启动和同步开销。小米在Hugging Face开源的MiMo-V2.5-Pro-FP4-DFlash模型卡称，该模型是UltraSpeed背后的底层模型，包含FP4量化backbone和BF16 DFlash drafter，许可证为MIT。

在定价方面，UltraSpeed API采用限时体验价，定价为标准版MiMo-V2.5-Pro的3倍，同时提供约10倍的输出速度提升。以官方定价为参照，标准版MiMo-V2.5-Pro缓存命中输入0.025元/百万tokens，缓存未命中输入3元/百万tokens，输出6元/百万tokens，UltraSpeed输出定价约为18元/百万tokens（约合2.65美元/百万tokens）。

作为参照，Anthropic最新旗舰模型Claude Opus的API公开定价为输入5美元/百万tokens（约合人民币34元），输出25美元/百万tokens（约合人民币170元）。

1000 tokens/s的速度，放在行业坐标中也有冲击力：据AI基准测试平台Artificial Analysis的数据，GPT-5.5的输出速度约为62至68 tokens/s，Claude Opus约71 tokens/s，Gemini Flash约192至200 tokens/s。

此前，UltraSpeed在海外开发者社区引发强烈反响。该话题在技术社区Hacker News上成为热帖，社交平台X上有开发者直言“8卡通用GPU节点跑出万亿MoE模型的1000 tokens/s，太疯狂了”，也有人对MoE架构下“万亿参数”的可比性提出质疑。

申请入口：
https://platform.xiaomimimo.com/ultraspeed
Chat体验入口：
https://ultraspeed.xiaomimimo.com
Hugging Face地址：
https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash

相关推荐