智东西(公众号:zhidxcom)
作者 | 陈佳
编辑 | 云鹏

智东西6月24日报道,昨日,小米MiMo开放平台发布公告,宣布延长旗下MiMo-V2.5-Pro-UltraSpeed模型的聊天体验与API接入体验期限。该模型于6月9日上线,原定体验窗口截至6月23日,但由于申请量远超预期,团队决定延长开放时间

6.6万人排队!小米旗舰“超速”模型延长体验时间,官方:500强争着用

▲关于MiMo-V2.5-Pro-UltraSpeed限时体验延期的通知(图源:小米MiMo)

官方数据显示,截至6月23日,MiMo-V2.5-Pro-UltraSpeed已收到超过6.6万个使用申请,申请者包含世界500强公司、行业头部企业与个人开发者,涵盖法律、金融、通信、物流、汽车制造、文化传媒、高校等多个领域。

小米MiMo团队在公告中称,申请量“远超预期”,并强调“极致的推理速度将带来行业全新的使用场景与范式”。

延期后,用户可继续申请内测,已审核通过的用户可继续使用,具体下线时间将根据资源情况另行安排。

回顾此前的发布情况,MiMo-V2.5-Pro-UltraSpeed是小米MiMo团队与AI推理系统团队TileRT联合推出的极速推理模式,首次在万亿参数(1T)旗舰模型上突破1000 tokens/s的输出速度,峰值可达约1200 tokens/s。

该模型基于MoE架构,总参数量1T,单次前向传播激活参数约420亿,支持100万token超长上下文。

6.6万人排队!小米旗舰“超速”模型延长体验时间,官方:500强争着用

▲雷军发文宣布MiMo-V2.5-Pro-UltraSpeed新进展(图源:新浪微博)

小米称,UltraSpeed的实现路径不依赖Cerebras晶圆级芯片或Groq定制SRAM芯片等专用硬件方案,而是在一个标准8卡通用GPU节点上,通过模型侧和系统侧协同优化,让1T模型突破1000 tokens/s输出速度。

模型侧,小米采用FP4混合量化,主要对MoE Expert进行FP4量化,其他模块保留较高精度,以降低模型体积和访存压力。同时,MiMo引入DFlash投机解码,用块级Masked并行预测替代传统Draft模型逐token自回归,让大模型一次验证更多候选token。

系统侧,TileRT为FP4量化和DFlash流程定制编译引擎与计算核,并通过常驻内核引擎、异构流水线协作等方式减少算子启动和同步开销。小米在Hugging Face开源的MiMo-V2.5-Pro-FP4-DFlash模型卡称,该模型是UltraSpeed背后的底层模型,包含FP4量化backbone和BF16 DFlash drafter,许可证为MIT。

在定价方面,UltraSpeed API采用限时体验价,定价为标准版MiMo-V2.5-Pro的3倍,同时提供约10倍的输出速度提升。以官方定价为参照,标准版MiMo-V2.5-Pro缓存命中输入0.025元/百万tokens,缓存未命中输入3元/百万tokens,输出6元/百万tokens,UltraSpeed输出定价约为18元/百万tokens(约合2.65美元/百万tokens)。

作为参照,Anthropic最新旗舰模型Claude Opus的API公开定价为输入5美元/百万tokens(约合人民币34元),输出25美元/百万tokens(约合人民币170元)。

1000 tokens/s的速度,放在行业坐标中也有冲击力:据AI基准测试平台Artificial Analysis的数据,GPT-5.5的输出速度约为62至68 tokens/s,Claude Opus约71 tokens/s,Gemini Flash约192至200 tokens/s。

此前,UltraSpeed在海外开发者社区引发强烈反响。该话题在技术社区Hacker News上成为热帖,社交平台X上有开发者直言“8卡通用GPU节点跑出万亿MoE模型的1000 tokens/s,太疯狂了”,也有人对MoE架构下“万亿参数”的可比性提出质疑。

申请入口:
https://platform.xiaomimimo.com/ultraspeed
Chat体验入口:
https://ultraspeed.xiaomimimo.com
Hugging Face地址:
https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash