本地模型和远程模型怎么配合，才适合 macOS 语音输入

做桌面语音产品时，团队经常会掉进一个二选一问题：到底应该押注本地模型，还是全部交给远程服务。这个问题本身就不太准确，因为语音工作流并不是一个单阶段任务。

先拆开流程，再谈模型

一次完整的语音输入，通常包含两层：

这两层对延迟、成本和隐私的要求并不一样，所以用同一种部署策略去覆盖全部场景，通常都不会最优。

对高频输入来说，用户最敏感的是“有没有立刻开始工作”。本地 ASR 的优势通常体现在：

但它的局限也很明显：设备差异大、模型体积受限、升级成本更高。

当任务从“听懂”变成“写好”以后，远程模型的弹性往往更强。比如：

这类任务通常允许多几百毫秒，因为用户期待的是更完整的结果，而不是纯粹的即时回填。

Voxt 当前更倾向于把模型路由拆成两条独立通道：

这样做的好处是，用户可以根据场景自由组合：

模型选择再灵活，如果用户不知道当前会走哪条链路，也会产生不必要的不确定性。所以在产品层面，路由系统必须做到两件事：

语音输入不是一次性的炫技功能，而是要反复进入用户日常的能力。对于这种场景，最好的架构往往不是“全本地”或“全远程”，而是允许不同阶段按照延迟、隐私和质量各自优化。

这也是 Voxt 继续做模型分层和应用级路由的原因。我们要优化的不是某个 benchmark，而是用户一天里重复几十次输入时的真实体感。