返回博客

工程 2026年5月6日

本地模型和远程模型怎么配合,才适合 macOS 语音输入

延迟、隐私和结果质量并不是非此即彼。更实际的做法,是把转录和文本增强拆开,再按工作流分别路由本地与远程模型。

做桌面语音产品时,团队经常会掉进一个二选一问题:到底应该押注本地模型,还是全部交给远程服务。这个问题本身就不太准确,因为语音工作流并不是一个单阶段任务。

先拆开流程,再谈模型

一次完整的语音输入,通常包含两层:

  1. 语音转文字
  2. 文本后处理,例如清洗、翻译、改写或增强

这两层对延迟、成本和隐私的要求并不一样,所以用同一种部署策略去覆盖全部场景,通常都不会最优。

本地模型的优势在于稳定响应

对高频输入来说,用户最敏感的是“有没有立刻开始工作”。本地 ASR 的优势通常体现在:

  • 无需等待网络往返
  • 在网络不稳定时仍可工作
  • 对短句输入的体感延迟更低
  • 敏感内容可以留在本机

但它的局限也很明显:设备差异大、模型体积受限、升级成本更高。

远程模型更适合承担复杂增强

当任务从“听懂”变成“写好”以后,远程模型的弹性往往更强。比如:

  • 多语言翻译
  • 更复杂的语气改写
  • 长文本结构整理
  • 更强的知识型补全

这类任务通常允许多几百毫秒,因为用户期待的是更完整的结果,而不是纯粹的即时回填。

更合理的路线是按阶段路由

Voxt 当前更倾向于把模型路由拆成两条独立通道:

  • ASR 通道优先考虑速度和稳定性
  • LLM 通道优先考虑增强质量和场景适配

这样做的好处是,用户可以根据场景自由组合:

  • 本地转录 + 本地增强
  • 本地转录 + 远程增强
  • 远程转录 + 远程增强
  • 针对特定应用单独覆盖规则

产品设计上最重要的是“可预测”

模型选择再灵活,如果用户不知道当前会走哪条链路,也会产生不必要的不确定性。所以在产品层面,路由系统必须做到两件事:

  1. 规则清晰,用户知道什么时候会切换模型。
  2. 结果可复用,用户可以把好的组合固化下来。

对桌面工具来说,架构要服务习惯

语音输入不是一次性的炫技功能,而是要反复进入用户日常的能力。对于这种场景,最好的架构往往不是“全本地”或“全远程”,而是允许不同阶段按照延迟、隐私和质量各自优化。

这也是 Voxt 继续做模型分层和应用级路由的原因。我们要优化的不是某个 benchmark,而是用户一天里重复几十次输入时的真实体感。