做桌面语音产品时,团队经常会掉进一个二选一问题:到底应该押注本地模型,还是全部交给远程服务。这个问题本身就不太准确,因为语音工作流并不是一个单阶段任务。
先拆开流程,再谈模型
一次完整的语音输入,通常包含两层:
- 语音转文字
- 文本后处理,例如清洗、翻译、改写或增强
这两层对延迟、成本和隐私的要求并不一样,所以用同一种部署策略去覆盖全部场景,通常都不会最优。
本地模型的优势在于稳定响应
对高频输入来说,用户最敏感的是“有没有立刻开始工作”。本地 ASR 的优势通常体现在:
- 无需等待网络往返
- 在网络不稳定时仍可工作
- 对短句输入的体感延迟更低
- 敏感内容可以留在本机
但它的局限也很明显:设备差异大、模型体积受限、升级成本更高。
远程模型更适合承担复杂增强
当任务从“听懂”变成“写好”以后,远程模型的弹性往往更强。比如:
- 多语言翻译
- 更复杂的语气改写
- 长文本结构整理
- 更强的知识型补全
这类任务通常允许多几百毫秒,因为用户期待的是更完整的结果,而不是纯粹的即时回填。
更合理的路线是按阶段路由
Voxt 当前更倾向于把模型路由拆成两条独立通道:
- ASR 通道优先考虑速度和稳定性
- LLM 通道优先考虑增强质量和场景适配
这样做的好处是,用户可以根据场景自由组合:
- 本地转录 + 本地增强
- 本地转录 + 远程增强
- 远程转录 + 远程增强
- 针对特定应用单独覆盖规则
产品设计上最重要的是“可预测”
模型选择再灵活,如果用户不知道当前会走哪条链路,也会产生不必要的不确定性。所以在产品层面,路由系统必须做到两件事:
- 规则清晰,用户知道什么时候会切换模型。
- 结果可复用,用户可以把好的组合固化下来。
对桌面工具来说,架构要服务习惯
语音输入不是一次性的炫技功能,而是要反复进入用户日常的能力。对于这种场景,最好的架构往往不是“全本地”或“全远程”,而是允许不同阶段按照延迟、隐私和质量各自优化。
这也是 Voxt 继续做模型分层和应用级路由的原因。我们要优化的不是某个 benchmark,而是用户一天里重复几十次输入时的真实体感。