把语音输入真正用起来，需要的不是模型更多，而是工作流更短

团队讨论语音输入时，很容易先谈模型：哪家转录更准，哪家大模型更会润色。但用户会不会持续使用，通常不是模型参数决定的，而是整条链路是否足够短。

一个可持续的语音工作流至少要过四关

如果唤起流程复杂，用户只会在“懒得打长段文字”的极少数场景里使用。真正高频的语音输入，应该像复制粘贴一样接近肌肉记忆。

很多产品把所有精力花在“生成更漂亮的文本”，却忽略了第一步是让结果立刻可用。对多数用户来说，先回到输入框、结构正确、标点基本到位，比多一层复杂改写更重要。

用户对邮件、聊天、文档、翻译的期待完全不同。好的工作流应该允许同一次语音输入在不同模式下产生不同结果，例如：

再好的模型也会犯错。真正影响使用留存的，不是有没有错误，而是错误出现后用户修正它要花几步。

语音输入常见的问题并不是“完全听错”，而是：

这些问题如果每次都要用户手动修，语音就很难比键盘更省力。后处理的价值就在这里：它把模型输出变成更贴近交付态的文本。

很多 AI 产品喜欢展示能力堆叠，但真正有价值的工作流往往很朴素：

如果这四步稳定，用户会自然增加使用频率；如果任何一步经常断掉，模型再强也很难留住习惯。

Voxt 不是想让用户多学一套新编辑器，而是尽量把语音输入塞进现有工作方式里。我们更关心以下几个指标：

对语音输入来说，短工作流比大而全更重要。只有当整个链路足够短，用户才会真的把它留在日常里。