团队讨论语音输入时,很容易先谈模型:哪家转录更准,哪家大模型更会润色。但用户会不会持续使用,通常不是模型参数决定的,而是整条链路是否足够短。
一个可持续的语音工作流至少要过四关
1. 触发要足够轻
如果唤起流程复杂,用户只会在“懒得打长段文字”的极少数场景里使用。真正高频的语音输入,应该像复制粘贴一样接近肌肉记忆。
2. 输出要先可用,再完美
很多产品把所有精力花在“生成更漂亮的文本”,却忽略了第一步是让结果立刻可用。对多数用户来说,先回到输入框、结构正确、标点基本到位,比多一层复杂改写更重要。
3. 同一条语音,不能只有一种结果
用户对邮件、聊天、文档、翻译的期待完全不同。好的工作流应该允许同一次语音输入在不同模式下产生不同结果,例如:
- 原样转录
- 翻译后输出
- 改写成更正式的语气
- 结合当前应用规则做增强
4. 错误必须可修
再好的模型也会犯错。真正影响使用留存的,不是有没有错误,而是错误出现后用户修正它要花几步。
为什么我们强调后处理
语音输入常见的问题并不是“完全听错”,而是:
- 标点缺失
- 语气松散
- 口头禅残留
- 专有名词不稳定
- 中英文混输时格式混乱
这些问题如果每次都要用户手动修,语音就很难比键盘更省力。后处理的价值就在这里:它把模型输出变成更贴近交付态的文本。
可靠工作流的目标不是炫技
很多 AI 产品喜欢展示能力堆叠,但真正有价值的工作流往往很朴素:
- 按住说话。
- 系统自动识别当前场景。
- 文本完成清洗或翻译。
- 结果直接回到原位置。
如果这四步稳定,用户会自然增加使用频率;如果任何一步经常断掉,模型再强也很难留住习惯。
Voxt 在做的事情
Voxt 不是想让用户多学一套新编辑器,而是尽量把语音输入塞进现有工作方式里。我们更关心以下几个指标:
- 一次触发到结果落回焦点的总时长
- 不同应用场景下的输出一致性
- 用户字典和术语修正的可积累性
- 翻译、改写、增强三种模式切换的成本
对语音输入来说,短工作流比大而全更重要。只有当整个链路足够短,用户才会真的把它留在日常里。