macOS 自带的听写功能虽然便捷,但在面对技术术语、英文缩写或口语化的“嗯、然后”等冗余词汇时,识别精度和文本质量往往不尽如人意。此外,系统级语音输入的数据处理路径对部分用户而言缺乏透明度。
Input 0 是一款专为 Mac 设计的开源语音输入工具。它通过将“语音转文字”过程留在本地,并允许用户按需接入自定义 LLM API 进行文本润色,在保证隐私可控的同时,实现了从“能记录”到“高质量输出”的跨越。
Input 0 的核心竞争力在于其 分层处理机制:它将本地转录、模型选择与 LLM 润色解耦,用户可以根据需求灵活组合。这意味着你可以在不依赖云端识别的情况下完成文字转录,仅在需要精修文本时才调用大模型。
Input 0 与传统听写工具的区别
传统的语音输入通常依赖云端 API,在网络波动时会出现明显的延迟,且数据流向不透明。Input 0 则采用了截然不同的工作流:
当你按下快捷键录音并松手后,软件会优先调用设备本地算力完成转录。如果用户配置了 LLM API,系统会紧接着将转录文本发送至大模型,自动剔除口水话、修正专业名词,最后将纯净的文本直接粘贴至当前输入框中。
操作流程详解
Input 0 的交互逻辑非常简洁,默认快捷键为 Option + Space,具体步骤如下:
- 触发录音:长按快捷键,界面弹出半透明浮层,不干扰当前操作。
- 本地转录:松开按键,本地引擎立即处理语音。搭载 Apple Silicon 芯片的 Mac 在此阶段速度优势明显。
- AI 润色与输入:调用预设的 LLM API 优化语法与术语,将最终结果自动填入输入框。
提示:在任何阶段按下 ESC 键均可立即中止操作。你可以在历史记录中对比“原始转录”与“润色后”的文本差异。
本地语音引擎选择指南
Input 0 支持多种 STT(语音转文本)引擎,用户可根据语言需求选择性下载模型:
| 引擎名称 | 适用场景 | 模型体积 |
|---|---|---|
| SenseVoice Small | 中文为主的多语言场景 | ~228 MB |
| Paraformer Chinese | 纯中文,追求极速推理 | ~217 MB |
| Whisper Large v3 Turbo | 高精度英文或多语混杂 | ~1.5 GB |
| Moonshine Base | 纯英文,响应极快 | ~274 MB |
对于大多数中文用户,推荐优先选择 SenseVoice Small 或 Paraformer,在启动速度与体积之间达到了较好的平衡。
LLM API 配置步骤
Input 0 并不绑定特定服务商,只要兼容 OpenAI 格式的接口均可接入。配置路径如下:
设置路径: 设置 (⚙️) $rightarrow$ LLM API
- API Key:填入 OpenAI 或第三方兼容服务商的密钥。
- API Base URL:可修改为 Groq、Azure 或本地 Ollama 的接口地址。
- 모델:指定模型名称(如 gpt-4o-mini)。
配置完成后,建议点击「Test Connection」确认连接状态。
若无需润色功能,可不填写 API Key,此时软件将仅输出原始的本地转录文本。
注意事项与门槛
在安装使用前,请留意以下三个潜在问题:
- 网络环境:模型托管在 Hugging Face,若无法正常访问该平台,模型下载将失败。
- 硬件依赖:强烈建议使用 Apple Silicon (M 系列) 芯片的 Mac。Intel 机型虽能运行,但转录效率较低且发热明显。
- 隐私边界:请注意,虽然转录在本地完成,但一旦启用 LLM 润色,转录后的文本会被发送至你配置的 API 接口。
适用场景总结
推荐使用人群: M 系列 Mac 用户、需要快速口述草稿或会议记录者、经常输入中英混排技术术语的开发者。
不推荐人群: 仅需偶尔简单语音输入、不愿折腾模型下载与 API 配置的用户(建议直接使用系统自带听写)。
关于授权:本项目采用 CC BY-NC 4.0 许可证,仅限个人学习与非商业使用,商业环境下请务必核对授权条款。
项目资源
免责声明:本文内容基于 2026 年 4 月公开文档整理。本地模型性能受硬件环境影响,使用第三方 API 润色时请遵守相关服务条款及数据合规要求。






