一、語音功能概覽
OpenClaw 的語音功能解決了一個實際問題:有時候打字不方便。你在開車、做飯、運動時想讓 AI 代理幫你做事,語音是最自然的互動方式。[5]
語音互動包含兩個方向:
- 語音輸入(STT):你用語音說出指令 → Whisper 轉成文字 → 代理理解並執行
- 語音輸出(TTS):代理完成任務 → 文字結果 → ElevenLabs 轉成語音回覆你
二、ElevenLabs TTS 語音合成設定
2.1 取得 API Key
前往 ElevenLabs 官網註冊帳號(免費方案每月提供 10,000 字元的語音額度)。在 Profile 頁面取得你的 API Key。[2]
2.2 設定 OpenClaw
將 API Key 寫入 OpenClaw 設定:[6]
openclaw config set sag.elevenlabs_api_key "你的_ELEVENLABS_API_KEY"
重啟 Gateway:
openclaw gateway restart
2.3 選擇聲音
ElevenLabs 提供多種預設聲音。你可以在其平台上試聽後,將聲音 ID 設定為代理的預設聲音:
openclaw config set sag.elevenlabs_voice_id "VOICE_ID"
ElevenLabs 也支援自訂聲音複製——上傳語音樣本即可建立專屬聲音。這對需要品牌一致性的企業應用特別有價值。[2]
三、Whisper 語音辨識設定
3.1 OpenAI Whisper 串接
Whisper 是 OpenAI 開發的語音辨識模型,支援超過 90 種語言(包括中文)。[3]
openclaw config set sag.whisper_provider "openai"
Whisper 的 API 呼叫使用你已設定的 OpenAI API Key,不需要額外的認證。
3.2 中文語音辨識品質
Whisper 對中文(普通話/國語)的辨識準確率在安靜環境下超過 95%。但需要注意:
- 方言與口音:強烈的方言口音可能降低準確率
- 背景噪音:嘈雜環境中建議使用降噪麥克風
- 專業術語:技術術語(如 API、Docker、Kubernetes)通常能正確辨識
四、實戰應用場景
4.1 Telegram 語音指令
在 Telegram 中,你可以直接長按錄音按鈕,說出你的指令:[7]
「幫我檢查伺服器的磁碟使用率,如果超過 80% 就告訴我哪些目錄佔最多空間。」
代理收到語音後,Whisper 會將其轉為文字,代理執行任務後以文字或語音回覆(取決於你的設定)。
4.2 語音報告
搭配 Cron 定時任務,代理可以每天早上用語音向你報告重要資訊——像是一個個人新聞播報員。
4.3 無障礙互動
語音功能讓視障使用者或行動不便的使用者也能操作 AI 代理,無需觸碰鍵盤或螢幕。
五、費用估算
| 服務 | 免費額度 | 付費價格 |
|---|---|---|
| ElevenLabs TTS | 10,000 字元/月 | $5/月起(30,000 字元) |
| OpenAI Whisper | 無免費額度 | $0.006/分鐘 |
以日常使用估算:每天 10 次語音互動、每次平均 30 秒語音輸入 + 200 字元語音回覆,月費大約 $2–$5 美元。
六、疑難排解
| 問題 | 原因 | 解法 |
|---|---|---|
| 語音回覆沒有聲音 | ElevenLabs API Key 未設定或無效 | 確認 sag.elevenlabs_api_key 設定正確 |
| 語音辨識錯誤率高 | 音質差或背景噪音 | 使用降噪麥克風;在安靜環境中錄音 |
| 中文指令被辨識為英文 | Whisper 語言偵測錯誤 | 在語音開頭加上一句明確的中文句子 |
| 語音回覆延遲過長 | ElevenLabs API 回應慢 | 選擇延遲較低的聲音模型;檢查網路連線 |
| 免費額度用完 | ElevenLabs 月度限額耗盡 | 升級方案或暫時關閉 TTS,改用純文字回覆 |
結語
語音功能讓 OpenClaw 從「文字指令工具」進化為「語音助理」。[1] 設定只需要兩個 API Key 和幾條指令,但帶來的互動體驗提升是質的飛躍——特別是在你無法打字的場景中。
語音功能依賴通訊渠道的支援。如果你還沒設定 Telegram,建議先完成《Telegram 整合指南》。對 OpenClaw 的完整設定有疑問?請參閱《設定完全指南》。