PY-XIAOZHI：基於Python 的AI 小智語音用戶端實現方案，低門檻體驗智慧語音交互

343次閱讀

PY-XIAOZHI 是一款基於Python 開發的AI 小智語音客戶端。它透過移植原生小智ESP32 的程式碼，將原本需要特定硬體才能實現的語音互動功能，直接移轉到通用電腦平台。這意味著用戶無需購買或組裝複雜的硬體設備，只需在桌上型電腦或筆記型電腦上運行，即可享受流暢的即時語音對話體驗。

在協議支援上，此專案原生兼容MQTT 與WSS 雙協議，不僅支援對話過程中的即時打斷，還能維持連續的互動流。由於採用了模組化設計，開發者可以輕鬆參考官方實作來擴展新協議。

系統整合了完整的語音輸入、辨識與合成鏈路，能夠模擬自然的對話節奏。得益於 打斷式交互 機制，AI 的回應更加及時；而開啟「自動對話」模式後，使用者在多輪溝通中無需重複喚醒，互動體驗更加連貫。

透過整合影像辨識能力，PY-XIAOZHI 能將靜態畫面轉化為可理解的文字訊息，並結合語音輸出建構豐富的互動場景。使用者只需配置智譜大模型的API Key，即可啟用物件辨識、人臉偵測等進階視覺任務。

專案深度對接Home Assistant 平台，透過HTTP API 實現對燈具、開關及各類感測器的遠端控制。除了實體硬件，它還支援虛擬設備（如倒數計時器）的接入，其模組化的註冊流程極大降低了設備擴展的難度。

利用 pygame 庫建構的播放器，支援播放、暫停、進度調節及歌詞顯示。透過本地快取機制，有效降低了網路波動導致的播放中斷，確保音訊串流的穩定性。

系統內建喚醒詞啟動功能（預設為關閉），可實現真正的免觸互動。為了保障隱私與資料安全，所有音訊資料均透過加密的WSS 協定進行傳輸，有效防止資料被竊聽或竄改。

GUI 模式： 提供直覺的圖形介面，透過AI 表情和對話文字增強沉浸感。
CLI 模式： 支援純命令列運行，完美適配資源受限或無顯示器的環境。

PY-XIAOZHI 廣泛相容主流作業系統，包括Windows 10+、macOS 10.15+ 以及各類Linux 發行版。部署門檻較低，僅需安裝 Python 3.9–3.12 環境並確保麥克風與揚聲器正常工作即可。

為了提升使用者體驗，專案實現了多項自動化細節：自動管理MAC 位址以規避網路衝突；首次啟動時自動複製驗證碼並喚起瀏覽器完成認證。同時，透過類封裝和模組化開發，解決了斷線重連等關鍵穩定性問題，為二次開發提供了便利。

客戶端下載： 點擊跳轉網盤

官方文件： https://huangjunsen0406.github.io/PY-XIAOZHI/

GitHub 倉庫： https://github.com/huangjunsen0406/PY-XIAOZHI

正文完

發表至： AI工具教學創意工具

2025年5月13日

0

轉載說明：除特別說明外，本站原創內容採用Creative Commons Attribution 4.0 (CC BY 4.0) 授權協議發布，轉載請註明來源並保留原文連結。本站部分內容基於公開資料整理，並可能經AI 技術輔助生成或優化，僅供參考，不構成任何專業建議，請讀者自行判斷與核實。本站不對第三方資源的可用性、安全性或合法性承擔任何責任。

专业级伪代码与技术风截图在线生成工具

想要快速生成像手写一样的英文签名或信件？试试这款 Calligrapher 線上工具

想让AI语音不再僵硬？试试MeloTTS实现自然流畅的多语言文本转语音

想在不同平台流畅聆听李志的音乐？这款跨平台播放器帮你统一管理

MIUI ROM 资源库：最新官方刷机包下载指南

Stream-rec：支持多平台直播自动录制工具的安装与配置指南

NewCGer 影视音乐素材库：可商用资源下载指南与适用场景说明

高效AI提示词库：适用场景指南与实用指令集下载

Hidden Word：實作文字不可見浮水印植入的內容版權保護方案