什麼是PY-XIAOZHI?
PY-XIAOZHI 是一款基於Python 開發的AI 小智語音客戶端。它透過移植原生小智ESP32 的程式碼,將原本需要特定硬體才能實現的語音互動功能,直接移轉到通用電腦平台。這意味著用戶無需購買或組裝複雜的硬體設備,只需在桌上型電腦或筆記型電腦上運行,即可享受流暢的即時語音對話體驗。
在協議支援上,此專案原生兼容MQTT 與WSS 雙協議,不僅支援對話過程中的即時打斷,還能維持連續的互動流。由於採用了模組化設計,開發者可以輕鬆參考官方實作來擴展新協議。
核心功能詳解
流暢的語音互動體驗
系統整合了完整的語音輸入、辨識與合成鏈路,能夠模擬自然的對話節奏。得益於 打斷式交互 機制,AI 的回應更加及時;而開啟「自動對話」模式後,使用者在多輪溝通中無需重複喚醒,互動體驗更加連貫。
多模態視覺處理
透過整合影像辨識能力,PY-XIAOZHI 能將靜態畫面轉化為可理解的文字訊息,並結合語音輸出建構豐富的互動場景。使用者只需配置智譜大模型的API Key,即可啟用物件辨識、人臉偵測等進階視覺任務。
IoT 智慧家庭集成
專案深度對接Home Assistant 平台,透過HTTP API 實現對燈具、開關及各類感測器的遠端控制。除了實體硬件,它還支援虛擬設備(如倒數計時器)的接入,其模組化的註冊流程極大降低了設備擴展的難度。
高效能網路音樂播放
利用 pygame 庫建構的播放器,支援播放、暫停、進度調節及歌詞顯示。透過本地快取機制,有效降低了網路波動導致的播放中斷,確保音訊串流的穩定性。
安全傳輸與喚醒機制
系統內建喚醒詞啟動功能(預設為關閉),可實現真正的免觸互動。為了保障隱私與資料安全,所有音訊資料均透過加密的WSS 協定進行傳輸,有效防止資料被竊聽或竄改。
部署與使用特性
多模式互動介面
- GUI 模式: 提供直覺的圖形介面,透過AI 表情和對話文字增強沉浸感。
- CLI 模式: 支援純命令列運行,完美適配資源受限或無顯示器的環境。
跨平台相容性
PY-XIAOZHI 廣泛相容主流作業系統,包括Windows 10+、macOS 10.15+ 以及各類Linux 發行版。部署門檻較低,僅需安裝 Python 3.9–3.12 環境並確保麥克風與揚聲器正常工作即可。
自動化與穩定性優化
為了提升使用者體驗,專案實現了多項自動化細節:自動管理MAC 位址以規避網路衝突;首次啟動時自動複製驗證碼並喚起瀏覽器完成認證。同時,透過類封裝和模組化開發,解決了斷線重連等關鍵穩定性問題,為二次開發提供了便利。
資源獲取
客戶端下載: 點擊跳轉網盤


