macOS की अंतर्निहित डिक्टेशन सुविधा सुविधाजनक तो है, लेकिन तकनीकी शब्दों, अंग्रेजी संक्षिप्ताक्षरों या "उम" और "देन" जैसे बोलचाल के शब्दों के मामले में इसकी पहचान सटीकता और पाठ की गुणवत्ता अक्सर असंतोषजनक होती है। इसके अलावा, सिस्टम-स्तरीय वॉयस इनपुट के लिए डेटा प्रोसेसिंग प्रक्रिया कुछ उपयोगकर्ताओं के लिए पारदर्शी नहीं है।
इनपुट 0 यह मैक के लिए विशेष रूप से डिज़ाइन किया गया एक ओपन-सोर्स वॉइस इनपुट टूल है। "स्पीच-टू-टेक्स्ट" प्रक्रिया को स्थानीय रखते हुए और उपयोगकर्ताओं को आवश्यकतानुसार टेक्स्ट को बेहतर बनाने के लिए कस्टम एलएलएम एपीआई का उपयोग करने की अनुमति देकर, यह गोपनीयता और नियंत्रण सुनिश्चित करते हुए "रिकॉर्ड करने में सक्षम होने" से "उच्च-गुणवत्ता वाले आउटपुट" तक की छलांग लगाता है।
इनपुट 0 की मुख्य प्रतिस्पर्धात्मकता इसमें निहित है: स्तरित प्रसंस्करण तंत्रयह स्थानीय प्रतिलेखन, मॉडल चयन और एलएलएम पॉलिशिंग को अलग करता है, जिससे उपयोगकर्ता अपनी आवश्यकताओं के अनुसार इन्हें लचीले ढंग से संयोजित कर सकते हैं। इसका अर्थ है कि आप क्लाउड-आधारित पहचान पर निर्भर हुए बिना पाठ प्रतिलेखन पूरा कर सकते हैं, और पाठ परिष्करण की आवश्यकता होने पर ही बड़े मॉडल को कॉल कर सकते हैं।
इनपुट 0 और पारंपरिक श्रुतलेख उपकरणों के बीच अंतर
परंपरागत वॉइस इनपुट आमतौर पर क्लाउड एपीआई पर निर्भर करता है, जिसमें नेटवर्क में उतार-चढ़ाव के दौरान काफी विलंब हो सकता है और डेटा प्रवाह में पारदर्शिता की कमी होती है। दूसरी ओर, इनपुट 0 पूरी तरह से अलग कार्यप्रणाली का उपयोग करता है:
जब आप रिकॉर्डिंग के लिए शॉर्टकट कुंजी दबाते हैं और उसे छोड़ते हैं, तो सॉफ़्टवेयर सबसे पहले ट्रांसक्रिप्शन पूरा करने के लिए डिवाइस की स्थानीय कंप्यूटिंग शक्ति का उपयोग करेगा। यदि उपयोगकर्ता ने LLM API को कॉन्फ़िगर किया है, तो सिस्टम ट्रांसक्राइब्ड टेक्स्ट को बड़े मॉडल में भेजेगा, जो स्वचालित रूप से बोलचाल के शब्दों को हटा देगा और तकनीकी शब्दों को सही करेगा, और अंत में साफ टेक्स्ट को सीधे वर्तमान इनपुट बॉक्स में पेस्ट कर देगा।
विस्तृत संचालन प्रक्रियाएँ
इनपुट 0 के लिए इंटरैक्शन लॉजिक बहुत सरल है, और डिफ़ॉल्ट शॉर्टकट कुंजी यह है... विकल्प + स्थानइसके लिए विशिष्ट चरण निम्नलिखित हैं:
- ट्रिगर रिकॉर्डिंगवर्तमान क्रिया में बाधा डाले बिना अर्ध-पारदर्शी ओवरले लाने के लिए शॉर्टकट कुंजी को देर तक दबाएं।
- स्थानीय प्रतिलेखनकुंजी छोड़ते ही स्थानीय इंजन तुरंत आवाज़ को संसाधित करना शुरू कर देता है। इस चरण में एप्पल सिलिकॉन चिप्स से लैस मैक कंप्यूटरों को गति का उल्लेखनीय लाभ मिलता है।
- एआई संपादन और इनपुट: यह पूर्व निर्धारित एलएलएम एपीआई को कॉल करके वाक्य संरचना और शब्दावली को अनुकूलित करता है, और अंतिम परिणाम को स्वचालित रूप से इनपुट बॉक्स में भर देता है।
संकेत देना:किसी भी चरण में दबाएँ ईएससी किसी भी कुंजी को दबाने से ऑपरेशन तुरंत रुक जाएगा। आप इतिहास में "मूल प्रतिलेखन" और "संशोधित" पाठ के बीच अंतर की तुलना कर सकते हैं।
स्थानीय स्पीच इंजन चयन गाइड
इनपुट 0 कई एसटीटी (स्पीच-टू-टेक्स्ट) इंजनों का समर्थन करता है, जिससे उपयोगकर्ता अपनी भाषा की आवश्यकताओं के आधार पर चुनिंदा मॉडल डाउनलोड कर सकते हैं।
| इंजन का नाम | लागू परिदृश्य | मॉडल वॉल्यूम |
|---|---|---|
| सेंसवॉइस स्मॉल | चीनी भाषा को प्राथमिक भाषा के रूप में उपयोग करने वाले बहुभाषी परिदृश्य | ~228 एमबी |
| पैराफॉर्मर (चीनी) | सबसे तेज़ तर्कशक्ति चाहने वालों के लिए शुद्ध चीनी भाषा। | लगभग 217 एमबी |
| व्हिस्पर लार्ज v3 टर्बो | उच्च परिशुद्धता वाली अंग्रेजी या बहुभाषी मिश्रित भाषाएँ | ~1.5 जीबी |
| मूनशाइन बेस | शुद्ध अंग्रेजी, अत्यंत त्वरित प्रतिक्रिया समय | लगभग 274 एमबी |
अधिकांश चीनी उपयोगकर्ताओं के लिए, [विकल्प] चुनना अनुशंसित है। सेंसवॉइस स्मॉल या पैराफॉर्मरयह स्टार्टअप की गति और आकार के बीच अच्छा संतुलन बनाए रखता है।
एलएलएम एपीआई कॉन्फ़िगरेशन चरण
इनपुट 0 किसी विशिष्ट सेवा प्रदाता से बाध्य नहीं है; OpenAI प्रारूप के साथ संगत कोई भी इंटरफ़ेस उपयोग किया जा सकता है। कॉन्फ़िगरेशन पथ इस प्रकार है:
पथ निर्धारित करें: सेटिंग्स (⚙️) $rightarrow$ एलएलएम एपीआई
- एपीआई कुंजीOpenAI या किसी तीसरे पक्ष के संगत सेवा प्रदाता से प्राप्त कुंजी दर्ज करें।
- एपीआई बेस यूआरएलइसे Groq, Azure या स्थानीय Ollam के इंटरफ़ेस पते में बदला जा सकता है।
- नमूना: मॉडल का नाम निर्दिष्ट करें (उदाहरण के लिए, gpt-4o-mini)।
कॉन्फ़िगरेशन के बाद, कनेक्शन की स्थिति की पुष्टि करने के लिए "टेस्ट कनेक्शन" पर क्लिक करने की सलाह दी जाती है।
यदि पॉलिशिंग फ़ंक्शन की आवश्यकता नहीं है, तो आप API कुंजी को खाली छोड़ सकते हैं। इस स्थिति में, सॉफ़्टवेयर केवल मूल स्थानीय रूप से प्रतिलेखित पाठ ही आउटपुट करेगा।
सावधानियां और सीमाएं
स्थापना और उपयोग से पहले, कृपया निम्नलिखित तीन संभावित समस्याओं से अवगत रहें:
- नेटवर्क वातावरणयह मॉडल Hugging Face पर होस्ट किया गया है। यदि आप सामान्य रूप से प्लेटफ़ॉर्म तक नहीं पहुँच सकते हैं, तो मॉडल डाउनलोड विफल हो जाएगा।
- हार्डवेयर निर्भरताइसका उपयोग करने की पुरजोर अनुशंसा की जाती है एप्पल सिलिकॉन (एम सीरीज) मैक में एक चिप का इस्तेमाल होता है। हालांकि इंटेल मॉडल इसे चला सकता है, लेकिन ट्रांसक्रिप्शन की दक्षता कम है और यह काफी गर्मी पैदा करता है।
- गोपनीयता सीमाएँकृपया ध्यान दें कि हालांकि प्रतिलेखन स्थानीय स्तर पर किया जाता है, लेकिन एक बार सक्षम हो जाने पर... एलएलएम पॉलिशिंगट्रांसक्रिप्ट किया गया टेक्स्ट आपके द्वारा कॉन्फ़िगर किए गए एपीआई इंटरफ़ेस पर भेजा जाएगा।
लागू होने वाले परिदृश्यों का सारांश
अनुशंसित उपयोगकर्ता: एम-सीरीज़ मैक उपयोगकर्ता, जिन्हें मसौदे जल्दी से लिखवाने या मीटिंग के मिनट्स लिखने की आवश्यकता होती है, और डेवलपर जो अक्सर चीनी और अंग्रेजी के मिश्रण में तकनीकी शब्दों को टाइप करते हैं।
इसके लिए अनुशंसित नहीं: जिन उपयोगकर्ताओं को केवल कभी-कभार सरल ध्वनि इनपुट की आवश्यकता होती है और वे मॉडल डाउनलोड करने और एपीआई को कॉन्फ़िगर करने की झंझट नहीं चाहते हैं (उनके लिए सिस्टम के अंतर्निर्मित श्रुतलेख फ़ंक्शन का उपयोग करने की अनुशंसा की जाती है)।
प्राधिकरण के संबंध में:यह परियोजना अपनाती है सीसी बीवाई-एनसी 4.0 यह लाइसेंस केवल व्यक्तिगत अध्ययन और गैर-व्यावसायिक उपयोग के लिए है। व्यावसायिक उपयोग के लिए, कृपया लाइसेंस की शर्तों की समीक्षा अवश्य करें।
परियोजना संसाधन
🐙 GitHub प्रोजेक्ट का होमपेज स्रोत कोड अधिग्रहण और CC BY-NC 4.0 लाइसेंस संबंधी जानकारी
अस्वीकरण:यह लेख अप्रैल 2026 से सार्वजनिक रूप से उपलब्ध दस्तावेज़ों पर आधारित है। स्थानीय मॉडल का प्रदर्शन हार्डवेयर की स्थितियों से प्रभावित होता है; पॉलिशिंग के लिए तृतीय-पक्ष API का उपयोग करते समय कृपया संबंधित सेवा शर्तों और डेटा अनुपालन आवश्यकताओं का पालन करें।






