Bien que la fonction de dictée intégrée à macOS soit pratique, sa précision de reconnaissance et la qualité du texte sont souvent insatisfaisantes lorsqu'il s'agit de termes techniques, d'abréviations anglaises ou d'expressions familières comme « euh » et « alors ». De plus, le processus de traitement des données pour la saisie vocale au niveau du système manque de transparence pour certains utilisateurs.
Entrée 0 Il s'agit d'un outil de saisie vocale open source conçu spécifiquement pour Mac. En conservant le processus de conversion de la parole en texte en local et en permettant aux utilisateurs d'accéder à des API LLM personnalisées pour la mise en forme du texte selon leurs besoins, il permet de passer de la simple capacité d'enregistrement à une production de haute qualité, tout en garantissant la confidentialité et le contrôle.
La compétitivité fondamentale d'Input 0 réside dans son mécanisme de traitement par couchesIl dissocie la transcription locale, la sélection du modèle et l'affinage LLM, permettant aux utilisateurs de les combiner de manière flexible selon leurs besoins. Ainsi, vous pouvez effectuer une transcription complète sans recourir à la reconnaissance dans le cloud, en n'utilisant le modèle complet que lorsque l'affinage du texte est nécessaire.
La différence entre Input 0 et les outils de dictée traditionnels
La saisie vocale traditionnelle repose généralement sur des API cloud, qui peuvent subir une latence importante lors des fluctuations du réseau et manquer de transparence dans le flux de données. Input 0, en revanche, utilise un flux de travail totalement différent :
Lorsque vous appuyez sur la touche de raccourci pour enregistrer et la relâchez, le logiciel utilise d'abord la puissance de calcul locale de l'appareil pour effectuer la transcription. Si l'utilisateur a configuré l'API LLM, le système envoie ensuite le texte transcrit au modèle de grande taille, qui supprime automatiquement le langage familier et corrige les termes techniques, avant de coller le texte corrigé directement dans la zone de saisie.
Procédures opérationnelles détaillées
La logique d'interaction pour l'entrée 0 est très simple, et le raccourci clavier par défaut est... Option + EspaceLes étapes spécifiques sont les suivantes :
- Enregistrement déclenchéAppuyez longuement sur la touche de raccourci pour faire apparaître une superposition semi-transparente qui n'interfère pas avec l'opération en cours.
- Transcription localeRelâchez la touche, et le moteur local traite immédiatement la parole. Les Mac équipés de puces Apple Silicon bénéficient d'un avantage de vitesse considérable à cette étape.
- Édition et saisie par IA: Appelle l'API LLM prédéfinie pour optimiser la syntaxe et la terminologie, et remplit automatiquement le champ de saisie avec le résultat final.
indice:Presse à n'importe quel stade ÉCHAP Toute pression sur une touche permet d'interrompre immédiatement l'opération. Vous pouvez comparer les différences entre la « transcription originale » et le texte « finalisé » dans l'historique.
Guide de sélection des moteurs vocaux locaux
Input 0 prend en charge plusieurs moteurs STT (Speech-to-Text), permettant aux utilisateurs de télécharger sélectivement des modèles en fonction de leurs besoins linguistiques.
| Nom du moteur | Scénarios applicables | Volume du modèle |
|---|---|---|
| SenseVoice Petit | Scénarios multilingues avec le chinois comme langue principale | ~228 Mo |
| Paraformateur (chinois) | Du chinois pur, pour ceux qui recherchent le raisonnement le plus rapide | ~217 Mo |
| Whisper Large v3 Turbo | Anglais de haute précision ou langues mixtes multilingues | ~1,5 Go |
| Base de Moonshine | Anglais pur, temps de réponse extrêmement rapide | ~274 Mo |
Pour la plupart des utilisateurs chinois, il est recommandé de choisir [l'option]. SenseVoice Petit ou ParaformateurIl offre un bon compromis entre vitesse de démarrage et taille.
Étapes de configuration de l'API LLM
L'entrée 0 n'est pas liée à un fournisseur de services spécifique ; toute interface compatible avec le format OpenAI peut être utilisée. Le chemin de configuration est le suivant :
Définir le chemin : Paramètres (⚙️) → API LLM
- Clé APISaisissez la clé fournie par OpenAI ou un fournisseur de services tiers compatible.
- URL de base de l'APICette adresse peut être modifiée pour correspondre à l'adresse d'interface de Groq, Azure ou Ollam local.
- Modèle: Spécifiez le nom du modèle (par exemple, gpt-4o-mini).
Après la configuration, il est recommandé de cliquer sur « Tester la connexion » pour confirmer l'état de la connexion.
Si la fonction de mise en forme n'est pas nécessaire, vous pouvez laisser le champ de la clé API vide. Dans ce cas, le logiciel ne fournira que le texte brut transcrit localement.
Précautions et seuils
Avant l'installation et l'utilisation, veuillez prendre connaissance des trois problèmes potentiels suivants :
- Environnement réseauLe modèle est hébergé sur Hugging Face. Si vous ne pouvez pas accéder normalement à la plateforme, le téléchargement du modèle échouera.
- dépendance matérielleIl est fortement recommandé d'utiliser Apple Silicon (série M) Le Mac utilise une puce. Bien que le modèle Intel puisse l'exécuter, son efficacité de transcription est faible et elle génère une chaleur importante.
- Limites de confidentialitéVeuillez noter que même si la transcription est effectuée localement, une fois activée... Polissage LLMLe texte transcrit sera envoyé à l'interface API que vous avez configurée.
Résumé des scénarios applicables
Utilisateurs recommandés : Les utilisateurs de Mac de la série M, ceux qui ont besoin de dicter rapidement des brouillons ou de prendre des notes de réunion, et les développeurs qui saisissent fréquemment des termes techniques dans un mélange de chinois et d'anglais.
Déconseillé pour : Pour les utilisateurs qui n'ont besoin que d'une saisie vocale simple et occasionnelle et qui ne souhaitent pas se donner la peine de télécharger des modèles et de configurer des API (il est recommandé d'utiliser la fonction de dictée intégrée du système).
Concernant l'autorisation :Ce projet adopte CC BY-NC 4.0 Cette licence est réservée à un usage personnel et non commercial. Pour toute utilisation commerciale, veuillez consulter les conditions de la licence.
Ressources du projet
🐙 Page d'accueil du projet GitHub Informations sur l'acquisition du code source et la licence CC BY-NC 4.0
Clause de non-responsabilité:Cet article est basé sur une documentation publique datant d'avril 2026. Les performances du modèle local sont affectées par les conditions matérielles ; veuillez respecter les conditions d'utilisation et les exigences de conformité des données applicables lors de l'utilisation d'API tierces pour le polissage.






