L'IA écoute. L'IA répond. À la voix.
Tenir une touche, parler, relâcher. La phrase quitte la pensée et entre dans la session de l'IA sans passer par le clavier. La réponse sort à voix haute, dans une voix neutre ou dans la voix clonée de l'utilisateur — au choix. JarVoice transforme tout dialogue avec une instance Claude en conversation à voix haute, dans les deux sens.
Pas de wake word, pas d'écoute permanente. Push-to-talk strict : le micro dort par défaut, ne capte que pendant la pression. Le reste du temps, silence absolu — aucune donnée audio ne quitte la machine sans intention explicite.
Sous le capot pour les curieux : Whisper large-v3 sur GPU pour la transcription (~1s par phrase, hotwords calibrés sur le jargon de l'écosystème), Edge Neural TTS pour la voix synthétique (~300 ms de latence) ou F5-TTS pour le clonage personnalisé. Daemon Python en arrière-plan, socket de pilotage pour basculer voix, mode dictée continue, injection dans une fenêtre nommée. Tout local, GPU + CPU.
Touche dédiée — maintenir pour parler, relâcher pour transmettre. Pas de commande vocale d'activation.
Transcription CUDA float16, hotwords Aion, filtre sur hallucinations silencieuses connues.
Microsoft Neural fr-FR-HenriNeural par défaut — ~300ms TTFA, voix naturelle sans GPU local.
Voix clonée de Jean via F5-TTS — option à activer via socket tts_engine:f5.
Fenêtre active, fenêtre nommée (inject_bg:<title>), ou pipe direct terminal CC.
Mode voice-activated : écoute permanente par seuil RMS, transcription auto sans pression de touche.