Aionverse — JarVoice

La voix comme interface

Tenir une touche, parler, relâcher. La phrase quitte la pensée et entre dans la session de l'IA sans passer par le clavier. La réponse sort à voix haute, dans une voix neutre ou dans la voix clonée de l'utilisateur — au choix. JarVoice transforme tout dialogue avec une instance Claude en conversation à voix haute, dans les deux sens.

Pas de wake word, pas d'écoute permanente. Push-to-talk strict : le micro dort par défaut, ne capte que pendant la pression. Le reste du temps, silence absolu — aucune donnée audio ne quitte la machine sans intention explicite.

Sous le capot pour les curieux : Whisper large-v3 sur GPU pour la transcription (~1s par phrase, hotwords calibrés sur le jargon de l'écosystème), Edge Neural TTS pour la voix synthétique (~300 ms de latence) ou F5-TTS pour le clonage personnalisé. Daemon Python en arrière-plan, socket de pilotage pour basculer voix, mode dictée continue, injection dans une fenêtre nommée. Tout local, GPU + CPU.

STT + TTS + injection

F13 Push-to-Talk

Touche dédiée — maintenir pour parler, relâcher pour transmettre. Pas de commande vocale d'activation.

Whisper large-v3

Transcription CUDA float16, hotwords Aion, filtre sur hallucinations silencieuses connues.

Edge TTS

Microsoft Neural fr-FR-HenriNeural par défaut — ~300ms TTFA, voix naturelle sans GPU local.

F5-TTS — voix Jean

Voix clonée de Jean via F5-TTS — option à activer via socket tts_engine:f5.

Injection multi-cibles

Fenêtre active, fenêtre nommée (inject_bg:<title>), ou pipe direct terminal CC.

VOX continu

Mode voice-activated : écoute permanente par seuil RMS, transcription auto sans pression de touche.

JARVOICE