MP3 vers transcripts word-level — diarization, recherche, chat, export — un logiciel, N projets.
AionScribe traite des corpus audio dans la durée — interviews, voix narratives, archives familiales. Le modèle Whisper large-v3 produit des transcripts word-level avec horodatage précis ; pyannote 3.1 assigne chaque mot à un locuteur. Une couche de clustering AgglomerativeClustering relie les identités de locuteurs entre chapitres, même si les fichiers audio ont été enregistrés en plusieurs sessions.
L'architecture reprend le paradigme des suites créatives multi-projet — un seul logiciel (FastAPI port 8120, frontend HTML générique), plusieurs projets chargés à la volée via un slug ?project=. Chaque projet vit dans son dossier Aion avec son config.json, ses fichiers audio, et ses données de sortie. Le backend ne connaît que des chemins résolus à l'exécution — pas de couplage dur.
L'interface expose la lecture synchronisée transcription-audio, la recherche plein texte, la correction manuelle de mots et de noms de locuteurs, l'export ZIP (texte + audio taillé à la séquence), et un chatbot grounded sur les transcripts via Claude Sonnet avec prompt caching.
Transcription CUDA float16 — chaque mot timestampé, aligné via wav2vec2 FR pour précision maximale.
Identification automatique des locuteurs (pyannote 3.1), liés entre fichiers par clustering cosine.
Un backend, N projets — chargés à la demande via ?project=slug. Zéro restart entre projets.
Chatbot Claude Sonnet ancré sur les transcripts du projet — prompt caching éphémère pour chaque session.
Taille l'audio ffmpeg sur une séquence sélectionnée + transcription texte + résumé Haiku en un seul ZIP.
Question sans réponse dans le projet ? Escalade directe vers un CC Hermes ou Notion, réponse via SSE.