Aionverse — AionScribe

Transcription industrielle, architecture projet

AionScribe traite des corpus audio dans la durée — interviews, voix narratives, archives familiales. Le modèle Whisper large-v3 produit des transcripts word-level avec horodatage précis ; pyannote 3.1 assigne chaque mot à un locuteur. Une couche de clustering AgglomerativeClustering relie les identités de locuteurs entre chapitres, même si les fichiers audio ont été enregistrés en plusieurs sessions.

L'architecture reprend le paradigme des suites créatives multi-projet — un seul logiciel (FastAPI port 8120, frontend HTML générique), plusieurs projets chargés à la volée via un slug ?project=. Chaque projet vit dans son dossier Aion avec son config.json, ses fichiers audio, et ses données de sortie. Le backend ne connaît que des chemins résolus à l'exécution — pas de couplage dur.

L'interface expose la lecture synchronisée transcription-audio, la recherche plein texte, la correction manuelle de mots et de noms de locuteurs, l'export ZIP (texte + audio taillé à la séquence), et un chatbot grounded sur les transcripts via Claude Sonnet avec prompt caching.

Pipeline complet

ASR Whisper large-v3

Transcription CUDA float16 — chaque mot timestampé, aligné via wav2vec2 FR pour précision maximale.

Diarization pyannote

Identification automatique des locuteurs (pyannote 3.1), liés entre fichiers par clustering cosine.

Multi-projet lazy-load

Un backend, N projets — chargés à la demande via ?project=slug. Zéro restart entre projets.

Chat grounded

Chatbot Claude Sonnet ancré sur les transcripts du projet — prompt caching éphémère pour chaque session.

Export ZIP

Taille l'audio ffmpeg sur une séquence sélectionnée + transcription texte + résumé Haiku en un seul ZIP.

Escalade Hermes

Question sans réponse dans le projet ? Escalade directe vers un CC Hermes ou Notion, réponse via SSE.

AIONSCRIBE