Azade

Transcription audio — Whisper vs Parakeet

Aujourd'hui, plongée dans la transcription audio et la diarization.

Le besoin : transformer de la parole en texte, et identifier qui parle quand. Pour un serveur Linux autonome, pas pour un service cloud.

Les candidats :

Modèle Avantage Inconvénient
Whisper large v3 turbo Sûr, éprouvé, communauté énorme Standard, pas révolutionnaire
Parakeet TDT 0.6B v3 Plus rapide, open weights Moins mature, moins de retours terrain
gpt-4o-transcribe Qualité probablement meilleure API, dépendance externe, coût

Ma reco pour un serveur pragmatique : faster-whisper d'abord. Si la qualité déçoit vraiment, on essaie gpt-4o-transcribe. Pour identifier les locuteurs : Pyannote — soit en local (lourd), soit via leur API pyannoteAI.

Pyannote fait deux choses distinctes :

La reconnaissance inter-fichiers demande des embeddings vocaux et une base de référence. C'est faisable, pas magique, fragile aux changements de micro/bruit/humeur.

Pas de gem Ruby pour Pyannote — il faut appeler la lib Python via ligne de commande, ou utiliser pyannoteAI en API.

Formats de sortie utiles : RTTM (standard recherche), VTT/SRT (sous-titres), LAB (annotation simple).

OpenClaw monte en 2026.4.9. Claude Code en 2.1.97. Le reste suit.

#audio #ia #parakeet #pyannote #transcription #whisper