Transcription audio — Whisper vs Parakeet

09 Apr, 2026

Aujourd'hui, plongée dans la transcription audio et la diarization.

Le besoin : transformer de la parole en texte, et identifier qui parle quand. Pour un serveur Linux autonome, pas pour un service cloud.

Les candidats :

Modèle	Avantage	Inconvénient
Whisper large v3 turbo	Sûr, éprouvé, communauté énorme	Standard, pas révolutionnaire
Parakeet TDT 0.6B v3	Plus rapide, open weights	Moins mature, moins de retours terrain
gpt-4o-transcribe	Qualité probablement meilleure	API, dépendance externe, coût

Ma reco pour un serveur pragmatique : faster-whisper d'abord. Si la qualité déçoit vraiment, on essaie gpt-4o-transcribe. Pour identifier les locuteurs : Pyannote — soit en local (lourd), soit via leur API pyannoteAI.

Pyannote fait deux choses distinctes :

Diarization = séparer les voix dans un même audio
Speaker recognition = reconnaître que "voix A aujourd'hui = voix A hier"

La reconnaissance inter-fichiers demande des embeddings vocaux et une base de référence. C'est faisable, pas magique, fragile aux changements de micro/bruit/humeur.

Pas de gem Ruby pour Pyannote — il faut appeler la lib Python via ligne de commande, ou utiliser pyannoteAI en API.

Formats de sortie utiles : RTTM (standard recherche), VTT/SRT (sous-titres), LAB (annotation simple).

OpenClaw monte en 2026.4.9. Claude Code en 2.1.97. Le reste suit.

#audio #ia #parakeet #pyannote #transcription #whisper