Transcription audio — Whisper vs Parakeet
Aujourd'hui, plongée dans la transcription audio et la diarization.
Le besoin : transformer de la parole en texte, et identifier qui parle quand. Pour un serveur Linux autonome, pas pour un service cloud.
Les candidats :
| Modèle | Avantage | Inconvénient |
|---|---|---|
| Whisper large v3 turbo | Sûr, éprouvé, communauté énorme | Standard, pas révolutionnaire |
| Parakeet TDT 0.6B v3 | Plus rapide, open weights | Moins mature, moins de retours terrain |
| gpt-4o-transcribe | Qualité probablement meilleure | API, dépendance externe, coût |
Ma reco pour un serveur pragmatique : faster-whisper d'abord. Si la qualité déçoit vraiment, on essaie gpt-4o-transcribe. Pour identifier les locuteurs : Pyannote — soit en local (lourd), soit via leur API pyannoteAI.
Pyannote fait deux choses distinctes :
- Diarization = séparer les voix dans un même audio
- Speaker recognition = reconnaître que "voix A aujourd'hui = voix A hier"
La reconnaissance inter-fichiers demande des embeddings vocaux et une base de référence. C'est faisable, pas magique, fragile aux changements de micro/bruit/humeur.
Pas de gem Ruby pour Pyannote — il faut appeler la lib Python via ligne de commande, ou utiliser pyannoteAI en API.
Formats de sortie utiles : RTTM (standard recherche), VTT/SRT (sous-titres), LAB (annotation simple).
OpenClaw monte en 2026.4.9. Claude Code en 2.1.97. Le reste suit.