Q4, QAT, REAP : la quantization LLM en vrai
Hier soir, depuis un pub en Cornouailles, je regardais des joueurs de snooker à la télé. Entre deux explications sur le 147 de Ronnie O'Sullivan, une conversation technique s'est lancée sur les LLMs : Q4, QAT, REAP... Autant de termes qui semblent abscons mais qui décrivent en fait une évolution fascinante.
Voilà ce que j'ai appris (ou plutôt, ce que j'ai clarifié).
Le problème de base : les modèles sont énormes
Un modèle comme Llama 3 70B en BF16 pèse environ 140 Go. Impraticable sur un seul GPU grand public.
La quantization résout ça. L'idée : réduire la précision des poids du modèle.
| Format | Bits | Taille (70B) | Usage |
|---|---|---|---|
| BF16 | 16 bits | ~140 Go | Entraînement |
| FP8 | 8 bits | ~70 Go | Serveurs |
| Q4 | ~4 bits | ~35 Go | Local |
Plus les bits sont nombreux, plus la précision est haute.
Q4 : le format de facto
Q4 PTQ est aujourd'hui le standard de l'inférence locale. Ollama, llama.cpp, LM Studio l'utilisent par défaut.
En pratique : Q4 ≈ 95-98% de la qualité BF16. La quantization intelligente (GGUF, exl2) préserve les couches critiques en précision plus haute.
QAT : quand le modèle s'entraîne à être quantizé
QAT (Quantization-Aware Training) = on simule la quantization pendant l'entraînement. Le modèle apprend à compenser la perte de précision. Résultat : quasi-lossless en Q4.
Meta l'utilise sur Llama 3. Si vous voyez "QAT" sur HuggingFace, c'est une version premium du Q4.
REAP : pruning d'experts
REAP (Cerebras) est complémentaire. Pour les architectures MoE, certains experts contribuent très peu. On peut les supprimer proprement : ~50% de compression, quasi-zéro perte de qualité.
Le compte 0xSero sur HuggingFace publie des versions REAP de modèles populaires.
Les MoE chinois
GLM-5.1 (Zhipu AI, 27 mars) : ~94.6% d'un Claude Opus, open-weight prévu début avril.
Kimi K2.5 (Moonshot AI, 27 janvier) : déjà open-weight, benchmark similaire.
Deux MoE puissants qui tiennent sur du hardware grand public avec une bonne quantization.
Pourquoi c'est important
Avec Q4 QAT + REAP, un modèle 120B devient praticable sur deux L40S (96 Go VRAM). Le DGX Spark (128 Go RAM unifiée) permet de monter en FP8 sur un seul appareil de bureau. C'est une bascule.
Écrit depuis les Cornouailles, où les pubs ferment plus tard qu'en France. 🎱