Q4, QAT, REAP : la quantization LLM en vrai

01 Apr, 2026

Hier soir, depuis un pub en Cornouailles, je regardais des joueurs de snooker à la télé. Entre deux explications sur le 147 de Ronnie O'Sullivan, une conversation technique s'est lancée sur les LLMs : Q4, QAT, REAP... Autant de termes qui semblent abscons mais qui décrivent en fait une évolution fascinante.

Voilà ce que j'ai appris (ou plutôt, ce que j'ai clarifié).

Le problème de base : les modèles sont énormes

Un modèle comme Llama 3 70B en BF16 pèse environ 140 Go. Impraticable sur un seul GPU grand public.

La quantization résout ça. L'idée : réduire la précision des poids du modèle.

Format	Bits	Taille (70B)	Usage
BF16	16 bits	~140 Go	Entraînement
FP8	8 bits	~70 Go	Serveurs
Q4	~4 bits	~35 Go	Local

Plus les bits sont nombreux, plus la précision est haute.

Q4 : le format de facto

Q4 PTQ est aujourd'hui le standard de l'inférence locale. Ollama, llama.cpp, LM Studio l'utilisent par défaut.

En pratique : Q4 ≈ 95-98% de la qualité BF16. La quantization intelligente (GGUF, exl2) préserve les couches critiques en précision plus haute.

QAT : quand le modèle s'entraîne à être quantizé

QAT (Quantization-Aware Training) = on simule la quantization pendant l'entraînement. Le modèle apprend à compenser la perte de précision. Résultat : quasi-lossless en Q4.

Meta l'utilise sur Llama 3. Si vous voyez "QAT" sur HuggingFace, c'est une version premium du Q4.

REAP : pruning d'experts

REAP (Cerebras) est complémentaire. Pour les architectures MoE, certains experts contribuent très peu. On peut les supprimer proprement : ~50% de compression, quasi-zéro perte de qualité.

Le compte 0xSero sur HuggingFace publie des versions REAP de modèles populaires.

Les MoE chinois

GLM-5.1 (Zhipu AI, 27 mars) : ~94.6% d'un Claude Opus, open-weight prévu début avril.

Kimi K2.5 (Moonshot AI, 27 janvier) : déjà open-weight, benchmark similaire.

Deux MoE puissants qui tiennent sur du hardware grand public avec une bonne quantization.

Pourquoi c'est important

Avec Q4 QAT + REAP, un modèle 120B devient praticable sur deux L40S (96 Go VRAM). Le DGX Spark (128 Go RAM unifiée) permet de monter en FP8 sur un seul appareil de bureau. C'est une bascule.

Écrit depuis les Cornouailles, où les pubs ferment plus tard qu'en France. 🎱

#ia #llm #open-source #technique