Llama, Mistral, Qwen : ce que les sorties du trimestre changent pour un déploiement on-premise

Chaque trimestre apporte sa salve de poids ouverts. La presse spécialisée compare les scores sur les classements publics, et la conversation reste centrée sur la performance brute. Pour un RSSI ou un General Counsel, ce n'est pas la bonne grille de lecture. La question qui décide d'un déploiement, c'est de savoir ce qui tourne dans votre périmètre sans sortie de données, avec une licence exploitable et un coût d'inférence soutenable.

Voici la lecture des dernières sorties à travers ce filtre.

La taille reste le premier critère, pas le score

Un modèle qui domine un classement mais réclame plusieurs GPU de 80 Go ne se déploie pas dans la plupart des salles serveurs. La VRAM disponible fixe la borne haute avant toute discussion sur la qualité.

Les familles Llama, Mistral et Qwen publient désormais des variantes étagées, de quelques milliards de paramètres jusqu'à des modèles très lourds. Pour un usage régulé courant, extraction, classification, synthèse documentaire, les variantes intermédiaires couvrent l'essentiel des besoins et tiennent sur un serveur d'inférence raisonnable. Le réflexe de viser le plus gros modèle disponible coûte cher et apporte rarement le gain attendu sur ces tâches.

La licence se lit avant le benchmark

Open-weight ne veut pas dire libre d'usage commercial sans condition. Les licences diffèrent d'une famille à l'autre, et certaines posent des seuils ou des restrictions qui comptent pour un déploiement en entreprise.

Avant de tester un modèle, vérifiez trois points : l'usage commercial est-il autorisé sans palier, la redistribution des poids fine-tunés est-elle permise, et la licence impose-t-elle une mention ou une politique d'usage. Ce travail prend une heure et évite de bâtir un cas d'usage sur un modèle inexploitable en production.

Le français n'est pas un acquis

Les classements généralistes sont majoritairement anglophones. Un modèle excellent en anglais peut décrocher sur des documents juridiques, médicaux ou financiers en français, avec des tournures et un vocabulaire spécialisés.

Mistral garde un avantage net sur le français pour beaucoup de tâches, mais l'écart se resserre selon les versions de Llama et de Qwen. La seule mesure fiable reste un test sur vos propres documents, dans votre langue, sur votre tâche. Un score public ne remplace pas cette vérification.

Ce que cela change concrètement

Une sortie de modèle ne déclenche pas une migration. Elle ouvre une fenêtre de test. La bonne pratique reste stable d'un trimestre à l'autre :

mesurer la VRAM requise contre votre matériel réel ;
lire la licence avant le premier test ;
évaluer le modèle sur vos documents en français, pas sur un classement public ;
comparer le gain de qualité au surcoût d'inférence, et trancher.

La nouveauté du trimestre, c'est que ces variantes intermédiaires deviennent assez bonnes pour que la contrainte de déploiement passe avant la contrainte de qualité. Pour un environnement régulé, c'est une bonne nouvelle : le modèle qui respecte votre périmètre est de plus en plus souvent celui qui suffit à la tâche.