Extraction de clauses contractuelles : Mistral face à Qwen sur données juridiques françaises

L'extraction de clauses est un cas d'usage juridique concret : repérer dans un contrat les clauses de résiliation, de confidentialité, de responsabilité ou de durée, et les restituer de façon structurée. C'est une tâche mesurable, ce qui en fait un bon terrain de comparaison entre modèles open-weight déployables on-premise.

Ce benchmark compare deux familles, Mistral et Qwen, sur des contrats en français. L'objectif n'est pas de désigner un gagnant universel, mais de montrer comment arbitrer pour votre propre corpus.

La méthode avant les chiffres

Un benchmark n'a de valeur que si sa méthode est explicite.

Corpus : un jeu de contrats français annotés manuellement, chaque clause cible étiquetée par un juriste.
Tâche : extraire les clauses d'un type donné et renvoyer leur texte exact, sans reformulation.
Mesure : précision (les clauses extraites sont-elles correctes) et rappel (toutes les clauses présentes sont-elles trouvées).
Contrainte de déploiement : chaque modèle est testé dans une configuration qui tient sur un seul serveur d'inférence, VRAM mesurée.

Tout le reste découle de ces choix. Un corpus différent donnera des chiffres différents. C'est attendu.

Résultats indicatifs

Les valeurs ci-dessous sont représentatives d'un passage type sur un corpus de cette nature. Elles servent à illustrer les arbitrages, pas à être reprises comme une vérité absolue. Reproduisez la mesure sur vos documents avant toute décision.

Modèle	Taille	VRAM	Précision	Rappel	Français
Mistral (intermédiaire)	moyen	tient sur un serveur	élevée	élevé	très bon
Qwen (intermédiaire)	moyen	tient sur un serveur	élevée	moyen	bon
Qwen (large)	grand	exige plus de matériel	très élevée	élevé	bon

Trois enseignements ressortent.

D'abord, Mistral garde un léger avantage sur le français à taille comparable, ce qui se voit surtout sur les clauses au vocabulaire juridique dense. Ensuite, la version large de Qwen rattrape et dépasse en précision, mais au prix d'un matériel sensiblement plus lourd. Enfin, l'écart de qualité entre la version intermédiaire et la version large ne justifie pas toujours le surcoût d'inférence, en particulier si votre flux de contrats est volumineux.

L'arbitrage, pas le classement

La question utile n'est pas "quel modèle a le meilleur score", mais "quel modèle me donne une précision suffisante dans mon budget matériel".

Pour un cabinet qui traite un flux important de contrats standardisés, la version intermédiaire de Mistral offre le meilleur rapport entre qualité, coût d'inférence et tenue en français. Pour un acteur qui traite des contrats complexes en volume plus faible, la version large de Qwen peut se justifier malgré son coût.

Ce qui ne change pas : la mesure se fait sur vos documents, dans votre langue, avec votre définition de la clause cible. Un benchmark public répond à une autre question que la vôtre. Celui-ci vous donne la méthode pour répondre à la vôtre.