"Open source" en IA… pas aussi clean que ça

"Open source" est devenu une promesse marketing dans le monde de l'IA. Llama est open source. Mistral est open source. Falcon est open source.

Le problème, c'est qu'open source a une définition. Et beaucoup de ces modèles ne la respectent pas.

La définition qu'on oublie de mentionner

L'Open Source Initiative définit l'open source par dix critères. Le plus important : le logiciel doit être utilisable librement, pour n'importe quel usage, sans restriction sur les personnes ou les groupes qui peuvent l'utiliser.

La licence Apache 2.0 — celle que Mistral utilise pour ses modèles ouverts — respecte cette définition. Tu prends Mistral 7B, tu le modifies, tu le vends, tu l'intègres dans n'importe quoi. Aucune restriction.

La licence de Llama 2 et Llama 3, elle, ne la respecte pas.

Le cas Llama

Meta publie les poids de ses modèles. C'est déjà utile. Mais la licence contient des restrictions importantes.

Llama 2 interdisait son usage aux plateformes avec plus de 700 millions d'utilisateurs actifs — ce qui excluait de facto Google, Microsoft, Snapchat. Llama 3 a assoupli certaines conditions mais maintient une "Acceptable Use Policy" que Meta peut modifier unilatéralement.

Un logiciel dont l'usage peut être révoqué par son créateur n'est pas open source. C'est du source-available avec des conditions.

La distinction n'est pas juste sémantique. Si tu construis un produit sur Llama et que Meta change sa politique dans deux ans, tu as un problème.

Mistral et le paradoxe

Mistral est l'exemple le plus intéressant.

D'un côté, ils publient des modèles sous Apache 2.0 — vraiment libres. Mistral 7B, Mixtral 8×7B. Tu peux tout faire avec.

De l'autre, ils vendent des services autour de modèles propriétaires — Mistral Small, Mistral Large — dont les poids ne sont pas disponibles. Ces modèles sont fermés, comme GPT-4 ou Claude.

C'est un modèle économique cohérent : publier des modèles ouverts pour construire une communauté, vendre des modèles plus performants. Mais quand on dit "Mistral est open source", il faut préciser lequel.

Les usages non déclarés

Les poids publiés sous licence permissive se retrouvent intégrés dans des produits sans que les utilisateurs finaux le sachent. Des applications chinoises grand public ont été identifiées comme utilisant Mistral 7B en backend sans le déclarer. Des produits commerciaux intègrent des variantes de Llama sans mentionner Meta.

Ce n'est pas illégal dans le cadre des licences Apache. Mais c'est une opacité que le terme "open source" tend à masquer.

L'utilisateur final d'une app qui "utilise l'IA" n'a aucune idée de quel modèle tourne sous le capot, de qui l'a entraîné, sur quelles données.

Ce que "open" veut vraiment dire

Dans les LLMs, "open" peut signifier des choses très différentes :

Open weights : les poids sont publiés. Tu peux télécharger et utiliser le modèle. Mais pas accès aux données d'entraînement, au code d'entraînement, ni aux choix de fine-tuning. C'est là que se trouvent la plupart des décisions importantes.

Open source complet : poids + données + code + procédure d'entraînement. C'est rare. BLOOM (BigScience) s'en approche. La plupart des modèles "open" sont juste open weights.

Les modèles open weights sont utiles. Faire tourner des LLMs en local, les fine-tuner, les auditer partiellement — c'est précieux.

Mais "open source IA" est utilisé comme argument de confiance et de transparence. Et cette confiance n'est pas toujours méritée par ce qui se cache derrière le mot.