D'où viennent vraiment les données des IA (et pourquoi c'est flou)
Common Crawl, le deal Reddit, des livres piratés, et des données synthétiques qui s'auto-cannibalisent. Les coulisses.
Quand une entreprise annonce un nouveau modèle, le communiqué est toujours identique. Des benchmarks impressionnants. Et quelque part, une mention vague : "entraîné sur un large corpus de données web et textes de haute qualité."
Personne ne décrit ce corpus en détail. Voilà ce qu'on sait vraiment.
Common Crawl : l'aspirateur du web
La base de presque tous les LLMs grand public, c'est Common Crawl. Une organisation à but non lucratif qui crawle le web depuis 2008 et publie ses données librement. 3 milliards de pages, des pétaoctets de texte, mis à jour régulièrement.
GPT, Llama, Mistral, BLOOM — ils ont tous utilisé Common Crawl. C'est l'équivalent d'une bibliothèque qui aurait photocopié l'intégralité du web.
Le problème, c'est que le web n'est pas une collection de textes de qualité. Il contient des forums de discussions, du spam, du contenu dupliqué, de la désinformation, du contenu raciste et violent. Common Crawl filtre, mais imparfaitement — et les modèles encodent ce qu'ils voient.
Le deal Reddit
Début 2024, OpenAI et Google ont tous les deux signé des accords commerciaux avec Reddit pour accéder à ses données. OpenAI aurait payé 60 millions de dollars par an.
Reddit, c'est des années de discussions humaines réelles sur à peu près tous les sujets. R/explainlikeimfive, r/askscience, r/programming. Pour entraîner des modèles qui doivent avoir des conversations naturelles, ces données sont précieuses.
Ce qui est intéressant, c'est que Reddit avait jusqu'alors fourni ses données gratuitement via une API publique. En 2023, il a fermé cette API — ce qui a déclenché la grande révolte des modérateurs — et l'a rendu payante. Le calcul était clair : les données des utilisateurs valent quelque chose.
Ces utilisateurs ont produit ce contenu. Ils n'ont pas été consultés. Ils n'ont pas été rémunérés. Leurs données ont été vendues.
Les livres : une zone grise
Books3 est une base de données qui a circulé dans la communauté de recherche en IA. Elle contenait 196 640 livres complets — extraits depuis Bibliotik, un site de piratage.
Des auteurs ont découvert leurs œuvres dans cette base en cherchant leur nom. Des procès ont suivi. Meta, OpenAI et d'autres font face à des class actions d'auteurs qui accusent ces modèles d'avoir été entraînés sur leurs textes sans permission.
La zone légale est floue. "Fair use" ou violation de copyright ? Ces cas sont toujours en cours. Ce qui est certain : des modèles commerciaux ont été entraînés sur du contenu copyrighted sans accord des créateurs.
Les données synthétiques : le serpent qui se mord la queue
Tendance récente : utiliser de meilleures IA pour générer des données d'entraînement pour de futures IA. GPT-4 génère des textes "de haute qualité" pour fine-tuner des modèles plus petits. Ces modèles génèrent à leur tour des données pour la prochaine génération.
Le problème : model collapse. Des chercheurs de l'université d'Édimbourg ont montré que des modèles entraînés sur des données synthétiques dégénèrent progressivement. Les idées rares, les formulations inhabituelles, la diversité linguistique — tout ça disparaît à chaque itération. Le modèle devient de plus en plus moyen, au sens statistique.
C'est un peu comme la compression JPEG répétée : chaque génération perd de l'information.
Ce que ça implique
On construit des systèmes qui prétendent représenter la connaissance humaine, sur des données dont l'origine est souvent floue, dont la collecte a rarement impliqué le consentement des créateurs, et dont la qualité est gérée par des filtres imparfaits.
Ce n'est pas une raison de rejeter ces technologies. Mais c'est une raison de les traiter avec plus de nuance que "entraîné sur des données de haute qualité".
La prochaine fois qu'un modèle te dit quelque chose avec confiance — il restitue une statistique extraite de milliards de textes dont une partie a été piratée, une partie a été générée par d'autres machines, et une partie représente le pire de ce que l'humanité a écrit en ligne.
C'est utile. Et c'est bien de le savoir.