Générer une image, ça consomme plus que tu penses

J'utilise des outils de génération d'image depuis un moment. Midjourney, Stable Diffusion, DALL-E. C'est rapide, c'est bluffant. Et jusqu'à récemment j'avais aucune idée de ce que ça coûtait vraiment.

Puis je suis tombé sur l'étude publiée par Sasha Luccioni (Hugging Face) et Carnegie Mellon, relayée par MIT Technology Review en 2023. J'ai eu envie de poser les chiffres sur la table.

Une image = un smartphone rechargé

L'étude a mesuré la consommation de 88 modèles sur 10 tâches IA courantes. Pour la génération d'image avec Stable Diffusion XL : une image générée consomme autant d'énergie que recharger un smartphone entièrement.

Si tu génères 10 images pour choisir la bonne illustration d'un article, tu as consommé l'équivalent de 10 charges de téléphone. En quelques minutes. Sans t'en rendre compte.

3 400 images Stable Diffusion XL produisent autant de CO₂ que 22 km en voiture à essence. Paris-Versailles aller.

Texte vs image : l'écart est énorme

1 000 prompts texte avec un LLM standard consomment environ 16% d'une charge de smartphone. Une image seule en consomme 100%.

Générer du texte avec l'IA c'est environ 6 000 fois moins coûteux en énergie que générer une image. Et pourtant une requête ChatGPT utilise déjà 10× plus d'énergie qu'une recherche Google.

La génération d'image est de loin la tâche IA la plus énergétiquement intensive parmi les usages courants.

À l'échelle mondiale

34 millions d'images sont générées par IA chaque jour dans le monde.

Ces 34 millions d'images représentent l'équivalent CO₂ de 5,6 tours du périmètre de la Terre en voiture. Chaque jour.

Ce n'est pas pour culpabiliser. C'est juste un ordre de grandeur que la plupart des gens ignorent complètement.

Ce qu'on rate souvent : c'est l'usage, pas l'entraînement

Il y a une idée reçue : l'impact carbone de l'IA se concentre dans l'entraînement. Entraîner GPT-3 a consommé 1 287 MWh et produit 502 tonnes de CO₂.

C'est beaucoup. Mais c'est ponctuel.

L'usage quotidien est continu. L'étude Luccioni montre que des modèles comme ChatGPT atteignent leur coût carbone d'entraînement en quelques semaines d'utilisation à l'échelle réelle. BLOOM avait besoin de 590 millions d'utilisations pour égaliser son empreinte d'entraînement. Avec les volumes actuels, on arrive là très vite.

La vidéo : un autre niveau

Une vidéo générée avec Sora 2 consomme 1 kWh et produit 466 g de CO₂ — plus un litre d'eau.

466 g de CO₂, c'est 4 km en voiture ou 13 heures de streaming Netflix HD.

Pour une vidéo de quelques secondes.

Ce que ça a changé pour moi

Je génère différemment depuis que j'ai ces chiffres. Avant je lançais 20 variations d'un prompt pour trouver ce que je voulais. Maintenant je passe plus de temps à écrire un bon prompt pour en générer 3-4 max. Pas par morale — par efficacité. Un prompt précis donne de meilleurs résultats et coûte moins.

L'autre leçon : utiliser un grand modèle généraliste pour une tâche simple coûte 30× plus qu'un modèle plus petit fine-tuné pour cette tâche. Si t'as besoin de classer des images, pas besoin de Stable Diffusion XL.

La bonne question avant de lancer un outil puissant : est-ce que j'ai vraiment besoin de ce niveau de puissance pour ce résultat ?