Dessins instables

Image générée d'une femme peignant sur une toile mécanique

Depuis quelque temps, je joue avec Stable Diffusion, qui est en gros un générateur d'images à partir de mots-clefs, en étant en gros construit pour être l'inverse des programmes de reconnaissance d'images (qui trouvent une liste de mots-clefs descriptifs à partir d'une image).

Je vais partager ici quelques réflexions que j'ai tirées.

L'origine

J'ai souvent un ou deux trains de retard, et c'est en pleine effervescence autour des LLM comme ChatGPT que j'ai commencé à m'intéresser à l'effervescence de l'année précédente autour des générateurs d'image.

En fait, j'ai regardé ça de plus près surtout sous l'impulsion d'iMil, dont l'émerveillement m'a rendue jalouse (je ne me suis pas débarrassée de ma nostalgie des émerveillements technologiques).

Donc ce n'est pas complètement étranger à la mode autour de ce qu'on appelle pompeusement « intelligence artificielle », mais l'ouverture de Stable Diffusion par rapport aux alternatives. Dans un monde alternatif sans Stable Diffusion, mais avec uniquement DALL-E et Midjourney, je n'aurais pas du tout touché à tout ça.

Je suis encore grande débutante, je ne suis pas allée beaucoup plus loin que l'installation d'une webui et de la génération de quelques images.

L'art génératif

J'ai l'impression d'enfoncer brutalement des portes ouvertes tellement tout ce que je vais mettre dans cette section me semble évident, mais j'ai été abasourdie par le nombre d'opinions qui semblaient partir de l'idée que le programme allait tout faire, de l'idée à l'image finale, que ce soit pour l'espérer ou le déplorer.

J'ai eu l'impression de vivre une histoire très proche de ce que j'ai lu sur les débuts de la photographie par rapport à la peinture, ou les appareils photo numériques automatiques par rapport aux appareils photo argentiques manuels. La nouvelle technologie supplante ou rend obsolète des grands pans des compétences techniques des technologies précédentes, mais pour moi l'art est justement en dehors des compétences techniques.

Donc la photographie a effectivement tué l'intérêt de faire des tableaux super réalistes, et l'appareil photo automatique a tué l'intérêt de bien savoir estimer la luminosité et de rattraper les erreurs d'exposition en jouant sur la chimie du développement ; mais l'art de la peinture et de la photo restent intacts.

Tout ça pour dire que ces modèles génératifs qui construisent des images, ce sont juste des outils supplémentaires, qui peuvent être utilisés seuls ou en complément d'autres outils, dans une démarche artistique.

Et ils peuvent aussi être utilisés sans démarche artistique, exactement comme de la gouache qu'on jetterait au hasard, ou un appareil photo qu'on déclenche sans se poser de question.

L'ingénierie du prompt

Ce qui m'a le plus marquée dans mes débuts avec Stable Diffusion, c'est justement le ticket d'entrée artistique.

Bon OK, il y avait le ticket d'entrée technique aussi, je ne comprends pas comment le dependency hell est censé être géré, et je ne sais pas si c'est un échec de Linux ou un échec de ma webui, mais ça me dépasse complètement. J'ai dû renoncer à la propreté de l'OS et l'installer sur le Windows de mon PC de jeu pour avoir un soft qui accepte de discuter avec mon GPU.

Mais sur le plan artistique, mes premiers résultats ont été atroces. Ouais, encore pire que l'image ci-dessus.

Parce que ce n'est pas juste décrire une image et la machine génère ce à quoi on pense ; en réalité c'est plutôt un nouveau langage de programmation non-spécifié qu'il faut apprendre pour réussir à communiquer au programme les idées que l'on veut représenter.

Il y a même un nom pour ça : le prompt engineering, que j'ai du mal à traduire, mais qui consiste en la compétence à bien choisir ses mots-clés pour obtenir le résultat que l'on veut. Et pour le coup, c'est une compétence purement technique liée à cet outil.

Je peux croire que les versions successives de DALL-E et Midjourney et autres services payants sont beaucoup plus abordables que Stable Diffusion, parce qu'il y a un intérêt commercial à rendre le système aussi impressionnant que possible pour les non-clients que l'on veut convertir en clients. Je m'attends cependant à peu de corrélation entre la qualité des résultats que l'on peut atteindre en dix minutes par rapport à ceux que l'on peut atteindre en quelques centaines d'heures.

Ce qui me gêne le plus dans le prompt engineering, c'est que j'ai du mal à estimer la pérennité de l'investissement en temps que ça représente. Comme je suis arrivée après la sortie de Stable Diffusion v2, j'ai pu voir l'effet du passage de CLIP à OpenCLIP, et je ne peux que me demander si tous ces gens qui disent qu'OpenCLIP marche beaucoup moins bien ne sont pas juste en train de se plaindre que ce qu'ils ont appris sur CLIP est obsolète, et qu'il faut repartir de beaucoup plus loin pour se former à OpenCLIP.

Je crois que c'est la principale raison pour laquelle je suis encore si débutante. J'investirais volontiers des dizaines d'heures pour me forger une intuition de prompt engineer si j'étais sûre de pouvoir m'en servir dans les dix ans qui viennent.

Le dessin et moi

Il n'aura pas échappé au lecteur observateur qu'il y a sur le présent site une section « dessins », qui n'a pas bougé depuis une éternité et demie, et qui n'a jamais contenu ce que l'on désigne habituellement par le mot « dessin ».

J'ai un niveau technique absolument abyssal en dessins (avec un crayon), à tel point que j'utilisais l'image de synthèse comme une alternative à ma portée pour les mêmes utilisations, et c'est ce qui a donné le nom particulier de cette section.

J'ai sur le feu un article de natologie plein de théories sur le pourquoi, mais en résumé j'ai l'impression que ma façon de penser n'arrive pas à se fixer dans un seul point de vue, ce qui empêche toute interaction avec une représentation en image. Le résultat est que je suis incapable d'utiliser un crayon ou un modeleur, et au contraire j'arrive très facilement à manipuler une description sous forme de texte ou de script.

Ça fait depuis un bon bout de temps que mes outils d'image de synthèse sont tombés en panne et que je n'ai pas eu l'occasion de les réparer. Je n'ai pas encore perdu l'envie de le faire, j'ai juste d'autres loisirs, et je suis un peu attristée par l'évolution de ces outils. Blender a l'air incontournable, mais je reste devant son interface comme devant un crayon, c'est-à-dire comme une poule devant un couteau. Comme pour Stable Diffusion, je me demande si je pourrai rentabiliser un jour les efforts qu'il faudrait déployer pour trouver un renderer indépendant et apprendre à utiliser son API, maintenant que ces trucs ne sont plus utilisés que par des gros studios d'effets spéciaux et leurs fournisseurs de logiciels.

Tout ça pour dire que ça fait plus de vingt ans que je pratique (plus ou moins assidument) la génération d'image depuis du texte au moyen d'un programme informatique, et le passage de PRMan à Stable Diffusion n'est pas une révolution si spectaculaire.

L'éthique

Je suis donc en train de clapoter doucement dans le petit bain de l'art génératif visuel, et pour continuer mon exploration je ne dois pas seulement faire face aux obstacles de la difficulté techniques et du manque de confiance dans l'avenir, il y a en plus une dimension éthique.

C'est un obstacle d'autant plus difficile que je n'ai pas les idées claires dessus, et que ça rend l'ensemble assez difficile à articuler (et encore plus difficile à insérer dans un post de blog vaguement intéressant).

Bon, déjà, il y a plein de questions éthiques intéressantes sur l'existence de ces générateurs d'images et leur effet sur l'humanité, mais ce n'est pas le genre de questions qui m'intéressent. Le monde est tel qu'il est et je fais avec. J'ai déjà suffisamment à faire avec la question de beaucoup mieux que moi. Je vais donc me limiter à la question de mon utilisation d'un programme comme Stable Diffusion vis-à-vis de ma capacité à me regarder dans un miroir.

Je suis sensible à la problématique d'« exploitation » des artistes pour entrainer le modèle ; mais d'un autre côté je vois de la valeur dans l'existence d'un modèle en tant que bien public.

Pour l'instant, avec l'investissement très léger que je consens, j'ai un peu l'impression de goûter à ma première bouchée de steak en me disant qu'une fois mort, autant manger la viande que la laisser pourrir, mais à un moment il faudra se poser la question de la cause de ladite mort.

L'entrainement

Si je ne change pas d'avis en cours de route, et si j'arrive à surmonter tous les obstacles, je vais donc me mettre à produire des images.

Mais quelles images ? L'inspiration n'est pas toujours fort.

L'expérience de 52frames, qui m'a bien fait progresser (techniquement comme hédonistiquement) en photographie, et qui a abondamment alimenté mon photoblog, m'a donné envie de faire quelque chose de similaire.

Il reste à trouver une occasion régulière de faire quelque chose, en acceptant la médiocrité au profit de la régularité, avec un thème imposé par l'extérieur.

Je pensais à l'illustration de mes billets de weblog : un par mois, avec le thème du billet, ça rentre parfaitement.

En plus, comme j'ai tendance à être très (trop ?) textuelle, je fais de longs textes sans la moindre image pour ajouter une touche de couleur ou de gaité. Ça ne peut faire que du bien, non ?

Qu'en pensez-vous, chers lecteurs ? Est-ce que ça améliorerait votre expérience de mon site ? Ou au contraire est-ce que ça vous contrarierait qu'il y ait du contenu qui ne soit pas visible dans w3m, ou qui occupe de la place précieuse que tu texte pourrait occuper plus utilement ?

Je crois que ma principale crainte, c'est qu'ajouter une image manifestement générée suscite la suspicion que le texte est également généré, et je crois que ce serait triste pour l'éventuel lecteur que pour moi.

N'hésitez pas à me faire part de ce que vous en pensez ; en général je fais des trucs pour moi et peu importe ce que le reste du monde en pense (c'est le cas pour la plupart de mes billets de weblog), mais pour ce cas précis, comme je ne pense pas avoir un jour besoin d'une version publique de mes créations génératives, je n'ai pas vraiment de préférence entre publier et ne pas publier, autant vous laisser choisir.

Commentaires

Pas de commentaire pour le moment.

Poster un commentaire

Nom ou pseudonyme :

Adresse e-mail (facultatif, ne sera pas publié) :

Site web (facultatif) :

Format de mise en forme :

Enregistrer ces informations dans un cookie

Commentaire (sera publié dans cette page, voir les conseils de mise en forme ci-dessous) :

Message personnel (ne sera pas publié) :

Mise en forme historique : pour mettre en valeur un mot ou un groupe de mot, tapez une étoile de part et d'autre, sans mettre d'espace entre l'étoile et le mot, comme ceci : *mise en valeur*. Pour insérer un lien, mettez le entre crochets, comme ceci : [http://instinctive.eu/].

Mise en forme markdown : voir le guide détaillé, en résumé c'est le Markdown traditionnel, sans HTML ni titres, mais avec les tables PHP-Markdown-Extra.

Attention : les balises HTML entrées dans les commentaires seront affichées telles quelles, et non pas interprétées.

Autour de cette page

Autour de cet article

Publié le 30 juin 2023 à 22h00
État de la bête : assistée créativement
Pas de commentaire
Tag : Création
Tag : Réflexion
Tag : Site

Weblog

Derniers commentaires

Vincent Bernat dans L'odeur de la fin
Damien dans Les dangers de la théorie
Head dans Infrastructure personnelle de stockage numérique
Head dans Mes opinions sur l'IA
Damien dans Ricing
Mauvaisours dans En vrac 12
Natacha dans En vrac 12
raphael dans En vrac 12
Balise dans En vrac 12
Natacha dans Informatique personnelle distribuée

Site-level navigation and features