TRIBUNE LIBRE : Intelligence Artificielle, l’oxymoron du siècle

Temps de lecture : 8 minutes >

[FUTURIMMEDIAT.NET, 11 janvier 2023] Puisque tout le monde en parle, il doit certainement se passer quelque chose. Pas une journée ne s’écoule sans que sorte un nouvel article, dithyrambique ou alarmiste, dans le domaine très en vogue de l’Intelligence Artificielle. Depuis le Guardian jusqu’à Trust My Science, on nous apprend comment l’IA, en ce moment même, est en train de nous propulser dans une nouvelle ère – ou de nous condamner à l’apocalypse numérique. Sommes-nous à l’aube d’une réelle transition technologique, qui nous apporterait enfin des logiciels d’image pourvus d’imagination, des véhicules autonomes fiables, et des assistants rédacteurs capables de résumer plusieurs textes et d’en faire la synthèse ? Ou bien sommes-nous désormais proches de la “singularité”, plus menacés que jamais par un futur dystopique, du genre Matrix ou Terminator, où les machines auront atteint leur autonomie et prendront le contrôle de l’humanité ?

Ni l’un ni l’autre : les progrès récents, bien que réels et importants pour l’Intelligence Artificielle elle-même, n’auront probablement qu’un impact négligeable sur l’industrie et sur notre quotidien. Le seul vrai problème avec Chat GPT, l’outil de génération de texte que les commentateurs montrent du doigt, c’est la profusion des articles alarmistes – et très mal documentés – qui nous mettent en garde contre cette prétendue menace.

Quant aux synthétiseurs d’images par diffusion (Dall-e, Stable Diffusion, Midjourney, etc.) ils n’ont pas pour objectif de révolutionner les métiers graphiques, et n’en ont pas les moyens, quoiqu’en disent les millions de geeks désœuvrés qui passent leurs nuits à générer des images sans queue ni tête. Tempête dans un verre d’eau, à moitié vide ou à moitié plein, selon l’humeur de l’auteur. Beaucoup de bruit pour des clopinettes. Jouer avec les IA est certes merveilleux : c’est fascinant de les voir écrire, dialoguer, dessiner, cracher des photographies stupéfiantes et élaborer des créations graphiques à couper le souffle. Mais, malheureusement, ces jouets extraordinaires ne pourront pas nous servir à grand’chose de plus qu’à jouer.

Quand l’artifice nous trompe énormément

Au premier contact, les nouvelles intelligences artificielles sont brillantes. On a vu fleurir un peu partout sur le web des images inédites et spectaculaires dans tous les styles graphiques et photographiques, des paysages somptueux, des portraits séduisants, des pastiches délirants, et même des œuvres nouvelles de grands peintres.

Quant à ChatGPT, il est capable de disserter brillamment, à peu près dans toutes les langues, sur n’importe quel sujet pas trop récent. Et cela même en français, à propos de la littérature française :

© futurimmediat.net

Mais si on gratte sous le vernis de sa tchatche, le bot raconte n’importe quoi : les trois citations sont montées de toutes pièces, un Frankenstein vraisemblable – et totalement factice – prétendument extrait d’un livre qui, vérification faite, n’a jamais existé !

C’est d’autant plus pernicieux que, dans un domaine où on manque de compétence, l’assurance trompeuse de ChatGPT est extrêmement convaincante. Et comme il ne se trompe pas systématiquement, on a vite fait de croire que c’est juste une maladie de jeunesse, qui va s’arranger avec les corrections successives. Malheureusement, comme on le verra plus loin, c’est une espérance qu’il faut abandonner, et qui a d’ores et déjà conduit les geeks du monde entier à accorder à l’intelligence artificielle un crédit qu’elle ne mérite absolument pas.

En ce qui concerne la synthèse d’images, pour peu que l’on essaie de se servir des outils existants avec un minimum de sérieux, on finit par passer des nuits blanches à éliminer des tombereaux d’images grotesques, incohérentes ou simplement moches, dans l’espoir d’en trouver une seule qui tienne la route. Florilège :

© futurimmediat.net

Tristes coulisses : derrière les superbes images partagées par les geeks du monde entier se cachent une multitude de ces résultats inutiles, et des heures de fastidieux labeur digital.

Limites techniques, limites de conception

Si les systèmes d’IA dont on parle tant aujourd’hui échouent à dépasser certaines limites, c’est d’abord par manque de puissance et ensuite en raison de limites inhérentes à leur conception. Pour ce qui est du déficit de puissance, il suffit de se rappeler qu’un réseau de neurones artificiels est essentiellement un programme d’ordinateur, et qu’il est donc contraint par les limites d’un pc courant.

Un système d’IA typique est limité à quelques couches d’une centaine de neurones chacune, parce que tous les neurones d’une couche donnée doivent dialoguer avec chacun des neurones de la couche suivante et de la couche précédente, et donc chaque neurone supplémentaire augmente les besoins en ressources. Par comparaison, un cerveau humain comprend une bonne centaine de milliards de neurones. Et on pourrait mettre en avant de nombreuses autres différences.

Mais plus encore que les problèmes de puissance, c’est leur conception même qui rend les réseaux artificiels actuels cruellement inefficaces. Ces réseaux sont entraînés sur des corpus (d’images légendées, de phrases en contexte) et leur objectif est de produire, pour toute demande quelconque (légende dépourvue de l’image associée, question attendant une réponse) un complément vraisemblable (image, texte).

On obtient ce complément par tentatives successives, en produisant plusieurs assemblages de divers fragments pertinents du corpus original. L’assemblage finalement retenu sera celui qui, dans l’ensemble, semble statistiquement le plus proche des données du corpus. Comme le réseau de neurones ne dispose pas d’un modèle (pas de représentation mentale des mots utilisés dans les phrases, pas de notion des objets objets présents dans les les images) et que la ressemblance formelle avec le corpus constitue le seul critère de filtre, on a une vraisemblance purement superficielle, dépourvue de sens : les images produites avec Stable Diffusion sont souvent absurdes, les textes générés par ChatGPT peuvent révéler de profondes incohérences.

Le mirage fatal de l’autocorrection

On peut légitimement se poser la question : pourquoi les nouvelles IA génératives, comme ChatGPT ou Stable Diffusion, ne peuvent-elles pas corriger d’elles-mêmes leurs propres erreurs ? Ainsi, par exemple, le YouTuber Anastasi in tech, se demande pourquoi le système ne donne pas de lui-même un degré de confiance à ses résultats ?

La réponse est simple : du fait de leur manière de traiter l’information, les IA considèrent chacune de leurs productions comme la meilleure production possible : leur indice de confiance est de 100 % à chaque fois. En effet, de manière à obtenir le produit le plus vraisemblable, les AI optimisent déjà en permanence la cohérence de chaque fragment au sein de leur réponse. C’est même là le secret technique essentiel de leur fonctionnement.

Dans les générateurs d’images, on peut même contrôler de manière précise, et en divers endroits, le degré de hasard qu’on souhaite faire intervenir dans la génération : on peut régler le taux de conformité par rapport au texte (”guidance”), le degré de ressemblance du résultat avec une éventuelle image initiale, et sélectionner la matrice de bruit initiale (”seed”). Les chatbots basés sur GPT et les générateurs d’images à base de diffusion sont structurellement incapables d’évaluer la pertinence de leurs réponses et ne peuvent donc pas être améliorés dans ce domaine.

Quand qui peut le plus ne peut pas le moins

Les IA produisent de telles merveilles (images somptueuses, surprenantes et réalistes, réponses limpides et amplement documentées) que pour nous, humains, leurs erreurs évidentes, voire grossières (mains à six doigts, raisonnements incohérents…) paraissent par contraste extrêmement simples à éviter. Malheureusement, cette “évidence” est une projection anthropomorphique. Qui donc aurait un style écrit aussi brillant et serait en même temps incapable de disserter ? Qui donc serait en mesure de dessiner de si belle images et oublierait une jambe, voire un œil, de son personnage ? Réponse : les machines !

Quand on voit l’IA générer un enfant à trois jambes ou une main à dix doigts, on pense tout de suite, “qui peut le plus peut le moins, une machine tellement douée pourra forcément arriver à corriger ces bêtises”. Anthropomorphisme, fatale erreur : les machines ne pensent pas comme des êtres humains.

Rivés à leurs écrans, les geeks du monde entier s’imaginent que les limites intrinsèques des IA seront aisément dépassées, tant les inepties qu’elles contribuent à générer sont criantes : à force d’essais et d’erreurs, par itérations et corrections successives, on parviendra forcément à entraîner des systèmes fiables, capables de détecter par avance ces échecs évidents, et de les éliminer.

Mais non. Pour aider les machines à dépasser leurs limites, il ne suffira pas de leur apporter des améliorations à la marge : il faudra soit augmenter leur puissance, soit améliorer leur conception.

Dans le domaine de la puissance, les progrès sont dans le meilleur des cas contraints par la loi de Moore, selon laquelle le progrès technique permet de diviser la taille des transistors par deux tous les deux ans. Cette contrainte ne satisfait pas les exigences d’un réseau neuronal un peu costaud (rappelez-vous, chaque nouveau neurone fait croître de manière exponentielle le nombre d’interconnexions nécessaires à son fonctionnement). Or, tous les progrès récemment engrangés par les modèles GPT de génération de texte sont basés sur l’augmentation de puissance.

Il faudrait donc se tourner du côté de la conception. Mais les découvertes sont directement liées à la recherche et leur fréquence d’apparition n’est pas prévisible. Aujourd’hui, tous les systèmes populaires de génération d’images procèdent de la combinaison des modèles GPT avec une solution de conception relativement ancienne, la diffusion, inventée en 2015, et qui est à l’origine de tous les progrès qu’on a pu voir en 2022. On ne sait absolument pas quand on aura à nouveau la joie d’assister à une découverte autorisant un progrès d’une telle ampleur.

Tout bien considéré, la geekosphère peut redescendre de son perchoir, rien ne garantit que la prochaine révolution nous attende au coin de la rue.

Proprioception, affects, et conscience, insurmontables limites de l’IA ?

Notre intelligence humaine est multimodale : lorsque nous prononçons un mot, celui-ci ravive une série d’expériences préalablement mémorisées qui sont intellectuelles, pratiques (réponse à la question “que puis-je faire ?”), perceptives (visuelles, auditives, tactiles, olfactives, gustatives), proprioceptives (liées à nos sensations corporelle internes) et, par-dessus tout, émotionnelles. Ainsi le mot “chat” c’est conceptuellement un “animal domestique non-chien”, lié à un tas de perceptions dont des déplacements souples, une couleur et une fourrure, les miaulements, les ronronnements, l’odeur du chat, celle des croquettes qu’on lui donne, la fourrure qu’on touche, l’animal qu’on caresse et grattouille, qu’on nourrit et à qui on doit ouvrir la porte, etc. Sans parler des liens affectifs et des rapports psychologiques qu’on peut entretenir avec un chat, domaines dans lesquels on fera sans doute bien de ne pas se cantonner aux instructions d’un chat-bot.

Cette réalité multidimensionnelle et imbriquée de la mémoire, thématique des romans de Marcel Proust, constitue la limite théorique de l’approche binaire de l’intelligence. Son importance pour la compréhension des énoncés et des images avait été démontrée au plan théorique par quelques sémanticiens mal connus du grand public, comme l’américain Georges Lakoff (Metaphors we Live By) et le belge Henri Van Lier (L’Animal Signé). Cette vision théorique est à présent étayée par des expériences récentes d’imagerie cérébrale, qui ont effectivement rendu visibles, lors de la prononciation d’un mot, l’activation à travers tout le cerveau humain, de réseaux multi-fonctionnels spécifiquement associés à ce mot (conversement, l’imagerie en question permet aussi de plus ou moins bien deviner à quoi pense la personne observée !). En somme, l’expérience humaine liée à la corporéité et aux affects constitue un versant de l’intelligence qui restera probablement à jamais hors de portée des machines électroniques.

Quant à la conscience, manifestement, on nous vend de la peau de Yéti : d’année en année, les spécialistes reportent encore et encore à plus tard leurs prédictions quant l’apparition d’une IA consciente et autonome, ou “General Purpose AI” (intelligence artificielle généraliste), qui prendrait sa destinée en mains. Demain, la Singularité rase gratis.

Dernière annonce en date, la fameuse “interview” de LaMDA, le système d’IA de Google, soi-disant devenu capable de ressentir et conscient de lui-même. Suite à cette fumeuse publication, Google a pris ses distances avec l’auteur et a publié un démenti. Le misérable article inspire même à présent un discours appelant à une évaluation plus raisonnable des systèmes actuels. Another hoax bites the dust.

Si on considère que proprioception, affects et conscience font partie intégrante de l’intelligence, alors il n’y a aucune raison légitime d’utiliser ensemble les mots “intelligence” et “artificielle”.

Michelange Baudoux, sémanticien et blogueur


[INFOS QUALITE] statut : validé | mode d’édition : partage, édition, correction et iconographie (l’article original contient plus d’illustrations et de références) | sources : futurimmediat.net | contributeur : Patrick Thonart | crédits illustrations : en-tête, © futurimmediat.net.


Plus de dispositifs en Wallonie-Bruxelles…