Abstract
Résumé Cet article aborde les intelligences artificielles génératives visuelles telles que Midjourney et DALL·E afin d’analyser leur fonctionnement sémiotique. Le point de départ est la définition de la discipline sémiotique proposée par Pierluigi Basso Fossali, décrivant celle-ci comme la science qui étudie la gestion sociale du sens, et qui s’articule en quatre sphères fondamentales : la perception, l’énonciation, la communication et la transmission. À partir de ce cadre théorique, l’objectif est de proposer et de décrire deux nouvelles configurations qui caractérisent le fonctionnent sémiotique des IA génératives visuelles : à travers une perception d’archives et grâce à des circuits de composition. Le concept de perception d’archives a pour objectif de décrire la manière particulière dont les IA voient, entendent et apprennent, celle-ci étant réalisée sur de grandes quantités de données et à travers une généalogie d’opérations reconfigurables sur les archives. Les circuits de composition, quant à eux, concernent le couplage entre la logique de la composition visuelle et de la prédication verbale : il s’agit du processus d’énonciation par débruitage visuel réalisé par les IA, guidé par les requêtes en langage naturel fournies par des opérateurs humains. À partir de trois critères élaborés en sémiotique – les catégories plastiques, l’énonciation visuelle, ainsi que la traduction intersémiotique entre textes verbaux et images – une série de tests seront proposés afin d’examiner les circuits de composition des modèles génératifs de Midjourney et de DALL·E. Les IA seront enfin définies en tant que machines co-énonçantes : des entités dépourvues d’intentionnalité et d’initiative, qui produisent pourtant des énoncés en collaboration avec un opérateur humain et sur la base d’archives de données hautement structurées et reconfigurables.