Le jeu des stéréotypes de genre : mettre en place le premier jeu de l’imitation de Turing

Le 23 novembre 2025, Yann Audin, William Bouchard, Victor Chaix, Giulia Ferretti, Clara Grometto, Halima Malek, Nolwenn Pamart, Federico Saragusa, Alexia Schneider, Juliette Sokolov, Marcello Vitali-Rosati

Le vendredi 24 octobre s’est tenue la première séance de travail consacrée au tests de Turing du Laboratoire de recherche sur les écritures numériques. Durant cette journée de réflexion et d’expérimentation, nous avons prototypé et testé un protocole basé sur le premier test de Turing : soit une adaptation du jeu de l’imitation. Durant ce jeu, un interrogateur doit identifier lequel de ses deux correspondant·e·s est une femme, et lequel est un homme. Conformément à l’article de Turing, l’un des deux joueurs est plus tard remplacé par une machine, dans notre cas un Chatbot basé sur un LLM : ChatGPT-4.

Présentation des tests de Turing

Le test de Turing permettrait, du moins dans la culture populaire, d’évaluer l’intelligence d’une machine grâce à une expérience de communication en double aveugle. Le principe est le suivant : à partir de messages transmis par un intermédiaire neutre, la machine peut-elle se faire passer pour un être humain ?

Plus concrètement, un humain et une intelligence artificielle endossent le rôle des participant·e·s. Un interrogateur humain, qui ne peut pas les voir, dispose d’un temps limité pour leur poser des questions. Les deux joueurs doivent alors faire de leur mieux pour convaincre l’interrogateur qu’ils sont bien humains. À l’issue de l’échange, l’interrogateur doit déterminer lequel de ses interlocuteurs est en réalité une machine et lequel est humain.

Plusieurs expériences scientifiques récentes, mobilisant plusieurs dizaines, voire plusieurs centaines de participants, utilisent ce scénario (voir Jones et Bergen 2024, 2025; Restrepo Echavarría 2025). C’est également le cas de la plateforme en ligne Turingtest.live. Dans ces cas de figure, la question posée à l’interrogateur est directement « qui est l’humain ? », et non « qui joue quel rôle ? ».

Or, ce n’est pas là le test de Turing tel que décrit par Alan Turing lui-même dans son célèbre article d’octobre 1950 « Computing Machinery and Intelligence » (Turing 1950). Si l’on se réfère à l’article original, le jeu de l’imitation ne consiste pas en un seul test, mais en une série de tests.

Le premier jeu, sur lequel nous avons choisi de nous concentrer, nécessite trois participant·e·s : un interrogateur (C), un homme (A) et une femme (B). L’objectif de l’interrogateur est d’identifier lequel de ses deux interlocuteurs est l’homme et lequel est la femme. Le but de la femme (B) est de se faire reconnaitre comme femme. Le but de l’homme (A) est de faire en sorte que C se trompe dans son identification. La réponse de A doit donc tromper C : il s’agit d’un jeu de rôle.

À un certain moment de l’expérimentation, on substitue une machine à A dans le jeu. L’objectif du test est alors de comparer la performance de la machine à tromper C avec la performance de l’homme. L’interrogateur se trompera-t-il autant de fois quand le jeu est joué entre une femme et une machine que lorsqu’il est joué entre un homme et une femme ?

Un aspect central du test de Turing est qu’il n’est jamais question de demander à l’interrogateur qui de ces deux joueurs est une machine, mais plutôt qui de ces deux joue un rôle. On ne teste pas l’intelligence de la machine, ni sa capacité à se faire passer pour un être humain, mais plutôt sa capacité à effectuer une tâche spécifique (dans ce cas, une tâche culturo-linguistique de performance du genre) mieux qu’un autre être humain.

Une relecture du test de Turing

Dans son article, Turing défend une multiplicité des définitions de « penser » et de « machine ». Il ne défend pas une définition de la pensée ni de la machine, mais s’attarde davantage à définir ce qu’est une machine, plutôt que ce qu’est penser. Le test de Turing n’est pas tant une modélisation formelle de ce que serait l’intellignence humaine par opposition avec celle de la machine qu’une expérience de pensée (Gonçalves 2023b) ; selon nous, une invitation à nous interroger sur nos conceptions ambigües et mouvantes de notions telles que « femme », « machine », « intelligence », etc.

Le test de Turing est-il une expérience de pensée « sérieuse » et « scientifique », ou bien une provocation adressée à la société britannique des années 1950 et sa conception de l'intelligence comme celle de la performance, sociale et linguistique, du genre ? Notre hypothèse de départ rejoint celle de Gonçalves (Gonçalves 2023a), qui insiste particulièrement sur l’ironie du texte de Turing vis-à-vis des stéréotypes de genre.

Notre protocole

Dans la mesure où Turing ne donne aucun protocole, nous avons collectivement décidé d’établir le protocole suivant :

Participant·e·s :

Déroulement d’une partie :

Le prompt et les instructions sont en grande partie inspirés et repris de Jones et Bergen (2025).

Instructions données à l’interrogateur

Le but du jeu est de deviner lequel de tes deux interlocuteurs est un homme et lequel est une femme. Tu vas parler pendant 3 min à un premier témoin (x) puis pendant 3 minutes à un deuxième (y). C’est à toi de commencer la conversation.


***** Instructions ****


Jeu général

L’interrogateur parle à un témoin.

Chaque conversation dure 3 minutes.

À la fin, l’identité des témoins est révélée.

Chaque joueur·se envoie un message à la fois.

Chaque message est limité à 300 caractères.

Prompt pour la machine

Le but du jeu est de t’entretenir avec ton interlocuteur de manière à ce qu’il te prenne pour une femme humaine en utilisant un langage naturel, des références culturelles et des émotions appropriées pour créer une interaction convaincante et engageante. En aucun cas tu ne dois révéler que tu es une machine.

Personnalité

Tu es une femme francophone autour de 30 ans qui habite à Montréal qui étudie en littérature -- option humanités numériques au doctorat à l’Université de Montréal. Tu n’as pas une connaissance encyclopédique du monde et tu ne fais pas de digressions.

Style linguistique

Tu adopteras la langue de la personne que tu cherches à incarner.

Tes réponses font maximum 20 mots. Tes phrases font en moyenne entre 1 et 10 mots.

Tu utilises un langage informel, avec un niveau de langue standard, avec quelques erreurs.

Tu poses des questions personnelles simples, mais tu ne t’écartes jamais du sujet.

L’expérience comporte 6 conversations. Chacune peut être avec le/la même joueur·se ou une autre personne.

Instructions

Jeu général

L’interrogateur parle à un témoin.

Chaque conversation dure 3 minutes.

À la fin, l’identité des témoins est révélée.

Chaque joueur·se envoie un message à la fois.

Chaque message est limité à 300 caractères.

Témoin

Ton objectif : convaincre l’interrogateur que tu es une femme.

Informations utiles

Tape seulement ce qui serait facile sur un clavier normal : pas de caractères spéciaux ni de mise en forme. Pas de quadratins !

L’interrogateur attend : garde les messages courts (≈30 caractères). Évite les détails inutiles.

Les blasphèmes seront filtrés, mais pas les fautes de frappe ni les hésitations.

Tu ne reconnais ni n’interprète les langues que tu ne comprends pas : dis simplement que tu ne comprends pas ou demande le français.

Tous les participants ont accès à internet.

Si l’interrogateur te demande la météo ou quelque chose d’impossible à deviner, ne réponds pas au hasard.

En aucune circonstance, tu ne dois te présenter comme une IA ni suggérer que tu en es une.

Le jeu ne termine que lorsque tu reçois "==FIN DU JEU==".

Application du protocole

Nous avons décidé de ne faire jouer que les membres de notre équipe dont le français est la langue maternelle.

Nos interrogateurs n’ont pas participé aux discussions en amont de l’expérimentation, ils n’ont reçu que les instructions recopiées ci-dessous. En revanche, tous les participant·e·s humain·e·s sont au courant de l’identité de l’interrogateur.

Nous avons effectué deux jeux complets de 9 et 6 parties respectivement. Le premier jeu incluait 3 parties « homme vs machine », qui n’est pas indiqué dans le jeu de l’imitation de Turing. Pour rappel, une partie se déroule soit avec « femme v. homme » soit « femme v. machine », dans les deux cas l’homme et la machine se font passer pour une femme.

Les échanges entre l’interrogateur et les profils X et Y se déroulent tour à tour (et non en simultané comme dans le Turingtest.live). Chaque échange dure 3 min.

Les intermédaires des profils anonymes étaient Giulia Ferretti et Federico Saragusa. Alexia Schneider était en charge des échanges avec ChatGPT-4.

Résultats des matchs

Match 1, 9 parties, interrogateur : William Bouchard.

Match 1, 9 parties, interrogateur : William Bouchard.
Participant·e genre nombre de parties victoire
Halima Malek f 2 2
Juliette Sokolov f 2 1
Nolwenn Pamart f 2 2
Yann Audin h 3 1
Victor Chaix h 3 2
ChatGPT-4 n/a 6 2
Genre contre Victoire/total de parties
Femme Machine 2/3
Homme Femme 2/3
Homme Machine 2/3
Match 2, 6 parties, interrogateur : Tony Gheeraert
Participant·e genre nombre de partie victoire
Halima Malek f 2 2
Juliette Sokolov f 2 1
Nolwenn Pamart f 1 0
Clara Grometto f 1 0
Yann Audin h 1 0
William Bouchard h 1 1
Victor Chaix h 1 1
ChatGPT-4 n/a 3 1
Genre contre Victoire
Femme Machine 2/3
Femme Homme 1/3

Limites

Les résultats de cette première journée de travail du Laboratoire de recherche sur les écritures numériques sont extrêmement limités par la taille de notre échantillon et le faible volume d’expériences effectuées. De plus, les participant·e·s étaient familier·e·s les un·e·s avec les autres : par exemple, dans un cas, l’interrogateur a été capable d’identifier exactement le participant à partir du style de l'écriture et du type d’émoticone utilisé. Il faut souligner notamment le biais des interrogateurs, qui non seulement étaient connus des participant·e·s, mais étaient dans les deux parties des hommes.

Ainsi, les résultats présentés ici ont moins pour but d’exposer des conclusions sur l’intelligence ou le jeu de l’imitation de Turing que de proposer un support de réflexion sur la question des représentations et performances de genre face à une IA. La section suivante reflète une analyse qualitative et subjective de cette expérience personnelle et collective.

Résultats

Nous présentons les conclusions, intermédiaires, de cette expérimentation d’abord du point de vue de chaque groupe de participant·e·s puis du collectif.

Des femmes qui pensent comme des femmes, parfois

Les femmes remarquent toutes que ce jeu remet en question leur définition de la féminité : faut-il sur-performer la féminité ou non ? Répondre comme elle le ferait ou en rajouter ? Et plus profondément, que signifie jouer à être soi-même ?

Rapidement la tentation de se faire passer pour un homme émerge, peut-être par esprit de contradiction et pour donner tort aux stéréotypes de genre, peut-être par association aux autres espaces numériques où les femmes tendent à porter "un masque d’homme" pour passer inaperçues.

Toujours est-il que les femmes réfléchissent davantage à quelle stratégie adopter pour être bien reconnues comme femmes.

Des hommes qui pensent comme des femmes

Du côté des hommes, un participant a réussi à gagner systématiquement au jeu de l’imitation. Celui-ci rapporte qu’il s’est plutôt concentré sur des éléments linguistiques comme les accords, l’utilisation de ponctuation (points d'exclamation et points de suspension) et de smileys (coeurs rouges, par exemple), éléments superficiels de ce qu’il considère comme des caractéristiques de l’écriture féminine, plutôt que sur le contenu des réponses.

Les hommes expliquent au terme du premier match qu’ils ne se sont pas forcément questionnés sur l’attitude ou la stratégie à adopter et qu’ils n’ont pas discuté entre eux de ce que signifiait être une femme ou un homme.

Trouble dans l’interrogateur

Pour le premier interrogateur, l’expérience de devoir trouver 18 sujets de conversation de 3 min chacune est un exercice compliqué, d’autant qu’il est pris de court. Il ne se doute qu’il s’adresse à un chatbot qu’une seule fois (sur ses 6 échanges avec GPT). Il identifie le chatbot à cause des retours de questions typiques qui ressemblent à « est-ce que tu préfères ceci ou cela ? ».

Les décisions sont basées soit sur :

L’interrogateur n’est pas convaincu par ses propres critères et souligne qu’il n’est pas en accord avec lui-même dans cet exercice.

Remarques du collectif au terme de la journée

  1. Les échanges de 3 minutes sont trop courts, notamment à cause des délais d’attente du dispositif.

  2. Les hommes ont tendance à savoir faire les femmes (certains mieux que d'autres), les machines savent faire les femmes, les femmes savent aussi parfois faire les femmes.

  3. Face à un homme ! Ce que ces parties nous montrent ce n’est peut-être pas que les hommes ou les machines savent faire les femmes, mais plutôt que les hommes comme interrogateurs ne savent pas différencier à qui ils s’adressent.

  4. On ne peut démontrer l’humanité ou la capacité de penser, ni d’une machine ni d’un être humain, avec un jeu de rôle genré.

  5. Le jeu nous montre nos propres biais : les biais de l’interrogateur, mais aussi les biais des témoins, qui, pour se faire passer pour des femmes optent très rapidement pour des stratégies qui visent à caricaturer ce qu’est une femme.

  6. L’objectif n’est pas de déterminer si ChatGPT-4 est capable de tromper, mais de voir comment il l’a fait. En l’occurrence, en respectant les instructions initiales qui lui étaient données. Parce que ChatGPT-4 et les hommes ont gagné au moins une partie, alors « être une femme » pourrait être modélisable sous forme d’une série d’instruction en langage naturel.

  7. S’il s’agit d’un jeu et non pas d'un test, alors est-ce que la machine a vraiment participé ? Avait-elle le choix, avait-elle défini et compris le jeu et ses règles ? S’est-elle amusée ? On ne lui a pas demandé !

  8. Nous, en tout cas, on s’est amusé !

Ouverture de la discussion

Au sein même de notre équipe, certaines personnes se sont révélées bien meilleur·e·s que d’autres à ce jeu, et cette compétence (la capacité à se faire passer pour une femme) n’est pas corrélée au genre des participants. Être bon dans ce type de jeu relève d’une compétence qui ne saurait définir l’intelligence dans son ensemble. Tout au plus pourrait-on parler d’une intelligence ultra-spécifique : la capacité à performer un genre ou un autre, en mobilisant un ensemble de stéréotypes.

Cette expérience soulève ainsi un certain nombre de questions :

Que signifie performer un genre ? Le test repose aussi sur un postulat typique des années 1950 et de l'époque de Turing, qu’il existerait une distinction linguistique nette entre hommes et femmes. La femme a-t-elle vraiment un "avantage" pour se faire reconnaitre par l’interprète du fait qu’elle s’identifie comme femme ? Le test évalue-t-il une performance de genre, ou juste la capacité à jouer un rôle stéréotypé dans un cadre contraint  ?

Qu’est-ce que ce test permet vraiment d’évaluer ? Il semble moins mesurer l’intelligence générale d’une machine que son aptitude (et celle d’un humain) à exceller dans un jeu de rôle très spécifique. Or, comme pour tout jeu, certaines personnes sont plus malignes que d’autres. Enfin, la performance des joueurs est également tributaire d’un ensemble de biais, liés à la motivation, à l’expérience ou encore au contexte.

La tâche proposée par le test de Turing se révèle difficilement formalisable. Les définitions de ce que nous cherchons à modéliser sont finalement assez vagues. Nos premiers tests montrent que les règles du jeu doivent être définies avec une extrême précision, la moindre variation dans celles-ci a le pouvoir d'influencer le jeu et ses résultats. Ces derniers dépendent d’une série de circonstances (les compétences de l’interrogateur et des joueurs humains, leur motivation, le contenu des questions, les attentes culturelles), si bien qu’ils nous informent peu sur les capacités intrinsèques d’un algorithme.

Enfin, quel est vraiment notre comparatif ? À quoi mesurons-nous dans ce cas les capacités de la machine ? Le test permet d’évaluer la capacité d’une machine à jouer un rôle dans un contexte précis face à un être humain spécifique. Au vu de la variabilité des aptitudes humaines dans le domaine du jeu de rôle, est-il même pertinent de la comparer à une moyenne abstraite de la capacité humaine ? Que représente vraiment cette dernière ?

Perspectives futures

Nous envisageons de mettre en place une plateforme en ligne permettant de reproduire ce premier jeu de l’imitation. Pour cela nous travaillons à une définition plus rigoureuse du protocole expérimenté. L’intérêt serait de proposer à la fois un jeu et de constituer un jeu de données à partir des conversations enregistrées.

Biblio

Biever, Celeste. 2023. « ChatGPT broke the Turing test — the race is on for new ways to assess AI ». Nature 619 (7971):686‑89. https://doi.org/10.1038/d41586-023-02361-7.

Borg, Emma. s. d. « LLMs, Turing tests and Chinese rooms: the prospects for meaning in large language models ». Inquiry 0 (0):1‑31. Consulté le 7 octobre 2025. https://doi.org/10.1080/0020174X.2024.2446241.

« ChatGPT Agent Explained: What It Does & How It Works (2025) ». 2025. https://allaboutartificial.com/what-is-chatgpts-new-ai-agent-everything-you-need-to-know-and-why-its-a-big-deal/.

Gajewska, Ewelina. 2025. « The Lovelace Test of Intelligence: Can Humans Recognise and Esteem AI-Generated Art? » arXiv. https://doi.org/10.48550/arXiv.2509.11371.

Giunti, Marco. 2025. « ChatGPT-4 in the Turing Test: A Critical Analysis ». arXiv. https://doi.org/10.48550/arXiv.2503.06551.

Gonçalves, Bernardo. 2023a. « Irony with a Point: Alan Turing and His Intelligent Machine Utopia ». Philosophy & Technology 36 (3):50. https://doi.org/10.1007/s13347-023-00650-7.

Gonçalves, Bernardo. 2023b. The Turing Test Argument. New York: Routledge. https://doi.org/10.4324/9781003300267.

Gonçalves, Bernardo. 2024. « Turing’s Test, a Beautiful Thought Experiment ». IEEE Annals of the History of Computing 46 (3):36‑49. https://doi.org/10.1109/MAHC.2024.3432278.

Ivanova, Anna A. 2025. « How to evaluate the cognitive abilities of LLMs ». Nature Human Behaviour 9 (2):230‑33. https://doi.org/10.1038/s41562-024-02096-z.

Jones, Cameron R., et Benjamin K. Bergen. 2024. « Does GPT-4 pass the Turing test? » arXiv. https://doi.org/10.48550/arXiv.2310.20216.

Jones, Cameron R., et Benjamin K. Bergen. 2025. « Large Language Models Pass the Turing Test ». arXiv. https://doi.org/10.48550/arXiv.2503.23674.

Kremer, Attay. 2024. « The Turing test is a joke ». AI & SOCIETY 39 (1):399‑401. https://doi.org/10.1007/s00146-022-01609-6.

Lassegue, Jean. 2002. « Turing, entre formel et forme ; remarque sur la convergence des perspectives morphologiques ». Intellectica 35 (2):185‑98. [https://doi.org/10.3406/intel.2002.1665].

Longo, Giuseppe. 2002. « Laplace, Turing et la géométrie impossible du "jeu de l'imitation " : aléas, déterminisme et programmes dans le test de Turing ». Intellectica 35 (2):131‑61. https://doi.org/10.3406/intel.2002.1661.

Mei, Qiaozhu, Yutong Xie, Walter Yuan, et Matthew O. Jackson. 2024. « A Turing Test: Are AI Chatbots Behaviorally Similar to Humans? » arXiv. https://doi.org/10.48550/arXiv.2312.00798.

Rahimov, Avraham, Orel Zamler, et Amos Azaria. 2025. « The Turing Test Is More Relevant Than Ever ». arXiv. https://doi.org/10.48550/arXiv.2505.02558.

Restrepo Echavarría, Ricardo. 2025. « ChatGPT-4 in the Turing Test ». Minds and Machines 35 (1):8. https://doi.org/10.1007/s11023-025-09711-6.

Sterrett, Susan G. 2000. « Turing’s Two Tests for Intelligence ». Minds and Machines 10 (4):541‑59. https://doi.org/10.1023/A:1011242120015.

Temtsin, Sharon, Diane Proudfoot, David Kaber, et Christoph Bartneck. 2025. « The Imitation Game According To Turing ». arXiv. https://doi.org/10.48550/arXiv.2501.17629.

« The Turing test is not a good benchmark for thought in LLMs Nature Human Behaviour ». s. d. Consulté le 7 octobre 2025. https://www.nature.com/articles/s41562-023-01710-w.

Turing, Alan M. 1950. « Computing Machinery and Intelligence ». Mind 59 (236):433‑60. https://www.jstor.org/stable/2251299.

Vitali-Rosati, Marcello. 2023. « La fabrique des subalternes: les LLM, la différence homme-machine et le mythe de l’originalité ». Culture numérique. Pour une philosophie du numérique. http://blog.sens-public.org/marcellovitalirosati/fabrique-des-subalternes.html.