L'Université Liberté, vous convie à lire ce nouveau message. Des commentaires seraient souhaitables, notamment sur les posts référencés: à débattre, réflexions...Merci de vos lectures, et de vos analyses.
Théorie des jeux: concepts fondamentaux
La théorie des jeux est à la fois une branche de l’économie et des mathématiques qui
s’applique à de très nombreux problèmes sociaux, politiques et économiques. Des agents
économiques, des joueurs ou des collectivités (pays, armées) prennent des décisions en
considérant le fait que les autres acteurs avec lesquels ils interagissent élaborent eux aussi
des stratégies. En d’autres termes, les agents prennent une décision qui tient compte du
fait que les autres vont y réagir. Ces autres prennent en retour en considération la réaction
de l’agent dans leurs décisions. Ces relations complexes s’appellent des interactions
stratégiques. Même dans un environnement limité à un petit nombre d’acteurs, 2, 3
ou 4, les interactions stratégiques sont très complexes et riches d’enseignements. Dans ce
chapitre et le suivant, on conservera les hypothèses précédemment faites : les agents sont
informés de façon symétrique, optimisent leur fonction d’objectif et savent également
que les autres sont rationnels, point important sur lequel on reviendra plus loin dans
ce chapitre.
Les contextes possibles ne se limitent pas à l’économie : ils incluent de nombreux autres domaines dont la stratégie militaire (voir l’encadré). La théorie des jeux s’applique aussi au contexte politique : paradoxalement, il n’y a rien de plus stratégique que la ligne d’un parti politique, alors que l’on pourrait penser que l’idéologie et les référents historiques devraient suffire à expliquer leur positionnement. Lorsqu’ils élaborent une plate-forme électorale nationale ou régionale, les stratèges prennent en compte la façon dont les autres partis vont élaborer eux-mêmes leur plate-forme, en essayant de capturer des électeurs plus proches, voire, dans la stratégie dite de triangulation, de diviser le camp adverse sur des sujets divers : aux États-Unis sur la question de l’avortement, en France sur des sujets comme la sécurité ou l’adhésion de la Turquie à l’Union Européenne. Enfin, tous les éléments de la théorie des jeux se retrouvent évidemment dans les jeux tels que les échecs, le jeu de go ou des jeux plus complexes avec plusieurs joueurs comme Diplomacy.
Les contextes possibles ne se limitent pas à l’économie : ils incluent de nombreux autres domaines dont la stratégie militaire (voir l’encadré). La théorie des jeux s’applique aussi au contexte politique : paradoxalement, il n’y a rien de plus stratégique que la ligne d’un parti politique, alors que l’on pourrait penser que l’idéologie et les référents historiques devraient suffire à expliquer leur positionnement. Lorsqu’ils élaborent une plate-forme électorale nationale ou régionale, les stratèges prennent en compte la façon dont les autres partis vont élaborer eux-mêmes leur plate-forme, en essayant de capturer des électeurs plus proches, voire, dans la stratégie dite de triangulation, de diviser le camp adverse sur des sujets divers : aux États-Unis sur la question de l’avortement, en France sur des sujets comme la sécurité ou l’adhésion de la Turquie à l’Union Européenne. Enfin, tous les éléments de la théorie des jeux se retrouvent évidemment dans les jeux tels que les échecs, le jeu de go ou des jeux plus complexes avec plusieurs joueurs comme Diplomacy.
L’US Airforce a créé la RAND Corporation en 1945, RAND étant l’acronyme de Research and Development. Ce groupe a dès le départ réuni des chercheurs de toutes disciplines afin de comprendre les enjeux stratégiques du contexte militaire de l’époque, c’est-à-dire la guerre froide, la théorie des dominos, les conflits nucléaires. Ces réflexions stratégiques ont rassemblé un grand nombre de person- nalités scientifiques, notamment John Von Neumann, Kenneth Arrow (Nobel 1972), Paul Samuelson (Nobel 1970), Leo Hurwicz (Nobel 2007), Ed Phelps (Nobel 2006). Une des questions clés était, dans le contexte de la guerre froide de l’époque, de déterminer la meilleure stratégie que les États-Unis pourraient adopter sans connaître celle du bloc opposé, par exemple, afin d’avoir une politique de dissuasion efficace. Les développements de la théorie des jeux au cours de la période 1945-1958 ont été tout à fait considérables, simplement parce qu’il y avait une demande sociale immense – dont les enjeux étaient rien de moins que d’éviter une escalade nucléaire conduisant à la destruction de la planète – pour ses applications. Les autres questions concernaient les tactiques de défense face aux missiles ennemis, les tactiques à employer lors des combats aériens entre avions de chasse ou d’autres questions tactiques de base comme le positionnement des troupes face à un ennemi partiellement invisible.
La théorie des jeux peut aussi se retrouver de façon plus inattendue en psychologie. Dans l’histoire d’Ulysse et les sirènes réinterprétée par Jon Elster, on peut très bien représenter le comportement d’Ulysse comme un jeu stratégique particulier : entre lui-même aujourd’hui et lui-même lorsqu’il est sur le bateau ; il y a en effet un conflit d’intérêt évident entre Ulysse sur le quai qui ne veut pas plonger à la mer et Ulysse sur le bateau qui n’arrive pas à résister à la tentation des sirènes. Ce conflit peut s’analyser dans le cadre de la théorie des jeux. Une des solutions est de restreindre l’espace de choix de son opposant : Ulysse sur le quai va essayer de restreindre le pouvoir d’Ulysse sur le bateau de façon à limiter son champ d’action. Comme Ulysse aujourd’hui est le premier à jouer, il a un avantage stratégique très fort, que l’on découvrira au chapitre suivant comme étant le leadership au sens de Stackelberg. Ce champ de l’économie, qui étudie la psychologie dans le cadre de la théorie des jeux entre différentes parties de l’esprit d’un individu est parfois appelé picoeconomics, à l’échelon inférieur de celui de la microéconomie1.
Enfin, dans le contexte économique, la théorie des jeux s’applique dès qu’il y a un petit nombre d’acteurs, dans le cas de l’oligopole ou même du monopole, entre l’entreprise en monopole et les consommateurs : le monopole considère la réaction optimale des consommateurs et le fait que quand le prix de vente augmente, leur demande pour le bien diminuera. C’était en fait la première interaction stratégique vue dans ce cours. Avant cet exemple du monopole, les interactions stratégiques n’avaient pas été abordées, parce qu’en
concurrence pure, lorsque le nombre d’agents est grand, l’un d’eux a peu d’influence sur
les autres. Un consommateur lorsqu’il décide d’acheter ou non une voiture, ne prendra
pas en compte le comportement de tous les autres consommateurs.
Dans le cas de l’oligopole, notamment du duopole, se rajoute une série d’interactions stratégiques : chaque entreprise va tenir compte de ce que font les autres, en plus de la prise en compte des réactions des consommateurs. Le premier à avoir étudié ces aspects stratégiques est l’économiste français Antoine-Augustin Cournot, dès la première moitié du XIXe siècle : son analyse contient en germe tous les éléments de la théorie des jeux développée dans les années 1950. Ceux-ci seront formalisés dans la dernière partie de ce chapitre, où nous verrons comment les outils développés ici peuvent servir à l’analyse de la concurrence.
Nous allons d’abord étudier in extenso un des jeux les plus célèbres de la théorie des jeux, le dilemme du prisonnier. Cette analyse nous permettra d’introduire plusieurs des concepts fondamentaux, celui de jeu de coopération, l’équilibre de Nash, le raisonnement par induction récursive, le Folk Theorem, et de nous interroger une nouvelle fois sur les limites de la rationalité : si la théorie suggère l’absence de coopération dans un grand nombre de situations, l’expérience montre au contraire qu’elle émerge très spontanément.
Dans le chapitre suivant, nous étudierons d’autres jeux et les concepts d’équilibre associés, notamment les équilibres en stratégie mixte et les développements en biologie théorique issus de la théorie des jeux.
Le dilemme du prisonnier
Plusieurs concepts de la théorie des jeux peuvent en effet être étudiés au travers d’un seul et même exemple, le dilemme du prisonnier. La première version de ce jeu a été présentée par des chercheurs de la Rand en 1950, et a rapidement servi à illustrer le processus de course aux armements ou inversement du processus de désarmement nucléaire2. Ce jeu s’applique à une foule de contextes. La version la plus simple est l’histoire de deux voleurs complices qui ont commis un forfait. Ils sont arrêtés et la police aimerait obtenir des aveux. Elle est sûre que les deux voleurs ont commis le forfait, mais elle n’a pas assez de preuves pour les condamner lourdement. Au tribunal, la peine serait probablement légère en l’absence d’aveux. Les voleurs se sont promis, avant d’être arrêtés, de ne pas se trahir. La police les interroge séparément et essaie d’obtenir des aveux de chacun d’eux en promettant une amnistie à celui qui parlera, s’il est seul à parler. De là surgit le dilemme. Les prisonniers savent qu’ils ne seront pas condamnés lourdement s’ils coopèrent effectivement en ne parlant pas à la police. Mais ils ont une incitation individuelle à avouer leur crime et éventuellement à être amnistiés. Vont-ils avouer leurs fautes ? Évidemment, on ne considère pas ici les aspects moraux d’une norme de coopération, qui d’ailleurs consisterait ici à nier le forfait et donc à ne pas coopérer avec les autorités3 ! On étudiera donc le problème sous l’angle de la rationalité stricte et on va donc ici essayer de comprendre l’intérêt rationnel de chacun de ces individus.
Dans le cas de l’oligopole, notamment du duopole, se rajoute une série d’interactions stratégiques : chaque entreprise va tenir compte de ce que font les autres, en plus de la prise en compte des réactions des consommateurs. Le premier à avoir étudié ces aspects stratégiques est l’économiste français Antoine-Augustin Cournot, dès la première moitié du XIXe siècle : son analyse contient en germe tous les éléments de la théorie des jeux développée dans les années 1950. Ceux-ci seront formalisés dans la dernière partie de ce chapitre, où nous verrons comment les outils développés ici peuvent servir à l’analyse de la concurrence.
Nous allons d’abord étudier in extenso un des jeux les plus célèbres de la théorie des jeux, le dilemme du prisonnier. Cette analyse nous permettra d’introduire plusieurs des concepts fondamentaux, celui de jeu de coopération, l’équilibre de Nash, le raisonnement par induction récursive, le Folk Theorem, et de nous interroger une nouvelle fois sur les limites de la rationalité : si la théorie suggère l’absence de coopération dans un grand nombre de situations, l’expérience montre au contraire qu’elle émerge très spontanément.
Dans le chapitre suivant, nous étudierons d’autres jeux et les concepts d’équilibre associés, notamment les équilibres en stratégie mixte et les développements en biologie théorique issus de la théorie des jeux.
Le dilemme du prisonnier
Plusieurs concepts de la théorie des jeux peuvent en effet être étudiés au travers d’un seul et même exemple, le dilemme du prisonnier. La première version de ce jeu a été présentée par des chercheurs de la Rand en 1950, et a rapidement servi à illustrer le processus de course aux armements ou inversement du processus de désarmement nucléaire2. Ce jeu s’applique à une foule de contextes. La version la plus simple est l’histoire de deux voleurs complices qui ont commis un forfait. Ils sont arrêtés et la police aimerait obtenir des aveux. Elle est sûre que les deux voleurs ont commis le forfait, mais elle n’a pas assez de preuves pour les condamner lourdement. Au tribunal, la peine serait probablement légère en l’absence d’aveux. Les voleurs se sont promis, avant d’être arrêtés, de ne pas se trahir. La police les interroge séparément et essaie d’obtenir des aveux de chacun d’eux en promettant une amnistie à celui qui parlera, s’il est seul à parler. De là surgit le dilemme. Les prisonniers savent qu’ils ne seront pas condamnés lourdement s’ils coopèrent effectivement en ne parlant pas à la police. Mais ils ont une incitation individuelle à avouer leur crime et éventuellement à être amnistiés. Vont-ils avouer leurs fautes ? Évidemment, on ne considère pas ici les aspects moraux d’une norme de coopération, qui d’ailleurs consisterait ici à nier le forfait et donc à ne pas coopérer avec les autorités3 ! On étudiera donc le problème sous l’angle de la rationalité stricte et on va donc ici essayer de comprendre l’intérêt rationnel de chacun de ces individus.
Ce jeu peut être décrit au moyen d’une matrice, la matrice du jeu, qui peut être représentée dans une table 2x2, où toutes les situations possibles sont prévues. Les stratégies du joueur 1 apparaîssent dans les rangées et celles du joueur 2 dans les colonnes. Dans chaque cellule, on placera les payoffs des agents, c’est-à-dire leurs gains. Ici par convention, on placera le nombre d’années de prison dans les cellules (!) de la matrice, avec un signe négatif pour indiquer qu’il s’agit bien d’une perte d’utilité. Les stratégies sont des actions qui doivent être choisies dans l’ensemble des stratégies possibles, en l’occurrence l’ensemble {nier, avouer}.
Joueur 2
Nier Avouer
Nier (−1, −1) (−5, 0)
Joueur 1 Avouer (0, −5) (−4, −4)
Nier Avouer
Nier (−1, −1) (−5, 0)
Joueur 1 Avouer (0, −5) (−4, −4)
Il y a donc au total 4 possibilités selon que les voleurs nient tous les deux, coopèrent tous
les deux ou que l’un avoue et l’autre nie. Si tous les deux nient et donc coopèrent entre eux,
la peine est minimale, un an de prison. Si un voleur coopère avec son complice en niant
mais que l’autre fait défection et avoue, celui qui nie prend alors 5 années de prison et
l’auteur des aveux est amnistié. Enfin, quand les deux font défection à leur pacte antérieur
et avouent tous les deux, on tient compte du fait qu’ils ont avoué, mais comme la police n’a
pas eu besoin des aveux de l’un ou de l’autre individuellement pour les faire condamner,
il n’y a pas besoin de les récompenser et les deux écopent de 4 années de prison.
Quelle sera la meilleure stratégie du joueur 1 ? Il faut pour cela étudier chaque situation possible, car les deux « joueurs » ne peuvent pas se coordonner. Supposons que le joueur 2 nie. Pour le joueur 1, nier également entraîne une condamnation à une année de prison, mais s’il avoue, il est amnistié. Dans ce cas, le joueur 1 a intérêt à avouer. Supposons maintenant que le joueur 2 avoue. Pour le joueur 1, nier entraîne alors cinq années de prison, mais s’il avoue également, il n’est condamné qu’à quatre années d’emprisonnement. De nouveau, son intérêt rationnel sera d’avouer. Ainsi, quelle que soit la stratégie du joueur 2, la seule réaction rationnelle du joueur 1 est d’avouer. Quand une stratégie est préférable aux autres quelle que soit la stratégie de l’opposant, on parle de stratégie dominante. En l’occurrence, par simple raisonnement rationnel, on peut éliminer toute la première ligne sachant que la réponse du joueur 1 sera sur la seconde ligne du tableau.
Quelle sera la meilleure stratégie du joueur 1 ? Il faut pour cela étudier chaque situation possible, car les deux « joueurs » ne peuvent pas se coordonner. Supposons que le joueur 2 nie. Pour le joueur 1, nier également entraîne une condamnation à une année de prison, mais s’il avoue, il est amnistié. Dans ce cas, le joueur 1 a intérêt à avouer. Supposons maintenant que le joueur 2 avoue. Pour le joueur 1, nier entraîne alors cinq années de prison, mais s’il avoue également, il n’est condamné qu’à quatre années d’emprisonnement. De nouveau, son intérêt rationnel sera d’avouer. Ainsi, quelle que soit la stratégie du joueur 2, la seule réaction rationnelle du joueur 1 est d’avouer. Quand une stratégie est préférable aux autres quelle que soit la stratégie de l’opposant, on parle de stratégie dominante. En l’occurrence, par simple raisonnement rationnel, on peut éliminer toute la première ligne sachant que la réponse du joueur 1 sera sur la seconde ligne du tableau.
Pour le joueur 2, la réflexion sera identique, car le jeu est symétrique. Peu importe ce que fait le joueur 1, il aura lui aussi intérêt à avouer. Donc, comme avouer sera une stratégie dominante, on peut éliminer d’office la première colonne. Il ne reste donc par élimination qu’une seule possibilité, qui est la case inférieure droite : les deux feront défection de façon non coopérative. Qui plus est, cette solution est ce que l’on appelle un équilibre de Nash, défini plus précisément à la section suivante. Il est à noter que tous les jeux n’ont pas nécessairement une stratégie dominante, comme on le verra plus loin.
Les concepts fondamentaux de la théorie des jeux
L’équilibre de Nash
Dans un jeu à deux joueurs, un équilibre de Nash est une situation dans laquelle chaque joueur choisit sa meilleure réponse compte tenu de la réponse de l’autre, et les stratégies retenues de chaque joueur sont mutuellement cohérentes : si 1 a intérêt à jouer A quand 2 joue B, et que 2 a intérêt à jouer B lorsque 1 joue A, alors la situation où A et B sont jouées est un équilibre de Nash. Une autre façon de définir un équilibre de Nash est une situation dont personne n’a intérêt à dévier individuellement, sachant la stratégie de l’autre. Ne pas dévier individuellement veut dire que les individus font un choix optimal qui maximise leur utilité compte tenu de la stratégie de l’autre. L’autre fait le même raisonnement compte tenu de la stratégie du premier joueur.
Ce concept d’équilibre de Nash est assez naturel et a trois propriétés qu’il convient de discuter :
Dans un jeu à deux joueurs, un équilibre de Nash est une situation dans laquelle chaque joueur choisit sa meilleure réponse compte tenu de la réponse de l’autre, et les stratégies retenues de chaque joueur sont mutuellement cohérentes : si 1 a intérêt à jouer A quand 2 joue B, et que 2 a intérêt à jouer B lorsque 1 joue A, alors la situation où A et B sont jouées est un équilibre de Nash. Une autre façon de définir un équilibre de Nash est une situation dont personne n’a intérêt à dévier individuellement, sachant la stratégie de l’autre. Ne pas dévier individuellement veut dire que les individus font un choix optimal qui maximise leur utilité compte tenu de la stratégie de l’autre. L’autre fait le même raisonnement compte tenu de la stratégie du premier joueur.
Ce concept d’équilibre de Nash est assez naturel et a trois propriétés qu’il convient de discuter :
-
la rationalité : il repose sur l’optimisation et la poursuite de l’intérêt individuel, pour
ne pas dire l’égoïsme, des joueurs;
-
la spontanéité: la convergence vers l’équilibre se fait en général sans besoin d’interven-
tion extérieure;
-
la stabilité: si on y est, on y reste, puisque par définition les deux joueurs ne souhaitent
pas dévier de cet équilibre.
Ces trois propriétés n’ont pas été ici soulignées par hasard ; ce sont en réalité trois similitudes très fortes avec « la main invisible » d’Adam Smith. L’équilibre de marché en situation de concurrence pure et parfaite est également le fruit de la rationalité et de la poursuite de l’intérêt individuel ; il est spontané ; il est en général stable. En revanche, l’équilibre de Nash comporte deux différences essentielles avec l’équilibre de marché :
-
Contrairement à la situation générique du marché en concurrence pure et parfaite en
présence de préférences convexes où l’équilibre de marché est unique, il y a fréquemment
plusieurs équilibres de Nash (voir le chapitre suivant pour de tels exemples) ;
-
et surtout, contrairement à la situation générique du marché en concurrence pure et
parfaite en présence de préférences convexes où l’équilibre de marché est unique et
optimal au sens de Pareto, l’équilibre de Nash est fréquemment sous-optimal au sens
de Pareto, comme on vient de le voir.
Les implications philosophiques de ces deux différences avec la main invisible sont importantes. Sur la première propriété ci-dessus, dans une situation caractérisée par le laissez-faire, si on a deux ou plusieurs équilibres possibles, cela implique d’une part que la situation atteinte dépend de l’histoire et de la coordination des agents sur un des équilibres : le rôle des attentes des agents par rapport à l’équilibre est donc très important, car ce qui se produit, l’équilibre atteint, dépend de ce que les agents croient devoir se produire. S’ils croyaient en un autre de ces équilibres possibles, c’est cet autre équilibre qui serait atteint. On peut donc concevoir un monde dans lequel on peut affecter le cours des choses en modifiant les croyances ou les attentes des agents. D’autre part, les différents équilibres peuvent être comparés en terme de bien-être collectif : certains peuvent être mieux que d’autres pour tous les agents (donc Pareto-dominants), certains peuvent procurer un plus grand surplus collectif. Or, rien ne garantit que le laissez-faire conduise au meilleur équilibre. Ce qui redonne du sens à l’action collective visant à changer les croyances.
Enfin, sur la seconde propriété, il existe des situations hors équilibre qui sont encore plus désirables d’un point de vue normatif : on a illustré ici l’inefficacité d’un équilibre non coopératif ; équilibre car c’est une situation dans laquelle on n’a pas intérêt à dévier, non coopératif à cause de la défection des acteurs, et inefficace car on pourrait augmenter le surplus collectif (ou l’efficacité agrégée) en changeant les stratégies des joueurs. De plus, contrairement à l’équilibre de marché, l’équilibre de Nash du dilemme du prisonnier n’est pas efficace au sens de Pareto. Si les deux joueurs avaient coopéré et tenu leur pacte, il y aurait eu une amélioration au sens de Pareto, de (−4, − 4) à (−1, − 1). C’est donc une amélioration qui se fait sans détériorer le bien-être de quiconque, sauf bien sûr de la police qui n’entre pas dans le jeu. L’idée qu’il existe des situations raisonnables dans lesquelles les agents se coordonnent au sens de Nash sur des équilibres inefficaces a donc une grande portée philosophique : l’équilibre de Nash indique une tension entre la rationalité individuelle qui est l’hypothèse de travail de la microéconomie, et la rationalité collective qui suggère des gains à une coordination des agents.
Notons cependant qu’il y a quand même une certaine continuité entre l’équilibre de Nash et l’équilibre de marché : on peut voir l’équilibre de marché comme un équilibre de Nash particulier dans lequel les agents sont de taille infiniment petites, et donc dont les interactions stratégiques sont négligeables.
John F. Nash junior, né en 1928, a reçu le prix Nobel en 1994 avec Reinhart Selten et John Harsanyi pour la théorie des jeux non coopératifs (la distinction entre la théorie des jeux coopératifs et non coopératifs est définie dans un encadré du chapitre suivant). Lorsque Nash est arrivé comme doctorant en septembre 1948 au département de mathématiques de Princeton, la lettre de recommandation que lui avait faite R.L. Duffin du Carnegie Institute of Technology tenait en une ligne : « This man is a genius. » Plus tard, son directeur de thèse Al Tucker confiera : « At times I have thought this recommendation was extravagant, but the longer I’ve known Nash the more I am inclined to agree that Duffin was right. »
Ses travaux principaux ont été publiés entre 1950 et 1953 et ont profondément influencé la littérature économique au cours des 50 années suivantes en introduisant deux concepts clés : le premier est le concept d’équilibre qui porte son nom et un résultat d’existence important discuté au chapitre suivant ; le second est le calcul et les conditions d’existence d’une solution de négociation entre plusieurs individus qui est connue sous le nom de « négociation à la Nash ».
Suite à ces travaux, John Nash a souffert de schizophrénie pendant plusieurs décennies, a été interné et a quasiment cessé d’interagir avec les autres chercheurs, au point que son existence avait été oubliée par la plupart de ses successeurs, avant de progressivement et partiellement retrouver ses capacités. Le comité Nobel a envoyé un chercheur suédois de haut niveau, lui-même théoricien des jeux, Jorgen Weibull, auditionner John Nash et vérifier qu’il était à peu près remis. Comme de tradition, un symposium sur la théorie des jeux a été organisé avec tous les grands acteurs de cette période le 8 décembre 1994.
En dépit de ce qui a été dit plus haut sur Nash et sa réputation, le prix qui lui a été accordé a donné lieu à une controverse, les mathématiciens considérant ses résultats comme relativement triviaux. La profondeur de l’impact de ses travaux en économie ne laisse cependant aucun doute sur son mérite. En particulier, Nash a développé un concept d’équilibre qui peut se voir comme une alternative à l’équilibre issu de la main invisible, avec des prédictions normatives différentes. Dans un jeu de coopération comme celui du dilemme du prisonnier, il y a un gain pour les agents à coopérer mais l’équilibre de Nash ne permet pas d’atteindre cette coopération.
Travaux principaux :
« Equilibrium Points in N-person Games », Proceedings of the National Academy of
Sciences, 1950 ;
« The Bargaining Problem », Econometrica, avril 1950 ;
« Two-person Cooperative Games », Econometrica, janvier 1953.
Pour l’histoire, on pourra consulter la biographie très documentée, A Beautiful Mind, par Sylvia Nasar, dont on a tiré un film, les travaux de Robert Leonard, professeur d’histoire économique à l’UQAM qui a joué un rôle important dans cette biographie, le très pédagogique ouvrage de Nicolas Eber, Théorie des Jeux, Dunod, et enfin les passionnantes minutes du symposium Nobel du 8 décembre 1994 publiées sous le titre « The work of John Nash in game theory ».
Les jeux répétés
Le résultat de l’analyse théorique précédente est que la non-coopération entre les deux joueurs est la solution naturelle, du moins dans ce jeu statique. Pourtant, intuitivement, la coopération peut émerger plus facilement lors d’interactions répétées plusieurs fois, ce que l’on appellera les jeux répétés. Pourquoi le boucher va-t-il nous servir au même prix un bon morceau de viande alors qu’il pourrait nous donner un moins bon morceau qu’il aurait acheté moins cher ? Par altruisme, certes, mais surtout parce qu’il souhaite que nous revenions les jours suivants, ce qui est notre façon de coopérer en tant que consommateur. En d’autres termes, va-t-on retrouver l’équilibre non coopératif si le jeu se reproduit d’une période sur l’autre, alors qu’il est de l’intérêt des deux parties de se coordonner pour coopérer ? On peut imaginer en effet que la répétition du jeu introduit un puissant motif de coopération : coopérer pour inciter l’autre à coopérer au tour suivant, motivation qui n’existe pas dans le jeu statique puisqu’il n’y a pas de tour suivant.
Stratégies en jeux répétés
Dans ce contexte de jeu répété, on fait une hypothèse importante pour l’analyse : les joueurs de ce jeu retiennent le résultat des tours précédents. Il peuvent donc choisir une action lors d’une des périodes en prenant en compte d’une part les réponses possibles de l’autre joueur, et d’autre part les actions de l’autre joueur depuis le début du jeu. À chaque tour, ils doivent donc décider de leur meilleure action. Dans ce cadre de jeu répété, chaque joueur a donc à choisir une stratégie dans un ensemble plus complexe que dans un jeu à une période.
Une stratégie en jeux répétés consistera en une règle de décision applicable à chaque période en fonction de ce qui a été joué précédemment. Dans le cadre du dilemme du prisonnier, il s’agit simplement de coopérer ou de faire défection en connaissant les actions passées de l’adversaire. Il y a diverses stratégies possibles, qui correspondent de façon amusante à des traits de caractère très différents. En notant D pour défection et C pour coopération, on aurait ainsi les diverses stratégies suivantes :
• la stratégie All D : toujours faire défection, quoi qu’il arrive, même si l’autre a toujours coopéré ;
• la stratégie All C : toujours coopérer, quoi qu’il arrive, même si l’adversaire fait défection ;
-
la stratégie dite du Tit-for-Tat ou du donnant donnant. Un joueur jouant Tit-for-Tat
commence en coopérant. Si l’adversaire coopère, il continue de coopérer. Mais si
l’adversaire fait défection, le joueur fait défection au jeu suivant pour le punir. De
façon condensée, Tit for Tat fait ce qu’a fait l’adversaire au coup précédent après avoir
coopéré au premier coup ;
-
lastratégiedelareprésaillepermanente(permanentretaliation):lejoueurcoopèretant
que l’adversaire coopère, notamment au premier coup. Mais si l’adversaire fait défection,
il est puni jusqu’à la fin du jeu. C’est la stratégie de la rancune tenace.
Il existe évidemment une multitude d’autres stratégies plus complexes. On peut ainsi jouer aléatoirement, ou tenter d’apprendre si on joue avec un joueur All C, ou au contraire un rancunier. Il semble donc a priori difficile d’identifier la meilleure face à tous les types de joueurs dans un jeu répété.
En effet, la meilleure stratégie dépend de ce que fait l’adversaire. Contrairement au dilemme du prisonnier statique un joueur peut avoir intérêt à coopérer afin d’obtenir la coopération de l’autre. Si le joueur coopère à date t, l’autre peut bien sûr faire défection. Mais s’il coopère aussi, les deux peuvent entrer dans un cercle vertueux où l’équilibre de coopération est atteint. Si l’adversaire fait défection malgré tout, alors la meilleure stratégie n’est plus de coopérer, mais de faire défection. Il n’est donc pas possible d’identifier de stratégies qui soient optimales, bien que certaines stratégies soient meilleures que d’autres. Un peu comme aux échecs, il y a une meilleure stratégie, mais on ne sait pas l’identifier. On verra ce point plus formellement au chapitre suivant avec le théorème de Nash.
Les jeux finis
Il existe deux types de jeux répétés. Ceux dont on connaît la fin avec certitude, et ceux pour lesquels ce n’est pas le cas. Cette distinction est fondamentale car les implications de la théorie des jeux seront fondamentalement différentes selon le cas dans lequel on se place. Imaginons donc un dilemme du prisonnier répété un certain nombre de périodes T connues à l’avance, ce qui est ce que l’on appelle un jeu fini : la fin du jeu est connue avec certitude par tous les joueurs. L’élément important ici est que la date de fin du jeu est connue à l’avance par les deux joueurs.
Pour résoudre ce type de jeu, on applique une méthode de raisonnement très utile à connaître, dite méthode de raisonnement à rebours, ou en anglais backward induction. L’idée est d’abord de trouver le comportement optimal des acteurs du jeu lors de la dernière période, puis de raisonner en remontant le temps, à partir de la dernière période du jeu. On trouve alors la solution pour T − 1, puis T − 2, etc. jusqu’à la première période.
En dernière période, sachant que le jeu s’arrête, quelle est la meilleure stratégie ? On a vu dans le jeu statique que la meilleure stratégie, du point de vue de la rationalité individuelle, était de faire défection. On pourrait imaginer dans un jeu répété que le motif de coopération resurgisse. Mais la dernière période du jeu n’est, du point de vue des joueurs, qu’un jeu statique, puisqu’il n’y a pas, par définition, de tour ultérieur. On en déduit qu’à la période T , la meilleure stratégie de chaque joueur est l’équilibre de Nash en stratégie dominante, c’est-à-dire la double défection (D,D), et c’est ce que les joueurs doivent également penser.
Recommençons le raisonnement en période T − 1. À ce stade, l’intérêt de coopérer est d’inciter la coopération en dernière période. Mais on vient juste de montrer que cela ne sera pas le cas, puisque la stratégie (D,D) émergera en dernière période quoi qu’il arrive. Donc en T − 1, il n’y aura aucun avantage à coopérer, et on retrouvera de nouveau l’équilibre de défection des deux joueurs (D,D). Ce qui est vrai en T − 1 est vrai en T − 2 et de proche en proche, on peut remonter jusqu’en période 1. Par induction à rebours, on vient d’établir qu’à toutes les étapes, les agents joueront la stratégie de défection, car ils anticipent tout ce qui va se passer, qui se confirmera rationnellement par la suite.
Ceci suppose néanmoins que les agents sont rationnels au point de comprendre ce qui se passera par la suite, et de faire l’hypothèse que l’autre agent a ce même type de compréhension rationnelle. Ce sont des hypothèses très fortes de rationalité, poussées à l’extrême : on parle en l’occurrence de common knowledge pour caractériser la situation dans laquelle l’agent 1 sait que l’agent 2 sera rationnel, que l’agent 2 sait que l’agent 1 sera rationnel, mais au degré suivant, que l’agent 1 sait aussi que l’agent 2 sait qu’il sera rationnel, et ainsi de suite, jusqu’à l’infini. Cette idée de rationalité étendue, le common knowledge, est intrinsèquement liée au concept d’équilibre de Nash : les agents seront rationnels sous l’hypothèse qu’ils savent que les autres le seront aussi, que ceux-ci le sauront et sauront qu’ils le savent4 . Cette hypothèse est forte, et donc critiquable, mais dans certains contextes, peut apparaître comme plutôt naturelle. Ainsi, aux échecs, comme dans la plupart des jeux de société, on joue son meilleur coup sous l’hypothèse que l’adversaire jouera lui-même le meilleur. On pourrait sûrement faire mieux si l’adversaire jouait autre chose que son meilleur choix (par exemple ne pas prendre la dame imprudemment approchée du roi adverse), mais la sagesse implique en général de ne pas trop compter sur l’erreur de l’autre.
À ce stade, nous sommes placés devant la conclusion assez pessimiste selon laquelle les stratégies de défection sont assez robustes, car elles s’installent même en jeu répété où il y aurait pourtant avantage à pousser la coopération.
Les jeux infinis
Ce résultat ne tient cependant pas dans le cas des jeux infinis, ce qui est un résultat réconfortant. Il faut d’abord définir les jeux infinis. Il y en a deux types ; soit il s’agit de situations dans lesquelles le jeu continue jusqu’à la fin des temps (la date T de la dernière période tend vers l’infini) ; soit, de façon en réalité équivalente sur le plan de l’écriture formelle du jeu, il s’agit de situations dans lesquelles le jeu s’arrêtera de façon imprévue par les agents, aléatoirement par exemple. Dans chacun des cas, il est clair que l’on ne peut
plus faire de raisonnement récursif en partant de la dernière période : on ne connaît pas la
fin du jeu. Comment va-t-on alors déterminer le raisonnement que vont faire les agents ?
Il s’agit de quelque chose de beaucoup plus difficile, et pour cause : comme souvent en économie, une décision à une date t dépend de l’anticipation que vont faire les agents aux dates suivantes. Or, en jeu fini, l’anticipation était très simple : on savait ce qui se passerait à toutes les étapes suivantes par raisonnement à rebours. En jeu infini, on ne le sait plus ; les agents non plus. En fait, il existe de nombreuses stratégies possibles, et on retrouvera la notion d’équilibres multiples discutée lors du chapitre sur l’équilibre économique et au début de ce chapitre : si un couple de stratégies A,B est anticipé par les deux acteurs et constitue un équilibre de Nash, ils trouveront rationnel de jouer cela. Le problème est qu’ici, il n’y a pas unicité de A et de B.
Un résultat central de la théorie des jeux, qu’il faut connaître mais qui ne sera pas démontré ici en raison de la complexité de la résolution, est le suivant : si les agents sont suffisamment patients, des stratégies comportant des phases de coopération réciproques sont des équilibres de Nash.
On retrouve ici l’idée de taux d’escompte évoquée au chapitre 7 sur les choix inter- temporels. L’intuition sera très simple à comprendre : si les agents ont un degré de patience suffisant par rapport aux étapes futures, ils seront prêts à prendre le risque d’une perte aujourd’hui (coopérer alors que l’autre fait défection), afin de voir la coopération s’installer lors de la période suivante : l’investissement paie par rapport au coût initial (le risque pris) si le taux d’escompte psychologique défini par la grandeur d au chapitre 7 est suffisamment proche de 1, cas dans lequel toutes les périodes sont équivalentes du point de vue de l’utilité de l’individu. La situation d = 1 est aussi celle où le degré d’impatience r défini dans ce même chapitre est de 0 % : on est indifférent entre 10 euros aujourd’hui et 10 euros à la période suivante.
Ce résultat est une version simple d’un résultat plus général, si général qu’il en serait presque décevant si le but était de prédire ce que les agents rationnels vont jouer : en jeux répétés infinis, presque toutes les solutions sont possibles, y compris donc les solutions coopératives quand le taux d’escompte est proche de 1. Ce résultat a été démontré sous des formes diverses par plusieurs personnes, sans qu’une personne bien identifiée ne lui soit vraiment associée. On lui a donc donné, par défaut, le nom de Folk theorem, le théorème de la foule ou du peuple (des chercheurs en sciences sociales et en théorie des jeux).
L’émergence de la coopération
En dépit de ce dernier résultat plus optimiste sur la possibilité d’émergence de la coopération, celle-ci semble limitée en pratique dès lors que les acteurs sont rationnels en jeu fini, ou, en jeu infini, dès lors qu’ils sont impatients.
fin du jeu. Comment va-t-on alors déterminer le raisonnement que vont faire les agents ?
Il s’agit de quelque chose de beaucoup plus difficile, et pour cause : comme souvent en économie, une décision à une date t dépend de l’anticipation que vont faire les agents aux dates suivantes. Or, en jeu fini, l’anticipation était très simple : on savait ce qui se passerait à toutes les étapes suivantes par raisonnement à rebours. En jeu infini, on ne le sait plus ; les agents non plus. En fait, il existe de nombreuses stratégies possibles, et on retrouvera la notion d’équilibres multiples discutée lors du chapitre sur l’équilibre économique et au début de ce chapitre : si un couple de stratégies A,B est anticipé par les deux acteurs et constitue un équilibre de Nash, ils trouveront rationnel de jouer cela. Le problème est qu’ici, il n’y a pas unicité de A et de B.
Un résultat central de la théorie des jeux, qu’il faut connaître mais qui ne sera pas démontré ici en raison de la complexité de la résolution, est le suivant : si les agents sont suffisamment patients, des stratégies comportant des phases de coopération réciproques sont des équilibres de Nash.
On retrouve ici l’idée de taux d’escompte évoquée au chapitre 7 sur les choix inter- temporels. L’intuition sera très simple à comprendre : si les agents ont un degré de patience suffisant par rapport aux étapes futures, ils seront prêts à prendre le risque d’une perte aujourd’hui (coopérer alors que l’autre fait défection), afin de voir la coopération s’installer lors de la période suivante : l’investissement paie par rapport au coût initial (le risque pris) si le taux d’escompte psychologique défini par la grandeur d au chapitre 7 est suffisamment proche de 1, cas dans lequel toutes les périodes sont équivalentes du point de vue de l’utilité de l’individu. La situation d = 1 est aussi celle où le degré d’impatience r défini dans ce même chapitre est de 0 % : on est indifférent entre 10 euros aujourd’hui et 10 euros à la période suivante.
Ce résultat est une version simple d’un résultat plus général, si général qu’il en serait presque décevant si le but était de prédire ce que les agents rationnels vont jouer : en jeux répétés infinis, presque toutes les solutions sont possibles, y compris donc les solutions coopératives quand le taux d’escompte est proche de 1. Ce résultat a été démontré sous des formes diverses par plusieurs personnes, sans qu’une personne bien identifiée ne lui soit vraiment associée. On lui a donc donné, par défaut, le nom de Folk theorem, le théorème de la foule ou du peuple (des chercheurs en sciences sociales et en théorie des jeux).
L’émergence de la coopération
En dépit de ce dernier résultat plus optimiste sur la possibilité d’émergence de la coopération, celle-ci semble limitée en pratique dès lors que les acteurs sont rationnels en jeu fini, ou, en jeu infini, dès lors qu’ils sont impatients.
Les normes sociales et la théorie économique
Dans quelles conditions la coordination peut-elle pourtant émerger ? Une solution pour maintenir la coopération en l’absence de motif rationnel au sens économique est l’émergence des normes, comme Kenneth Arrow l’a brillamment discuté5. Selon Arrow, une norme est un objet qui émerge plus ou moins spontanément dans un marché quand celui-ci est défaillant, c’est-à-dire quand la somme des comportements individuels conduit à un résultat particulièrement inefficace. Comme on l’a vu dans un chapitre précédent (chapitre 15) dans le cas des externalités de pollution, les normes sociales ou environnementales peuvent intervenir pour prévenir ou corriger le manque de coopération : le sentiment de culpabilité de celui qui jette un papier, ou du chef d’entreprise qui dégrade l’environnement en produisant des rejets nocifs, peut partiellement ou complètement prévenir ce comportement si la désutilité psychologique pesant sur l’individu lorsque son comportement dévie de la norme est plus élevée que le surcoût, soit en l’occurrence dans les deux exemples précédents le fait de faire un détour pour trouver la poubelle publique, soit le coût du traitement des rejets. Dans le cas du dilemme du prisonnier, la norme est de coopérer et, si on ne coopère pas, on devrait alors éprouver un sentiment de culpabilité. Dans un groupe de travail, quelqu’un qui ne coopère pas assez avec les autres sera pénalisé : la norme sociale est de considérer les individus non coopératifs comme de mauvais citoyens qui se feront rejeter par la communauté.
On voit déjà qu’il existe des cas dans lesquels cette norme pourra être suffisante pour restaurer l’efficacité, mais aussi d’autres cas dans lesquels ce ne sera pas possible. En particulier, la norme sera généralement insuffisante dans les contextes où les mécanismes de concurrence économique vont avantager plus fortement les entreprises qui se confor- meront le moins à la norme, puisque leurs coûts de production seront inférieurs aux autres. Une autre difficulté théorique avec ce concept de norme est qu’il existe fréquemment des équilibres multiples pour une raison simple et générale : si très peu de personnes jettent leurs papiers dans la nature, le fait de le faire est d’autant plus choquant du point de vue de la norme, ce qui assure la stabilité de cet équilibre. Mais si beaucoup de personnes le font, alors la norme aura un impact faible et sera donc insuffisante, conduisant de façon stable à un équilibre avec beaucoup de comportements non coopératifs.
Enfin, on ne sait pas expliquer très clairement quand les normes émergent ou non. Ce sont des objets assez complexes, qui évoluent au cours du temps. Il est certes facile d’expliquer une situation de coopération par une norme, mais l’explication est alors ad hoc au sens où elle n’explique que cette situation et n’a pas de caractère descriptif ou prédictif dans d’autres situations. C’est un reproche fréquemment adressé par les économistes aux sociologues, et qui est partiellement justifié. Ces derniers, en retour, leur reprochent en revanche de délaisser une explication qui est pourtant, bien qu’ad hoc, souvent la plus juste, au profit
Dans quelles conditions la coordination peut-elle pourtant émerger ? Une solution pour maintenir la coopération en l’absence de motif rationnel au sens économique est l’émergence des normes, comme Kenneth Arrow l’a brillamment discuté5. Selon Arrow, une norme est un objet qui émerge plus ou moins spontanément dans un marché quand celui-ci est défaillant, c’est-à-dire quand la somme des comportements individuels conduit à un résultat particulièrement inefficace. Comme on l’a vu dans un chapitre précédent (chapitre 15) dans le cas des externalités de pollution, les normes sociales ou environnementales peuvent intervenir pour prévenir ou corriger le manque de coopération : le sentiment de culpabilité de celui qui jette un papier, ou du chef d’entreprise qui dégrade l’environnement en produisant des rejets nocifs, peut partiellement ou complètement prévenir ce comportement si la désutilité psychologique pesant sur l’individu lorsque son comportement dévie de la norme est plus élevée que le surcoût, soit en l’occurrence dans les deux exemples précédents le fait de faire un détour pour trouver la poubelle publique, soit le coût du traitement des rejets. Dans le cas du dilemme du prisonnier, la norme est de coopérer et, si on ne coopère pas, on devrait alors éprouver un sentiment de culpabilité. Dans un groupe de travail, quelqu’un qui ne coopère pas assez avec les autres sera pénalisé : la norme sociale est de considérer les individus non coopératifs comme de mauvais citoyens qui se feront rejeter par la communauté.
On voit déjà qu’il existe des cas dans lesquels cette norme pourra être suffisante pour restaurer l’efficacité, mais aussi d’autres cas dans lesquels ce ne sera pas possible. En particulier, la norme sera généralement insuffisante dans les contextes où les mécanismes de concurrence économique vont avantager plus fortement les entreprises qui se confor- meront le moins à la norme, puisque leurs coûts de production seront inférieurs aux autres. Une autre difficulté théorique avec ce concept de norme est qu’il existe fréquemment des équilibres multiples pour une raison simple et générale : si très peu de personnes jettent leurs papiers dans la nature, le fait de le faire est d’autant plus choquant du point de vue de la norme, ce qui assure la stabilité de cet équilibre. Mais si beaucoup de personnes le font, alors la norme aura un impact faible et sera donc insuffisante, conduisant de façon stable à un équilibre avec beaucoup de comportements non coopératifs.
Enfin, on ne sait pas expliquer très clairement quand les normes émergent ou non. Ce sont des objets assez complexes, qui évoluent au cours du temps. Il est certes facile d’expliquer une situation de coopération par une norme, mais l’explication est alors ad hoc au sens où elle n’explique que cette situation et n’a pas de caractère descriptif ou prédictif dans d’autres situations. C’est un reproche fréquemment adressé par les économistes aux sociologues, et qui est partiellement justifié. Ces derniers, en retour, leur reprochent en revanche de délaisser une explication qui est pourtant, bien qu’ad hoc, souvent la plus juste, au profit
d’explications plus générales mais fausses ou forcées. Le point de vue de l’économiste
moderne, qui est aussi le parti pris de ce manuel, est alors d’éviter une controverse inutile
et d’avoir pour slogan que : « tout ceci est une question empirique, imaginons des tests
permettant de trancher, de décider entre les diverses hypothèses en présence ». La décidabilité
est rassurante intellectuellement6.
Les normes peuvent aussi être imposées : ce qui n’était pas rationnel individuellement au départ le devient alors. Un exemple évident d’application de la théorie du dilemme du prisonnier est le désarmement nucléaire des années 1980 entre l’URSS et les États-Unis ; désarmer seul est absurde puisque cela donne un avantage considérable à l’autre partie. Mais surarmer coûte cher à chacune des deux sociétés. Le désarmement simultané est préférable, mais inapplicable spontanément. Lors des négociations sur le désarmement stratégique (Strategic Arms Limitation Talks, SALT, en 1972 et 1979 puis Strategic Arms Reduction Treaty START I en 1991, START II en 1993), un aspect crucial portait sur la nécessité des contrôles réciproques pour s’assurer que chaque pays appliquait bien son programme de désarmement, afin de permettre de vérifier si le comportement de coopération était respecté en pratique. De façon connexe, l’interdiction stricte de la prolifération nucléaire est basée sur l’idée qu’il sera plus difficile de faire émerger la coopération lorsque le nombre de « joueurs » passe de 2 à un nombre N plus grand que 2 : ce fait est aussi une des prédictions (non démontrée ici) de la théorie des jeux.
Autre exemple choisi pour son aspect provocant : l’émergence de comportements mafieux est une solution efficace au dilemme du prisonnier. Il est peut-être rationnel de chercher à être libéré pour récompense de sa défection, mais si l’espérance de vie du délateur est de quelques semaines après sa libération, il réfléchira bien avant de dénoncer son collègue. La mafia transforme donc le zéro année de prison en un moins l’infini qui consiste à finir dans le béton. La loi du silence change donc la structure du jeu et permet d’atteindre l’équilibre de coopération, mais on n’est plus dans un dilemme du prisonnier.
Les expériences d’Axelrod
À ce stade, nous sommes donc placés devant une question non tranchée, qui est celle des conditions dans lesquelles la coopération peut émerger. Intrigué par l’absence de résultat prédictif clair du Folk theorem, un chercheur en sciences politiques de l’université du Michigan, Robert Axelrod, a imaginé dans les années 70 une série d’expériences qui ont eu un retentissement considérable.
Robert Axelrod a lancé un premier tournoi aux chercheurs de différentes disciplines, poli- tologues, économistes, sociologues, mathématiciens. L’idée était que chaque participant rédige un petit programme dans un langage informatique simple (à l’époque, basic ou fortran) qui représente sa stratégie préférée dans un tournoi représentant un dilemme
Les normes peuvent aussi être imposées : ce qui n’était pas rationnel individuellement au départ le devient alors. Un exemple évident d’application de la théorie du dilemme du prisonnier est le désarmement nucléaire des années 1980 entre l’URSS et les États-Unis ; désarmer seul est absurde puisque cela donne un avantage considérable à l’autre partie. Mais surarmer coûte cher à chacune des deux sociétés. Le désarmement simultané est préférable, mais inapplicable spontanément. Lors des négociations sur le désarmement stratégique (Strategic Arms Limitation Talks, SALT, en 1972 et 1979 puis Strategic Arms Reduction Treaty START I en 1991, START II en 1993), un aspect crucial portait sur la nécessité des contrôles réciproques pour s’assurer que chaque pays appliquait bien son programme de désarmement, afin de permettre de vérifier si le comportement de coopération était respecté en pratique. De façon connexe, l’interdiction stricte de la prolifération nucléaire est basée sur l’idée qu’il sera plus difficile de faire émerger la coopération lorsque le nombre de « joueurs » passe de 2 à un nombre N plus grand que 2 : ce fait est aussi une des prédictions (non démontrée ici) de la théorie des jeux.
Autre exemple choisi pour son aspect provocant : l’émergence de comportements mafieux est une solution efficace au dilemme du prisonnier. Il est peut-être rationnel de chercher à être libéré pour récompense de sa défection, mais si l’espérance de vie du délateur est de quelques semaines après sa libération, il réfléchira bien avant de dénoncer son collègue. La mafia transforme donc le zéro année de prison en un moins l’infini qui consiste à finir dans le béton. La loi du silence change donc la structure du jeu et permet d’atteindre l’équilibre de coopération, mais on n’est plus dans un dilemme du prisonnier.
Les expériences d’Axelrod
À ce stade, nous sommes donc placés devant une question non tranchée, qui est celle des conditions dans lesquelles la coopération peut émerger. Intrigué par l’absence de résultat prédictif clair du Folk theorem, un chercheur en sciences politiques de l’université du Michigan, Robert Axelrod, a imaginé dans les années 70 une série d’expériences qui ont eu un retentissement considérable.
Robert Axelrod a lancé un premier tournoi aux chercheurs de différentes disciplines, poli- tologues, économistes, sociologues, mathématiciens. L’idée était que chaque participant rédige un petit programme dans un langage informatique simple (à l’époque, basic ou fortran) qui représente sa stratégie préférée dans un tournoi représentant un dilemme
du prisonnier répété pendant 200 parties. Chaque programme serait opposé à tour de
rôle à tous les autres programmes, y compris lui-même, et à un programme jouant
aléatoirement la stratégie C ou la stratégie D. La présence de ce programme « fou », au
sens de parfaitement non rationnel, permettait d’ajouter une dose d’irrationalité et donc
d’éviter que tous les participants se coordonnent spontanément sur l’équilibre prédit
par la théorie des jeux, à savoir (DD) sur les deux cents périodes du jeu, et rendait
également plus compliquée la tâche de programmes qui tentaient de deviner la stratégie
de leur adversaire. Comment en effet distinguer le programme aléatoire d’un programme
complexe jouant alternativement les stratégies C et D pour deviner à quel type de joueur
il a lui-même affaire ?
Le gagnant de ce jeu serait celui ayant cumulé le plus de points au total, points distribués selon la matrice des payoffs suivante :
Le gagnant de ce jeu serait celui ayant cumulé le plus de points au total, points distribués selon la matrice des payoffs suivante :
Joueur 2
Nier (C) Avouer(D)
Nier (C) (3,3) (5,0)
Joueur 1 Avouer (D) (0,5) (1,1)
Nier (C) Avouer(D)
Nier (C) (3,3) (5,0)
Joueur 1 Avouer (D) (0,5) (1,1)
On peut vérifier que la stratégie (D,D) est bien optimale sur une période, et donc par
induction à rebours, sur toutes les périodes. En 200 manches, si les deux programmes
coopèrent tout le temps, le score possible, qui sera celui de référence, est de 200 × 3 = 600
pour chacun des joueurs. Ce n’est pas le score maximal, qui est de 200 × 5 = 1 000,
s’il joue toujours défection et que son adversaire joue toujours coopération : il est certes
improbable de faire face à ce type de situation où un saint coopère toujours face à un
adversaire aussi « odieux », mais cela peut théoriquement arriver.
Pour ce premier tournoi – il y en a eu un second –, 15 programmes se sont affrontés. Leur longueur variait entre 4 lignes de codes et 77. Les programmes plus longs tentaient de jouer de façon « intelligente » pour d’abord tenter de comprendre la stratégie de l’adversaire. Une série de lignes contribuait à tester le programme adverse pour savoir s’il faisait défection suite à une défection, s’il se vengeait sur plusieurs périodes, ou s’il était au contraire très coopératif ; dans ce cas, l’idée était de faire défection et de marquer quelques points.
Les résultats de ce tournoi peuvent se résumer ainsi :
– Le programme RANDOM (d’une longueur de 5 lignes) a réalisé le plus bas score avec 276, à comparer avec le score de référence de 600 et a donc fini 15e. Être fou ne payait pas dans ce tournoi. Ce programme a certes marqué quelques points de temps en temps, mais globalement le score est assez proche de 1 par période, donc du payoff de la case (D,D).
– Les programmes sophistiqués ne sont pas forcément ceux qui ont fait les meilleurs scores. Certains réussissaient certes correctement, mais le programme le plus sophistiqué (77 lignes) a terminé 14e sur 15.
Pour ce premier tournoi – il y en a eu un second –, 15 programmes se sont affrontés. Leur longueur variait entre 4 lignes de codes et 77. Les programmes plus longs tentaient de jouer de façon « intelligente » pour d’abord tenter de comprendre la stratégie de l’adversaire. Une série de lignes contribuait à tester le programme adverse pour savoir s’il faisait défection suite à une défection, s’il se vengeait sur plusieurs périodes, ou s’il était au contraire très coopératif ; dans ce cas, l’idée était de faire défection et de marquer quelques points.
Les résultats de ce tournoi peuvent se résumer ainsi :
– Le programme RANDOM (d’une longueur de 5 lignes) a réalisé le plus bas score avec 276, à comparer avec le score de référence de 600 et a donc fini 15e. Être fou ne payait pas dans ce tournoi. Ce programme a certes marqué quelques points de temps en temps, mais globalement le score est assez proche de 1 par période, donc du payoff de la case (D,D).
– Les programmes sophistiqués ne sont pas forcément ceux qui ont fait les meilleurs scores. Certains réussissaient certes correctement, mais le programme le plus sophistiqué (77 lignes) a terminé 14e sur 15.
– Le programme qui sortit finalement vainqueur a été paradoxalement le plus simple,
celui qui avait la plus faible longueur, 4 lignes seulement. En moyenne, le score a été de
504 par manche, ce qui est assez proche du score de référence de 600. L’honnêteté oblige
à reconnaître que ce programme n’était pas le fruit du travail d’un économiste, mais de
celui d’un chercheur en psychologie et en biologie mathématique, Anatol Rapoport, de
l’université de Toronto. Ce programme était le simple Tit-for-Tat. Coopérer dès le premier
tour, puis jouer ce que l’adversaire vient de jouer au tour précédent, ce qui s’écrit très
simplement en langage codé. Tit-for-Tat commence en coopérant, punit si l’adversaire a
fait défection, mais peut pardonner si l’adversaire se montre de nouveau coopératif.
– Le deuxième meilleur programme (40 lignes) a réalisé un score assez proche, de 500 points.
– Le deuxième meilleur programme (40 lignes) a réalisé un score assez proche, de 500 points.
Axelrod et Rapoport
Robert Axelrod, de l’université du Michigan, dont la page personnelle http://www- personal.umich.edu/~axe/ contient une partie de la description des expériences, est un politiste né en 1943. Ses travaux sur la coopération ont été cités à de très nombreuses reprises et il a reçu le très prestigieux prix MacArthur en 1987. Ce prix permet de financer pendant 5 ans les recherches d’un tout petit nombre de chercheurs de renom s’ils sont résidents américains.
Anatol Rapoport (1911-2007), de l’université de Toronto, est titulaire d’un PhD de mathématiques de l’université de Chicago. Il a appliqué les mathématiques à la psychologie et à la biologie. En 1980, il a gagné le tournoi organisé par Axelrod avec la stratégie la plus simple ; Tit-for-Tat ou donnant-donnant.
Les travaux d’Axelrod ont été diffusés dans la communauté scientifique par un article dans Nature en 1981 puis dans un ouvrage publié en 1984, The evolution of cooperation dans lequel Robert Axelrod a décrit précisément le déroulement de ses expériences. Dans cet ouvrage, Axelrod cherche à comprendre ce qui détermine les stratégies gagnantes. Il a tiré une série de conclusions fort instructives. Premièrement, la discipline du programmeur n’avait pas de lien avec le score. Aussi incroyable que cela puisse paraître à ce stade de l’ouvrage, les économistes ne sont ni plus ni moins doués que les autres pour gagner, pas plus que les informaticiens ou les politistes ! Deuxièmement, la complexité du programme n’avait pas non plus de lien avec le résultat. Troisièmement, en revanche, une propriété des programmes gagnants semblait jouer un rôle important : cette qualité des programmes gagnants est appelée « nice ». Elle consiste à ne jamais être le premier à faire défection. On peut facilement comprendre cela : deux programmes nice qui se rencontrent sont certains de toujours coopérer, et donc réalisent chacun un score de 600 points. Sur les quinze programmes, 6 avaient cette propriété de « niceness » et ils se sont placés parmi les 7 premiers du classement ! Chacun des programmes ayant cette propriété a donc obtenu les 600 points 6 fois au moins (contre les cinq autres et contre lui-même)7 Quatrièmement, il existait un programme nice particulier, Permanent retaliation, décrit à la section précédente : ce programme commence par coopérer comme les autres nice, mais à la première défection, il fera défection de façon permanente. C’est un programme à la fois nice et très rancunier : de fait, son score n’a pas été si bon et il a terminé 7e sur 15, dernier des nice donc, mais néanmoins devant tous les programmes non nice sauf 1. Ce score relativement faible par rapport aux autres programmes nice s’explique par le fait qu’il a échoué à maintenir la coopération face à des programmes sophistiqués qui tentaient d’apprendre en faisant parfois défection. Ceux-là avaient d’ailleurs tort de le faire face à un programme aussi rancunier ! Quel est donc le quatrième enseignement ? Simplement que le pardon peut payer. Tit-for-Tat pardonne très fréquemment, puisque cela lui prend seulement une période pour effacer l’affront. La cinquième leçon est que la punition peut aussi payer : être toujours coopératif quand les autres font toujours défection n’est pas payant. L’article de Nature de 1981 a eu un grand retentissement et se trouve être l’un des plus cités de toutes les sciences sociales. Ce programme communiquait l’ensemble du protocole et des programmes au monde scientifique. Robert Axelrod ne s’est pas arrêté là : il a ensuite organisé un second tournoi qui a réuni 62 participants qui ont recommencé le test, avec l’idée de battre Tit-for-Tat. Et, dans ce deuxième tournoi bien plus difficile, Rapoport a soumis le même programme Tit-for-Tat et. . . ce programme a de nouveau gagné !
Que peut-on en déduire ? Axelrod donne plusieurs conseils à ses lecteurs à la fin de son livre :
-
Ne soyez pas trop envieux, ne cherchez pas à faire plus que votre adversaire, mais
contentez-vous d’un honnête 3,3. En l’espèce, le plus est l’ennemi du bien ! En essayant
d’avoir plus, le jeu entre rapidement dans un cycle de méfiance qui le conduit vers une
situation de non-coopération. Il ne faut pas essayer de prendre à l’autre, mais essayer
de bâtir la coopération.
-
Ne soyez pas le premier à faire défection, commencez par essayer de coopérer.
-
Mais n’hésitez pas à punir s’il le faut. Rendez la pareille.
-
Enfin, le très pertinent « Ne soyez pas trop intelligent ! »8. Les programmes qui tentaient
le plus de se comporter de façon stratégique pour essayer d’obtenir les cinq points n’ont
pas fait particulièrement mieux que les programmes simples.
De façon presciente, Axelrod anticipait avec les points 2 et surtout 3 l’un des grands
enseignements de l’économie du comportement, une branche de recherche dont le
développement actuel est spectaculaire, et qui s’oppose en grande partie aux postulats
néoclassiques. En l’occurrence, les gens ont tendance à agir de façon similaire à ce qu’ils
ont eux-mêmes vécu. Les bourreaux ont souvent été victimes ! Si on a coopéré avec
quelqu’un, cette personne aura envie de coopérer. Si on l’a trompée, elle aura tendance à
faire défection également. En l’occurrence, la rationalité étroite de la stratégie des jeux est
mise en défaut par ce trait de comportement : la coopération pouvait émerger de façon
spontanée sans que cela ne soit nécessairement rationnel. Ex post, la coopération était ce
qu’il y avait d’efficace, mais ce n’est pas ce qui était attendu et ce n’était pas le résultat
d’une rationalisation poussée des individus.
On peut enfin faire une dernière observation sur un résultat fort intriguant, qui n’est pourtant que discrètement abordé dans l’ouvrage de 1984 d’Axelrod, et qu’il convient de souligner ici : Axelrod a par la suite rejoué son tournoi avec diverses variantes, dont le fait de reprendre les mêmes participants et d’y ajouter un nouveau programme. Il a notamment introduit une stratégie alternative appelée Tit-for-2-Tat. Cette stratégie est une variante de la loi du talion incarnée par Tit-for-Tat, plus christique : au lieu de punir immédiatement, Tit-for-2-Tat coopère d’abord une seconde fois, il tend la joue gauche à l’instar de l’enseignement des évangiles. Il s’avère que cette stratégie permet de ne pas rompre le cycle de coopération face à une « erreur » toujours possible de l’autre, ou face à un adversaire coopératif mais qui tente de tester un peu son adversaire. Tit-for-2-Tat aurait en fait battu Tit-for-Tat au premier tournoi ! Mais toujours selon Axelrod, cette stratégie aurait en revanche fait un score moyen lors du 2e tournoi.
Cette dernière remarque permet de souligner un point important sur lequel on reviendra au chapitre suivant : il est difficile de trouver un programme qui gagne dans toutes les « populations de programmes » possibles. Comment évoluer dans un monde où les populations de stratégies varient ? Une piste de réflexion consiste à rechercher des stratégies gagnantes par sélection naturelle, en donnant un avantage reproductif aux programmes faisant mieux que les autres. Mais il faut aussi que ces programmes puissent eux-mêmes s’adapter de temps en temps à l’évolution de la population de « compétiteurs », car ceux-ci sont mieux sélectionnés au cours du temps et donc plus difficiles à battre. On a ici les prémices de la théorie des jeux évolutionniste, qui a réalisé la synthèse formidable entre les sciences dures comme la biologie et les sciences sociales.
Conclusion
Nous disposons maintenant d’un grand nombre de concepts théoriques permettant d’appréhender les interactions stratégiques. Ce chapitre a été consacré à l’étude du concept central d’équilibre de Nash, et a tenté de montrer son importance en le positionnant par rapport à l’équilibre concurrentiel décentralisé. Nous avons notamment montré les inefficacités d’une économie régie par des équilibres de Nash non coopératifs, et insisté sur le fait que dans un environnement où les interactions stratégiques sont répétées, la coopération semble une stratégie plus désirable, car pouvant être gagnante, au moins du point de vue prédictif : les agents qui coopèrent, dans les expériences d’Axelrod, l’emportent sur ceux qui font défection les premiers.
On peut enfin faire une dernière observation sur un résultat fort intriguant, qui n’est pourtant que discrètement abordé dans l’ouvrage de 1984 d’Axelrod, et qu’il convient de souligner ici : Axelrod a par la suite rejoué son tournoi avec diverses variantes, dont le fait de reprendre les mêmes participants et d’y ajouter un nouveau programme. Il a notamment introduit une stratégie alternative appelée Tit-for-2-Tat. Cette stratégie est une variante de la loi du talion incarnée par Tit-for-Tat, plus christique : au lieu de punir immédiatement, Tit-for-2-Tat coopère d’abord une seconde fois, il tend la joue gauche à l’instar de l’enseignement des évangiles. Il s’avère que cette stratégie permet de ne pas rompre le cycle de coopération face à une « erreur » toujours possible de l’autre, ou face à un adversaire coopératif mais qui tente de tester un peu son adversaire. Tit-for-2-Tat aurait en fait battu Tit-for-Tat au premier tournoi ! Mais toujours selon Axelrod, cette stratégie aurait en revanche fait un score moyen lors du 2e tournoi.
Cette dernière remarque permet de souligner un point important sur lequel on reviendra au chapitre suivant : il est difficile de trouver un programme qui gagne dans toutes les « populations de programmes » possibles. Comment évoluer dans un monde où les populations de stratégies varient ? Une piste de réflexion consiste à rechercher des stratégies gagnantes par sélection naturelle, en donnant un avantage reproductif aux programmes faisant mieux que les autres. Mais il faut aussi que ces programmes puissent eux-mêmes s’adapter de temps en temps à l’évolution de la population de « compétiteurs », car ceux-ci sont mieux sélectionnés au cours du temps et donc plus difficiles à battre. On a ici les prémices de la théorie des jeux évolutionniste, qui a réalisé la synthèse formidable entre les sciences dures comme la biologie et les sciences sociales.
Conclusion
Nous disposons maintenant d’un grand nombre de concepts théoriques permettant d’appréhender les interactions stratégiques. Ce chapitre a été consacré à l’étude du concept central d’équilibre de Nash, et a tenté de montrer son importance en le positionnant par rapport à l’équilibre concurrentiel décentralisé. Nous avons notamment montré les inefficacités d’une économie régie par des équilibres de Nash non coopératifs, et insisté sur le fait que dans un environnement où les interactions stratégiques sont répétées, la coopération semble une stratégie plus désirable, car pouvant être gagnante, au moins du point de vue prédictif : les agents qui coopèrent, dans les expériences d’Axelrod, l’emportent sur ceux qui font défection les premiers.
Dans la rationalité et la cohérence des choix dans la théorie
économique, nous insistions sur le fait que la théorie économique nous disait ce que nous
devrions faire quand bien même cela n’était pas ce que faisaient les agents économiques.
Ici nous atteignons une conclusion exactement opposée : mieux vaut ne pas suivre
aveuglément les prédictions de la théorie des jeux qui indique dans un jeux fini de
ne pas coopérer par induction récursive.
Etienne Wasmer
"La justification des « biens publics » par la Théorie des Jeux considère également l'État comme un Dieu externe bienveillant et omniscient, qui aide les gens à choisir en moyenne le meilleur scénario parmi des interactions modelées d'après des « jeux » mathématiques simples — alors qu'en réalité, l'État est constitué de personnes ayant un intérêt propre, de sorte que si nous devions employer correctement la théorie des jeux, nous devrions considérer les fonctionnaires gouvernementaux comme des joueurs intéressés parmi d'autres; l'unique caractéristique particulière de l'action politique est que les agents de l'État détiennent un pouvoir légal de coercition, qui se traduit en Théorie des Jeux par leur capacité à imposer à leur profit des jeux à somme négative de leur choix.
En Théorie des Jeux, des « jeux » mathématiques simples, comme le dilemme du prisonnier ou la course à la poule mouillée, modélisent des situations où il y a un bénéfice potentiel pour des joueurs si seulement ils trouvent un moyen de coordonner leurs actions. Tous les « théorèmes » valides à propos d'un tel jeu ne font que redire en des termes formels les hypothèses informelles qui ont été mises dans le modèle considéré. Il ne s'ensuit certainement pas que l'État soit la bonne façon d'accomplir cette coordination — bien que là soit précisément le sophisme non sequitur sur lequel repose la position étatiste. En fait, il est possible d'appliquer la théorie des jeux pour comparer la coordination par un État coercitif avec la coordination par la libre concurrence; et cet exercice en théorie des jeux montrera aisément à quel point les effets de l'intervention étatique sont désastreux.
La coordination n'est pas quelque chose qui se passe magiquement, sans coût, par intervention divine, seulement parce que les parties intéressées s'accordent sur le fait que cette coordination serait une bonne chose. Si c'était le cas, il n'y aurait pas le moindre besoin d'un coordinateur, pour commencer. La coordination est donc un service, et ce service vaut à hauteur des gains escomptés par les joueurs coordonnées, comparés à leur situation s'ils avaient été laissés sans coordination. Il reste à déterminer la façon la plus rentable d'obtenir cette coordination — à supposer même qu'il existe une telle façon rentable de l'obtenir.
Dans un régime de libre concurrence, les parties intéressées sont libres de choisir un coordinateur. Leur intérêt sera donc de trouver un coordinateur qui fournira le meilleur retour sur investissement pour le prix qu'il coûte. S'il se trouve un fournisseur de service effectivement à même de réaliser cette coordination à un coût moindre que ce que ne vaut ladite coordination, alors l'intérêt de toutes les parties en présence convergera avec pour résultat le fait que cette coordination aura effectivement lieu. Si les coûts pour réaliser la coordination surpassent en fait les bénéfices de cette coordination, alors les intérêts de tous les intéressés convergera avec pour résultat le fait que cette coordination n'aura pas lieu. L'un dans l'autre, la libre concurrence, c'est-à-dire la liberté de chacun des intéressés de choisir qui coordonnera si quiconque doit le faire, assure que la coordination aura lieu si elle apporte un gain, et qu'elle aura lieu au meilleur prix.
Considérons maintenant le cas où l'État est un coordinateur. Comme tout fournisseur de service privé — car l'État est fait d'individus privés, comme toute institution — l'État est un joueur qui cherchera à maximiser son intérêt. La seule chose qui distingue l'État d'un coordinateur sur le marché libre est que l'État détient les moyens de coercition, avec lesquels il peut exclure ou décourager toute concurrence à la fourniture de ses services. Ainsi, à l'équilibre, un État monopolisera la coordination d'un jeu; il pourra ainsi récolter à son profit exclusif la majeure partie des bénéfices du jeu, laissant les joueurs avec aussi peu qu'il faut pour que le jeu reste profitable. Dans une situation de choix d'entrée où il y a liberté pour les citoyens de ne pas en appeler à la coordination de l'État et de résilier cette coordination, l'État laissera aux joueurs à peine plus de bénéfices que ne l'offre le taux d'intérêt ambiant marginal (mis en rapport avec les mises investies dans le jeu) — et cela seulement si la coopération s'avère bénéfique à tous après avoir payé les coûts d'utilisation du monopole d'État. Les choses sont bien pires, quand il n'existe plus de choix d'entrée, et que l'État peut imposer ses services de protection pour un quelconque genre de services. Dans une telle situation, l'État non seulement pourra confisquer l'ensemble des bénéfices du jeu, mais pourra aussi aller plus loin et lever une surtaxe qui fera que les joueurs se porteront moins bien que s'ils n'avaient pas joué. Cette surtaxe s'accroîtra jusqu'à atteindre l'escompte au taux marginal d'intérêt pour le coût de transaction de la sortie de l'influence de l'État (par l'émigration, la désobéissance civile, la disparition dans la clandestinité, la pression sur le pouvoir politique en vue de promouvoir son intérêt, la prise de pouvoir démocratique, la révolution, ou quelqu'autre moyen). Et plus grande la puissance de l'État, plus haut aussi bien ce coût que le taux d'intérêt.
En fin de compte, ce qu'établit la théorie des jeux — s'il en était le moins du monde besoin — c'est que le pouvoir coercitif profite à quiconque le détient au détriment de quiconque le subit — ce qui n'est pas exactement une grande nouvelle. En fait, la théorie des jeux n'est qu'un moyen de formaliser les choses en termes mathématiques, et ne peut dire ni plus ni moins que ce qui peut être dit sans de tels termes. Le même raisonnement de bon sens qui est requis pour voir comment le formalisme mathématique qualitatif s'accorde ou non avec la réalité peut être utilisé directement pour raisonner sur cette réalité, sans l'intermédiaire du jargon mathématique. Comme d'habitude, les mathématiques sont utilisées de façon pseudo-scientifique pour inspirer un respect timoré aux gens à qui on assène des modèles d'apparence complexe. Cette technique d'intimidation sert à cacher le fait que ce sont les mêmes bons vieux sophismes que l'on emploie quoiqu'avec un vocabulaire différent. Oh, et puisqu'on en est à l'argument d'autorité, je suis un mathématicien né et élevé dans une famille de mathématiciens."
La théorie des jeux ou le dilemme du prisonnier sont-ils vraiment une réfutation de l’optimalité de la concurrence ?
1. Si micro, dans une unité de mesure, signifie la millionième partie de l’unité, pico signifie un millionième de
millionième de partie.
2. Certains dont Harold Kuhn, un des acteurs de cette époque, l’attribuent à Al Tucker de Stanford qui fut entre autres
le directeur de thèse de John Nash (voir le récit du symposium Nobel de 1994, référence citée dans l’encadré sur
John Nash), d’autres à Melvin Dresher et Merill Flood de la Rand (voir notamment Nicolas Eber, Théorie des
Jeux, Dunod , ch. 3 sur ce point).
3. Comme souvent en sciences sociales, la morale n’aura pas de caractère prédictif universel puisqu’elle peut prédire
alternativement la coopération (entre voleurs) ou la non-coopération (donc le fait d’avouer à la police). A contrario,
l’analyse de la rationalité aura une valeur prédictive claire dans ce cas précis où on va identifier un seul choix
possible. La prédiction de la rationalité ne sera d’ailleurs pas toujours réaliste, comme on le verra plus loin. En
revanche, elle présente l’avantage de ne pas être une explication ad hoc, contrairement à une explication du
comportement qui expliquerait la coopération ou la non-coopération en fonction du contexte, donc en introduisant
une explication non falsifiable comme « dans tel quartier, les dealers ne parlent pas avec la police », qui n’aurait
d’autre mérite que d’être juste, mais évidemment ad hoc.
4. L’économiste Robert Ysraël Aumann, prix Nobel d’économie 2005 avec Thomas Shelling, a formellement
développé cette notion de connaissance commune.
5. Arrow J. Kenneth, Social Choice and Individual Values, Wiley, New York, 1951. La vision des normes comme
répondant à une inefficacité ou à une imperfection de marché est appelée la vision conséquentialiste des normes,
voir notamment P.J. Hammond, « Consequentialist Social Norms and Public Decision Making », Essays in Honor
of Kenneth Arrow, W.P. Heller, M. Ross and D. Starrett, Cambridge, CUP, 1986, p. 3-27.
6. Quand bien même le logicien Kurt Gödel nous a appris qu’elle n’était pas si fréquente, y compris en mathématiques
où les propositions indécidables sont infiniment plus fréquentes que les propositions décidables. Mais chercher à
décider plutôt que d’y renoncer d’emblée est une méthode de travail féconde dans les sciences sociales quantitatives.
7. Un économiste pourrait se demander pourquoi certain de ces programmes n’ont pas ajouté une dernière ligne de
code indiquant qu’il fallait faire D à la dernière période. Cette stratégie aurait en effet fait progresser le score de
600 à 602 puisque le dernier score aurait alors été de 5 au lieu de 3, perdant ainsi la propriété de niceness. Cette
remarque, que l’auteur doit à Nicolas Lepage-Saucier, est juste. Mais si deux programmes se rencontrant jouaient
cette stratégie, en revanche, le dernier score serait de 1 et le score total de 598. Le fait d’ajouter ou non cette
dernière ligne est un pari sur le caractère coopératif des autres.
8. Conseil facile à suivre, que l’auteur de ce manuel tente d’utiliser tous les jours et qui explique au passage pourquoi
les économistes et les traders ne font pas toujours systématiquement mieux que les autres ! À trop rationaliser on
peut commettre des erreurs d’appréciation.
Théorie des jeux (wikipédia)
Biens publics
De Wikiberal
La théorie des biens publics tente de justifier l'intervention de l'État à partir du postulat qu’en présence de biens collectifs le marché est défaillant. Les « biens publics » sont des biens ou des services, qui peuvent avoir trait à la sécurité (police, justice, défense), aux infrastructures (transports, télécommunications, éducation, santé), à l'« harmonisation »
dans un domaine (information, éducation, langue, standardisation), ou à
la certification (identification, registre foncier, conformité aux
standards), etc.
Paul Samuelson a qualifié les biens publics par les principes de non-rivalité et de non-excluabilité,
ce qui signifie que la consommation d'une unité du bien peut être faite
par plusieurs individus et qu'il est impossible d'exclure les
consommateurs qui refusent de payer alors qu'ils utilisent ce même bien
ou service en question. Par exemple, la Défense
nationale serait un bien public : même si quelqu'un refuse de payer ses
impôts, il est cependant protégé d'une agression d'un pays ennemi par
la Défense de son pays (non-excluabilité) et le fait qu'il soit ainsi protégé ne diminue pas la protection de ses voisins (non-rivalité).
Point de vue libertarien
Pour les libertariens,
l'État n'est pas une institution nécessaire, mais au contraire une
institution nuisible, qui est régulièrement confondue avec les
institutions nécessaires qu'elle monopolise. Il n'y a aucune
justification rationnelle pour l'intervention étatique, tous les
arguments avancés ne visent qu'à cacher la seule raison, qui est
l'emploi de la force selon la loi du plus fort, pour réaliser l'oppression des « politiquement faibles » par les « politiquement forts ».
L'argument des biens publics permet aux étatistes de justifier d'intervenir
dans n'importe quel domaine de la vie des individus, en posant comme
pétition de principe que cette intervention est utile, voire
indispensable.[1]
Les arguments avancés à l'encontre des biens publics sont examinés ci-dessous, d'un point de vue exclusivement libertarien.
La commodité
L'État prétend toujours prendre des mesures pour rendre service au
citoyen, lui assurer plus de sécurité, plus de commodité dans ses
démarches, etc. Les conséquences de ces mesures ne sont jamais examinées
(le but non avoué étant d'augmenter l'emprise de l'État sur ses
sujets).
Par exemple, en France, la carte d’identité obligatoire a été instituée par le Maréchal Pétain (loi du 27 octobre 1940) sous ce prétexte de la commodité des citoyens — outre celui de l’état de guerre dont le régime de Vichy
se servait également pour justifier cette obligation. En réalité, les
papiers d’identité ne sont avantageux que pour l’État et le contrôle des
citoyens, comme le fut le « certificat de civisme »
sous la Terreur. L'identification des Juifs par l'occupant nazi en
Europe de l'Est fut grandement facilitée par les cartes d'identité déjà
instituées dans ces pays. Très longtemps, dans les démocraties
populaires, la nécessité de disposer de laissez-passer (propousk) pour aller seulement d'une ville à une autre permettait de contrôler tous les déplacements des personnes.
Certes, certains services étatiques améliorent la vie des gens,
mais en ce cas il n'y a aucune raison pour que ces services soient
monopolisés par l'État et financés de façon aveugle par le contribuable
plutôt que rendus par des entreprises privées.
Les « défaillances » du marché
Le mythe de la défaillance du marché[2] pose en pétition de principe soit que le marché « ne sait pas faire »,
soit que l'État est à même de faire mieux, comme si les étatistes
étaient des êtres supérieurs, et que pour cette raison il faudrait leur
conférer le pouvoir.
Il existerait, au dire des étatistes, des activités que le marché
ne peut prendre en charge parce qu'elles ne seraient pas rentables. Ces
activités correspondent comme par hasard aux services publics actuels.
Les étatistes ne peuvent concevoir que les pompiers, l'aide médicale
d'urgence (SAMU en France), la police, la justice, la recherche
scientifique, etc., puissent être des activités rentables, assurées par
le marché, et payées par leurs clients, ou prises en charge par des
associations sans but lucratif, sans aucune intervention étatique.
Les externalités
Certaines activités présenteraient des « externalités » (des effets de bord positifs ou négatifs qui affectent des tiers, par exemple la pollution) qui seraient mieux gérées par le gouvernement. En réalité, l'État crée des externalités par ses monopoles et son protectionnisme, il concentre et amplifie les problèmes potentiels en ne reconnaissant pas les droits de propriété seuls capables de régler les conflits sur une base de droit.
Il est malhonnête de vouloir conférer à l'État la gestion des biens
publics parce qu'ils sont le siège d'externalités, alors même que par la
législation on interdit l'apparition de droits privés de propriété qui
résoudraient la question. De plus, l'État traite le problème des
externalités en substituant ses préférences à celles des citoyens.
L'arbitre impartial
La Théorie des Jeux modélise des situations où il y a un bénéfice
potentiel pour les joueurs seulement s'ils trouvent un moyen de
coordonner leurs actions (exemple : le dilemme du prisonnier). Le sophisme étatiste non sequitur
qui en dérive est que l'État serait la meilleure façon d'accomplir
cette coordination. En réalité, la coordination a un coût. De plus, l'État n'est pas impartial, il est fait d'individus privés. Il a pour lui la loi du plus fort,
c'est un joueur qui cherche aussi à maximiser son intérêt. Coordonner
un jeu lui permet de récolter à son profit exclusif la majeure partie
des bénéfices du jeu.
La non-excluabilité
Un bien collectif est « excluable »
quand on peut empêcher quelqu'un de le consommer une fois qu'il est
produit. Par exemple, l'air qu'on respire est un bien commun non
excluable. Les étatistes affirment que de nombreux biens communs ne sont
pas excluables, et qu'ils doivent donc être gérés de façon
monopolistique par l'État. Par exemple, on ne peut empêcher le capitaine
d'un navire de « profiter » d'un phare maritime, même s'il n'a pas participé à son financement (problème dit du « passager clandestin », « free rider »), il serait donc impossible au secteur privé de financer des phares ou tout bien collectif non excluable.
Concernant l'argument du free rider, il faut convenir avant tout que nous sommes tous des « passagers clandestins du présent et du passé » (comme disait Murray Rothbard). En effet, chacun de nous profite, par exemple, du savoir-vivre inculqué à la plupart de ses semblables. Ainsi que le résume Pierre Lemieux, « l'attaque contre les passagers clandestins relève de postulats éthiques indémontrés et indémontrables : qu'on n'a pas le droit
de recevoir des dons ou des avantages gratuits, ou qu'on n'a pas le
droit de les donner, ou que certains sont obligés de les fournir à
d'autres. »
En réalité, la gestion des biens collectifs par l'État ou par les
pouvoirs locaux montre précisément que ces biens sont excluables (via
des quotas, des péages, un rationnement, etc.). Certains économistes ont
démontré qu'il n'existe pas une forme absolue de production et de
distribution des services publics. Il existe une grande amplitude
d'organisations différentes (voir par exemple, l'analyse de Roger
Ahlbrandt sur les services des pompiers aux États-Unis[3], ou celle de Steven Cheung pour les apiculteurs). Avoir le monopole de décider qui accepter ou exclure, c'est par définition même exercer un droit de propriété.
Ce que l'État et les pouvoirs locaux revendiquent sous de faux
prétextes est donc l'expropriation hors de leurs biens des propriétaires
légitimes, pour confier ces biens à un corps politique illégitime.
Pour en revenir à l'exemple du phare, Ronald Coase
a montré que des phares privés sont rentables, d'ailleurs en Angleterre
des phares ont été construits et gérés par des entreprises privées
jusqu'au XIXe siècle.
La prévention des catastrophes
Cet argument justifie l'intervention de l'État sur un marché pour prévenir (ou remédier à) une défaillance simultanée de tous les fournisseurs d'un service donné. Mais le monopole
que s'arroge ainsi l'État, loin d'être une solution, augmente le risque
de catastrophe, à cause de la gestion centralisée de tout
l'approvisionnement en un tel service. Si certaines catastrophes
occasionnelles dans le secteur privé justifieraient de retirer la
gestion des mains du privé, est-ce que les catastrophes permanentes dans
le secteur public (déficits, gabegies, irresponsabilité généralisée) ne
justifieraient pas de retirer la gestion des mains des fonctionnaires
de l'État ?
La volonté collective
L'intervention étatique est présentée comme résultant d'une volonté collective : volonté du peuple (variante démocratique), de la nation (variante nationaliste), de la société socialiste,
etc. Mais si la majorité de la population est en faveur de cette
intervention, qu'est-ce qui l'empêche d'agir à la place de l'État ? La coercition étatique est alors injustifiée. Voir l'exemple de la solidarité, un des nombreux biens collectifs confisqués par l'État, sous prétexte que « sans l'État, il n'y aurait pas de solidarité ».
Certains affirment que sans l'État, on n'aurait pas eu Internet,
la conquête de l'espace, voire les pyramides d'Égypte ! En réalité, soit
une invention est justifiée économiquement, et en ce cas elle
apparaîtra (sans les entreprises
privées, Internet, ou plutôt son prédécesseur ArpaNet, ne serait qu'un
obscur réseau limité à quelques organismes de recherche et à la Défense
américaine), soit elle n'a pas de sens et n'existe que par la coercition
étatique (un gratte-ciel est justifié économiquement, les pyramides
d'Égypte à l'époque où elles furent construites ne l'étaient pas, leur
seul but étant la glorification du pharaon). Quant à la conquête de
l'espace, il est certain qu'elle aurait été très différente si l'État ne
l'avait pas accaparée : la recherche de la rentabilité aurait prévalu
sur l'orgueil national et la stérile compétition entre États (URSS et États-Unis dans les années 1960).
La vitre brisée
Article connexe : Parabole de la vitre brisée.
Les étatistes ne prennent en compte que les effets positifs de l'interventionnisme,
et évitent de compter les effets négatifs — sophisme qui marche parce
que les bénéfices sont concentrés et visibles, tandis que les coûts sont
largement répartis et moins visibles. Pour les étatistes, les
destructions et atteintes aux libertés que l'État commet pour « créer » les biens publics par son pouvoir de coercition ne comptent pas. Les exemples sont nombreux, depuis la « gratuité » de certains services « offerts » par l'État, jusqu'aux « vertus » du keynésianisme en économie. C'est le sophisme de la vitre brisée dénoncé par Frédéric Bastiat, joint aux « deux poids, deux mesures », qui permet de sacraliser une action criminelle (impôt, guerre, monnaie frauduleuse, monopoles, etc.) uniquement parce que c'est l'État qui en est l'auteur.
Les collectivistes voient l'État comme une source inépuisable de richesses
à redistribuer : il faut qu'il prenne en charge ceci, qu'il fasse cela.
Comme s'ils ignoraient que l'État ne crée en réalité aucune richesse,
mais vit de l'impôt. L'État ne crée pas la richesse ; il la détruit.
Il n’existe pas de biens ou de services qui, par nature, devraient être fournis « collectivement » et même s’il en était ainsi on ne peut en déduire que l'État devrait les fournir avec l'argent des impôts.
Le sophisme moral
Ce sophisme
suppose que l'homme est trop mauvais (ou trop immoral, trop faible,
etc.) pour se gouverner lui-même. C'est pour cela que certaines missions
(la production de certains « biens publics ») doivent être confiées à l'État. Comme si l'État lui-même était fait d'hommes différents du reste de l'humanité. Les étatistes cultivent ainsi le « mythe du bon homme de l'État ». En réalité le pouvoir de coercition de l'État a une nature corruptrice qui rend les personnes à sa tête plus mauvaises que bonnes :
« Si l'on rejette le laissez-faire en raison de la faillibilité et de la faiblesse morale de l'être humain, alors on doit également rejeter, pour la même raison, toute espèce d'action gouvernementale. »
— Ludwig von Mises
Une grande partie de l'activité de l'État consiste d'ailleurs à
imposer des interdictions le plus souvent motivées par des raisons
morales arbitraires, et à tenter de faire respecter ces interdictions
par la coercition. Tous les domaines d'activité sont plus ou moins touchés : salaire minimum, règlementations sur les lieux dits « publics » (tabagie, port de signes religieux en France), prohibitions diverses (boissons, drogue, prostitution, armes, vente d'organes), jusqu'au lancer de nains ou le calibrage des cornichons !
L'intérêt à long terme
Ce sophisme suppose que seul l'État
peut prendre en compte les intérêts à long terme des personnes. Or,
hormis en cas de dictature, les gouvernements ne sont jamais assurés de
rester au pouvoir, ils ne gèrent jamais rien que pour le court terme,
leur horizon étant celui du prochain mandat électif. Les administrations
technocratiques durant plus longtemps que les gouvernements, peuvent
agir sur le long terme — mais alors, n'étant soumises à aucun contrôle,
elles agissent sur le long terme selon leur intérêt propre et en vue de
l'extension indéfinie de leur pouvoir (loi d'airain de l'oligarchie). Seul l'intérêt privé des personnes prévoyantes peut susciter des plans positifs à long terme. Comme l'explique Pascal Salin :
« L’interventionnisme étatique est fréquemment justifié sous le prétexte que seul l’État serait capable de prendre des décisions en tenant compte de leurs conséquences à long terme pour l’ensemble d’une société. Cet argument est en fait très étrange. En effet l’État, cette abstraction, est en réalité composé d’hommes et de femmes qui poursuivent leurs propres buts et recherchent leur propre intérêt. Or, pour eux, l’horizon naturel est celui de la prochaine élection et ils sont donc incités à donner des avantages immédiats aux citoyens, quelles qu’en soient les conséquences fâcheuses à long terme. Par contre un individu a intérêt à prévoir les conséquences de ses décisions pour sa vie entière et même celle de ses enfants. »
L'uniformité
Ce sophisme suppose que l'uniformité dans certains domaines est un bien en soi, et un « bien public »,
qui présuppose qu'une régulation étatique aussi étendue que possible
est nécessaire pour obtenir cette uniformité. Mais l'uniformité n'est
pas forcément un bien en soi, et à supposer qu'elle le soit dans
certains domaines, la coercition
étatique n'est pas le seul moyen ni le meilleur moyen d'y aboutir, car
elle empêche le processus de découverte par impossibilité de comparer,
en imposant aux acteurs du marché des standards donnés.
La gratuité
Certains biens publics offriraient l'avantage de la gratuité pour le consommateur (éducation, justice, sécurité sociale, etc.). Cette « gratuité » est évidemment complètement illusoire, puisqu'en dernier lieu c'est le contribuable qui la paye via l'impôt ou les prélèvements sociaux, ou indirectement via la dette publique :
il ne s'agit que d'une redistribution par extorsion des actifs, avec
les effets pervers qui en découlent : irresponsabilité, surconsommation,
etc.
La "copropriété étatique"
Pour certains, l’État serait analogue à un syndic de copropriété qui
offre un mécanisme de décision pour les décisions communes à la nation.
La réalité est bien différente :
« Une copropriété fonctionne sur le principe du contrat préalable sur un domaine bien délimité, sur le droit de se désengager, et sur l'absence de coercition entre copropriétaires. L'État est fondé sur l'obligation bon gré mal gré, un ensemble de lois extensibles unilatéralement, l'interdiction de se désengager sans tout perdre, la coercition à l'encontre des récalcitrants. »
— Faré[4]
"La justification des « biens publics » par la Théorie des Jeux considère également l'État comme un Dieu externe bienveillant et omniscient, qui aide les gens à choisir en moyenne le meilleur scénario parmi des interactions modelées d'après des « jeux » mathématiques simples — alors qu'en réalité, l'État est constitué de personnes ayant un intérêt propre, de sorte que si nous devions employer correctement la théorie des jeux, nous devrions considérer les fonctionnaires gouvernementaux comme des joueurs intéressés parmi d'autres; l'unique caractéristique particulière de l'action politique est que les agents de l'État détiennent un pouvoir légal de coercition, qui se traduit en Théorie des Jeux par leur capacité à imposer à leur profit des jeux à somme négative de leur choix.
En Théorie des Jeux, des « jeux » mathématiques simples, comme le dilemme du prisonnier ou la course à la poule mouillée, modélisent des situations où il y a un bénéfice potentiel pour des joueurs si seulement ils trouvent un moyen de coordonner leurs actions. Tous les « théorèmes » valides à propos d'un tel jeu ne font que redire en des termes formels les hypothèses informelles qui ont été mises dans le modèle considéré. Il ne s'ensuit certainement pas que l'État soit la bonne façon d'accomplir cette coordination — bien que là soit précisément le sophisme non sequitur sur lequel repose la position étatiste. En fait, il est possible d'appliquer la théorie des jeux pour comparer la coordination par un État coercitif avec la coordination par la libre concurrence; et cet exercice en théorie des jeux montrera aisément à quel point les effets de l'intervention étatique sont désastreux.
La coordination n'est pas quelque chose qui se passe magiquement, sans coût, par intervention divine, seulement parce que les parties intéressées s'accordent sur le fait que cette coordination serait une bonne chose. Si c'était le cas, il n'y aurait pas le moindre besoin d'un coordinateur, pour commencer. La coordination est donc un service, et ce service vaut à hauteur des gains escomptés par les joueurs coordonnées, comparés à leur situation s'ils avaient été laissés sans coordination. Il reste à déterminer la façon la plus rentable d'obtenir cette coordination — à supposer même qu'il existe une telle façon rentable de l'obtenir.
Dans un régime de libre concurrence, les parties intéressées sont libres de choisir un coordinateur. Leur intérêt sera donc de trouver un coordinateur qui fournira le meilleur retour sur investissement pour le prix qu'il coûte. S'il se trouve un fournisseur de service effectivement à même de réaliser cette coordination à un coût moindre que ce que ne vaut ladite coordination, alors l'intérêt de toutes les parties en présence convergera avec pour résultat le fait que cette coordination aura effectivement lieu. Si les coûts pour réaliser la coordination surpassent en fait les bénéfices de cette coordination, alors les intérêts de tous les intéressés convergera avec pour résultat le fait que cette coordination n'aura pas lieu. L'un dans l'autre, la libre concurrence, c'est-à-dire la liberté de chacun des intéressés de choisir qui coordonnera si quiconque doit le faire, assure que la coordination aura lieu si elle apporte un gain, et qu'elle aura lieu au meilleur prix.
Considérons maintenant le cas où l'État est un coordinateur. Comme tout fournisseur de service privé — car l'État est fait d'individus privés, comme toute institution — l'État est un joueur qui cherchera à maximiser son intérêt. La seule chose qui distingue l'État d'un coordinateur sur le marché libre est que l'État détient les moyens de coercition, avec lesquels il peut exclure ou décourager toute concurrence à la fourniture de ses services. Ainsi, à l'équilibre, un État monopolisera la coordination d'un jeu; il pourra ainsi récolter à son profit exclusif la majeure partie des bénéfices du jeu, laissant les joueurs avec aussi peu qu'il faut pour que le jeu reste profitable. Dans une situation de choix d'entrée où il y a liberté pour les citoyens de ne pas en appeler à la coordination de l'État et de résilier cette coordination, l'État laissera aux joueurs à peine plus de bénéfices que ne l'offre le taux d'intérêt ambiant marginal (mis en rapport avec les mises investies dans le jeu) — et cela seulement si la coopération s'avère bénéfique à tous après avoir payé les coûts d'utilisation du monopole d'État. Les choses sont bien pires, quand il n'existe plus de choix d'entrée, et que l'État peut imposer ses services de protection pour un quelconque genre de services. Dans une telle situation, l'État non seulement pourra confisquer l'ensemble des bénéfices du jeu, mais pourra aussi aller plus loin et lever une surtaxe qui fera que les joueurs se porteront moins bien que s'ils n'avaient pas joué. Cette surtaxe s'accroîtra jusqu'à atteindre l'escompte au taux marginal d'intérêt pour le coût de transaction de la sortie de l'influence de l'État (par l'émigration, la désobéissance civile, la disparition dans la clandestinité, la pression sur le pouvoir politique en vue de promouvoir son intérêt, la prise de pouvoir démocratique, la révolution, ou quelqu'autre moyen). Et plus grande la puissance de l'État, plus haut aussi bien ce coût que le taux d'intérêt.
En fin de compte, ce qu'établit la théorie des jeux — s'il en était le moins du monde besoin — c'est que le pouvoir coercitif profite à quiconque le détient au détriment de quiconque le subit — ce qui n'est pas exactement une grande nouvelle. En fait, la théorie des jeux n'est qu'un moyen de formaliser les choses en termes mathématiques, et ne peut dire ni plus ni moins que ce qui peut être dit sans de tels termes. Le même raisonnement de bon sens qui est requis pour voir comment le formalisme mathématique qualitatif s'accorde ou non avec la réalité peut être utilisé directement pour raisonner sur cette réalité, sans l'intermédiaire du jargon mathématique. Comme d'habitude, les mathématiques sont utilisées de façon pseudo-scientifique pour inspirer un respect timoré aux gens à qui on assène des modèles d'apparence complexe. Cette technique d'intimidation sert à cacher le fait que ce sont les mêmes bons vieux sophismes que l'on emploie quoiqu'avec un vocabulaire différent. Oh, et puisqu'on en est à l'argument d'autorité, je suis un mathématicien né et élevé dans une famille de mathématiciens."
La théorie des jeux ou le dilemme du prisonnier sont-ils vraiment une réfutation de l’optimalité de la concurrence ?
Ce qu’apporte vraiment la théorie des jeux
En fait, ce qu’explique le personnage de Nash dans cette scène est
d’une grande banalité. On sait depuis des siècles, voire davantage, que
des concurrents ont toujours intérêt à se coaliser et à agir de concert.
D’ailleurs Adam Smith lui-même en parlait beaucoup (voir la deuxième partie du billet lié à ce sujet). Rassurez-vous, on ne distribue pas les prix Nobel pour si peu.
La théorie des jeux ne réfute pas la théorie économique jusqu’alors
traditionnelle mais la complète. La théorie des jeux permet de
comprendre des situations où des individus peuvent avoir, tout seul, un
effet sur la situation des autres, et donc sur leurs décisions.
L’exemple typique, ce sont les jeux (au sens commun : les échecs, le
poker…).
Dans la théorie économique traditionnelle, la concurrence la plus
parfaite implique que les agents économiques soient trop petits ou trop
nombreux pour que leur choix impacte celui de leurs concurrents. Les
travaux mathématiques sur le sujet, parfaitement contemporains de ceux
de John Nash d’ailleurs, montrent qu’en ces circonstances, la
concurrence aboutit à un résultat optimal.
Ce résultat était pressenti depuis au moins le XVIIIème siècle.
Son corollaire était que lorsque la concurrence s’éloignait de cette
circonstance parfaite, elle perdait en efficacité. Or, dans la société
réelle, la situation de concurrence parfaite, si elle peut constituer un
idéal à poursuivre, n’est jamais observée. Par exemple, dans le film,
on est loin d’une situation de concurrence saine vu que des concurrents
en nombre limité discutent d’une éventuelle entente. Cependant, il
n’existait pas avant la théorie des jeux un outil mathématique
systématique permettant d’appréhender les effets de cet éloignement de
la concurrence parfaite. La théorie des jeux, qui en tant que branche
des mathématiques n’a pas d’avis idéologique, répondait à cette absence.
Nash n’a donc pas découvert que la concurrence était parfois
imparfaite. Il a contribué à l’outil qui permet d’analyser les
dysfonctionnements causés par l’atténuation de la concurrence, et en
particulier par la réduction du nombre des « joueurs ». Un sujet qui
occupait les économistes depuis déjà longtemps.