« (…) Que doit faire un responsable politique lorsque diverses évaluations non expérimentales d’un même programme d’activation sur le marché du travail (réalisées par des chercheurs réputés, sans biais évident, et utilisant les mêmes données) produisent des estimations d’impact qui ont des implications très différentes pour ce programme ? (…) Les expériences sociales sont désormais fréquentes aux Etats-Unis ; elles y influencent la politique publique dans des domaines aussi divers que l’assurance santé, la lutte contre la violence domestique, les programmes d’éducation sexuelle et la formation des enseignants. Les méthodes expérimentales ont aussi fleuri dans l’économie du développement et, plus récemment, les expériences sociales se sont multipliées en Europe. Pourtant le scepticisme demeure dans la communauté universitaire, parmi les administrateurs des programmes et les travailleurs sociaux, mais aussi dans la presse (…).

Les expériences fournissent plusieurs bénéfices aux évaluateurs de programme


Pour ce qui touche de l’évaluation, le problème fondamental concerne la sélection non aléatoire de participants aux programmes (et de juridictions aux politiques sociales, et ainsi de suite). Ce problème de la sélection signifie que les comparaisons entre la situation des participants et celle des non-participants vont combiner, dans des proportions inconnues, les impacts causaux du programme et les différences qui auraient émergé en l’absence de ce dernier. Une évaluation expérimentale bien exécutée avec un échantillon d’une taille adéquate dissipe de telles inquiétudes à propos de la sélection non aléatoire et conforte ainsi les affirmations relatives aux liens de causalité derrière l’impact d’un programme sur une population assignée aléatoirement.

Même avec une évaluation non expérimentale robuste qui applique les méthodes de pointe à des données de haute qualité, il y a toujours l’ombre d’un doute autour des supposés liens de causalité. Pour le dire autrement, les évaluations non expérimentales soulèvent toujours des inquiétudes à propos de la sélection non aléatoire vers un programme. Chaque combinaison de méthode non expérimentale et de données observationnelles relatives à un groupe de comparaison de non-participants résout le problème de la sélection non aléatoire sous des hypothèses particulières, mais ces hypothèses restent toujours, ne serait-ce en partie, non testables.

A l’inverse, les expériences résolvent directement le problème de la sélection non aléatoire vers le traitement en forçant aléatoirement certains individus qui auraient sinon participé au programme à ne pas le faire. Les expériences fournissent cet important service causal si elles cherchent à estimer un effet de traitement moyen pour un paramètre « structurel », tel qu’une élasticité pour l’offre de travail, comme aux Etats-Unis avec les expériences sur l’impôt négatif. Alors que les expériences nécessitent des hypothèses à propos de certaines choses (comme je vais le discuter ci-dessous), elles ne nécessitent pas d’hypothèses à propos du processus de sélection vers le programme de façon à fournir une estimation convaincante de l’effet causal pour une population assignée aléatoirement.

De plus, la simplicité conceptuelle des expériences permet aux non-spécialistes de mieux comprendre les constats et de les trouver plus convaincants. Comme l’économiste Gary Burtless l’a expliqué : "Parce que les responsables politiques peuvent facilement saisir les constats et la signification d’une expérience simple, ils se concentrent sur les implications des résultats pour la politique publique (…). Les politiciens sont davantage susceptibles d’agir sur la base de résultats qu’ils trouvent convaincants". La plupart des gens comprennent comment la randomisation précise de façon convaincante les liens de causalité, en particulier dans les expériences qui ne souffrent pas trop des limitations discutées ci-dessous.

En outre, les expériences réduisent le risque qu’un biais, conscient ou non, de la part du chercheur affecte les estimations d’impact. Les chercheurs qui appliquent des méthodes non expérimentales ont typiquement plus de degrés de liberté pour choisir la façon par laquelle ils mènent leur analyse. Par exemple, dans une évaluation utilisant les méthodes d’appariement (matching methods), le chercheur choisit à la fois l’ensemble de variables d’appariement et les détails de la procédure d’appariement. Les choix qui mènent à des estimations différentes peuvent paraître aussi plausibles l’un que l’autre aux yeux des lecteurs experts (…). Les expériences ne rendent pas la manipulation impossible, mais ils réduisent un tel risque.

Finalement, les expériences peuvent avoir d’importantes retombées en termes de savoir. Une large littérature utilise les impacts expérimentaux comme références pour examiner la performance de combinaisons alternatives de méthodes et de données non expérimentales. Par exemple, plusieurs articles utilisent les constats expérimentaux tirés de l’expérience sur le Job Training Partnership Act aux Etats-Unis pour étudier divers aspects du dispositif d’évaluation non expérimental. Ceux-ci incluent la valeur de types particuliers de variables de conditionnement, le choix entre comparer les tendances de résultats et les niveaux de résultats et le choix de localiser ou non les groupes de comparaison dans les mêmes marchés locaux du travail que les participants. En comparant les estimations non expérimentales obtenues en utilisant différentes méthodes économétriques, différentes données de groupes de comparaison et des ensembles différents de variables de conditionnement à des estimations expérimentales, ces études fournissent un éclairage empirique sur ce qui fonctionne et ne fonctionne pas, et ces preuves empiriques se sont révélées précieuses dans des évaluations non expérimentales plus récentes. Puisque les expériences risquent de ne jamais pleinement remplacer les évaluations non expérimentales en raison de leurs coûts financiers et politiques plus élevés, il est crucial d’utiliser les expériences pour apprendre à concevoir des évaluations non expérimentales plus convaincantes.

!Les potentiels écueils derrière l’usage des expériences dans l’évaluation de programmes


Malgré leurs clairs bénéfices, les expériences ont certaines spécificités relativement aux évaluations de programmes non expérimentales qui les amènent à produire de moins bonnes estimations. De plus, l’assignation aléatoire peut exacerber des problèmes qui surviennent dans certaines évaluations non expérimentales. Cependant, tous les écueils ne s’appliquent pas à tous les dispositifs expérimentaux et la plupart limitent la "validité externe", c’est-à-dire la capacité à généraliser les constats expérimentaux à d’autres populations, plutôt que la "validité interne", c’est-à-dire l’interprétation causale pour les populations qui sont randomisées.

Premièrement, considérons les problèmes d’interprétation qui se posent lorsque tout le monde au sein du groupe test ne reçoit pas le programme ou lorsque certains individus dans le groupe de contrôle expérimental bénéficient de ce programme ou d’un programme similaire (malgré l’intention de ne pas leur en faire bénéficier). Certains individus assignés au groupe de traitement peuvent échouer à participer (les "no-shows") ou à participer pleinement (les "décrocheurs" ou "dropouts"). Il peut y avoir des no-shows si les membres du groupe de traitement trouvent un emploi, déménagent, vont en prison ou en apprennent plus à propos d’un programme volontaire et en concluent qu’ils n’ont pas intérêt à y participer. De même, les membres du groupe de contrôle peuvent contourner le protocole expérimental en s’enrôlant dans le programme ou, plus généralement, ils peuvent recevoir les mêmes services ou des services similaires d’une autre source ou avec un autre financement ; la littérature appelle cela la "substitution du groupe de contrôle" (control group substitution). Le risque qu’il y ait des no-shows et des dropouts dépend des caractéristiques du dispositif expérimental, par exemple du délai entre l’assignation aléatoire et la réception du service et de la nature du traitement. (…) La substitution du groupe de contrôle dépend aussi de l’environnement programmatique : les environnements centralisés où seule une agence fourni un type donné de service en souffrent moins. Empiriquement, plusieurs évaluations expérimentales présentent les no-shows (et dropouts) du groupe test et la participation du groupe de contrôle dans le même programme ou des programmes similaires à des niveaux substantiels.

La littérature offre deux grandes approches pour surmonter ce problème d’assignation. La première approche réinterprète le contraste expérimental (la différence en termes de résultats observés moyens entre le groupe test expérimental et le groupe de contrôle expérimental) comme l’impact moyen de l’offre de traitement plutôt que de la réception du traitement. La littérature appelle cela le paramètre d’"intention de traiter" (intention to treat). Dans le contexte d’un programme volontaire, où le gouvernement peut offrir le programme sans le rendre obligatoire, l’impact moyen de l’offre répond à une question de politique pertinente : "Quel est l’impact moyen de l’ajout d’une option supplémentaire à l’ensemble de programmes déjà disponibles ?" Cette question peut différer assez substantiellement de la question qui reçoit une réponse dans une expérience où chaque membre du groupe test reçoit un traitement, mais aucun membre du groupe de contrôle n’en reçoit, à savoir : "Quel est l’impact moyen du traitement relativement à l’absence de traitement ?"

La seconde approche divise la différence moyenne expérimentale par la différence dans la fraction d’individus recevant le programme dans le groupe test expérimental et la fraction de ceux recevant quelque chose de similaire dans le groupe de contrôle. (…)

Dans plusieurs dispositifs institutionnels, les individus doivent donner explicitement leur accord pour participer (c’est-à-dire accepter ou refuser) à une étude utilisant l’assignation aléatoire mais ils peuvent être inclus dans des études non expérimentales sans avoir donné explicitement leur consentement. En pratique, certains individus vont refuser de subir l’assignation aléatoire. De tels individus peuvent présenter de très hauts niveaux d’aversion au risque, avoir des objections philosophiques à l’assignation aléatoire (…). Le nombre de personnes dans ce cas tend à être faible (…) mais pas insignifiant. Les travaux empiriques, encore peu nombreux sur ce phénomène, suggèrent que le traitement pourrait avoir un impact moyen différent sur les individus qui s’auto-excluent que sur ceux qui acceptent de participer, si bien que l’impact expérimental fournit un guide imparfait de l’impact pour les individus qui auraient participé au programme en l’absence d’expérience.

Dans divers contextes, tout ou partie des individus dans une expérience vont savoir qu’ils prennent part à une évaluation qui peut avoir des conséquences en termes de politique, alors que ce n’est pas le cas pour les individus dans une évaluation non expérimentale. S’ils en ont conscience, ils sont susceptibles de changer de comportement, ce qui altère les résultats de l’expérience et influe sur la politique publique. Par exemple, la littérature inclut des exemples de travailleurs sociaux qui ignoraient l’information sur les assignations de formation optimales tirées d’une règle de traitement statistique, peut-être parce qu’ils n’en voyaient pas l’utilité ou parce qu’ils pensaient que la règle de traitement statistique menaçait leur emplois et pensaient qu’ils pouvaient la court-circuiter en se comportant de façon à aboutir à un constat nul dans l’évaluation de l’impact. De même, les enseignants dans le groupe de contrôle d’une évaluation expérimentale dans laquelle le groupe de traitement reçoit des incitations de performance financière peuvent, pour des raisons idéologiques, travailler plus dur. Ces genres de réponses sapent l’intégrité de l’évaluation expérimentale et réduisent la pertinence de ces constats pour la politique.

Les évaluations expérimentales des programmes existants (à l’opposé, disons, des programmes de démonstration) font face à un arbitrage entre la taille du groupe de contrôle et le désir de maintenir le programme à l’échelle à laquelle il opère en l’absence d’expérimentation. Considérons un programme qui sert environ 1.000 participants par an. Assigner aléatoirement la moitié de ces participants à un groupe de contrôle réduit le nombre de personnes servies à 500. Cela peut impliquer que des travailleurs soient du programme ou, si les travailleurs sont maintenus, que les individus assignés aléatoirement au groupe de traitement reçoivent un meilleur service qu’ils n’en auraient reçu en l’absence de l’expérience. La première situation peut provoquer des troubles politiques ou entraîner la perte de bons salariés que l’organisation aimerait avoir après l’expérience, tandis que la deuxième se traduit par un changement de la nature du programme, si bien que les estimations expérimentales constituent alors un mauvais guide quant à l’impact du fonctionnement normal du programme. Alternativement, dans certains contextes le programme peut avoir l’option de recruter des participants supplémentaires parmi ceux qu’elle n’aurait pas servis en l’absence d’assignation aléatoire. Dans l’exemple ci-dessus, cela permettrait de maintenir le nombre de servis à 1.000. Mais si le programme a un impact moyen différent sur les participants nouvellement recrutés que sur ceux que le programme aurait servi s’il avait fonctionné normalement, alors les estimations expérimentales vont à nouveau fournir une image trompeuse de l’impact du programme dans des conditions normales.

Un dernier inconvénient avec les expériences concerne la coopération locale dans les programmes décentralisés. Considérons le cas d’un programme d’activation sur le marché du travail opéré via un réseau de centres d’emploi locaux. Une évaluation visant une généralisabilité maximale considérerait tous les centres ou un échantillon aléatoire suffisamment large. Dans une évaluation non expérimentale, amener les centres choisis à accepter de participer sera généralement facile parce que la participation n’exigera d’eux que de partager des informations. A l’inverse, obtenir la coopération locale dans une expérience pose un plus grand problème en raison des coûts bien plus élevés imposés par une évaluation d’assignation aléatoire ; les sites sélectionnés doivent installer, mettre en œuvre et documenter l’assignation aléatoire et ils doivent refuser l’accès aux services à des personnes qui en auraient sinon bénéficié. Même dans les environnements où l’administration centrale n’a pas besoin de demander aux offices locaux de participer, la mise en œuvre de l’assignation aléatoire requiert un niveau relativement élevé de coopération locale. Dans l’expérience autour du Job Training Partnership Act américain, les évaluateurs avaient à contacter environ 200 des 600 centres de formation (et devaient verser de substantiels paiements annexes et autres concessions) de façon à ce que 10 d’entre elles participent à l’expérience. Evidemment, les inquiétudes relatives à la généralisation des résultats d’impacts obtenus à partir de ces 16 centres nuisent aux discussions des constats expérimentaux.

Limites et lacunes


Les expériences, comme la plupart des évaluations non expérimentales, dépendent de l’hypothèse (rarement implicite) que le programme qui est évalué n’affecte pas les individus qui n’y participent pas. Pour le dire autrement, la plupart des évaluations expérimentales ne supposent pas de répercussions sur les individus du groupe de contrôle ou plus largement sur l’ensemble des non-participants. A quoi peuvent ressembler de tels effets ? Ils peuvent prendre la forme de changements dans les prix de groupes particuliers sur le marché du travail à cause d’un accroissement de leur offre induit par le programme. Ajouter 100 coiffeurs ou soudeurs supplémentaires sur le marché du travail d’une petite ville peut entraîner une baisse de salaires pour les travailleurs de ce type de compétences, pas juste pour les personnes sortant de formation mais aussi pour les personnes en poste. Un programme qui forme des professeurs dans une école à de nouvelles techniques éducatives peut avoir des "répercussions informationnelles" si les enseignants partagent les nouvelles idées avec leurs collègues qui n’ont pas bénéficié de ce programme. Un programme qui enseigne à certains chômeurs comment chercher un emploi plus efficacement, par exemple en améliorant leurs compétences pour l’entretien d’embauche ou pour la rédaction de leur CV, peut les amener à prendre des emplois vacants qui, en l’absence de cette formation, aurait été occupés par des non-participants. Dans ce dernier cas, le programme ralentit le retour à l’emploi des non-participants (dont la plupart n’appartiennent pas en général au groupe de contrôle). Dans la mesure où la plupart (ou la totalité) des non-participants affectés sont en-dehors du groupe de contrôle, les répercussions importent pour comparer entre les coûts et avantages sociaux, mais elles n’ont pas un effet majeur sur l’interprétation causale des estimations expérimentales pour ceux qui ont été assignés au hasard.

Les travaux empiriques qui sont disponibles (mais limitées) suggèrent que les répercussions sur les non-participants peuvent être substantielles, en l’occurrence suffisamment importantes dans certains cas pour anéantir la conclusion d’une analyse coûts-bénéfices qui les ignorerait. Une évaluation notable d’un programme d’activation sur le marché du travail estime les effets sur les non-participants via un dispositif expérimental multi-niveaux. Le niveau supérieur assigne aléatoirement la fraction de la population éligible qui est servie dans un marché du travail local. Dans certains endroits la plupart sont servis, alors que dans d’autres seule une modeste fraction est servie. Le niveau inférieur assigne aléatoirement les chômeurs éligibles au programme dans la proportion déterminée par la randomisation du niveau supérieur. Si l’impact expérimental au niveau du marché du travail augmente avec la fraction assignée au programme, cela signale l’importance de répercussions négatives sur les non-participants. La plupart des évaluations vont manquer de ressources financiers et organisationnelles (et politiques) pour organiser un tel dispositif (…).

De plus, les données expérimentales (comme avec les données observationnelles) n’identifient pas directement tous les paramètres qui devraient intéresser l’évaluateur. Par exemple, certains paramètres concernent des choix réalisés après l’assignation aléatoire, des choix que le traitement peut affecter. Par exemple, l’effet d’un programme de formation sur les salaires est utile, mais on ne peut observer que les salaires des personnes qui ont un emploi. Une comparaison entre les salaires des membres du groupe de traitement qui ont un emploi avec les salaires des membres du groupe de contrôle qui ont un emploi confond l’effet de traitement sur les salaires avec l’effet (sûrement sélectif) du programme sur l’emploi. (…)

Une autre limite se pose parce que les expériences fournissent souvent de l’information limitée à propos des mécanismes causaux (par exemple à propos de la provenance des impacts causaux) et même une telle intuition limitée requiert habituellement une certaine combinaison ingénieuse de dispositif d’évaluation, de conception de programme et de collection de données. Les expériences partagent cet aspect avec plusieurs évaluations non expérimentales, mais l’utilisation des seules données administratives dans les expériences exacerbe le problème. Considérons l’évaluation d’un programme d’activation du marché du travail pour les chômeurs qui combine des entretiens fréquents, relativement déplaisants, avec les travailleurs sociaux (une "taxe sur le loisir") avec une formation de haute qualité aux techniques de recherche d’emploi. Une évaluation expérimentale conduite en utilisant seulement les données administratives sur les gains peut constater un effet convaincant, substantiellement et statistiquement significatif sur les gains, tout en ne montrant pas si les entretiens ou la formation à la recherche d’emploi (ou une certaine combinaison des deux) explique les impacts.

Pour voir comment le dispositif de programme peut aider, supposons que les chômeurs soient au courant des entretiens en avance et que leur aide à la recherche d’emploi prenne place après le premier entretien avec le travailleur social. Dans ce scénario, le calendrier des impacts sur les gains peuvent éclairer les mécanismes. En particulier, les impacts sur les gains avant le premier entretien soulignent l’importance des effets de menace. Alternativement, les données sur la qualité et la quantité de la recherche d’emploi permettent d’estimer expérimentalement les effets de traitement sur ces médiateurs ; l’absence de changement dans le comportement de recherche d’emploi suite à la formation sur la recherche d’emploi suggère que les effets du traitement sur les gains résultent des entretiens avec le travailleur social. Toutefois, les données montrant que la plupart des chômeurs esquivent leurs entretiens sans aucune sanction suggèrent que la formation à la recherche d’emploi explique entièrement l’impact. Le point général concerne la capacité des données relatives aux comportements reliés aux mécanismes spécifiques de fournir des preuves suggestives sur l’importance (ou non) de ces mécanismes.

Pourtant, un autre problème survient du fait que certains observateurs qui voient des problèmes éthiques associés aux expériences, en particulier celles qui impliquent de refuser aléatoirement au groupe de contrôle l’accès à des services potentiellement précieux. (…) Les évaluateurs peuvent répondre à ces inquiétudes de diverses façons. Premièrement, tout comme les individus qui renoncent à leur propriété pour construire des biens publics comme les routes obtiennent une compensation, les membres du groupe de contrôle peuvent également recevoir une compensation (bien que cela puisse avoir des effets sur leur comportement). Deuxièmement, les évaluations expérimentales peuvent se focaliser sur les cas de réelle ignorance des effets de programme, de manière à ce qu’il ne soit pas clair pour les concepteurs de l’expérience si l’assignation aux groupe de contrôle signifie manquer un bon programme ou ne pas gâcher de temps et d’énergie sur un programme inefficace. Troisièmement, dans le cas de programmes submergés, les évaluateurs peuvent souligner que l’assignation aléatoire est un moyen impartial d’allouer les ressources rares du programme. Quatrièmement, les évaluations expérimentales peuvent se focaliser sur les dispositifs (tels que la randomisation à la marge de la participation ou la randomisation des incitations à participer) qui atténuent (du moins en partie) les inquiétudes éthiques (tout en changeant la signification substantielle de l’évaluation expérimentale d’impact). Cinquièmement, les évaluations expérimentales peuvent se focaliser sur des aspects de la mise en œuvre du programme (par exemple le nombre et le calendrier des entretiens avec les travailleurs sociaux) ou sur des combinaisons de services alternatifs (par exemple l’aide à la recherche d’emploi versus la formation) plutôt que sur les contrastes entre les services et l’absence de services.

Finalement, la randomisation fournit une solution convaincante à l’une des questions les plus embêtantes qui se posent dans toute tentative visant à tirer des connaissances en matière d’évaluation à partir de données, celle de la sélection non aléatoire vers les programmes. Cette question est importante, mais les nombreux autres problèmes qui nuisent à toute évaluation empirique se posent toujours dans les expériences. Par exemple, les expériences qui dépendent des données d’enquêtes finissent souvent avec des taux de réponses différents de la part de leurs groupes test et de contrôle. Selon la nature de cette attrition différentielle, cela peut biaiser les estimations d’impact. Les anomalies (par exemple les observations inhabituelles) (…) peuvent biaiser les évaluations qui observent seulement les moyennes conditionnelles. Les différences dans l’erreur de mesure corrélée avec le statut de traitement peut biaiser les estimations d’impact, comme quand le traitement étudié déplace les travailleurs du secteur informel au secteur formel et que les données administratives utilisées pour mesurer les résultats sur les gains ne concernent que les emplois du secteur formel. Et ainsi de suite. (…) »

Jeffrey A. Smith, « The usefulness of experiments », IZA World of Labor, n° 436, mai 2018. Traduit par Martin Anota