Pourquoi les évaluations nationales n’ont pas marché en Grande Bretagne ? D’après Paul Black (6) Les leçons à tirer d’une mise en œuvre inefficace

Il semble que les contenus des recommandations du groupe d’experts (TGAT) n’ont guère étaient pris au sérieux par les décideurs politiques. Par ailleurs, si le nouveau système avait été moins compliqué et ambitieux, il aurait pu être plus robuste et, par conséquent, aurait pu mobiliser plus efficacement les acteurs de l’éducation.

En résumé, il est clair que cette inefficacité dans la mise en œuvre possède plusieurs causes. Les quatre plus importantes sont les suivantes :

– L’impulsion politique pour le changement, avec sa combinaison particulière de méfiance à l’égard des professionnels et d’engagement pour une « réforme » rapide.

– La manière dont la conception a été confiée à un groupe d’experts. En essayant de réaliser quelque chose avec peu de temps pour l’examiner, et encore moins pour la consultation, les propositions politiques ont produit un plan ambitieux qui aurait nécessité des ressources et du temps pour sa mise en œuvre. Elles n’ont pas fait l’objet d’une communication adéquate.

– Une acceptation inégale et réticente des propositions du TGAT et la combinaison subséquente de révisions et de malentendus dans la mise en œuvre.

– La pression de changements radicaux, tant dans l’ensemble des programmes scolaires que dans l’évaluation, exercée sur les enseignants, de sorte que même des plans de développement parfaitement élaborés ont pu soulever des objections.

Comme ces facteurs interagissent fortement, il serait inutile de tenter de les classer par ordre d’importance.

Les difficultés du TGAT résident dans l’interface entre la possibilité technique et la compréhension publique, politique et professionnelle de l’évaluation et des tests standardisés. Les questions soulevées par les événements décrits précédemment, soulève au moins 6 questions :

1. Comment les éducateurs et les experts en évaluation peuvent-ils communiquer efficacement avec le public en général, et les hommes politiques en particulier, sur les forces et les faiblesses des diverses formes d’évaluation ? La fiabilité et la validité encore plus limitée des examens écrits externes, chronométrés et formels ne sont pas comprises. Leurs apparentes équité et objectivité sont attrayantes, et ceux qui souhaitent les voir remplacés par d’autres méthodes sont considérés soit comme des romantiques, soit comme les défenseurs d’un désir professionnel et illégitime d’éviter les examens publics. Ainsi, les motifs du TGAT ont été remis en question parce que les fondements techniques d’une grande partie de la réflexion du groupe n’était pas compris.

Une question subsidiaire revêt une importance particulière : Le public peut-il comprendre que les nouveaux modèles d’apprentissage démontrent que les systèmes d’évaluation traditionnels sont inadéquats et nuisibles ? Les travaux dans ce domaine montrent que la formation des élèves pour réussir les items atomisés des tests externes traditionnels est défavorable à un apprentissage efficace. Ainsi, les effets contre-productifs des tests étroits sont plus dommageables qu’on ne le pensait auparavant, et pourtant ils sont à peine compris en dehors de la profession enseignante.

2. En partant du premier point, dans quelle mesure un État ou un système local pourrait-il, ou devrait-il, soutenir des méthodes améliorées d’évaluation sommative, étant donné qu’elles prennent plus de temps d’enseignement et peuvent être coûteuses à produire, à administrer et à noter ? La difficulté est aggravée par le fait que pour le profane, y compris un ministre de l’éducation, l’adoption de meilleurs  » tests  » semble souvent une proposition étrange et peut donner l’impression que les rigueurs des tests externes veulent être évitées.

Certains des premières évaluations standardisées ont formulé des demandes inacceptables, mais leur but a également été mal compris, et l’atmosphère de controverse publique a détruit toute possibilité d’une recherche patiente pour les améliorer.

3. Quelle devrait être la relation optimale entre les fonctions formatrices et sommatives de l’évaluation par les enseignants ? Les deux sont souvent confondues mais elles sont importantes et elles ont des fonctions différentes. Le rapport du TGAT ne traitait pas de cette question ; il supposait que l’accumulation des résultats formatifs servirait l’objectif sommatif. Certains ont soutenu qu’il s’agissait d’une erreur grave. Cependant, l’effet inévitable de tout test à enjeux élevés sur l’enseignement est un danger constant. Si les propres évaluations des enseignants ne jouent aucun rôle dans cette évaluation sommative, celle-ci l’emportera et marginalisera les évaluations formatives des enseignants à moins que le lien entre les deux soit soigneusement structuré.

4. Quel est le meilleur moyen de spécifier des critères dans un programme scolaire référencé par des critères ? Le TGAT a sous-estimé les difficultés qu’il y avait à le faire.

Il est difficile a) d’établir des niveaux de détail appropriés, b) d’interpréter en termes de référencement des domaines et c) de faire face aux problèmes de communication des résultats, pour lesquels l’information doit être agrégée en fonction du public visé et de l’objectif du compte rendu. Popham (1993, p. 144) décrit à quel point il peut être facile et dangereux de produire beaucoup trop de détails pour tenter d’éliminer le besoin de jugement et recommande plutôt que la référence aux critères soit mise en œuvre au moyen d’énoncés généraux illustrés par des exemples. À un stade précoce, le développement britannique est tombé dans le piège décrit par Popham, bien que le problème n’ait été officiellement reconnu que récemment.

5. Comment les systèmes d’évaluation et d’examen devraient-ils être conçus pour fournir de l’information en vue de la reddition de comptes des écoles ?

Cet objectif n’exige pas de tests généraux et pourrait être mieux atteint par des enquêtes utilisant l’échantillonnage matriciel pour fournir une image plus riche et plus fiable (Harlen et al., 1992). Toutefois, une partie importante de l’approche du gouvernement conservateur à l’égard de la réforme de l’éducation était que le consommateur – en l’occurrence, le parent – devrait être en mesure d’exercer son choix entre les écoles. Les tests externes devaient fournir les critères de ce choix, et les parents voulaient les résultats individuels pour leur enfant. La nécessité d’évaluations nationales pour fournir une certification individuelle ainsi que des informations générales sur l’obligation de rendre compte était donc une évidence. La conception du TGAT a été conçue pour répondre à ces deux objectifs et pour appuyer, plutôt que de faire dévier les propres évaluations des enseignants. L’une des critiques formulées à l’égard du rapport du TGAT était que, bien qu’il ait formulé des recommandations sur la collecte de données de base pour éclairer les jugements sur le rendement scolaire, ces recommandations n’étaient pas suffisamment fermes. Quoi qu’il en soit, elles ont été ignorées. Mais ces questions sont maintenant acceptées comme faisant partie d’un programme de révision, en partie parce que la publication des scores bruts dans les classements scolaires était l’un des principaux points d’opposition expliquant le boycott des enseignants en 1993.

6. A quel rythme peut-on procéder à une réforme radicale des écoles et comment les ressources essentielles peuvent-elles être estimées de manière réaliste par les décideurs politiques ? Les réformes qui exigent des changements radicaux dans les pratiques quotidiennes des enseignants en classe ne devraient pas être imposées sans de vastes essais sur le terrain et ne peuvent être introduites rapidement. En 1988, le gouvernement conservateur était déterminé à mettre en oeuvre très rapidement des changements dans le domaine de l’éducation, comme dans d’autres secteurs de la fonction publique, et il considérait les plaidoyers des enseignants comme un type de protectionnisme des professionnels à l’égard des réformes. Cependant, le besoin des hommes politiques d’obtenir rapidement des résultats ne peut être satisfait au niveau de la salle de classe ; le temps nécessaire pour mettre en œuvre efficacement le changement éducatif est plus long que celui entre des élections.  

Source : Black, Paul J. « Performance assessment and accountability: The experience in England and Wales. » Educational evaluation and policy analysis 16.2 (1994): 191-203.