Glossaire

Accréditation: La reconnaissance officielle de la réussite à un examen, fournie généralement par une entité officielle, un gouvernement, un centre d’examen, etc.

Alignement: Un processus qui consiste à relier le contenu, la performance standard à l’évaluation, aux consignes et à l’apprentissage en classe. La stratégie type d’alignement est de progressivement concevoir (a) le contenu standard, (b) la performance standard,(c) les évaluations et (d) les consignes pour l’apprentissage en classe.

Approche compensatoire: Une approche qui permet qu’une compétence de haut niveau à une des composantes d’une évaluation compense un bas niveau dans d’autres composantes.

Approche conjonctive: Une approche qui suppose qu’un niveau minimal prédéfini de compétence soit atteint dans chacune des composantes afin que le résultat final puisse être considéré comme étant acceptable.

Biais: Un test ou un item peuvent être considérés comme biaisés si un de leurs attributs se révèle non pertinent par rapport à ce qu’ils sont censés testés et qu’ils avantagent ou désavantagent une partie des candidats. Le biais est principalement lié au sexe, à l’âge, à la culture, etc.

Calibrage: Une description détaillée et validée d’un niveau particulier de performance attendu de candidats d’âge,et de niveau donnés. Les performances à calibrer sont souvent des échantillons de performances d’étudiants.

Combiner: Etablir un score total à partir de 2 ou plusieurs scores.

Concept hypothétique/construit (construct): L’attribut hypothétique des individus ou opération mentale qui ne peut être directement ni observée ni mesurée (par exemple en évaluation des langues, la capacité de réception orale).

Contenus standards: Ce que l’on attend généralement de candidats en termes de connaissance et de savoir faire dans des situations et à des niveaux spécifiques.

Définition des scores de césure sur plusieurs langues: Une méthode qui a pour objectif de vérifier que des examens de langues différentes sont reliés aux standards communs en utilisant des procédures comparables.

Descripteur de niveau de performance: Descriptions des standards que des candidats devraient avoir atteints. Les descriptions des niveaux dans le CECR sont des exemples de ces standards.

Echantillons représentatifs: Exemples de performance qui, après validation, sont représentatifs d’un niveau de performance.

Equation d’ajustement: Le processus consistant à comparer la difficulté de deux ou plusieurs types de tests afin d’en établir leurs équivalences.

Estimation de difficulté de l’item: Dans la théorie classique du test, la difficulté d’un item est la proportion de candidats qui y répondent correctement. Dans la théorie de réponse à l’item, c’est l’estimation de la difficulté d’un item calculée indépendamment de la population.

Evaluer: Le processus consistant à attribuer un score à une performance dans un test en utilisant sa capacité d’évaluer.

Evaluateur: Une personne qui évalue la performance d’un candidat selon des critères précis.

Evaluation à faible enjeu: Une évaluation dont les enjeux sont peu importantes pour le candidat qui s’y soumet.

Evaluation à enjeu critique: Une évaluation dont les conséquences sont importantes pour le candidat qui s’y soumet.

Evaluation holistique: Une évaluation d’un candidat dont le score dépend d’un jugement global de sa performance plutôt que de critères indépendants spécifiques.

Familiarisation: L’organisation de tâches permettant aux personnes impliquées dans une démarche de mise en relation d’un examen avec les niveaux du CECR d’avoir une excellente connaissance du processus.

Fiabilité/fidélité inter correcteurs: Le degré d’accord sur des évaluations de performances effectuées par des évaluateurs différents.

Fiabilité/fidélité intra correcteur: Le degré de similitude entre les évaluations d’une même performance faites par le même évaluateur à des moments différents.

Grille d’évaluation: Un ensemble de critères d’évaluation présentés sous forme de grille.

KR20: Une mesure de la consistance interne conçue par Kuder et Richardson et mise en oeuvre pour estimer la fiabilité d’un test.

Maîtrise: Le terme indiquant que le candidat a répondu à un ensemble de critères, définis en termes de capacités et de connaissances.

(Le) Manuel: Le document produit par le Conseil de l’Europe pour aider à relier les tests et les examens au CECR.

Méthode centrée sur le candidat: Une méthode de définition des points de césure selon laquelle une personne qui connait bien les candidats fournit une évaluation holistique de leur compétence langagière, en attribuant par exemple un niveau du CECR.

Méthode centrée sur le test: Un ensemble de méthodes où des évaluateurs estiment par exemple quel niveau un candidat doit avoir acquis pour répondre correctement à un ensemble d’items.

Panel: Un ensemble d’évaluateurs

Paneliste: Un membre du panel

Performance limite: Un niveau de connaissance et de capacités permettant d’être juste au niveau de la performance attendue. Par exemple le niveau B2.

Performance standard: La définition explicite de ce que des étudiants doivent faire pour faire preuve de leur compétence en relation à des contenus standards à un niveau défini.

Phase pilote: Une étude préliminaire menée par des concepteurs de tests qui soumettent des tâches à un nombre limité de sujets pour repérer les problèmes avant de faire faire une expérimentation à grande échelle.

Pre-test: L’étape de la conception des tests au cours de laquelle on expérimente les items sur des échantillons représentatifs de la population cible afin de déterminer leur degré de difficulté. Suivant une analyse statistique, les items considérés comme satisfaisants pourront être utilisés dans des tests réels.

Probabilité de réponse: Dans la définition des points de césure, c’est un critère essentiel. Dans beaucoup de tests, il est fixé aux 2/3 du score maximum, tandis que quelques experts préfèrent le fixer à 50% et d’autres à 80%.

Régression logistique: Une technique statistique fournissant une formule qui traduit une ou plusieurs informations (par exemple les scores d’une personne à un test) en une estimation de probabilité d’un événement spécifique (par exemple l’évaluation du travail d’un étudiant au niveau d’utilisateur expérimenté).

Réponses construites: Une réponse construite à un item. Cette réponse implique une production active et non un simple choix parmi différentes propositions.

Scores de césure: Le plus petit score qu’un candidat doit avoir pour qu’on puisse lui attribuer un niveau ou un classement dans un test ou un examen.

Spécification: Une étape dans le processus de mise en relation qui concerne l’analyse du contenu d’un examen ou d’un test afin de le relier au CECR.

Spécifications du test: Une description des caractéristiques d’un examen comprenant ce qui est testé (contenu, niveau, tâche), comment le test se déroule , la population cible, l’usage du test avec des détails sur le nombre et la longueur des épreuves, le type d’items utilisé.

Test direct: Un test qui mesure la capacité de production orale ou écrite et où la performance est directement mesurée.

Test indirect: Un test ou tâche à réaliser qui tente de mesurer les capacités sousjacentes à une aptitude langagière plutôt que de tester la performance directement. On teste par exemple la capacité de production écrite en demandant au candidat de noter dans un texte les structures incorrectes.

Théorie classique des tests: La TCT se réfère à un ensemble de modèles statistiques de données de test. La notion de base de la TCT est que le score X observé obtenu par une personne P passant une version Vdu test X, est la somme du score vrai et de l’erreur de mesurer. Voir aussi la théorie de réponse à l’item. (TRI).

Théorie de réponse à l’item: La TRI est utilisée pour mettre en relation les compétences d’un candidat aux données d’un test. L’analyse concerne l’item contrairement à la théorie classique des tests (TCT) qui se concentre sur les scores du test.

Transparence: Le terme implique ouverture, communication et responsabilité. C’est une extension du terme utilisé en physique (on voit à travers un objet transparent).

Validité de contenu: On dit d’un test qu’il a une validité de contenu si les items ou les tâches dont il est composé sont représentatifs des items ou des tâches dans la capacité ou la connaissance à évaluer.

Validation croisée: L’application d’un système de notation d’un échantillon appliqué à un autre échantillon venant d’une population identique.

Validité de décisions: Le degré de similitude à l’issue d’évaluations similaires répétées des décisions de classement d’un même candidat.

Validation externe: La collecte de preuves venant de sources indépendantes qui confirment les résultats des procédures utilisées.

Validation interne: Le processus consistant à s’assurer de la précision et de la consistance des évaluations à partir des évaluations dans le test.

Validation procédurale: Collecte de preuves démontrant que les procédures adéquates ont été mise en oeuvre aux différentes étapes de la définition des points de césure.

Cette initiative est réalisée dans le cadre d’un accord de coopération entre le Centre européen pour les langues vivantes et la Commission européenne, intitulé Méthodologies et évaluation innovantes dans l’apprentissage des langues
www.ecml.at/ec-cooperation