Pour évaluer la performance d’un étudiant pour la production orale ou la production écrite nous pouvons utiliser des échantillons témoins : des descriptions détaillées, validées de niveaux particuliers de performances d’un étudiant attendues à un niveau spécifique du CECR. De tels échantillons à calibrer prennent souvent la forme d’extraits du travail d’un étudiant (Ecrire) ou de vidéos (Parler).
Les échantillons à calibrer peuvent être produits de la manière suivante. Un coordinateur sélectionne des échantillons de performances d’étudiants à l’oral ou à l’écrit pour introduire un niveau spécifique du CECR. Pour chaque échantillon un groupe d’experts évaluent et débattent pour savoir si l’échantillon illustre vraiment le niveau et pourquoi il ne correspond pas au niveau supérieur ou au niveau inférieur. Après réexamen, le groupe vote alors sur le niveau de chaque performance. Dans la dernière phase, les membres du groupe évaluent à nouveau la performance individuellement et comparent leurs résultats.
Il faut souligner ici que le calibrage est un processus de groupe plutôt que celui d’un expert qui montre et dit aux autres experts quelle sont les performances qui illustrent le mieux la performance à un niveau donné du CECR.
Suggestions
Références
Dans le cas des tâches de production orale et de production écrite, la question peut sembler rhétorique. Dans la vie réelle, la manière dont nous parlons et dont nous écrivons dépend beaucoup des circonstances dans lesquelles nous sommes placés. Donc si les tâches de production orale et écrite doivent être authentiques, nous ne pouvons généralement pas le faire sans fournir un contexte. De manière générale la majorité des tâches de production orale et de production écrite sont par conséquent mises en contexte.
En théorie, il est possible de demander à un étudiant de parler ou d’écrire sur un sujet sans lui donner de contexte. C’est souvent le cas lorsque les étudiants doivent donner leur opinion (personnelle) sur un sujet, un phénomène ou un événement. Cependant du point de vue du CECR, cela peut être discutable : dans notre communication avec les autres nous avons besoin de penser à qui nous nous adressons et pourquoi. Donner simplement notre/une opinion sans penser à la personne à qui nous nous adressons peut être plutôt contreproductif, cela peut heurter les sentiments d’une autre personne ou peut simplement ne pas être compris ou en fait être mal compris. Nous devons aussi réaliser que le but de l’évaluation de la production orale ou de la production écrite n’est pas de tester la capacité de l’étudiant à exprimer un point de vue ou une opinion mais plutôt d’évaluer si l’étudiant peut exprimer une opinion dans la langue étrangère. En d’autres termes, nous avons besoin d’évaluer si l’étudiant peut exprimer un point de vue ou une opinion mais nous n’évaluons pas le contenu du message (par exemple faits, données, etc.).
Dans le cas de tests de compréhension écrite et de compréhension orale, nous constatons souvent qu’il est demandé aux étudiants de lire un texte ou d’écouter un extrait sans aucun contexte donné (« Lisez le texte suivant et répondez aux questions »). On ne peut pas nier que dans ces cas on peut tester la lecture ou l’écoute. Cependant du point de vue du CECR, un contexte est attendu quand on teste la compréhension écrite et la compréhension orale : nous avons besoin de donner une raison de lire le texte.
La réponse la plus évidente à cette question serait d’appliquer toutes les étapes pour mettre en relation le nouvel examen avec le CECR : familiarisation, spécification, standardisation, définition des scores de césure et validation. Certaines étapes peuvent être réalisées plus facilement si les caractéristiques ont été répertoriées dans une matrice du test : ce qui est testé, comment cela est testé, le nombre d’items, les types d’items, les types de texte, etc. C’est une manière d’être sûr que le test mesure le même concept avec les mêmes compétences reliées au CECR que les versions précédentes.
Ce qui est idéalement nécessaire, c’est de réaliser un pré-test du nouvel examen avec une sélection représentative d’items intégrés du test initial (ce que l’on appelle des items ancres). Avec l’aide de statistiques avancées, ce serait alors possible de définir des scores de césure comparables à ceux de l’examen précédent. Si les scores de césure précédents ont été reliés au CECR, on pourrait faire valoir que le nouvel examen est relié au CECR. En fait cela fait partie du processus de validation pour relier un examen au CECR.
En général la validité et la fiabilité d’un test seront accrues quand, sur la base de données des performances des étudiants pour le test, le test lui-même et/ou le format du test est adapté (difficulté des tâches, type de tâches, longueur du test, etc.). La première étape et la plus importante dans le processus de mise en relation est d’être sûr que le test en question est valide (c’est-à-dire qu’il teste effectivement ce qu’il prétend tester) et fiable (c’est à dire que le test est régulier). Idéalement ceci est fait en pré-testant les données collectées dans le test. Cependant il y a des situations pour lesquelles une telle procédure n’est pas possible ou très couteuse comme dans les tests réalisés en classe.
Si ce n’est pas possible de recueillir des preuves qu’un test est valide et fiable par le biais des statistiques, nous pouvons néanmoins essayer de relier le test au CECR à travers la spécification. En fait la spécification est une phase dans le processus de mise en relation des examens au CECR qui doit toujours être réalisée.
La phase de spécification dans le processus de mise en relation aide les concepteurs de test à prendre conscience :
Il y a quatre étapes à suivre dans la phase de spécification:
En théorie c’est possible, en pratique, cela peut être compliqué. Cela dépend aussi du type de test et de la compétence qui est testée. Un test qui est relié au CECR est censé comporter un nombre représentatif de descripteurs du niveau du CECR visé. Pour chaque descripteur, à chaque niveau, nous aurions besoin d’un nombre suffisant d’items pour pouvoir porter un jugement valable sur la capacité de l’étudiant à faire ce qui est décrit dans le descripteur En pratique cela voudrait dire que les tests de compréhension écrite et de compréhension orale seraient plus longs à réaliser.
Dans le cas des tests de production orale, il existe des formats comme Oral Proficiency Test (OPI - Test de Compétence Orale), dans lequel un interlocuteur formé passe d’un niveau à un autre en fonction de la compétence du candidat. Dans de tels tests il serait possible de savoir si l’étudiant est capable de fonctionner à plus d’un niveau du CECR. Il faut souligner ici que les interlocuteurs ont besoin d’être rigoureusement formés pour administrer ce type de test. D’une manière générale cela ne serait pas à la portée d’enseignants non formés.
Il existe des tests adaptatifs informatisés dans lesquels les étudiants sont confrontés à des items de différents niveaux, en fonction des réponses qu’ils donnent. En principe une tâche plus difficile (éventuellement à un niveau plus élevé du CECR) est présentée chaque fois que l’étudiant donne une réponse correcte. De cette façon la durée du test est considérablement réduite. Cela signifie que de nombreux items sont nécessaires pour créer une banque d’items. Toutefois la création d’une banque d’items calibrés est coûteuse et nécessite du temps.
Le CECR est construit sur l’idée qu’une personne qui peut réussir à un niveau donné du CECR peut aussi réussir à un /des niveau(x) en dessous du niveau donné. Une personne qui est au niveau B1 est supposée capable de réussir aussi bien aux niveaux A2 qu’A1. Cependant cela ne signifie pas que nous pouvons attribuer les niveaux A2 et A1 à un étudiant quand il ou elle a un score bas à un test de niveau B1 pour les raisons exposées plus haut.
Dans de nombreux pays, les scores de réussite ou d’échec dans les examens sont inscrits dans la loi ou décrits dans le curriculum, sans référence au CECR. Il est donc possible pour des étudiants de réussir un examen à un niveau donné du CECR sans atteindre un score qui indiquerait que ces étudiants ont une compétence à un niveau donné du CECR.
Pour un score de réussite/échec qui est relié au CECR, nous avons besoin de réaliser une procédure de définition des scores de césure (pour les compétences de réception) ou une procédure de calibrage (pour les compétences de production). Lors de ces démarches, un groupe d’experts détermine quel score minimum est nécessaire pour les étudiants pour déclarer qu’ils ont atteint le niveau souhaité, dans le cas de tests de production orale ou de production écrite, les experts peuvent sélectionner des exemples de performances qui illustrent comment les étudiants doivent réaliser celles-ci pour être classés à un niveau spécifique du CECR.
Il est alors possible pour un étudiant d’avoir un score à l’examen qui indique deux choses : (1) l’étudiant a réussi ou non l’examen selon une perspective légale et (2) l’étudiant a ou n’a pas atteint le niveau souhaité du CECR.
Il est souvent dit dans les syllabus que l’examen est à un niveau donné du CECR. Cependant s’il n’y a pas eu de définition des scores de césure et de calibrage reliés au CECR, les scores de cet examen ne peuvent pas être considérés comme reliés au CECR.
Quand nous classons la performance d’un étudiant en compréhension écrite ou en compréhension orale, il peut être utile de fixer un standard de performance. C’est la limite ou le score de césure entre deux scores sur une échelle de performance. Un score de césure de 30 par exemple signifie qu’un score de 30 ou plus indique une performance à un niveau particulier (par exemple B1) alors qu’un score inférieur indique que l’étudiant n’a pas atteint le niveau souhaité.
Il y a plusieurs façons de fixer les scores de césure. Il a été montré qu’appliquer deux de ces méthodes ou plus pouvait produire les meilleurs résultats. Pour toutes ces méthodes, un coordinateur a besoin de recueillir les scores d'étudiants en compréhension écrite et en compréhension orale. Un certain nombre de ces méthodes sont décrites dans le Manuel Relier (voir les Références ci-dessous). Dans les cas de tests de compréhension écrite ou de compréhension orale quand on donne des scores numériques, les experts estiment à quel niveau du CECR on peut attendre qu’un candidat réponde correctement à un ensemble d’items.
Il faut insister ici sur le fait que la définition des scores de césure est un processus de groupe, plutôt que le fait d’un expert qui montre et dit aux autres experts quel score est requis pour déterminer si la performance est à un niveau souhaité du CECR.
Même si le CECR reconnait que la compétence linguistique est un aspect important de la compétence langagière, il peut être difficile de relier des parties d’examen qui teste des sous-compétences comme la grammaire et le vocabulaire au CECR. Il faut noter que les formulations des descripteurs du CECR pour la compétence linguistique sont plutôt générales et peuvent être interprétées de plusieurs façons. Pour certaines langues (comme le français et l’allemand) des descripteurs plus détaillés ont été développés. Cependant ils n’ont pas été placés sur une échelle de la même façon que ceux du CECR lui-même l’ont été.
Le problème est que les examens tendent souvent à mettre l’accent sur des problèmes en vocabulaire et en grammaire que les apprenants, avec un contexte spécifique de première langue, trouvent difficiles quand ils apprennent une langue étrangère particulière. De telles parties d’un examen peuvent sans doute mettre l’accent sur la structure de la langue plutôt que sur les aspects communicatifs de celle-ci. De telles parties d’examen ne mettent pas nécessairement l’accent sur des constructions grammaticales qui sont représentatives de textes écrits dans des contextes variés à différents niveaux et sur le vocabulaire qui va avec celles-ci. De telles parties ne sont pas en général reliées à des descripteurs linguistiques spécifiques du CECR à différents niveaux.
D’un point de vue formatif, une telle attention sur le linguistique est compréhensible. Cependant dans des situations d’évaluation sommative, si le curriculum et le syllabus déclarent que les étudiants doivent être capables de fonctionner à des niveaux spécifiques du CECR à la fin de l’école secondaire, il faut alors se demander si un examen qui est relié au CECR devrait contenir de (grandes) sections sur la compétence linguistique.
On pourrait défendre que lorsqu’on teste la compréhension écrite ou la compréhension orale, on teste également la compréhension par l’étudiant de la structure et du vocabulaire d’une langue. On peut défendre la même chose pour la production orale et la production écrite: si les critères d’évaluation comme l’utilisation du vocabulaire et des structures grammaticales sont appliqués, alors il ne paraitrait pas nécessaire d’évaluer de façon distincte le vocabulaire et les structures.
De nombreuses organisations et maisons d’édition déclarent que les tests qu’ils administrent ou publient sont à un niveau donné du CECR. La validité de telles affirmations peut être très importante pour les candidats. Sur la base de leurs résultats, ils doivent être admis pour suivre des études ou engager pour un travail. C’est aussi une nécessité pour des instituts et des employeurs d’être capables de dépendre de la validité des affirmations de liens avec le CECR et avec les niveaux spécifiques du CECR en particulier.
Il est évident que sans preuve suffisante de la validité des déclarations de liens avec les niveaux du CECR, on ne peut faire confiance à de telles affirmations. Idéalement de telles preuves devraient être incluses dans les matériaux du test. Cependant de tels matériaux de test peuvent potentiellement se référer à des documents qui sont confidentiels et ainsi inaccessibles au grand public. Toutefois certaines informations publiées sur les liens avec le CECR devraient être disponibles. Ces informations doivent contenir des preuves de différents types :
Il n’est pas toujours facile de trouver assez de preuves de la validité des déclarations qu’un test est relié aux niveaux du CECR. Souvent la seule validation de telles affirmations se fait à travers la spécification du contenu du test dans les termes du CECR, comme les tests réalisés en classe à faible enjeu. Pour certains tests, la preuve du résultat peut être suffisante. Cependant pour les tests à fort enjeu, tous les types de preuves comme mentionné plus haut sont nécessaires pour que les liens avec le niveau du CECR soient déclarés valides.
Les textes qui proviennent de la vie réelle et qui ont une fonction communicative se relient à l’usage du modèle de langue du CECR et sont par conséquent souhaitables pour les tests de langue basés sur le CECR. Cela ne veut pas dire que de tels textes ne peuvent pas être modifiés pour des raisons techniques (les textes peuvent être trop longs pour les intégrer, des mots accessoires peuvent causer des problèmes inutiles de compréhension au niveau visé du CECR). Cette adaptation est autorisée aussi bien du point de vue de la validité que du point de vue légal tant que certaines règles de bonnes pratiques sont suivies.
La sélection des échantillons pour l’écoute peut être problématique pour différentes raisons. Les matériaux authentiques peuvent être difficiles à obtenir ou coûteux, la qualité du son peut être inacceptable, le coût de production d’échantillons sonores variés peut être élevé. Il faut cependant éviter que la compréhension orale soit testée en utilisant des textes qui sont lus par un ou deux acteurs.
Certains items sont l’occasion de leur donner plus de poids qu’à d’autres car on estime qu’ils sont plus difficiles que d’autres. Si l’item consiste en un nombre d’opérations c’est acceptable si les étudiants savent que l’item vaut plus de points. Dans d’autres occasions, il n’est pas nécessaire d’apprécier les items. Nous allons être capables de distinguer les bons étudiants des étudiants moins bons parce qu’en principe les étudiants moins bons devraient donner une réponse incorrecte et ne pas gagner de points à cet item.
Du point de vue du CECR il y a aussi un problème quand on mesure les items. Si un item est considéré comme plus difficile qu’un autre, alors il faut se demander si cet item peut être lié à un descripteur à un niveau plus élevé. Comme cela est expliqué dans une autre FAQ (Peut-on tester plus d’un niveau du CECR dans un seul test?), il est recommandé de créer des tests homogènes reliés seulement à un niveau du CECR.
Il y a une autre question quand on apprécie les items. Les rédacteurs d’items ou le syllabus même peuvent déclarer que certains items sont plus difficiles que d’autres. Sans données sur la performance de ces items, de telles affirmations ne sont pas valides.
Certains tests de langue déclarent mesurer les compétences d’un étudiant de langue à un ou plusieurs niveaux du CECR. On doit vérifier la validité d’une telle affirmation. Nous ne pouvons pas faire simplement la moyenne des performances dans les différentes compétences. Dans la vie réelle, la majorité des apprenants sont meilleurs dans une compétence plutôt que dans une autre et ceci, plus particulièrement dans les niveaux inférieurs du CECR. Ainsi dans un test nous devons être capables de faire la moyenne des points mais nous ne pouvons pas faire la moyenne des niveaux du CECR. Nous sommes capables de dire qu’un étudiant est au niveau B2 pour la compréhension écrite et au niveau A2 pour la production écrite. Nous ne pouvons donc pas dire que l’étudiant est au niveau B1 pour l’ensemble Lire Ecrire.
Le tableau 1 du CECR (Niveaux communs de référence: échelle globale) est souvent mal compris, comme s’il signifiait que ce qui est décrit pour un niveau en particulier est ce qui est attendu par un utilisateur de la langue pour l’ensemble des compétences langagières. Ce tableau doit toutefois être interprété comme une description de ce qu’une personne peut faire à un niveau donné et pour des compétences particulières: il ou elle peut fonctionner à ce niveau pour Lire et Ecouter et à un autre niveau pour Parler et Ecrire.
Le Conseil de l’Europe a préconisé l’élaboration de profils dans lesquels les compétences de l’étudiant dans les différentes compétences langagières sont décrites. Le Portfolio Langagier Européen a également adopté cette approche.
Télécharger le document