4 critères essentiels d'un bon test

Cet article met en lumière les quatre critères essentiels d’un bon test. Les critères sont les suivants: - 1. Fiabilité 2. Validité 3. Objectivité 4. Facilité d'utilisation.

Critère n ° 1. Fiabilité:

La signification du dictionnaire de fiabilité est la cohérence, la dépendance ou la confiance. Une procédure de mesure est fiable dans la mesure où des mesures répétées donnent des résultats cohérents pour l'individu.

Un test est considéré comme fiable s'il donne des résultats cohérents lors de son administration successive. Donc, par fiabilité d'un test, nous voulons dire à quel point le test est fiable ou fidèle. Pour exprimer de manière générale, si un instrument de mesure mesure de manière cohérente, il est fiable.

Lorsqu'un test est fiable, les scores obtenus par les membres d'un groupe lors d'un nouveau test avec le même test ou avec des formes alternatives du même test ne différeront que très peu, voire pas du tout, de leurs valeurs d'origine.

Exemple 1:

Si un témoin fait la même déclaration sur un point soulevé à maintes reprises par un avocat au tribunal, nous accordons sa confiance à sa déclaration et considérons que sa déclaration est fiable.

Exemple 2:

Si une montre a 10 minutes de retard chaque jour par rapport à l'heure de l'Hindoustan, on peut dire que la montre est un instrument fiable.

Exemple 3:

Supposons que nous demandions à Amit de signaler sa date de naissance. Il rapporte que c'est le 13 juillet 1985. Après un laps de temps, nous avons posé la même question et il en a fait rapport, à savoir le 13 juillet 1985.

Nous pouvons poser la question encore et encore et si la réponse est la même, nous estimons que la déclaration d’Amit est fiable.

Définitions:

1. Thorndike:

C'est la cohérence d'un test avec lequel on mesure tout ce qui est censé être mesuré. La fiabilité du test est généralement considérée comme le degré d’absence d’erreurs de compensation dans le test.

2. Gronlund et Linn:

La fiabilité fait référence à la cohérence de la mesure, c'est-à-dire à la cohérence des scores de test ou des autres résultats d'évaluation d'une mesure à l'autre.

3. Anastasi:

La fiabilité fait référence à la cohérence des scores obtenus par les mêmes individus lorsqu’ils sont réexaminés avec le même test à différentes occasions ou avec différents ensembles d’items équivalents ou dans des conditions variables pour l’examen.

4. Davis:

Le degré de précision relative de la mesure d'un ensemble de résultats au test est défini comme la fiabilité.

5. Guilford:

La fiabilité est la proportion de la variance réelle dans les scores obtenus aux tests.

De la discussion qui précède, il est apparu clairement que la fiabilité d'un test signifie dans quelle mesure le test donne le même résultat lors d'une administration successive sur la même population. D'autres conditions restent constantes, si le même test est administré à deux occasions différentes dans la même population et que les scores obtenus par les individus aux deux occasions restent plus ou moins les mêmes, le test est dit fiable.

La fiabilité d'un test tente de répondre aux questions suivantes:

(i) Dans quelle mesure les scores des élèves seraient-ils similaires s'ils subissaient le même test à deux occasions différentes?

(ii) Comment les scores varieraient-ils si un échantillon différent d'éléments équivalents était sélectionné?

(iii) Comment les scores varieraient-ils si le test était noté par un marqueur différent?

(iv) Comment les scores varieraient-ils si le test est marqué par le même marqueur à des moments différents?

Caractéristiques de fiabilité:

La fiabilité présente les caractéristiques suivantes:

(i) Une estimation de la fiabilité fait toujours référence à un type particulier de cohérence.

(ii) Il fait référence à la précision ou à la précision d'un instrument de mesure.

(iii) La fiabilité fait référence aux résultats du test et non au test lui-même.

(iv) C'est le coefficient de consistance interne.

(v) La fiabilité d'un ensemble de mesures correspond logiquement à la proportion de la variance qui est la variance vraie.

(vi) Il s'agit de la mesure de l'erreur variable ou de l'erreur fortuite ou de l'erreur de mesure.

(vii) La fiabilité est une question de degré. Il n'existe pas en tout ou en partie.

(viii) La fiabilité ne garantit pas la validité, la véracité ou la finalité d'un test.

(ix) La fiabilité est une condition nécessaire mais non suffisante à la validité. Une faible fiabilité peut limiter le degré de validité obtenu, mais une fiabilité élevée ne garantit pas un degré de validité satisfaisant.

(x) La fiabilité est essentiellement de nature statistique en ce sens que les scores obtenus à deux reprises successives sont corrélés les uns aux autres. Ce coefficient de corrélation est appelé autocorrélation et sa valeur est appelée «coefficient de fiabilité».

Fiabilité et erreurs de mesure:

Les définitions de la fiabilité peuvent être regroupées sous trois en-têtes:

(i) empirique,

(ii) logique et

(iii) théorique.

(i) empirique:

Les définitions empiriques de la fiabilité font référence à l'étendue de la corrélation entre deux ensembles de scores du même test administrés sur le même individu à différentes occasions.

(ii) théorique:

La signification théorique fait référence à la cohérence ou à la précision des résultats aux tests. Cela signifie la fiabilité d'un score de test.

(iii) logique:

La signification logique de la fiabilité fait référence aux erreurs de mesure.

L'illustration suivante peut nous permettre de comprendre le concept de fiabilité et les erreurs de mesure:

Par exemple, M. Rohit en obtient 52 lors d'un test mental. Qu'est-ce que 52 indique? Est-ce que ça parle de sa vraie capacité? Est-ce sa vraie partition? Rohit aurait pu en obtenir 52 par hasard. Il se peut que, par hasard, Rohit connaisse 52 éléments du test et que si les éléments avaient été un peu différents, il n'aurait pas obtenu ce score.

Toutes ces questions sont liées au fait que la mesure implique certaines sortes d’erreurs, à savoir des erreurs personnelles, constantes, variables et interprétatives. Cette erreur est appelée erreur de mesure. Ainsi, lors de la détermination de la fiabilité d'un test, nous devons prendre en compte le nombre d'erreurs présentes dans les mesures.

Lorsque le coefficient de fiabilité sera parfait (c.-à-d. 1, 00), la mesure devient précise et sans erreurs de toutes sortes. Mais la mesure dans chaque domaine implique une sorte d'erreur. Par conséquent, la fiabilité n'est jamais parfaite.

Un score à un test peut être considéré comme un indice du score vrai plus les erreurs de mesure.

Score total ou score réel obtenu = Score vrai + Score d'erreur

Si un score comporte une composante importante de «score réel» et une petite composante d'erreur, il est élevé; et inversement, si un score de test comporte une petite composante de «score réel» et une grande composante «d'erreur», sa fiabilité est faible.

Les relations entre le résultat obtenu, le résultat réel et l’erreur peuvent être exprimées mathématiquement comme suit:

X = X + e

dans lequel X = Score obtenu pour un individu à un test.

X = score réel du même individu

e = les erreurs de variable (hasard).

Erreurs de mesure:

Le score vrai est la moyenne des scores obtenus sur un nombre infini de formes parallèles d'un test. Chaque score obtenu sera plus ou moins que le score réel. Les écarts entre les scores obtenus et les scores réels sont appelés «erreurs de mesure».

Parfois, les erreurs de mesure peuvent être moins et parfois plus. Toutes choses égales par ailleurs, plus les erreurs de mesure sont petites, plus la fiabilité des mesures est grande.

Erreur type de mesure:

Les erreurs de mesure (c.-à-d. La variation des scores obtenus par rapport au score réel) seront normalement distribuées et l'écart-type de ces variations (ou erreurs de mesure) est appelé «erreur-type de mesure».

Nous pouvons trouver l'erreur type de mesure (SE) lorsque le coefficient de fiabilité et l'écart type de la distribution sont donnés.

La formule permettant de calculer l’erreur type de mesure est la suivante:

dans lequel σ sc = SE de la note obtenue

σ 1 = l'écart type des résultats aux tests

r 11 = le coefficient de fiabilité du même test.

Exemple 4:

Dans un groupe de 300 étudiants, le coefficient de fiabilité d'un test d'aptitude en mathématiques est de 0, 75, le test de M est de 80 et le DS de la distribution du score est de 16. John obtient un score de 86. Quel est le SE de ce score ?

Solution:

De la formule ci-dessus, nous trouvons que

et les chances sont approximativement 2: 1 que le score obtenu par tout individu dans le groupe des 300 ne manque pas sa valeur réelle de plus de ± 8 points (c'est-à-dire, ± 1 SE sc ). L'intervalle de confiance de 0, 95 pour le score réel de John est 86 ± 1, 96 x 8 ou 70 à 102.

En généralisant pour le groupe entier de 300 étudiants, on peut s’attendre à ce qu’environ 1/3 de leurs notes soit une erreur de 8 points ou plus, et les deux tiers à une erreur de moins de ce montant.

Critère n ° 2. Validité:

Le sens de validité du dictionnaire est «bien fondé», «efficace», «sonore». Cela fait référence à la «véracité». Ainsi, tout ce qui est véridique, bien fondé et qui sert le bon but est valable.

Chaque test a ses propres objectifs. Il est construit dans un but précis et est valable à cette fin. Si un test mesure ce qu'il a l'intention de mesurer, il est dit valide. La validité permet de vérifier directement dans quelle mesure le test remplit ses fonctions. La validité est la première condition nécessaire pour qu'un test devienne universel.

La fiabilité peut être nécessaire mais non suffisante comme condition de validité. Un test ne peut être valide que s'il est fiable. Il peut être fiable mais ne peut pas être dit valide. La pertinence d'un test concerne les mesures de test et le processus de mesure.

En résumé, nous pouvons dire qu'un test est destiné à remplir la fonction de prédiction et qu'il en vaut donc la peine ou sa validité dépend de la mesure dans laquelle il réussit à estimer la performance dans certains types de situation réelle.

Exemple 5:

Supposons qu'un témoin fasse une déclaration devant le juge devant un tribunal. Si, lors des contre-interrogatoires ou des contre-interrogatoires successifs, il répète la même déclaration encore et encore, il doit être appelé comme témoin fiable.

Nul doute que sa déclaration soit exacte ou erronée. Lorsque sa déclaration est vraie, il est considéré comme un témoin valide. Mais si sa déclaration est systématiquement fausse, il est fiable, mais non valide.

Exemple 6:

Si une montre a encore 10 minutes d'avance sur l'heure standard, c'est un chronomètre fiable. Parce que cela donne un résultat constant tous les jours avec 10 minutes rapides. Notre but est de connaître l'heure correctement et nous ne pouvions pas le savoir. Donc, le but même n'est pas servi. Ainsi, il ne sera pas valide comme jugé par «heure normale».

Ainsi, il est constaté qu'un test peut être fiable, mais il peut ne pas être valide. Cependant, les mesures ou les tests valides sont toujours fiables. Un test valide pour un objectif donné peut ne pas l'être pour un autre objectif.

Un test qui a été préparé pour mesurer les compétences en calcul des étudiants en mathématiques peut être valable uniquement à cette fin, mais pas pour mesurer le raisonnement mathématique. Donc, la validité fait référence au but même du test.

Définitions:

Anne Anastasi:

Ecrit "la validité d'un test concerne ce qu'il mesure et comment il le fait."

Rummel:

"La validité d'un outil d'évaluation est le degré auquel il mesure ce qu'il est censé mesurer."

FS Freeman:

"Un indice de validité indique à quel point un test mesure ce qu'il est censé mesurer par rapport au critère accepté."

LJ Cronbach:

"La validité est la mesure dans laquelle un test mesure ce qu'il est censé mesurer."

EF Lindquist:

La validité est la précision avec laquelle il mesure ce qu’il est censé mesurer ou le degré auquel il approche l’infaillibilité pour mesurer ce qu’il est censé mesurer.

D'après la discussion qui précède, nous concluons que la validité fait référence à «l'objectif même du test» et que, si l'objectif est rempli, le test doit être considéré comme valide. Donc, pour que le test soit valide, il faut faire le travail qu’il voulait faire.

Le concept de validité d'un test est donc principalement une préoccupation pour «l'honnêteté fondamentale» du test. Honnêteté dans le sens de faire ce que l'on promet de faire. Pour être précis, la validité fait référence à la mesure dans laquelle un outil mesure ce qu’il entend mesurer.

Nature de la validité:

1. La validité fait référence à la véracité ou à la finalité des résultats du test, mais pas à l'instrument lui-même.

2. La validité est une question de degré. Il n’existe pas du tout ou rien. Un instrument conçu pour mesurer une aptitude particulière ne peut pas être considéré comme parfaitement valide ou pas du tout. C'est généralement plus ou moins valable.

3. C'est une mesure de «l'erreur constante» alors que la fiabilité est la mesure de «l'erreur variable».

4. La validité assure la fiabilité d'un test. Si un test est valide, il doit être fiable.

5. La validité ne sont pas de types différents. C'est un concept unitaire. Il repose sur différents types de preuves.

6. La validité générale n'existe pas. Un test est valable pour un but ou une situation, mais pas pour d'autres buts. En d'autres termes, un outil est valable pour un but particulier ou dans une situation particulière; ce n'est généralement pas valable.

Par exemple, les résultats d'un test de vocabulaire peuvent être très valables pour tester le vocabulaire, mais pas vraiment pour tester la capacité de composition de l'élève.

Critère n ° 3. Objectivité:

L'objectivité est la caractéristique la plus importante d'un bon test. C'est une condition préalable à la fois pour la validité et la fiabilité. L’objectivité d’un test signifie la mesure dans laquelle différentes personnes notées donnent le même résultat.

CV Bon (1973):

CV Good (1973) définit l’objectivité dans les tests comme étant «la mesure dans laquelle l’instrument est exempt d’erreur personnelle (biais personnel) qui constitue une subjectivité de la part du marqueur».

Gronlund et Linn (1995):

«L’objectivité d’un test fait référence à la mesure dans laquelle des correcteurs ayant des compétences égales obtiennent les mêmes résultats.»

Ainsi, on peut dire qu'un test est considéré comme objectif lorsqu'il permet l'élimination de l'opinion personnelle du marqueur et du jugement partial.

L'objectivité d'un test fait référence à deux aspects à savoir:

(i) l'objectivité des articles, et

(ii) Objectivité de la notation.

(i) Objectivité des articles:

L'objectivité des éléments signifie que l'élément doit appeler une réponse unique et définitive. Les éléments objectifs ne peuvent pas avoir deux réponses ou plus. Lorsque la question est posée différemment, la notation est différente.

Par exemple:

"Expliquez le concept de personnalité."

Ici, les scores attribués par les auteurs varieront dans une large mesure car la question n’indique pas clairement la nature de la réponse correcte attendue.

Ici, l'enfant peut écrire tout ce qui concerne la question. Si la réponse est notée par différents examinateurs, les notes varieront certainement.

Les questions ambiguës, le manque de direction, les questions à double trait, les questions à double négation, les questions de type essai au sens large, etc. n'ont pas d'objectivité. Il faut donc faire très attention lors de la formulation des questions.

(ii) Objectivité de la notation:

Un outil est objectif s'il donne le même score, même lorsque différents auteurs marquent l'élément. L’objectivité dans la notation peut donc être considérée comme une cohérence dans la notation par différents correcteurs.

Très souvent, dans des situations réelles, on constate que le caprice ou les préjugés du marqueur ont une influence sur le marquage. Les Questions, posées sur certains sujets pour lesquels le marqueur a une inclination, peuvent rapporter plus de points que les autres questions.

Ce type de tempérament irrationnel à l’égard du système de notation est une sorte de traitement subjectif du programme qui affecte à son tour le processus d’évaluation. Par conséquent, l’objectivité de l’évaluation doit être assurée pour une évaluation précise.

Dans le même temps, la subjectivité ne doit pas être condamnée ni totalement exclue, car c'est ainsi que sont réalisées la plupart des évaluations. Une évaluation subjective basée sur une observation attentive, une pensée impartiale et impartiale et une analyse logique des situations et des phénomènes peuvent également donner une évaluation précise. Ce type de subjectivité disciplinée peut jouer un rôle important même dans une situation scolaire.

Critère n ° 4. Facilité d'utilisation:

Facilité d'utilisation: degré auquel l'outil d'évaluation peut être utilisé avec succès par les utilisateurs du test.

Nous avons déjà lu les trois critères principaux d’un bon test: validité, fiabilité et objectivité. Une autre caractéristique importante d'un outil est sa convivialité ou sa praticabilité. Lors de la sélection des outils d'évaluation, il convient de rechercher certaines considérations pratiques telles que l'exhaustivité, la facilité d'administration et de notation, la facilité d'interprétation, la disponibilité de formulaires comparables et le coût des tests.

Toutes ces considérations incitent l’enseignant à utiliser des outils d’évaluation et de telles considérations pratiques sont appelées la «facilité d’utilisation» d’un outil d’évaluation. En d’autres termes, la convivialité désigne la mesure dans laquelle l’outil d’évaluation peut être utilisé avec succès par l’enseignant et les administrateurs de l’école.

(i) compréhensibilité:

Les éléments de test doivent être exempts d'ambiguïté. Les instructions pour tester les éléments et les autres instructions pour le test doivent être claires et compréhensibles. Les instructions pour l'administration et les instructions pour la notation doivent être clairement définies afin que l'on puisse facilement les comprendre et les suivre. De plus, la procédure d'administration, de notation et d'interprétation du test doit être comprise de l'utilisateur du test.

ii) Facilité d'administration:

Il fait référence à la facilité avec laquelle un test peut être administré. Chaque test a ses propres conditions d’administration. Lors du choix d’un test, il convient d’en choisir un, parmi une collection de tests, qui peuvent être administrés sans beaucoup de préparation et de difficultés.

une. La facilité d'administration comprend des instructions claires et concises pour l'administration. Ainsi, pour qu'un test soit facilement administré, les instructions à l'administrateur et les instructions aux goûts doivent être simples, claires et complètes.

b. Le temps est également un facteur très important. Pour une administration maximale dans les écoles, il est d'usage de passer un test dans une période de classe normale.

(iii) Facilité de notation:

Un test afin de mieux utiliser devrait avoir une facilité de notation. Sa clé de notation doit être prête à l'emploi et peut être facilement évaluée. Parfois, les places sont réservées à la droite des questions pour donner des réponses.

Dans certains cas, les réponses sont données sur des feuilles séparées. Un test idéal peut être marqué par n'importe qui ou même par une machine dotée d'une clé de score. Des points égaux doivent être attribués à chaque élément du test pour faciliter la notation.

Selon la faisabilité, des dispositifs de marquage à la main ou à la machine peuvent être fournis.

iv) Facilité d'interprétation:

Si les résultats obtenus peuvent être facilement compris et interprétés, un test est dit bon. À cette fin, le manuel de test devrait fournir des normes complètes pour l'interprétation des scores, telles que les normes d'âge, les normes de qualité, les normes de centile et les normes de score standard. Les normes facilitent l'interprétation des résultats des tests.

(v) Préparation du test:

Le test devrait avoir une belle occasion. Cela doit être bon et attrayant. Les lettres ne doivent pas être inutilement trop petites ni trop grandes. La qualité du papier utilisé, la typographie et l’impression, la taille de la lettre, l’espacement, les images et diagrammes présentés, la reliure, la marge de manœuvre des élèves, etc. doivent être examinés.

(vi) Coût du test:

Le test ne devrait pas être trop coûteux. Le coût devrait être réduit dans la mesure du possible, de sorte qu'il puisse être utilisé largement.