4 principales caractéristiques d'un bon test

Cet article met en lumière les quatre caractéristiques importantes d’un bon test. Les quatre caractéristiques sont les suivantes: 1. Fiabilité 2. Validité 3. Objectivité 4. Facilité d'utilisation.

Caractéristique n ° 1. Fiabilité:

La signification du dictionnaire de fiabilité est la cohérence, la dépendance ou la confiance. La fiabilité des mesures est donc la cohérence avec laquelle un test donne le même résultat en mesurant tout ce qu'il mesure. Un résultat de test est appelé fiable lorsque nous avons des raisons de croire que le résultat est stable et digne de confiance. La stabilité et la confiance dépendent de la mesure dans laquelle le score est un indice de fiabilité du temps, ce qui évite les erreurs de hasard. Par conséquent, la fiabilité peut être définie comme le degré de cohérence entre deux mesures de la même chose.

Par exemple, nous avons effectué un test de performance sur le groupe A et avons trouvé un score moyen de 55. De nouveau, au bout de 3 jours, nous avons administré le même test sur le groupe A et avons obtenu un score moyen de 55. Cela indique que l'instrument de mesure (test de performance) fournit un résultat stable ou fiable. D'autre part, si dans la seconde mesure, le test fournit un score moyen autour de 77, alors nous pouvons dire que les scores du test ne sont pas cohérents.

Dans les mots de Gronlund et Linn (1995), «la fiabilité fait référence à la cohérence de la mesure, c'est-à-dire à la cohérence des scores de test ou des autres résultats d'évaluation d'une mesure à l'autre».

CV Good (1973) a défini la fiabilité comme la «valeur avec laquelle un appareil de mesure mesure quelque chose; la mesure dans laquelle un test ou un autre instrument d'évaluation mesure systématiquement ce qu'il mesure réellement ».

Selon Ebel et Frisbie (1991), "le terme fiabilité signifie la cohérence avec laquelle un ensemble de résultats de tests mesure ce qu'ils mesurent."

Théoriquement, la fiabilité est définie comme le rapport entre le score réel et la variance du score observé.

Selon Davis (1946), «le degré de précision relative de la mesure d'un ensemble de résultats au test est défini comme la fiabilité».

La fiabilité répond donc aux questions suivantes:

Gronlund et Linn (1995)

Dans quelle mesure les résultats au test sont-ils similaires si le test perdu est administré deux fois?

Dans quelle mesure les résultats aux tests sont-ils similaires si deux types de tests équivalents sont administrés?

Dans quelle mesure les scores de tout test de rédaction. Différence quand il est noté par différents enseignants?

Il n'est pas toujours possible d'obtenir des résultats parfaitement cohérents. Parce qu’il existe plusieurs facteurs tels que la santé physique, la mémoire, les devinettes, la fatigue, l’oubli, etc., qui peuvent affecter les résultats d’une mesure à l’autre. Ces variables parasites peuvent introduire des erreurs dans nos résultats aux tests. Cette erreur est appelée erreur de mesure. Ainsi, lors de la détermination de la fiabilité d'un test, nous devons prendre en compte la quantité d'erreur présente dans la mesure.

Nature de la fiabilité:

1. La fiabilité fait référence à la cohérence des résultats obtenus avec un instrument mais pas à l'instrument lui-même.

2. La fiabilité fait référence à une interprétation particulière des résultats des tests. Par exemple, une note de test fiable sur une période donnée peut ne pas être fiable d’un test à l’autre. Cette fiabilité ne peut donc pas être traitée comme une caractéristique générale.

3. La fiabilité est un concept statistique permettant de déterminer la fiabilité. Nous administrons un test à un groupe une ou plusieurs fois. Ensuite, la cohérence est déterminée en termes de modification de la position relative d'une personne dans le groupe ou de l'ampleur de la variation attendue dans le score d'un individu. Le déplacement de la position relative d'un individu est lié au moyen d'un coefficient de corrélation appelé «coefficient de fiabilité» et la quantité de variation est indiquée par «l'erreur type de mesure». Ces deux processus sont statistiques.

4. La fiabilité est nécessaire mais non suffisante pour la validité. Un test qui n'est pas fiable ne peut pas être valide. Mais ce n’est pas qu’un test avec une grande fiabilité aura une grande validité. Parce qu'un test très cohérent peut mesurer autre chose que ce que nous avons l'intention de mesurer.

Méthodes de détermination de la fiabilité:

Pour la plupart des tests pédagogiques, le coefficient de fiabilité fournit l'indice statistique de qualité le plus révélateur qui soit normalement disponible. Les estimations de la fiabilité des tests fournissent des informations essentielles pour juger de leur qualité technique et motiver les efforts pour les améliorer. La cohérence d'un score de test est exprimée soit en termes de décalage de la position relative d'un individu dans le groupe, soit en termes de quantité de variation du score d'un individu.

Sur la base de cette estimation de la fiabilité, on peut classer deux classifications générales:

(je) Fiabilité relative ou coefficient de fiabilité:

Dans cette méthode, la fiabilité est définie en termes de coefficient de corrélation appelé coefficient de fiabilité. Nous déterminons donc le décalage de la position relative du score d'un individu par coefficient de corrélation.

ii) Fiabilité absolue ou erreur type de mesure:

Dans cette méthode, la fiabilité est exprimée en termes d'erreur standard de mesure. Il indique l'ampleur de la variation du score d'un individu.

Méthodes de détermination de la fiabilité relative ou du coefficient de fiabilité:

Afin de déterminer le coefficient de fiabilité, nous devons obtenir deux ensembles de mesures dans des conditions identiques, puis comparer les deux ensembles. Mais ce n’est qu’une condition théorique, car il est impossible pour nous d’obtenir deux mesures sur exactement deux conditions identiques. Alors que plusieurs méthodes ont été développées pour déterminer la fiabilité relative.

Ce sont les suivants (Gronlund et Linn, 1995):

(i) La même forme de test peut être administrée deux fois au même groupe d’individus.

(ii) Deux formes distinctes mais équivalentes du test peuvent être administrées aux mêmes personnes.

(iii) Les éléments de test d'un seul test sont divisés en deux ensembles distincts et les scores de deux ensembles sont corrélés.

Les méthodes sont similaires en ce qu'elles impliquent toutes la corrélation de deux ensembles de données, obtenus soit du même instrument d'évaluation, soit de formes équivalentes de la même procédure. Ce coefficient de fiabilité doit être interprété en termes de types de cohérence étudiés.

Différents types de cohérence sont déterminés par différentes méthodes. Ce sont comme suit:

1. Cohérence sur une période de temps.

2. Cohérence entre les différentes formes d’instruments.

3. Cohérence dans l'instrument même

Il existe quatre méthodes pour déterminer le coefficient de fiabilité, telles que:

(a) méthode test-retest.

(b) Méthode des formes équivalentes / des formes parallèles.

(ré) Equivalence rationnelle / méthode de Kuder-Richardson.

(а) méthode test-retest:

C'est la méthode la plus simple pour déterminer la fiabilité du test. Pour déterminer la fiabilité de cette méthode, le test est donné et répété sur le même groupe. Ensuite, la corrélation entre le premier ensemble de scores et le second ensemble de scores est obtenue.

Un coefficient de corrélation élevé indique une stabilité élevée des résultats aux tests. Dans les mots de Gronlund, les mesures de stabilité dans les années .80 et .90 sont communément signalées pour des tests standardisés à diverses occasions au cours de la même année. Mais cette méthode souffre de sérieux inconvénients. Tout d’abord, quel devrait être l’intervalle entre deux administrations?

S'il est administré dans un court intervalle, par exemple un jour ou deux, alors l'élève se souviendra de ses premières réponses et passera son temps à de nouveaux supports. Il aura tendance à augmenter leur score dans les secondes administrations. Si l'intervalle est trop long, par exemple un an, l'effet de maturation affectera les résultats des nouveaux tests et aura tendance à augmenter les scores.

Dans les deux cas, la fiabilité sera réduite. L’écart temporel entre deux administrations dépend donc largement de l’utilisation et de l’interprétation des résultats des tests. En raison de ses difficultés à contrôler les conditions qui influent sur les scores du nouveau test, réduit l'utilisation de la méthode test-retest dans l'estimation du coefficient de fiabilité.

(b) Méthode des formes équivalentes / des formes parallèles:

La fiabilité des résultats aux tests peut être estimée par la méthode des formulaires équivalents. Il est également connu sous le nom de méthode des formes alternatives ou des formes parallèles. Lorsque deux formes de test équivalentes peuvent être construites, la corrélation entre les deux peut être prise comme mesure de la corrélation propre au test. Dans ce processus, deux types de tests parallèles sont administrés au même groupe d’élèves dans un court intervalle de temps, puis les scores des deux tests sont corrélés. Cette corrélation fournit l'indice d'équivalence. Habituellement, en cas de tests psychologiques et de réalisation normalisés, des formes équivalentes sont disponibles.

Les deux tests choisis pour l’administration doivent être parallèles en termes de contenu, de difficulté, de format et de longueur. Lorsqu'un intervalle de temps entre les administrations de deux types de tests est fourni, le coefficient des scores aux tests fournit une mesure de la fiabilité et de l'équivalence. Mais l’inconvénient majeur de cette méthode est d’obtenir deux formes de tests parallèles. Lorsque les tests ne sont pas exactement égaux en termes de contenu, de difficulté, de durée et de comparaison entre les scores obtenus à ces tests, des décisions erronées peuvent être prises.

c) Méthode du demi-demi:

Il existe également des méthodes permettant de déterminer la fiabilité en administrant une seule fois un seul test. L'une de ces méthodes est la méthode split-half. Dans cette méthode, un test est administré à un groupe d’élèves de la manière habituelle. Ensuite, le test est divisé en deux valeurs équivalentes et une corrélation est trouvée pour ces demi-tests.

La procédure habituelle pour scinder le test consiste à prendre tous les éléments impairs numérotés, à savoir 1, 3, 5, etc. dans une moitié et tous les éléments impairs à numériser, soit 2, 4, 6, 8, etc., dans l'autre moitié. les moitiés sont corrélées en utilisant la formule de Spearman-Brown.

Par exemple, en corrélant les deux moitiés, nous avons trouvé un coefficient de 0, 70.

En utilisant la formule (5.1), nous pouvons obtenir le coefficient de fiabilité du test complet sous la forme:

Le coefficient de fiabilité de 0, 82 lorsque le coefficient de corrélation entre le demi-test est de 0, 70. Il indique dans quelle mesure l'échantillon d'éléments de test est un échantillon fiable du contenu à mesurer - cohérence interne.

Gronlund (1995) est d'avis que «la fiabilité des moitiés divisées a tendance à être supérieure à celle des formes équivalentes, car la méthode des moitiés divisées repose sur l'administration d'un formulaire de test unique». Cette méthode résout le problème de la méthode des formulaires équivalents introduite. en raison de différences de forme à forme, d’attention, de rapidité de travail, d’effort, de fatigue et de contenu de test, etc.

(d) Méthode de Rational Equivalent / Kuder Richardson:

L'équivalence rationnelle est une autre méthode de détermination de la fiabilité en utilisant la formule développée par Kuder et Richardson. Comme la méthode split-half, cette méthode fournit également une mesure de la cohérence interne. Il ne nécessite ni l'administration de deux types de tests équivalents, ni le fractionnement des tests en deux moitiés égales. Le coefficient de fiabilité est déterminé en utilisant la formule de Kuder-Richardson-20 qui se lit comme suit.

Cette méthode fournit des informations sur la mesure dans laquelle les éléments du test mesurent des caractéristiques similaires. Bien que la simplicité d’application de cette méthode l’ait généralisée, elle présente néanmoins certaines limites.

1. La méthode Kuder-Richardson et la méthode moitié-moitié ne sont pas appropriées pour les tests de vitesse.

2. Les méthodes de Kuder-Richardson et de la moitié de la moitié ne mesurent pas l'uniformité de la réponse des élèves d'un jour à l'autre.

3. La méthode de Kuder-Richardson est difficile à calculer, sauf si des informations sont déjà disponibles concernant la proportion de réussite.

Méthodes de détermination de la fiabilité absolue ou des erreurs types de mesure:

Si nous devons administrer un test à plusieurs reprises, nous constaterons des variations dans les scores. Parce que le score obtenu est un index du score réel du candidat plus: des erreurs de mesure. SE Garrett (1985) a défini un score réel comme «une mesure qui serait obtenue en prenant la moyenne d'un nombre infini de mesures d'un individu donné sur des tests similaires dans des conditions similaires. Bien entendu, un vrai score ne peut pas être déterminé expérimentalement » .

Si les résultats du test incluent une composante d'erreur importante, sa fiabilité est faible et s'il comporte un peu d'erreurs, sa fiabilité est élevée. Ainsi, dans la mesure où un score réel dépasse, une erreur dans les scores obtenus peut être indiquée par un coefficient de fiabilité.

Cette relation entre le score réel, les scores obtenus et l'erreur peut être exprimée mathématiquement comme suit:

Nous pouvons trouver l'erreur type de mesure (ET) lorsque le coefficient de fiabilité et l'écart type de la distribution sont donnés.

La formule (Garrett — 1985) pour calculer l’erreur type de mesure est la suivante:

Par exemple, dans un groupe de 200 lycéens, le coefficient de fiabilité d'un test de rendement en mathématiques est de 0, 70, moyenne = 65 et o = 20. Lipu obtient un score de 60. Quel est le SE de ce score.

En mettant la valeur dans la formule (5.3):

Le score réel de Lipu est donc de 60 ± 10, 95, c’est-à-dire de 70, 50 à 49, 05.

Aucun résultat obtenu ne nous indique quel est le résultat réel, mais la connaissance de la SE indique la différence entre le résultat obtenu et le résultat réel. Lorsque la SE est petite, cela indique que le score réel est plus proche du score obtenu et indique également si la différence entre les scores de deux individus est une différence réelle ou une différence due à des erreurs de mesure.

Facteurs influant sur la fiabilité:

Un certain nombre de facteurs ont une incidence sur les mesures de fiabilité. Ainsi, lorsque nous interprétons et utilisons les scores, nous devons être prudents et manipuler ces facteurs lors de la préparation et de l'administration du test.

Les principaux facteurs qui affectent la fiabilité du test, les scores peuvent être classés en trois catégories:

1. Facteurs liés au test.

2. Facteurs liés au client.

3. Facteurs liés à la procédure de test.

1. Facteurs liés au test:

а) Durée de l'épreuve:

La formule de Spearman Brown indique que plus le test est long, plus la fiabilité sera élevée. Parce qu'un test plus long fournira un échantillon adéquat du comportement. Une autre cause est que le facteur de devinement est susceptible d'être neutralisé lors d'un test plus long.

Par exemple, si nous allons donner un calcul pour mesurer la capacité numérique des étudiants. Ceux qui ont correctement calculé ont une capacité numérique parfaite, ceux qui ont échoué sont des échecs complets. Si le calcul est difficile, la plupart des étudiants échoueront. Si cela est facile, la plupart des étudiants le calculeront correctement. Ainsi, le score d'un seul élément ne donne jamais un résultat fiable.

b) Contenu de l'essai:

Selon Guilford, l'homogénéité du contenu du test augmente également la fiabilité des résultats. Un test de 50 éléments sur la civilisation védique fournira des scores plus fiables qu'un test de 50 éléments sur l'histoire indienne. Selon Ebel (1991), «la matière dans certains cours, tels que les mathématiques et les langues étrangères, est organisée de manière plus étroite, avec une plus grande interdépendance des faits, des capacités des principes et des réalisations, que dans la littérature, la littérature ou l’histoire». est également un facteur qui résulte en une grande fiabilité.

c) Caractéristiques des articles:

Le niveau de difficulté et la clarté d'expression d'un élément du test affectent également la fiabilité des résultats. Si les éléments de test sont trop faciles ou difficiles pour les membres du groupe, cela aura tendance à produire des scores peu fiables. Parce que les deux tests ont une répartition restreinte des scores.

(d) Répartition des scores:

Selon Gronlund et Minn (1995), «plus la fiabilité des estimations est élevée, plus la dispersion des scores est grande. Plus la fiabilité est grande», plus la répartition des scores est grande, plus le risque de rester dans la même situation est grand. position relative dans un groupe d'un test à un autre. On peut dire que les erreurs de mesure affectent moins la position relative de l'individu lorsque la dispersion des scores est grande.

Par exemple, dans le groupe A, les étudiants ont obtenu des notes allant de 30 à 80 et dans le groupe B, entre 65 et 75. Si nous administrons les tests une deuxième fois dans le groupe A, les scores des tests des individus pourraient varier de plusieurs points, avec très peu de changement dans la position relative des membres du groupe. C'est parce que la répartition des scores dans le groupe A est grande.

Par contre, les scores du groupe B sont plus susceptibles de changer de position lors d’une deuxième administration du test. Etant donné que la répartition des scores n’est que de 10 points entre le score le plus élevé et le score le plus bas, un changement de quelques points peut entraîner des changements radicaux dans la position relative des individus. Ainsi, plus la propagation est grande, plus la fiabilité est grande.

2. Facteurs liés au client:

La variabilité des résultats, la sagesse des individus et la motivation des étudiants influencent également la fiabilité des résultats.

Vous trouverez ci-dessous certains des facteurs importants avec la personne testée qui affectent la fiabilité du test:

a) Hétérogénéité du groupe:

Lorsque le groupe est un groupe homogène, la dispersion des résultats du test est susceptible d'être moindre et lorsque le groupe testé est un groupe hétérogène, la diffusion des résultats est susceptible d'être plus importante. Par conséquent, le coefficient de fiabilité pour un groupe hétérogène sera plus qu'un groupe homogène.

(b) Vérifier la sagesse des étudiants:

L'expérience de la prise de test affecte également la fiabilité des résultats de test. La pratique des étudiants en matière de tests sophistiqués augmente la fiabilité des tests. Mais lorsque tous les étudiants d'un groupe n'ont pas le même niveau de sagesse de test, cela conduit à de plus grandes erreurs de mesure.

(c) Motivation des étudiants:

Lorsque les étudiants ne sont pas motivés pour passer le test, ils ne représenteront pas leur meilleur accomplissement. Cela déprime les résultats des tests.

3. Facteurs liés à la procédure de test:

Comme les facteurs liés au test et les facteurs liés au client-test affectent la fiabilité des résultats, les facteurs liés à la procédure du test ont également une incidence sur les résultats. Si les utilisateurs du test peuvent contrôler ces facteurs, ils peuvent augmenter la cohérence des résultats du test.

a) Durée limite de l'épreuve:

Selon Ebel et Frisbie (1991), «les scores d'un test donné dans des conditions très rapides montrent habituellement un coefficient de fiabilité de la cohérence interne supérieur à celui qui serait obtenu pour les scores du même test donné au même groupe dans des délais plus généreux». quand les étudiants ont plus de temps pour passer le test, ils peuvent deviner, ce qui peut augmenter les résultats. Par conséquent, en accélérant un test, nous pouvons augmenter la fiabilité du test.

(b) Possibilité de tricherie offerte aux étudiants:

Tricher par les étudiants lors de l’administration du test entraîne des erreurs de mesure. Certains étudiants peuvent donner une réponse correcte en la copiant à partir de feuilles de triche ou en écoutant les autres étudiants sans connaître la bonne réponse. Cela entraînera un score plus élevé de ces étudiants qu'ils ne le méritent réellement. Cela rendra le score observé des tricheurs plus élevé que leur score réel.

À quel point la fiabilité devrait-elle être?

Évidemment, les appareils d'évaluation ne sont jamais parfaitement fiables. La mesure dans laquelle un test peut être peu fiable et toujours utile dépend principalement de la finesse de discrimination recherchée parmi les résultats du test. (Rappel: 1967) Le coefficient de fiabilité dépend de la nature du test, de sa taille et de sa variabilité, de la fonction pour laquelle le test a été administré et de la méthode utilisée pour estimer la fiabilité. Un test peu fiable peut avoir une validité plus élevée et peut donc être utilisé. Mais, pour reprendre les mots de Remmers (1967), «la plupart des tests standardisés publiés à des fins scolaires ont un coefficient de fiabilité d'au moins 0, 80 dans la population pour laquelle ils ont été conçus.

Quand on choisit un test standardisé pour interpréter ses résultats, il ne suffit pas de regarder la valeur numérique de l'estimation de fiabilité, il faut aussi prendre en compte la manière dont cette estimation a été obtenue. Gronlund (1976) a souligné l'importance des méthodes d'estimation de la fiabilité.

Selon lui, «la méthode split-half donne les plus grandes valeurs numériques au coefficient de fiabilité. La méthode des formes équivalentes et la nouvelle tentative de test tendent à donner une valeur numérique inférieure au coefficient de fiabilité. Ces deux méthodes fournissent généralement un coefficient de fiabilité moyen à élevé. La méthode des formes équivalentes fournit généralement le plus faible coefficient de fiabilité pour un test donné. ”

Par conséquent, on peut dire que l'enseignant devrait rechercher un test standardisé dont la fiabilité est la plus grande possible. Mais il doit interpréter ce coefficient de fiabilité à la lumière des groupes d'élèves sur lesquels il est basé, de la variabilité de ce groupe et des méthodes d'estimation de la fiabilité.

Caractéristique # 2. Validité:

«Lors de la sélection ou de la construction d’un instrument d’évaluation, la question la plus importante est: Dans quelle mesure les résultats serviront-ils les utilisations particulières auxquelles ils sont destinés? C'est l'essence de la validité. ” —GRONLUND

La validité est la caractéristique la plus importante d’un programme d’évaluation, car si un test n’est pas valide, il n’a aucune fonction utile. Les psychologues, les éducateurs et les conseillers en orientation utilisent les résultats des tests à diverses fins. De toute évidence, aucune finalité ne peut être remplie, même partiellement, si les tests n’ont pas un degré de validité suffisamment élevé. La validité signifie la vérité de la plénitude d'un test. Cela signifie dans quelle mesure le test mesure cela, ce que le testeur a l'intention de mesurer.

Il comprend deux aspects:

Qu'est-ce qui est mesuré et avec quelle constance? Ce n'est pas une caractéristique du test, mais il fait référence à la signification des scores du test et à la façon dont nous utilisons les scores pour prendre des décisions. Les définitions suivantes données par des experts donneront une image claire de la validité.

Gronlund et Linn (1995) - "La validité s'entend de la pertinence de l'interprétation faite des résultats des tests et des autres résultats d'évaluation en ce qui concerne une utilisation particulière."

Ebel et Frisbie (1991) - "Le terme" validité ", lorsqu'il est appliqué à un ensemble de scores de test, fait référence à la cohérence (la précision) avec laquelle les scores mesurent une capacité cognitive particulière d'intérêt."

CV Good (1973) - Dans le dictionnaire de l'éducation, la validité définit la validité comme «la mesure dans laquelle un test ou un autre instrument de mesure remplit la fonction à laquelle il est utilisé».

Anne Anastasi (1969) écrit «la validité d'un test concerne ce que le test mesure et comment il le fait».

Selon Davis (1964), la validité est la mesure dans laquelle l’ordre de classement des scores des candidats pour lesquels un test est approprié est identique au classement des mêmes candidats dans la propriété ou caractéristique que le test est utilisé pour mesurer . Cette propriété ou caractéristique est appelée le critère. Comme tout test peut être utilisé à de nombreuses fins différentes, il s'ensuit qu'il peut avoir plusieurs validités, l'une correspondant à chaque critère. "

Freeman (1962) définit ainsi: "un indice de validité indique dans quelle mesure un test mesure ce qu'il est censé mesurer, par rapport aux critères acceptés."

Lindquist (1942) a déclaré que «la validité d'un test peut être définie comme la précision avec laquelle il mesure ce qu'il est censé mesurer ou le degré auquel il se rapproche de l'infaillibilité pour mesurer ce qu'il est censé mesurer».

D'après les définitions ci-dessus, il est clair que la validité d'un dispositif d'évaluation est le degré de mesure de ce qu'il est censé mesurer. La validité concerne toujours l'utilisation spécifique des résultats et la justesse de notre interprétation proposée.

Il n'est pas nécessaire non plus qu'un test fiable soit également valide. Par exemple, supposons qu'une horloge soit avancée de dix minutes. Si l'horloge est un bon chronomètre, le temps qu'il nous indique sera fiable. Parce que cela donne un résultat constant. Mais ce ne sera pas valable comme jugé par «heure normale». Cela indique "le concept selon lequel la fiabilité est une condition nécessaire mais non suffisante à la validité."

Nature de la validité:

1. La validité concerne l'adéquation des résultats du test mais pas l'instrument lui-même.

2. La validité n'existe pas du tout ou rien mais c'est une question de degré.

3. Les tests ne sont pas valables à toutes les fins. La validité est toujours spécifique à une interprétation particulière. Par exemple, les résultats d'un test de vocabulaire peuvent être très valables pour tester le vocabulaire, mais pas vraiment pour tester la capacité de composition de l'élève.

4. La validité n'est pas de types différents. C'est un concept unitaire. Il repose sur différents types de preuves.

Facteurs influant sur la validité:

Tout comme la fiabilité, plusieurs facteurs affectent la validité des résultats des tests. Il y a des facteurs sur lesquels nous sommes alertes et que nous pouvons éviter facilement. Mais nous ignorons certains facteurs et rend les résultats des tests invalides pour l'usage auquel ils sont destinés.

Certains de ces facteurs sont les suivants:

1. Facteurs dans le test:

(i) Les instructions ne sont pas claires pour que les étudiants répondent au test.

(ii) Difficulté du vocabulaire de lecture et de la structure de la phrase.

(iii) Éléments de test trop faciles ou trop difficiles.

(iv) Déclarations ambiguës dans les éléments de test.

(v) Éléments de test inappropriés pour mesurer un résultat particulier.

(vi) Temps insuffisant prévu pour passer le test.

(vii) La durée de l’essai est trop courte.

(viii) Les éléments de test non classés par ordre de difficulté.

(ix) Modèle identifiable de réponses.

Facteurs liés à l'administration et à la notation des tests:

(i) aide injuste aux étudiants individuels qui demandent de l'aide,

(ii) Tricherie par les élèves lors des tests.

(iii) Notation peu fiable des réponses de type dissertation.

(iv) Temps insuffisant pour terminer le test.

v) État physique et psychologique défavorable au moment des tests.

Facteurs liés à la personne testée:

(i) Testez l'anxiété des étudiants.

ii) état physique et psychologique de l'élève,

(iii) Ensemble de réponses: tendance constante à suivre un certain schéma en répondant aux questions.

Caractéristique n ° 3. Objectivité:

L'objectivité est une caractéristique importante d'un bon test. Cela affecte à la fois la validité et la fiabilité des résultats des tests. L’objectivité d’un instrument de mesure indique le degré auquel différentes personnes qui notent le reçu de réponse parviennent au même résultat. CV Good (1973) définit l’objectivité dans les tests comme «la mesure dans laquelle l’instrument est exempt d’erreur personnelle (biais personnel), c’est la subjectivité de la part du marqueur».

Gronlund et Linn (1995) affirment que «l'objectivité d'un test fait référence au degré auquel des scores aussi compétents obtiennent les mêmes résultats. Donc, un test est considéré comme objectif lorsqu'il permet l'élimination de l'opinion personnelle du marqueur et du jugement partial. Dans ce contexte, il convient de garder à l’esprit deux aspects de l’objectivité lors de la construction d’un test. ”

(i) Objectivité dans la notation.

(ii) Objectivité dans l'interprétation des items de test par le destinataire du test.

(i) Objectivité de la notation:

L’objectivité de la notation signifie que la même personne ou des personnes différentes qui marquent le test à tout moment arrivent au même résultat sans erreur possible. Pour être objectif, le test doit obligatoirement être rédigé de telle sorte que seule une réponse correcte puisse être donnée. En d'autres termes, le jugement personnel de l'individu qui a obtenu le résultat du script de réponse ne devrait pas avoir d'incidence sur les résultats du test. Pour que le résultat d'un test puisse être obtenu de manière simple et précise si la procédure de notation est objective. La procédure de notation devrait être telle qu'il ne devrait y avoir aucun doute quant à savoir si un élément est correct ou erroné ou partiellement correct ou partiellement incorrect.

ii) Objectivité des éléments de test:

Par objectivité d'objet, nous voulons dire que l'élément doit appeler une réponse unique et définitive. Les éléments de test bien construits doivent être interprétés par une seule et même interprétation par des étudiants connaissant la matière concernée. Cela signifie que les éléments de test doivent être exempts d'ambiguïté. Un élément de test donné doit avoir le même sens pour tous les étudiants que le testeur a l'intention de demander. Les phrases à double sens, les éléments ayant plus d'une réponse correcte ne doivent pas être inclus dans le test car ils rendent le test subjectif.

Caractéristique # 4. Facilité d'utilisation:

La convivialité est une autre caractéristique importante des instruments de mesure. Parce que les considérations pratiques des instruments d’évaluation ne peuvent être négligées. Le test doit avoir une valeur pratique du point de vue temps, économie et administration. Cela peut être qualifié de convivialité.

Ainsi, lors de la construction ou de la sélection d'un test, les aspects pratiques suivants doivent être pris en compte:

(i) Facilité d'administration:

Cela signifie que le test doit être facile à administrer pour que les enseignants en classe puissent l’utiliser. Par conséquent, des instructions simples et claires doivent être données. Le test devrait posséder très peu de sous-tests. Le moment du test ne devrait pas être trop difficile.

ii) Temps requis pour l'administration:

Un délai approprié pour passer le test doit être fourni. Si nous voulons que le test soit suffisamment long, nous ferons en sorte que le test soit plus court que la fiabilité du test sera réduite. Gronlund et Linn (1995) sont d’avis que «quelque part entre 20 et 60 minutes de temps d’essai pour chaque score donné par un essai publié est probablement un assez bon guide».

(iii) Facilité d'interprétation et d'application:

L’interprétation des résultats et l’application des résultats constituent un autre aspect important des résultats des tests. Si les résultats sont mal interprétés, il est préjudiciable de ne pas être appliqués, cela ne sert à rien.

(iv) Disponibilité de formulaires équivalents:

Des tests de formes équivalentes permettent de vérifier les résultats discutables. Cela aide également à éliminer le facteur de mémoire tout en testant à nouveau les élèves sur le même domaine d'apprentissage. Par conséquent, des formes équivalentes du même test en termes de contenu, de niveau de difficulté et d'autres caractéristiques devraient être disponibles.

v) Coût des essais:

Un test doit être économique du point de vue de la préparation, de l’administration et de la notation.