Exigences de tout prédicteur industriel: validité et fiabilité

Les deux exigences primordiales pour tout prédicteur sont la validité et la fiabilité. Dans le contexte industriel, il existe différents types ou types de validité, bien que celui qui est le plus préféré s'appelle validité prédictive. Il existe également différents types de mesures de fiabilité. Le problème de fiabilité et de validité ne se limite pas aux prédicteurs mais s’applique également aux critères.

Validité:

La validité d'un prédicteur peut généralement être définie comme la mesure dans laquelle le prédicteur atteint certains objectifs de l'utilisateur en mesurant ce qui est censé être mesuré. Le type de validité en question dépend donc du but particulier de l'utilisateur dans n'importe quelle situation.

Validité prédictive:

Le but de l'utilisateur est d'utiliser son instrument de mesure pour prédire la performance future des employés sur une autre variable (critère). La validité prédictive est établie statistiquement par corrélation et régression. La distinction importante entre la validité prédictive et l’une des maladies chroniques. Les scores des prédicteurs sont obtenus sur des individus à un moment donné (par exemple, le moment de l'embauche) et les scores des critères sont obtenus à une date ultérieure (par exemple, au bout de six mois).

La relation résultante représente donc vraiment le pouvoir «prédictif» de l'instrument. La validité prédictive est le type de validité le plus important dans la sélection puisqu'il s'agit du seul type qui reproduit réellement la situation de sélection. Un autre nom parfois utilisé pour la validité prédictive est la validité de suivi.

Validité concurrente:

L’objectif ici, au moins en théorie, devrait être d’estimer la performance actuelle des employés pour certains critères de mesure à partir des scores du prédicteur. La validité simultanée est également établie à l’aide de techniques de corrélation et de régression, mais sans décalage entre l’obtention des scores des prédicteurs et des critères. Un échantillon d'employés actuels est utilisé pour déterminer la relation prédicteur-critère, puis la régression résultante peut être appliquée en obtenant des scores de prédicteur pour les autres titulaires.

En d'autres termes, nous sommes intéressés à prédire le statut actuel des personnes, pas leur statut à un moment futur. Il est extrêmement important de souligner qu'une validité concurrente élevée ne garantit pas une validité prédictive élevée. Malheureusement, la validité concurrente est trop souvent utilisée dans l'industrie pour remplacer la validité prédictive.

La direction ne veut parfois pas attendre le temps requis par la méthode prédictive et peut ne pas se rendre compte que les employés actuels peuvent représenter une population de travailleurs fondamentalement différente des demandeurs d’emploi. Les travailleurs qui ont actuellement un emploi ont survécu au dépistage, que ce soit en termes d’embauche ou de continuité, et les travailleurs les plus pauvres qui ont été embauchés ont peut-être quitté leur emploi volontairement ou sur demande. Cela rend très difficile de justifier la généralisation des validités concurrentes à une situation de validité prédictive.

Validité du contenu:

Lorsque le validateur suppose que son prédicteur est représentatif d'une classe de situations donnée, il est impliqué dans la validité du contenu. Il a une notion spécifique sur le type de connaissances, de compétences, d'attitudes ou de performances que l'instrument de mesure devrait exploiter, et il considère l'instrument comme valable dans la mesure où son contenu est représentatif de ce qu'il veut exploiter. La validité du contenu n'est généralement pas mesurable au sens statistique ou quantitatif.

Les utilisateurs de tests de rendement, tels que les examens finaux d'un cours collégial, sont ceux qui utilisent le plus la validité du contenu. L’examen final ne peut être considéré comme valable pour le contenu que s’il représente de manière adéquate (échantillonné) le contenu du cours, en termes d’items. S'il ne couvrait pas la matière du cours, il ne pourrait certainement pas être considéré comme un test approprié à utiliser pour un examen final - autrement dit, il n'aurait pas de validité de contenu.

La validité de construction:

Avec ce type de validité, l'utilisateur souhaite déduire dans quelle mesure les personnes évaluées possèdent un trait ou une qualité (construit) censée être reflétée dans les performances du test. La procédure générale consiste à administrer plusieurs instruments de test qui semblent logiquement mesurer le même construit, puis à observer les relations entre ces mesures. La validité de construction n'a pas été utilisée de manière considérable par le psychologue du travail; il a tendance à être plus souvent utilisé dans des situations théoriques que pragmatiques.

Validité synthétique:

On pourrait considérer la validité synthétique comme une validité prédictive «supposée». Supposons que nous ayons un test qui, dans un certain nombre de situations, a démontré une relation prédictive élevée avec divers critères de performance des contremaîtres industriels. Supposons en outre qu’une petite usine de fabrication souhaite utiliser un test pour la sélection des contremaîtres, mais que trop peu de contremaîtres travaillent dans l’usine pour effectuer une étude de validité simultanée. Cette usine peut décider d’utiliser le test sans aucune évaluation statistique formelle, en supposant que son succès a été démontré dans d’autres usines plus grandes.

Cette procédure ne peut être considérée comme valide que si:

(1) Le travail du contremaître dans cette usine est similaire à celui des contremaîtres impliqués dans l'évaluation statistique du test, et

(2) Les candidats contremaîtres de cette usine sont typiques (proviennent de la même population) que les candidats aux emplois de contremaître dans les grandes usines. La validité synthétique ne devrait remplacer la validité prédictive que si elle est pleinement consciente de ses limites possibles.

Validité faciale:

Un autre type de validité souvent utilisé pour décrire un test concerne la mesure dans laquelle un utilisateur souhaite que son test soit «correct» pour le testeur. Les candidats à un emploi sont souvent mécontents si les instruments de prévision qu’ils sont tenus de prendre semblent n’avoir que peu ou pas de relation avec l’emploi pour lequel ils postulent. Par exemple, si vous sélectionnez des personnes pour un poste de machiniste et que vous utilisez un test de capacité arithmétique, les éléments de test doivent traiter de nombres appliqués à des problèmes mécaniques plutôt que d'être formulés en termes plus généraux tels que l'achat de pommes ou des oranges.

Si le candidat ne voit pas la pertinence du prédicteur par rapport à l'emploi pour lequel il postule, comme cela se produit souvent lors de tests de personnalité, il peut subir une grave perte de motivation dans la situation de test, devenir dérisoire ou, au contraire, se sentir peu sûr. Cela nuit non seulement au programme de sélection, mais également à l'image de la société et à l'image des tests dans n'importe quel environnement industriel. Les auteurs s'interrogent sur le fait qu'une partie de la mauvaise publicité reçue par les utilisateurs d'appareils de sélection dans l'industrie peut être due au fait que l'utilisateur oublie que ses tests doivent être valides.

Durée de l'emploi, expérience professionnelle et effet sur la validité:

L’examen de la performance des travailleurs à un emploi donné montre souvent une relation définie entre des variables telles que l’âge et l’expérience et le critère. Plus le travail est complexe, plus ce type de relations est susceptible d'exister. Pour de nombreux emplois, une expérience considérable est nécessaire avant que les employés ne deviennent compétents dans leur travail. La corrélation entre ces types de variables et les critères de réussite professionnelle pose un grave problème de sélection. La prudence est de mise, en particulier si l’on utilise la procédure de validité concurrente pour établir l’utilité de tout dispositif de prévision.

Si, par exemple, il existe une forte corrélation entre le critère et la durée du travail, comment interpréter un coefficient de validité élevé simultané? Cela signifie-t-il que le prédicteur reflète réellement les différences de capacité entre les travailleurs, telles que mesurées par le critère «», ou les différences entre les travailleurs sont-elles principalement dues à l'expérience sur le tas? Si c'est le dernier cas, tout ce que le prédicteur va accomplir consiste alors à différencier les travailleurs ayant une longue durée d'emploi de ceux qui ont été embauchés plus récemment.

La validité observée est généralement une surestimation de l'efficacité prédictive de l'instrument de sélection. En fait, à moins de pouvoir clairement démontrer que le prédicteur n’est pas corrélé à des caractéristiques telles que l’âge et le mandat qui peuvent eux-mêmes être déterminants du rendement au travail, toutes les validités concurrentes obtenues avec ce prédicteur doivent être hautement suspectes.

Pour illustrer ce point, considérons la situation dans laquelle on a un critère, un prédicteur et une variable liée au critère, telle que la durée de l'emploi, qui est en grande partie responsable des différences de compétences montrées sur le critère par les employés, comme suit:

C + D = Validité simultanée observée du prédicteur

D = montant de la variance du critère «sans tenure» pris en compte par le prédicteur

C = montant de la variance du critère «déterminé par la durée» pris en compte par le prédicteur

La validité observée est généralement, mais pas toujours, une surestimation de la vraie validité, puisque:

La validité concurrente vraie ou non biaisée, qui représente la corrélation entre le prédicteur et un critère totalement dépourvu de l'influence de la durée de l'emploi, est donnée par l'équation:

La corrélation (r _vrai ) telle qu’elle est illustrée sur le diagramme représente en réalité, de manière imagée, ce que l’on appelle en statistique un coefficient de corrélation «partiel». Il rapporte la corrélation entre le prédicteur et le critère après que les effets de la permanence de l'emploi ont été supprimés des scores du prédicteur et des scores du critère des employés actuels. Il est important que les effets de tenure soient supprimés du critère et du prédicteur dans la situation concurrente.

Si ces effets ne sont pas statistiquement supprimés du critère, nous finirons par prédire l’influence de la permanence plutôt que sur la performance de l’emploi, avec peu ou pas de pertinence pour la validité prédictive. Si les effets de la durée de l'emploi ne sont pas supprimés du prédicteur, nous pouvons également obtenir un coefficient de validité qui ne peut pas être considéré comme pertinent pour une situation de validité véritablement prédictive.

Les problèmes de variables corrélées par les critères et les prédicteurs dans le contexte simultané illustrent certainement certaines des sérieuses contraintes inhérentes à cette méthode de validation. On peut affirmer sans crainte qu'il n'existe absolument aucun substitut égal au type de validité appelé validité prédictive lors de la construction et de l'utilisation d'un instrument de sélection.

Fiabilité:

De manière générale, le concept de validité traite de ce qui est mesuré par un appareil de mesure. Une autre caractéristique des prédicteurs, qui est peut-être tout aussi importante, est la nécessité de connaître la cohérence de la mesure, indépendamment de ce qui est mesuré. Autrement dit, nous devons établir le degré de stabilité de tout appareil de mesure. la mesure obtenue à partir d'un prédicteur doit être cohérente. Le degré de cohérence ou de stabilité de tout instrument de mesure, qui donnerait les mêmes scores encore et encore, si nécessaire, est défini comme la fiabilité de cet instrument de test.

Comme la validité, la fiabilité est généralement mesurée au moyen du coefficient de corrélation. Comme une mesure fiable implique la stabilité d’une situation à l’autre, un instrument fiable devrait produire soit les mêmes scores, soit au moins un classement similaire des individus dans deux situations. En calculant la corrélation, nous obtenons une expression mathématique de la mesure dans laquelle cela se produit.

Ainsi, un instrument de mesure fiable est un instrument sur lequel les individus reçoivent le même score (ou presque le même) dans des mesures répétées. Lorsque le coefficient de corrélation est utilisé pour mesurer la similarité des scores d'un groupe de personnes sur deux applications de la même mesure, il est appelé coefficient de fiabilité.

Le processus réel permettant d'évaluer la fiabilité d'une mesure dépend de nombreux facteurs. Il existe trois types principaux de fiabilité, chacun présentant ses avantages et ses inconvénients. Leur logique sous-jacente est suffisamment différente pour justifier un examen approfondi de chacun.

Les trois techniques permettant d’obtenir la fiabilité des instruments sont les suivantes:

(1) mesures répétées sur les mêmes personnes avec le même test ou instrument,

(2) Mesure sur les mêmes personnes avec deux formes «équivalentes» de l’instrument de mesure, et

(3) Séparer le dispositif de mesure en deux parties équivalentes ou plus et corréler ces scores de «partie».

Avant d’envisager chaque méthode, nous devrions examiner de manière plus spécifique certains types de fiabilité ou de stabilité de mesure qui pourraient nous intéresser dans des circonstances différentes.

Supposons que chaque fois que nous utilisons un instrument de mesure pour obtenir le score d'une personne, le score reçu est fonction de plusieurs facteurs, comme suit:

X _i = X _true + _erreur X

Où

X _i = score observé pour la personne i en test

X _vrai = Vrai score pour une personne testée - il s'agit de la quantité réelle de qualité mesurée par le test que cette personne possède réellement.

X _error = Score d'erreur pour une personne lors du test - il s'agit du montant pour lequel cette personne a été affectée par l'utilisation de divers facteurs aléatoires ou temporels.

Si tous les instruments et méthodes de mesure étaient «sans erreur», nous obtiendrions toujours les scores réels des personnes, et la corrélation entre deux mesures sur le même groupe de personnes serait toujours de + 1, 00 ou une fiabilité parfaite (en supposant que rien ne change. les vrais scores sont à prévoir). Malheureusement, une telle mesure sans erreur n'est jamais complètement disponible, car une grande variété de chose? Contribuer à la performance à tout moment.

Ainsi, x _i peut être supérieur ou inférieur à X _true pour toute mesure particulière et les corrélations calculées entre les mesures sont toujours inférieures à l'unité. En termes de représentation imagée de la variance de performance parmi les utilisateurs de tout appareil de mesure, qu’il s’agisse d’un test ou d’une interview, d’un prédicteur ou d’un critère, cette variance totale peut être divisée en deux composantes principales: la variance vraie et la variance erreur.

Variance totale = variabilité totale des résultats de test observés

Variance vraie = variabilité des personnes en fonction de la quantité réelle de la caractéristique mesurée

Variance d'erreur = variabilité des scores d'erreur des personnes

La fiabilité peut être définie comme un rapport de la variance vraie à la variance totale, ou

Plus la proportion de la variance du score réel est importante, ou inversement, plus la variance d'erreur présente dans le processus de mesure est petite, plus la fiabilité de la mesure est grande. Le facteur critique qui différencie les trois procédures principales de détermination de la fiabilité réside dans le processus de détermination de ce qui doit être considéré comme une variance d'erreur et de ce qui doit être considéré comme une variance vraie ou systématique. Il n'y a pas de fiabilité unique pour un test. Au contraire, la fiabilité dépendra des besoins du moment.

Par exemple, le psychologue peut poser les questions suivantes sur le processus de mesure:

1. Avec quelle précision puis-je mesurer les personnes avec ce test à un moment donné dans le temps?

2. Dans quelle mesure les mesures prises aujourd'hui avec ce test seront-elles représentatives de ces mêmes personnes à un moment donné dans le futur?

3. Dans quelle mesure les scores de ce test représentent-ils la capacité réelle de ces personnes sur le trait échantillonné par le test?

Tous les trois sont des questions de fiabilité légitimes. Cependant, chacun met l'accent sur des sources de variation d'erreur différentes dans les résultats des tests.

Thorndike et Hagen (1963) ont exprimé ces sources de variation d'erreur de la manière suivante:

1. Variation due au test à un moment donné

2. Variation de l'individu d'une période à l'autre

3. Variation due à l'échantillon particulier de tâches choisi pour représenter la qualité mesurée

Passons maintenant à l’examen de chaque méthode de fiabilité, en gardant à l’esprit les sources d’erreur afin de pouvoir déterminer comment chaque méthode traite chaque source.

Méthode test-retest:

Une méthode évidente pour évaluer la stabilité consiste à mesurer deux fois les performances d'un même individu avec le même instrument de mesure. Ce type de fiabilité inclut les sources de variation 1 et 2 en tant qu'erreur. Ainsi, la fiabilité qui en résulte est celle qui mesure la stabilité du score réel dans le temps. Il existe de nombreux problèmes avec la méthode test-retest qui sont créés par le fait de mesurer deux fois le même test.

Par exemple, à moins que le délai entre les administrations soit assez long, la variable d'un facteur de mémoire est susceptible de biaiser les réponses des personnes de la deuxième administration. Une autre difficulté est que la variation due à l'échantillon particulier de tâches ou d'éléments choisis est traitée comme une variance systématique qui ajoute à la fiabilité.

Ainsi, toute personne qui, par hasard, connaît davantage de réponses simplement parce que quelques-uns des éléments de test touchent, par exemple, à un passe-temps de cette personne, serait également favorisée dans la seconde administration car les mêmes éléments, plutôt qu'un nouvel échantillon, sont: utilisé. Il devrait donc avoir un score élevé sur les deux tests car la source de variation 3 est traitée comme une variance vraie.

Méthode de tests en parallèle:

Une façon d'éviter que la source d'erreur 3 soit la vraie variance consiste à utiliser deux formes totalement comparables ou «équivalentes» de l'instrument de mesure. Ces deux formulaires doivent être aussi identiques que possible, à la différence que les éléments spécifiques ou les questions de chaque formulaire ne seraient pas les mêmes bien qu'ils représenteraient chacun un échantillon similaire d'éléments choisis. Une forme peut être administrée immédiatement après l'autre ou à des intervalles espacés, selon que l'on souhaite ou non que la source de variation 2 soit incluse en tant que variance d'erreur.

Ce type de fiabilité, lorsque des tests espacés sont utilisés, représente l'évaluation la plus rigoureuse de la stabilité qui puisse être réalisée. Cependant, il est souvent impossible ou, au mieux, extrêmement difficile de construire d'autres formes d'instrument de mesure.

Comment peut-on construire deux formes alternatives, mais équivalentes, d'une mesure du rendement au travail ou deux formes alternatives d'une histoire personnelle? Dans de nombreux cas, non sans difficulté considérable. Ce manque d'un appareil de mesure vraiment comparable a amené les psychologues à rechercher des méthodes supplémentaires d'évaluation de la fiabilité en plus des procédures test-retest et des procédures parallèles.

Méthode d'essai subdivisée:

La troisième méthode de fiabilité majeure est souvent appelée mesure de la cohérence interne d'un appareil de mesure. Il fournit une indication de la mesure dans laquelle les personnes obtiennent le même score, les unes par rapport aux autres, dans différentes subdivisions de l'instrument global. Cette méthode est probablement la méthode de mesure de la fiabilité la plus largement utilisée car elle nécessite la construction d'une seule forme et ne nécessite cependant pas d'administrations répétées de cette forme.

Sa mécanique est très simple. Dans sa forme la plus élémentaire, la méthode de la cohérence interne est la procédure de formes parallèles dans laquelle les formes parallèles sont deux moitiés du même test. Ces demi-tests sont choisis de manière à être aussi équivalents que possible, bien que souvent le test soit simplement divisé en deux parties en mettant tous les éléments impairs en une moitié et tous les éléments pairs en l'autre. C'est ce qu'on appelle la version impaire-paire de la technique split-half.

Il est important de se rappeler que la séparation du test total en moitiés équivalentes ne se produit que lors de la notation de ce test, et non lors de son administration. Étant donné que les deux sous-tests ne représentent que la moitié de la longueur de l'original, ils représentent chacun un échantillon de comportement deux fois moins important que le test total. Ainsi, la corrélation (fiabilité) entre les moitiés est susceptible de sous-estimer la fiabilité des scores basés sur l’ensemble du test.

Pour obtenir une estimation de la fiabilité du test complet, la formule de Spearman-Brown Prophecy peut être appliquée comme suit:

r _tt = 2r _½½ / 1 + r _½½

où r _tt = fiabilité du test total (estimation)

r _1/2 _1/2 = corrélation observée entre les deux moitiés du test.

Par exemple, si la corrélation observée entre les moitiés était de 0, 40, la formule de Prophecy évaluerait la fiabilité du test complet comme suit:

r _tt = 2 (0, 40) / 1 + 0, 40 = 0, 80 / 1, 40 = 0, 57

La méthode split-half fournit ainsi une méthode d’estimation de la fiabilité avec un seul test et une seule administration. Son utilisation présente toutefois certains inconvénients. Lorsqu'un test implique principalement des facteurs de vitesse (tels que certains tests d'écriture simples), la procédure en alternance fournit un résultat faussement élevé.

Étant donné que les tests de vitesse impliquent généralement des éléments faciles, il ne s'agit que de savoir s'ils ont obtenu une réponse permettant de déterminer s'ils étaient corrects ou incorrects. Ainsi, la division du test sur une base impaire, par exemple, donnerait des scores pratiquement identiques pour les deux moitiés, d'où une corrélation positive élevée.

Méthode Kuder-Richardson:

Une autre version de la méthode split-half est fréquemment utilisée pour mesurer la fiabilité. Liée à une technique statistique appelée analyse de la variance, sa forme la plus fréquente est connue sous le nom de procédure de Kuder-Richardson. La méthode Kuder-Richardson (KR) est également une fiabilité de cohérence interne qui traite essentiellement chaque élément de test comme un sous-test. Ainsi, au lieu d'avoir deux moitiés, il existe n sous-tests, où n est le nombre total d'éléments sur l'instrument de mesure. La technique KR équivaut à calculer toutes les corrélations possibles entre des paires d'éléments de test (il y aura n [n - l] / 2 paires de ce type), en prenant la moyenne de celles-ci et en ajustant le résultat à l'aide de la formule de prophétie de Spearman-Brown.

Où

r _tt = fiabilité estimée du test total

r _ii = corrélation moyenne entre les éléments

K = nombre de paires d'éléments

À l'instar de la procédure demi-format, la procédure Kuder-Richardson ignore la source de variation 2 et n'est pas appropriée pour les tests de vitesse.

Une comparaison sommaire est donnée dans le tableau 2.4. Ce tableau présente les différentes méthodes de fiabilité et les compare en termes de types de variation qu’elles incluent en tant que variance d’erreur.