Systèmes à choix forcés: utilisés pour obtenir des évaluations du rendement au travail

L’une des méthodes les plus populaires pour obtenir une évaluation de la performance est la technique dite du «choix imposé». Cette méthode de notation, issue des problèmes habituels rencontrés lors du développement d’instruments de mesure de la personnalité, a été rapidement adaptée à une utilisation en performance. évaluation.

Historiquement, la méthode semble avoir été créée par Horst au début des années 1940 et également utilisée par Wherry à peu près au même moment. La méthode a été utilisée dans une grande variété de situations et à diverses fins. Dans une excellente critique de la méthode du choix forcé, Zavala (1965, p. 117) résume comme suit:

La technique FC a été utilisée pour évaluer le personnel professionnel tel que les officiers et les soldats de l’armée de l’air (Gough, 1958; Wherry, 1959), les patrouilleurs routiers et les officiers de police (Peres, 1959; Stander, 1960), les ingénieurs (Lepkowski, 1963), les enseignants. (Leftwich, 1962; Tolle et Murray, 1958) et des médecins (Newman et Howell, 1961; Newman, Howell et Harris, 1957). Le concept FC a également été utilisé pour développer des tests d'évaluation ou de mesure des intérêts (Bendig, 1958; Peel, 1961), du leadership et de la supervision (Izard et Rosenberg, 1958; Wollack, 1959) et des attitudes des employés (Miller et Gekoski, 1959). .

Gordon (1951), Denton (1954) et Hatch (1962) ont appliqué les techniques de FC à la mesure de la personnalité et à la détermination de l'empathie. L'approche FC a également été utilisée pour résoudre des problèmes de détectabilité des signaux et de seuils auditifs (Lukaszewski et Elliott, 1962; Swets, 1959). Blackwell (1952) a utilisé la méthode FC pour la mesure psychophysique des fonctions sensorielles. Webster (1959) a mis au point un test de préférence de chiffre utilisant la technique FC.

Construction de l'échelle d'évaluation à choix forcé:

Guilford (1954, p. 275) a très clairement défini les étapes à suivre pour mettre au point un instrument à choix forcé, si clairement qu'il vaut la peine de le rappeler ici.

Il suggère les huit étapes suivantes:

1. Des descriptions sont obtenues concernant les personnes reconnues comme se situant aux extrêmes extrêmes du continuum de performances pour le groupe particulier à évaluer.

2. Les descriptions sont analysées selon des qualités de comportement simples, énoncées dans des phrases très courtes ou par des noms de traits, que l'on peut appeler des éléments utilisés pour construire des éléments.

3. Deux valeurs sont déterminées empiriquement pour chaque élément: une valeur de discrimination et une valeur de préférence. La valeur de discrimination est un indice de validité et la valeur de préférence est un indice du degré de valorisation de la qualité par des personnes telles que les évaluateurs qui utiliseront l'instrument.

4. Pour former un élément, les éléments sont associés. Deux instructions ou termes ayant à peu près la même valeur de préférence élevée sont associés, l’un étant valide et l’autre non. Les deux devraient avoir une validité apparente pour l'évaluateur, c'est-à-dire qu'il devrait penser qu'ils sont tous les deux favorables à une performance supérieure dans le groupe évalué. Deux déclarations ou termes avec une valeur de préférence également égale sont également associés, l’un valide et l’autre non.

5. Deux paires d'instructions, une avec une valeur de préférence élevée et une avec une valeur de préférence basse, sont combinées dans une tétrade pour former un élément. La raison de ce type de combinaison est que, bien que l'évaluateur moyen ne s'oppose pas à choisir l'une des deux descriptions favorables pour une personne qu'il connaît, il hésite parfois à choisir l'une des deux descriptions défavorables. Parfois, une cinquième description, neutre, est ajoutée pour former un pentade, mais cela est moins courant.

Voici un exemple de tétrade:

Négligent

Sérieux

Énergique

Snob

Les traits «sérieux» et «énergique» auraient eu la même valeur de préférence parce qu’ils étaient appliqués à peu près aussi souvent que des traits favorables pour décrire le type de personnel pour lequel l’échelle avait été développée. Le trait «sérieux» a cependant été jugé valide, car il a été appliqué de manière significative au groupe de critères élevés davantage qu'au groupe de critères bas. Les traits «insouciant» et «snob» se sont avérés également impopulaires, mais «insouciants» discrimine le plus bas du groupe de critères élevés.

6. L'instruction à l'évaluateur est préparée. L'évaluateur doit réagir à chaque tétrade en tant qu'article, en indiquant lequel des quatre correspond le mieux à l'évaluateur et lequel des quatre est le moins approprié.

7. Une forme expérimentale de l'instrument est testée sur un échantillon pour lequel il existe un critère extérieur, afin de valider les réponses lorsque les descriptions sont définies dans ce formulaire. Les réponses discriminantes sont déterminées et, si vous le souhaitez, des poids différentiels sont attribués.

8. Une clé de notation est conçue sur la base des résultats de l'étape 7. En règle générale, un trait favorable valable, marqué comme le plus descriptif de l'évaluateur, reçoit un poids positif, ainsi qu'un trait défavorable valide jugé comme le moins descriptif.

Raisonnement:

Bien entendu, la description ci-dessus montre clairement la logique du nom de «choix forcé», en ce sens que l’évaluateur est continuellement contraint de choisir parmi des options tout aussi favorables (ou défavorables). Cela empêche supposément l’évaluateur de vérifier délibérément uniquement les caractéristiques les plus favorables lorsqu’il notait les travailleurs à qui il pouvait souhaiter manifester un certain degré de favoritisme.

S'il choisit ses réponses strictement en fonction de leur apparence favorable, il n'aura théoriquement aucune raison de choisir un trait sur un autre dans un couple, car elles ont été comparées sur cette base. Ainsi, son choix serait aléatoire et, par hasard, il finira par sélectionner le trait de distinction la moitié du temps.

Puisque chaque tétrade a une paire favorable (avec un discriminateur positif) et une paire défavorable (avec un discriminateur négatif), une sélection aléatoire dans chaque paire signifierait que l'évaluateur aurait tendance à choisir un discriminateur favorable environ la moitié de la temps et un discriminateur défavorable environ la moitié du temps.

Ainsi, un score aléatoire ou aléatoire serait égal à zéro (en supposant que nous donnions un +1 pour chaque discriminateur positif et un -1 pour chaque discriminateur négatif vérifié). Dans la mesure où l’évaluateur tente véritablement de donner une évaluation précise du travailleur, il aura tendance à sélectionner des traits discriminants dans la paire positive et non à sélectionner des traits discriminants à la paire négative (en supposant qu’il classe un bon travailleur). .

S'il note un travailleur pauvre, sa tendance serait inversée en ce sens qu'il aurait tendance à choisir le trait de distinction plus souvent que le hasard parmi la paire négative et à choisir le trait non discriminant plus souvent que le hasard dans la paire positive. Les bons travailleurs devraient donc se retrouver avec des scores positifs élevés et les travailleurs pauvres avec des scores négatifs élevés.

Indices à choix forcés:

La clé de la réussite d’une échelle à choix forcés réside dans les différents types d’indices obtenus pour chaque caractère avant la construction de la version finale de l’échelle d’évaluation.

Les différents indices sont les suivants:

A. Indices discriminants

B. Indices d'égalisation

1. Indice de préférence

2. Indice de favorabilité

3. Indice d'importance

4. Indice de désirabilité

Indices discriminants:

L'indice discriminant est simplement une mesure de la mesure dans laquelle un trait permet de différencier les travailleurs bons des travailleurs pauvres. Tous les indices normalement utilisés dans l'analyse des éléments sont potentiellement appropriés pour être utilisés comme mesures de la discordance, étant donné que l'on s'intéresse exclusivement à la validité de chaque trait pour prédire la qualité d'un employé. Pour une discussion sur les méthodes d'analyse d'items, consultez n'importe quel texte de base concernant les tests psychologiques.

Indices équivalents:

La logique du système de choix forcé exige que les traits soient appariés de manière à être tout aussi «attrayants» pour l'évaluateur. En d'autres termes, un trait ne doit pas posséder plus d'une caractéristique quelconque qui le conduirait à être choisi par rapport à l'autre trait par un évaluateur désirant biaiser ses réponses. La sélection des traits dans n'importe quel couple doit être basée uniquement sur leur pouvoir discriminant plutôt que sur un stéréotype de population concernant les traits eux-mêmes.

Nous sommes immédiatement amenés à essayer de déterminer quels types de caractéristiques de trait sont susceptibles d’influencer la réponse d’un évaluateur qui souhaite biaiser ses réponses.

Quatre de ces caractéristiques pourraient être considérées comme potentiellement importantes:

1. Préférence pour un trait:

Ceci peut être défini comme la tendance générale des évaluateurs à utiliser ce trait avec tout le monde, qu’ils soient de bons ou de mauvais ouvriers. Sisson (1948) a défini cette caractéristique comme «la mesure dans laquelle les gens, en général, ont tendance à l'utiliser pour décrire d'autres personnes». En un sens, la préférence pour un trait est une mesure de la banalité d'un trait dans le vocabulaire descriptif des évaluateurs. Équilibrer des paires de traits en fonction de leur préférence générale semblerait certainement une étape logique si l’on essayait d’éliminer les caractéristiques d’objet superflues susceptibles d’influencer le choix d’un évaluateur.

2. Caractère favorable d'un trait:

Les traits diffèrent clairement quant à leur apparente faveur lorsqu'ils sont utilisés comme descripteurs de personnes. Comme il a été mentionné, le format à choix forcé associe généralement deux traits favorables à deux traits défavorables. Il est également important que les deux traits favorables apparaissent également favorables et les deux traits défavorables également défavorables, sinon l'évaluateur pourrait être tenté de choisir le plus favorable de chaque paire pour tenter de donner au taux la meilleure apparence possible.

La favorabilité des caractères est probablement l’indice le plus couramment utilisé pour l’égalisation des paires à choix forcés. C'est un indice relativement facile à obtenir en faisant évaluer par un certain nombre de juges chaque trait en fonction de son caractère favorable par rapport à la personne qu'il va utiliser pour décrire et en utilisant la valeur d'échelle moyenne comme indice de favorabilité.

3. Indice d'importance:

Cet indice a été mentionné par Zavala (1965) et constitue une mesure de «l’importance de la déclaration en tant que réserve pour le poste en question» (Zavala, 1965, p. 118). Cet indice reconnaît qu'une personne ayant une tendance à la partialité est plus susceptible d'utiliser une situation spécifique comme cadre de référence qu'une référence plus générale. C'est-à-dire qu'un évaluateur qui souhaite donner bonne mine à un taux peut être plus apte à choisir ce trait spécifique qu'il juge le plus important pour le travail en question plutôt que de choisir ce trait qui est le descripteur général le plus favorable.

Le choix de l'évaluateur sur le trait qui convient le mieux est par conséquent susceptible d'être spécifique à un emploi. Afin de pouvoir associer avec succès les traits à leur importance, il est nécessaire d'obtenir des valeurs d'échelle d'importance (généralement de la même manière générale que les valeurs d'échelle de favorabilité) pour chaque situation de notation différente, tâche qui peut parfois être difficile à cerner. accomplir.

4. Indice de désirabilité:

La notion de désirabilité sociale a été discutée en tant qu’influence dans la détermination des réponses des individus aux inventaires de la personnalité. L'effet de cette caractéristique est probablement tout aussi important dans les situations d'évaluation. Faire la différence entre favorabilité et désirabilité sociale n’est pas toujours une chose facile à faire.

Certes, les traits jugés favorables peuvent également être considérés comme socialement souhaitables. La distinction pourrait être illustrée en considérant la favorabilité d'un trait tel que l'intelligence qui pourrait être assez élevé, tandis que sa désirabilité sociale pourrait avoir tendance à être un peu plus basse en raison d'une réaction culturelle générale contre les "têtes de tête", etc.

Cadres de référence:

Non seulement existe-t-il une variété d'indices différents qui peuvent être utilisés pour assimiler des paires de traits dans un format à choix forcé, mais il existe également plusieurs ensembles d'instructions ou cadres de référence qui peuvent être donnés aux juges lors de l'obtention de valeurs d'échelle à des fins d'égalisation . En conséquence, différentes instructions peuvent être assez critiques.

Par exemple, si l'on souhaite obtenir des indices d'importance, il peut donner aux juges l'une des instructions suivantes:

(I) Donne à chaque trait un score basé sur l’importance que vous accordez à ce trait pour la réussite au travail, ou

(2) Attribuez à chaque trait un score basé sur l’importance que vous accordez à l’évaluateur qui utilisera éventuellement l’échelle estimera que le trait est essentiel au succès de son travail.

Dans le premier cas, on obtient des valeurs d'échelle basées sur le propre cadre de référence des juges. Dans le second cas, les juges sont invités à se mettre à la place de la personne à qui il sera demandé éventuellement d’utiliser l’instrument d’évaluation des performances et à porter des jugements comme s’il s’agissait de cette personne. Les valeurs d'échelle d'importance obtenues dans ces deux ensembles de conditions pourraient s'avérer très différentes.

La stratégie de “l'homme idéal”:

Un problème connexe à la question du cadre de référence est la stratégie de l'évaluateur appelée stratégie de «l'homme idéal». Un moyen très courant de biaiser les réponses à une échelle d’évaluation à choix forcé consiste pour l’évaluateur à sélectionner son meilleur ouvrier et à substituer mentalement ses caractéristiques à celles de l’ouvrier qu’il évalue réellement et qu’il souhaite obtenir de bons résultats.

S'il n'a pas d'ouvrier assez bon pour servir de guide dans l'évaluation, l'évaluateur peut dessiner une image mentale d'un ouvrier idéal et l'utiliser comme référence pour établir ses évaluations. Ce type de parti pris délibéré est extrêmement difficile à gérer car, dans un sens, l’évaluateur n’accorde aucune attention aux types de caractéristiques que l’échelle à choix forcé tend à protéger.

C'est-à-dire que l'évaluateur a tendance à faire un travail de notation «honnête», sauf que «l'homme» qu'il note lorsqu'il termine l'échelle est une personne très différente de celle qu'il est censé noter. Quand un évaluateur est assez intelligent pour adopter cette stratégie de notation comme méthode d’élever les scores de performance de ses amis, etc., il n’est guère possible de le faire pour éviter le biais qui en résulte, même avec un choix forcé.

Recherche sur la méthode du choix forcé:

La méthode du choix forcé a fait l’objet de nombreuses recherches depuis son introduction dans les années 1940. Comme avec beaucoup de méthodes plus récentes, il s’est avéré être un peu une panacée que beaucoup ne l’espéraient, mais cela reste l’un des moyens les plus efficaces de réduire le biais d’évaluation disponible pour le psychologue du travail. Un bref aperçu de certaines des conclusions relatives aux divers aspects de la méthode du choix forcé donnera une idée du statut général de la méthode.

Format d'élément à choix forcé:

Highland et Berkshire (1951) ont comparé six types différents de formats d'items en termes de (1) leur fiabilité (1), leur fiabilité impaire, (2) leur sensibilité à biais lorsque les évaluateurs ont reçu pour instruction d’obtenir un score élevé, (3) leur validité par rapport à un critère composé des ordres des élèves des instructeurs et (4) leur popularité générale telle que déterminée par les évaluateurs.

Les six types de formats d’article utilisés étaient:

1. Deux déclarations par poste, favorables ou défavorables. Il a été demandé à l’évaluateur de sélectionner le plus descriptif de la paire d’énoncés.

2. Trois déclarations par article, toutes favorables ou toutes défavorables. Il a été demandé à l’évaluateur de sélectionner l’énoncé le plus descriptif et le moins descriptif.

3. Quatre déclarations par article, toutes favorables. Il a été demandé à l’évaluateur de sélectionner les deux énoncés les plus descriptifs.

4. Quatre déclarations par article, toutes favorables. Il a été demandé à l’évaluateur de sélectionner le descriptif le plus descriptif et le moins descriptif.

5. Quatre déclarations par poste, deux favorables et deux défavorables. Il a été demandé à l’évaluateur de sélectionner à la fois les énoncés les plus descriptifs et les moins descriptifs.

6. Cinq déclarations par poste, deux favorables, deux défavorables et une neutre. Il a été demandé à l’évaluateur de sélectionner à la fois les énoncés les plus descriptifs et les moins descriptifs.

Les résultats de l'étude ont amené Highland and Berkshire aux conclusions suivantes:

Fiabilité:

Tous les formats ont conduit à des coefficients de fiabilité élevés, bien que les formats 5 et 6 puissent être considérés comme donnant les meilleurs résultats sur ce critère.

Validité:

Le format 4 s’est généralement révélé être le plus valable, le format 3 s’écartant une seconde forte. Cela indique que l'utilisation de seules solutions de rechange favorables semble affecter la validité.

Préférence de l'évaluateur:

La préférence des évaluateurs pour les six formats est la suivante (du plus au moins préféré) 3, 1, 6, 5, 4 et 2.

Susceptibilité de biaiser:

Les formes différaient considérablement quant à leur degré de résistance aux tentatives délibérées de partialité. L'ordre de résistance en biais (du plus au moins) était de 3, 2, 1, 4, 5 et 6.

Highland et Berkshire suggèrent que le format 3 est le meilleur des six étudiés lorsque les quatre critères énumérés ci-dessus sont pris en compte.

Validité comparée du choix forcé:

L'étude Highland et Berkshire a examiné différents formats de choix forcé entre eux. Une question tout aussi importante concerne la validité et la fiabilité de la méthode par rapport à d’autres procédures d’évaluation des performances.

En examinant les études censées examiner l'avantage du choix forcé en termes de validité, Zavala (1965) souligne les points suivants:

1. Trop d'études sur la validité du choix forcé ont eu tendance à utiliser d'autres formes de notation comme critère. C'est probablement plus une mesure de fiabilité qu'une mesure de validité.

2. La plupart des études comparatives semblent montrer une légère supériorité en matière de choix forcé par rapport aux méthodes de notation conventionnelles.

3. Plus les échelles d'évaluation sont longues, plus la méthode à choix forcé est susceptible d'être supérieure.

4. La validité d'une échelle à choix forcés est également susceptible de dépendre du type d'indice de mise en équivalence utilisé dans la construction des items.

Susceptibilité aux biais:

Bien que la question de la validité soit probablement la plus importante qui puisse être utilisée pour évaluer la méthode du choix forcé, la question du degré de partialité ou de distorsion délibérée de la méthode est également critique. En effet, la méthode a été spécifiquement conçue pour réduire le biais de réponse, car le biais de réponse tend à réduire la validité.

Les preuves de l'efficacité de la procédure à choix forcé en tant que réducteur de biais sont quelque peu équivoques. Il semble y avoir peu de doute que la falsification reste possible sous un format à choix de force, comme indiqué par Sisson (1948), Howe (1960) et Howe et Silverstein (1960).

Cependant, il semble exister une preuve substantielle que le degré de fakability est réduit par les objets à choix forcé. Karr (1959), Taylor et Wherry (1951), et Izard et Rosenberg (1958) offrent trois exemples d'études montrant une résistance à la falsification par choix forcé supérieure à celle d'autres types d'échelles.

Waters (1965) a récemment suggéré que l’une des difficultés majeures de la recherche sur la falsification du choix forcé était que le "jeu" utilisé pour simuler le test établi était généralement différent du "jeu" sous lequel les indices de mise en équivalence étaient utilisés. obtenu à l'origine. Ainsi, les indices ne sont jamais vraiment parfaitement adaptés à la situation d'évaluation réelle. Il suggère qu'il existe trois ensembles de réponses différents sous lesquels des indices de mise en équivalence peuvent être obtenus (quel que soit l'indice utilisé).

1. évaluation honnête:

Répondre si l'intimé croit vraiment que l'énoncé s'applique à la personne évaluée

2. Acceptabilité sociale:

Répondre pour paraître acceptable pour soi et pour les autres en général

3. Apparition réussie:

Répondre de manière à donner l'impression que la personne possède les qualités nécessaires ou souhaitables pour un travail ou une activité donnés

Waters suggère en outre que les études de fakability peuvent être classées en trois classes générales, en fonction de la manière dont l'ensemble de réponses et la composition du groupe varient.

Pour citer Waters (1965, p. 189), nous avons:

1. Études de faisabilité:

Ensembles et groupes au moins similaires dans les situations dans lesquelles les indices d'attractivité sont obtenus et l'échelle est administrée.

2. Etudes de généralisation:

Les ensembles ou les groupes, mais pas les deux, ont changé de la situation dans laquelle les indices d'attractivité sont obtenus à la situation dans laquelle l'échelle est administrée.

3. Études d'extension:

Les ensembles et les groupes ont changé, passant de la situation dans laquelle les indices d'attractivité sont obtenus à la situation dans laquelle l'échelle est administrée.

Les études de fakability ne doivent pas être confondues avec ces derniers types d’études. Ils sont le seul type qui fournit directement un test de l’adéquation des indices d’équation dans leur travail. Les deux derniers évaluent simplement la généralité de l'indice à d'autres situations. Malheureusement, selon Waters, à ce jour, la plupart des études de fakability ont été des études de généralisation ou de vulgarisation. des recherches sont nécessaires pour s'attaquer directement à la question de la fakability.

Étude normande:

L’une des études les plus intéressantes sur le problème de la simulation et de la détection à choix forcé est celle de Norman (1963). Il était préoccupé par la dynamique de la popularité des objets et des indices de discrimination des objets dans des conditions normales et fausses. En outre, il souhaitait savoir dans quelle mesure la simulation, si elle se produisait, pouvait être contrôlée et / ou détectée.

Les principales conclusions de la recherche sur le comportement des indices de popularité et de discrimination sont présentées ci-dessous:

1. Les indices de discrimination dans des conditions normales et fausses étaient corrélés environ

2. Les indices de popularité dans des conditions normales et fausses étaient corrélés faiblement (0, 24 et 0, 23).

3. La fiabilité des indices de discrimination dans de fausses conditions était de zéro.

4. La fiabilité des indices de discrimination dans des conditions normales était modérément élevée.

5. La fiabilité des indices de popularité était presque parfaite dans des conditions normales et fausses (0, 97 et 0, 98).

Le dernier de ces résultats (constatation 5) implique que la différence de popularité entre conditions normales et fausses doit également être très fiable (la constatation 2 indiquant qu'il existe des différences substantielles peut être modifiée pour indiquer que ces différences sont fiables et fiables). cohérent). Cependant, ceci n’a pas été évalué directement dans l’étude.

Norman suggère ensuite une procédure permettant de développer un instrument à choix forcé qui aura la même moyenne dans des conditions factices que dans des conditions normales, une variance plus faible dans des conditions factices et une échelle de détection très sensible pour identifier les faux.

Pour ce faire, il décrit les étapes suivantes:

1. Sélectionnez les articles avec des indices de discrimination élevés dans des conditions normales (choisissez plus que ce qui sera éventuellement nécessaire).

2. Classer les éléments sélectionnés en fonction de l'ampleur de leurs différences de popularité dans les conditions normales et fausses (voir le numéro 2 de la liste ci-dessus).

3. Sélectionnez les éléments des deux côtés de zéro (autant que vous le souhaitez), en vous assurant que la somme algébrique des différences de popularité est égale à zéro une fois terminée.

L'étape 3 garantira (puisque nous savons que les différences de popularité sont fiables) que le score moyen des personnes testées dans des conditions normales sera égal à celui des conditions simulées. Cela se produit car la moyenne de la distribution des résultats des tests est égale à la somme des popularités des éléments. Ainsi, les scores moyens dans des conditions normales et fausses sont assimilés. Les tests construits avec cette procédure auront également tendance à varier les distributions de leurs scores au test lorsqu’ils sont pris sous un ensemble simulant. Ceci est un résultat qui tend à réduire la possibilité que les personnes susceptibles de faire semblant obtiennent des scores suffisamment élevés pour être acceptées.

Pour illustrer notre propos, considérons le diagramme présenté ci-dessous (Figure 7.4) dans lequel nous avons la distribution des scores de test prise dans des conditions normales. (7.4a), la distribution des notes de test prises sous un ensemble de faux (7.4b), et une distribution composite composée de faux et de non-faux (7.4c).

L'examen de la figure 7.4c fournit une indication de l'effet de contrôle que cette méthode exerce sur les faux imitateurs. Dans le cadre habituel de l’évaluation des performances, nous souhaitons récompenser les personnes qui obtiennent des résultats élevés sur le formulaire à choix forcé. Comme la variance de la distribution de faux est réduite, il est possible de sélectionner les personnes ayant les meilleurs scores (celles situées à droite de la ligne de coupure en 7.4c) sans risquer de faire entrer trop de faux parmi le groupe sélectionné ou récompensé.

La figure 7.5 montre cinq différentes démonstrations empiriques de cette restriction en variance obtenues dans l’étude Norman.

Une dernière caractéristique de la méthode Norman est qu’il est très facile de construire une échelle de «détection» pour déterminer qui simule et qui ne simule pas.

On inclut simplement sur la balance un certain nombre d’articles qui répondent aux exigences suivantes:

1. Ils doivent avoir une validité proche de zéro pour les variables de critère.

2. Ils doivent avoir affiché un changement important de popularité de la situation normale à la situation fictive.

3. Leur popularité dans des conditions normales doit être très élevée ou très faible.

On construit ensuite une clé qui marque la réponse peu fréquente dans la condition normale pour chaque élément (c'est-à-dire la réponse fréquente dans la condition fictive), puisqu’une réponse tend à indiquer une falsification et que l’autre réponse indique une réponse normale.

Une autre façon de décrire ces éléments de détection est que leur popularité est en corrélation avec la tendance à simuler. La figure 7.6 montre la distribution des scores sur l'échelle du détecteur obtenue par Norman dans des conditions normales et fausses. Notez l'important décalage des scores lorsque les utilisateurs ont été invités à simuler. Un seuil d'environ 20 aurait tendance à identifier la plupart des faussaires sans accuser faussement beaucoup de normaux.