Fiabilité et validité dans la recherche

Mesurer la fiabilité et la validité dans la recherche

La fiabilité fait référence à la cohérence ou à la fiabilité d’une technique de mesure, et concerne la cohérence ou la stabilité du score obtenu à partir d’une mesure ou d’une évaluation dans le temps et dans différents environnements ou conditions. Si la mesure est fiable, il y a moins de chances que le score obtenu soit dû à des facteurs aléatoires et à une erreur de mesure.

Alors comment savoir si une méthode ou un instrument de mesure est fiable ?

Dans sa forme la plus simple, la fiabilité fait référence à la relation entre des ensembles de scores dérivés indépendamment, tels que les scores d’un instrument d’évaluation à deux occasions distinctes. En conséquence, la fiabilité est généralement exprimée sous la forme d’un coefﬁcient de corrélation, qui est une analyse statistique qui nous renseigne sur la relation entre deux ensembles de scores ou de variables. Une fiabilité adéquate existe lorsque le coefﬁcient de corrélation est de 0,80 ou plus.

Stratégies visant à accroître la fiabilité et à minimiser les erreurs de mesure

Ces suggestions doivent être prises en compte lors de la phase de conception de l’étude et doivent se concentrer sur la collecte des données et les stratégies de mesure utilisées pour mesurer les variables indépendantes et dépendantes. Tout d’abord, l’administration de l’instrument ou la stratégie de mesure doit être standardisée ; toutes les mesures doivent être effectuées de manière aussi cohérente que possible. En d’autres termes, l’administration des stratégies de mesure doit être cohérente pour tous les participants prenant part à l’étude. Deuxièmement, les chercheurs doivent s’assurer que les participants comprennent les instructions et le contenu de l’instrument ou de la stratégie de mesure. Si les participants ont des difﬁcultés à comprendre l’objectif ou les instructions de la mesure, ils risquent de ne pas répondre avec précision, ce qui pourrait biaiser les données. Troisièmement, tout chercheur impliqué dans la collecte de données
doivent être formés de manière approfondie à l’utilisation de la stratégie de mesure.

Il faut également prévoir de nombreuses occasions de s’exercer avant le début de l’étude et de répéter l’entraînement au cours de l’étude pour maintenir la cohérence. Enfin, tout doit être fait pour que les données soient enregistrées, compilées et analysées avec précision. La saisie des données doit être étroitement surveillée et des audits doivent être effectués régulièrement.

Évaluer la fiabilité

La fiabilité et la validité d’une recherche peuvent être déterminées par différentes méthodes :

La fiabilité du test fait référence à la stabilité des résultats du test dans le temps et implique la répétition du même test à au moins une autre occasion. Par exemple, l’administration de la même mesure de la performance scolaire à deux occasions distinctes, à six mois d’intervalle, est un exemple de ce type de fiabilité. L’intervalle de temps entre les administrations doit être pris en compte avec cette forme de fiabilité car les corrélations test-retest ont tendance à diminuer à mesure que l’intervalle de temps augmente.
La fiabilité de la moitié d’un test consiste à administrer un test unique divisé en deux moitiés égales. Par exemple, un test d’aptitude de 60 questions destiné à mesurer un aspect des performances scolaires pourrait être divisé en deux tests distincts mais égaux de 30 questions chacun. Théoriquement, les items des deux formulaires mesurent le même construit. Cette approche est beaucoup moins sensible aux effets d’intervalle de temps car tous les items sont administrés en même temps et ensuite divisés en pools d’items séparés.
La fiabilité des formes alternatives est exprimée comme la corrélation entre différentes formes de la même mesure où les items de chaque mesure représentent le même contenu et le même construit d’items. Cette approche nécessite deux formes différentes du même instrument, qui sont ensuite administrées à des moments différents. Les deux formulaires doivent couvrir un contenu identique et avoir un niveau de difﬁculté similaire. Les résultats des deux tests sont ensuite corrélés.
La fiabilité inter-évaluateurs est utilisée pour déterminer l’accord entre différents juges ou évaluateurs lorsqu’ils observent ou évaluent la performance d’autres personnes. Supposons, par exemple, que deux évaluateurs évaluent le comportement d’un enfant et que vous définissiez le « comportement de performance » comme le nombre de fois où l’enfant refuse de faire ses devoirs en classe. La mesure dans laquelle les évaluateurs sont d’accord sur la question de savoir si ou quand le comportement se produit reﬂect ce type de fiabilité.

Rappelez-vous que le concept de validité fait référence à ce que le test ou la stratégie de mesure mesure et à la façon dont il le fait. En d’autres termes, il cherche à répondre à la question suivante : « L’instrument ou l’approche de mesure mesure-t-il ce qu’il est censé mesurer ? »

Types de validité dans la recherche

Validité du contenu

La validité de contenu fait référence à la pertinence de l’instrument ou de la stratégie de mesure par rapport au concept mesuré.

Validité des critères

La validité du critère est déterminée par la relation entre une mesure et la performance sur un critère ou une mesure externe. La validité du critère concomitant fait référence à la relation entre les mesures prises en même temps. La validité du critère prédictif fait référence à la relation entre des mesures prises à des moments différents.

Validité de la structure

La validité de construction évalue dans quelle mesure le test ou la stratégie de mesure permet de mesurer une construction ou un trait théorique. Il existe une variété d’approches pour déterminer la validité des concepts, qui se concentrent sur la mesure dans laquelle la mesure d’un concept donné converge ou dévie de la mesure de concepts similaires ou différents.

Instruments et stratégies de mesure disponibles dans le commerce

Les chercheurs disposent d’un grand nombre d’instruments de mesure disponibles dans le commerce, particulièrement abondants dans les domaines de la recherche psychologique et éducative. Les chercheurs doivent prendre en compte un certain nombre de facteurs lorsqu’ils décident si un test existant est approprié pour la collecte de données dans une étude de recherche. La prise en compte des propriétés psychométriques (fiabilité et validité dans la recherche) est toujours une ﬁrst étape essentielle.

Voici une liste non exhaustive d’autres facteurs à prendre en compte lors de l’évaluation d’un test :