Messung von Zuverlässigkeit und Gültigkeit in der Forschung

Die Zuverlässigkeit bezieht sich auf die Konsistenz oder Verlässlichkeit eines Messverfahrens und bezieht sich auf die Konsistenz oder Stabilität des Ergebnisses einer Messung oder Beurteilung im Laufe der Zeit und unter verschiedenen Umständen oder Bedingungen. Wenn die Messung zuverlässig ist, ist die Wahrscheinlichkeit geringer, dass die erzielte Punktzahl auf Zufallsfaktoren und Messfehler zurückzuführen ist.

Woher wissen wir also, ob eine Messmethode oder ein Instrument zuverlässig ist?

In ihrer einfachsten Form bezieht sich die Zuverlässigkeit auf die Beziehung zwischen unabhängig voneinander ermittelten Werten, z. B. den Werten eines Bewertungsinstruments bei zwei verschiedenen Gelegenheiten. Dementsprechend wird die Zuverlässigkeit in der Regel als Korrelationskoefffizient ausgedrückt, eine statistische Analyse, die uns etwas über die Beziehung zwischen zwei Gruppen von Werten oder Variablen sagt. Angemessene Zuverlässigkeit liegt vor, wenn der Korrelationskoefffizient 0,80 oder mehr beträgt.

Strategien zur Erhöhung der Zuverlässigkeit und Minimierung von Messfehlern

Diese Vorschläge sollten in der Planungsphase der Studie berücksichtigt werden und sich auf die Datenerhebungs- und Messstrategien konzentrieren, die zur Messung der unabhängigen und abhängigen Variablen verwendet werden. Erstens sollte die Anwendung des Instruments oder der Messstrategie standardisiert werden; alle Messungen sollten so einheitlich wie möglich durchgeführt werden. Mit anderen Worten: Die Messstrategien sollten für alle Teilnehmer der Studie einheitlich sein. Zweitens müssen die Forscher sicherstellen, dass die Teilnehmer die Anweisungen und den Inhalt des Instruments oder der Messstrategie verstehen. Wenn die Teilnehmer Schwierigkeiten haben, den Zweck oder die Anweisungen der Messung zu verstehen, antworten sie möglicherweise nicht richtig, was die Daten verfälschen könnte. Drittens: Jeder an der Datenerhebung beteiligte Forscher
sollten in der Anwendung der Messstrategie gründlich geschult werden.

Außerdem sollte vor Beginn der Studie ausreichend Gelegenheit zum Üben gegeben werden, und im Verlauf der Studie sollte das Training wiederholt werden, um die Konsistenz zu gewährleisten. Schließlich sollten alle Anstrengungen unternommen werden, um sicherzustellen, dass die Daten genau erfasst, zusammengestellt und analysiert werden. Die Dateneingabe sollte genau überwacht werden, und es sollten regelmäßig Audits durchgeführt werden.

Bewertung der Zuverlässigkeit

Die Zuverlässigkeit und Gültigkeit von Forschungsergebnissen kann mit verschiedenen Methoden ermittelt werden:

  1. Die Zuverlässigkeit eines Tests bezieht sich auf die Stabilität der Testergebnisse im Laufe der Zeit und setzt die Wiederholung desselben Tests bei mindestens einer weiteren Gelegenheit voraus. Ein Beispiel für diese Art von Zuverlässigkeit ist die Durchführung derselben Messung der akademischen Leistung bei zwei verschiedenen Gelegenheiten im Abstand von sechs Monaten. Bei dieser Form der Reliabilität sollte das Zeitintervall zwischen den Testdurchführungen berücksichtigt werden, da die Test-Retest-Korrelationen mit zunehmendem Zeitintervall tendenziell abnehmen.
  2. Die Split-Half-Reliabilität bezieht sich auf die Durchführung eines einzigen Tests, der in zwei gleiche Hälften geteilt wird. So könnte beispielsweise ein Eignungstest mit 60 Fragen, der einen Aspekt der akademischen Leistung messen soll, in zwei separate, aber gleiche Tests mit jeweils 30 Fragen aufgeteilt werden. Theoretisch messen die Items in beiden Formen das gleiche Konstrukt. Dieser Ansatz ist viel weniger anfällig für Zeitintervalleffekte, da alle Items zur gleichen Zeit bearbeitet und dann in separate Item-Pools aufgeteilt werden.
  3. Die Reliabilität von alternativen Formen wird als Korrelation zwischen verschiedenen Formen derselben Messung ausgedrückt, wobei die Items in jeder Messung denselben Inhalt und dasselbe Konstrukt von Items darstellen. Dieser Ansatz erfordert zwei verschiedene Formen desselben Instruments, die dann zu unterschiedlichen Zeitpunkten eingesetzt werden. Die beiden Formulare müssen den gleichen Inhalt abdecken und einen ähnlichen Schwierigkeitsgrad aufweisen. Die Ergebnisse der beiden Tests werden dann miteinander in Beziehung gesetzt.
  4. Die Inter-Rater-Reliabilität wird verwendet, um die Übereinstimmung zwischen verschiedenen Beurteilern oder Bewertern bei der Beobachtung oder Bewertung der Leistung anderer zu ermitteln. Angenommen, Sie haben zwei Bewerter, die das Verhalten eines Kindes beurteilen, und Sie operationalisieren „Leistungsverhalten“ als die Anzahl der Fälle, in denen sich das Kind weigert, seine Hausaufgaben im Unterricht zu machen. Das Ausmaß, in dem die Beurteiler darin übereinstimmen, ob oder wann das Verhalten auftritt, wirkt sich auf diese Art der Zuverlässigkeit aus.

Zur Erinnerung: Das Konzept der Validität bezieht sich darauf, was der Test oder die Messstrategie misst und wie gut sie dies tut. Mit anderen Worten: Es geht um die Beantwortung der folgenden Frage: „Misst das Instrument oder der Messansatz das, was es/er messen soll?“

Arten der Validität in der Forschung

Inhaltliche Gültigkeit

Die Inhaltsvalidität bezieht sich auf die Relevanz des Instruments oder der Messstrategie für das zu messende Konstrukt.

Kriteriumsvalidität

Die Kriteriumsvalidität wird durch den Zusammenhang zwischen einer Maßnahme und der Leistung bei einem externen Kriterium oder einer Maßnahme bestimmt. Die gleichzeitige Kriteriumsvalidität bezieht sich auf die Beziehung zwischen gleichzeitig durchgeführten Messungen. Die prädiktive Kriteriumsvalidität bezieht sich auf die Beziehung zwischen den zu unterschiedlichen Zeitpunkten durchgeführten Messungen.

Konstruktvalidität

Die Konstruktvalidität bewertet das Ausmaß, in dem der Test oder die Messstrategie ein theoretisches Konstrukt oder Merkmal misst. Es gibt eine Vielzahl von Ansätzen zur Bestimmung der Konstruktvalidität, die sich darauf konzentrieren, inwieweit die Messung eines bestimmten Konstrukts mit der Messung ähnlicher oder anderer Konstrukte konvergiert oder davon abweicht.

Kommerziell verfügbare Messinstrumente und -strategien

Den Forschern steht eine große Anzahl von kommerziell erhältlichen Messinstrumenten zur Verfügung, die vor allem im Bereich der psychologischen und pädagogischen Forschung sehr zahlreich sind. Forscher sollten bei der Entscheidung, ob ein vorhandener Test für die Datenerhebung in einer Forschungsstudie geeignet ist, eine Reihe von Faktoren berücksichtigen. Die Berücksichtigung psychometrischer Eigenschaften (Reliabilität und Validität in der Forschung) ist immer ein wesentlicher erster Schritt.

Im Folgenden finden Sie eine nicht erschöpfende Liste weiterer Faktoren, die bei der Bewertung eines Tests zu berücksichtigen sind:

  • Verlässlichkeit
  • Gültigkeit
  • Kosten
  • Zeitaufwand für die Verwaltung
  • Leseniveau
  • Dauer der Prüfung
  • Theoretische Fundiertheit
  • Normen
  • Standardisiertes Verwaltungsverfahren
  • Ein gut dokumentiertes Handbuch