4
149 Reinhard W oschek Ein Beitrag zur Diskussion des Rateproblems bei Me-Aufgaben Zusammenfassung: Im nachfolgenden Beitrag werden im Überblick Ergebnisse einer Studie vorgestellt, in der unter anderem das Rateverhalten der Probanden bei TIMSS-Aufgaben im Vergleich Schweiz zu Deutschland explizit hinterfragt wurde. Abstract: The following remarks extracted from a study conceming TIMSS-Items in comparison Switzer- land to Gerrnany give an overview to guessing behaviours and show that guessing had merely mi- nor effects on Me-test results. 1 Vorbemerkungen Standard-Absatz Wolfram Meyerhöfer und in Antwort Detlef Lind befassen sich in zwei Beiträgen des Journals für Mathematikdidaktik (1) mit dem Problem des Ratens bei Me (=multiple choice) - Aufgaben. Meyerhöfer bezweifelt die Gültigkeit der PISA- Testresultate wegen eben dieser Rateproblematik. Lind legt dar, dass die Me-Items kein Grund seien, die Testresultate in Frage zu stellen. Er benennt den Rateanteil im engeren Sinne als ,statistisches Rauschen'. 2 Rateproblematik Rateprozesse werden sich bei Me-Aufgaben wohl nur dann vermeiden lassen, wenn den Auswahl-Items grundsätzlich die Option ,keins von allen' beigefügt wird, Mehrfachant- worten möglich sind und zusätzlich falsche Antworten negativ in die Bewertung einge- hen. Dies war bei TIMSS und PISA nicht der Fall. Die Rateproblematik wurde bereits bei der Konstruktion der TIMSS-Tests beachtet. Dort war ein erheblicher Anteil der Aufgaben in Me-Form. Zu ihrer Bedeutung für die TIMSS-Ergebnisse führt Lind bereits 1999 in einem Exkurs über die dort eingesetzten Testmodellklassen aus: "Die Planer der TIMSS griffen auf eine Modellklasse zurück, [... ] die auch das sogenannte Raschmodell umfaßt. [ ... ] Bei der Testkonstruktion zu TIMSS wurde das Raschmodell auch für Aufgaben verwendet, bei denen nur eine Auswahlantwort anzukreuzen war. Da auch ein total unwissender Proband solche ,,Me-Items" durch Raten richtig beantworten kann, ist das Raschmodell für Tests mit derartigen Aufgaben eigentlich unangemessen. (JMD 25 (2004) H. 2, S. 149-152)

Ein Beitrag zur Diskussion des Rateproblems bei MC-Aufgaben

Embed Size (px)

Citation preview

149

Reinhard W oschek

Ein Beitrag zur Diskussion des Rateproblems bei Me-Aufgaben

Zusammenfassung:

Im nachfolgenden Beitrag werden im Überblick Ergebnisse einer Studie vorgestellt, in der unter anderem das Rateverhalten der Probanden bei TIMSS-Aufgaben im Vergleich Schweiz zu Deutschland explizit hinterfragt wurde.

Abstract:

The following remarks extracted from a study conceming TIMSS-Items in comparison Switzer­land to Gerrnany give an overview to guessing behaviours and show that guessing had merely mi­nor effects on Me-test results.

1 Vorbemerkungen

Standard-Absatz Wolfram Meyerhöfer und in Antwort Detlef Lind befassen sich in zwei Beiträgen des Journals für Mathematikdidaktik (1) mit dem Problem des Ratens bei Me (=multiple choice) - Aufgaben. Meyerhöfer bezweifelt die Gültigkeit der PISA­Testresultate wegen eben dieser Rateproblematik. Lind legt dar, dass die Me-Items kein Grund seien, die Testresultate in Frage zu stellen. Er benennt den Rateanteil im engeren Sinne als ,statistisches Rauschen'.

2 Rateproblematik

Rateprozesse werden sich bei Me-Aufgaben wohl nur dann vermeiden lassen, wenn den Auswahl-Items grundsätzlich die Option ,keins von allen' beigefügt wird, Mehrfachant­worten möglich sind und zusätzlich falsche Antworten negativ in die Bewertung einge­hen. Dies war bei TIMSS und PISA nicht der Fall.

Die Rateproblematik wurde bereits bei der Konstruktion der TIMSS-Tests beachtet. Dort war ein erheblicher Anteil der Aufgaben in Me-Form. Zu ihrer Bedeutung für die TIMSS-Ergebnisse führt Lind bereits 1999 in einem Exkurs über die dort eingesetzten Testmodellklassen aus:

"Die Planer der TIMSS griffen auf eine Modellklasse zurück, [ ... ] die auch das sogenannte Raschmodell umfaßt. [ ... ] Bei der Testkonstruktion zu TIMSS wurde das Raschmodell auch für Aufgaben verwendet, bei denen nur eine Auswahlantwort anzukreuzen war. Da auch ein total unwissender Proband solche ,,Me-Items" durch Raten richtig beantworten kann, ist das Raschmodell für Tests mit derartigen Aufgaben eigentlich unangemessen.

(JMD 25 (2004) H. 2, S. 149-152)

150 Reinhard Woschek

Die Planer der TIMSS haben es trotzdem verwendet, da sie davon ausgin­gen, daß die konstruierten MC-Items ftir die Zielpopulation leicht genug waren und daher nicht zum Raten animierten." (2)

Es ist aufschlußreich, den Ursprung der in den USA verbreiteten MC-Tests und die damit einher gehenden Ratetechniken zu verfolgen:

On April 26, 1983, a blue-ribbon commission appointed by the Reagan admini­stration released "A Nation at Risk" - areport chock-full of strong language and disturbing findings on the state of education in the United States.

"Our Nation is at risk," the report stated. "The educational foundations of our society are presently being eroded by a rising tide of mediocrity that threatens our very future as a Nation and a people. (3)

Als Abhilfe gegen die Mittelmäßigkeit wurden Tests vorgeschlagen. Eine der grund­legenden Ideen war, dass eine erhöhte Testfrequenz die Unterrichtsqualität erhöhen kön­ne. Peter Sacks bezeichnet, diskutiert und kritisiert dies als ,American test culture' (4).

In der Folge dieser Tests entstand eine wirtschaftlich orientierte ,testwiseness'-Kultur (5), die es sich zum Ziel setzte, den Probanden eine Beantwortung von MC-Fragen zu ermöglichen, ohne die Antwort zu wissen. Ich möchte das angestrebte Ziel dieser testwi­seness-Kultur als ,intelligent guessing' bezeichnen. Diese Ratestrategien sind in den USA verbreitet, ohne dass deshalb an der Aussagekraft der MC-Tests gezweifelt wird.

Somit wäre es bei der Diskussion um die Rateproblematik hilfreich, den Rateanteil einmal tatsächlich zu ermitteln. Auf dieser Basis ließe sich diskutieren, ob es sich um statistisches Rauschen nach Lind oder um wesentliche Effekte nach Meyerhöfer handelt.

Solche Daten wurden in der nachfolgend zitierten Studie l explizit erhoben, so dass man einen Eindruck von Ratehäufigkeit und Rateerfolg erhält.

3 Details aus dem Studiendesign

Die Studie umfasst etwa 2200 elaboriert bearbeitete Aufgaben zu TIMSS 2 von Gymna­sialschülern der Klasse 7 aus der Schweiz und Deutschland. Alle Schüler wurden dazu ermuntert, ihre Aufgaben zu kommentieren. Im Gegensatz zu TIMSS stand hinreichend Zeit zur Verftigung. Raten war als Lösungsweg ausdrücklich zugelassen. Die vorgefer­tigten Kommentare enthielten unter anderem Qualitäten des Ratens:

D Das Ergebnis kann man leicht erraten. D Ich rate das Ergebnis, weil mir dazu kein Rechenweg einflillt. D Zu der Aufgabe mächte ich noch sagen, daß ...

Zusätzlich standen nicht nur Diskriminatoren zu den Gründen des Ratens, sondern auch zu Gründen der Nichtbearbeitung zur Verftigung.

1 Die Studie ist noch unveröffentlicht. Sie wird in Kürze als Dissertationsschrift des Autors erscheinen.

Diskussionsbeiträge 151

Der Antwortgrad auf die gewünschten Aufgabenkommentierungen war hoch. Da Ra­ten als Lösungsweg ausdrücklich zugelassen war, kann davon ausgegangen werden, dass im überwiegenden Teil der Bearbeitungen ehrlich geantwortet wurde.

4 Ergebnisse

• Es wurden - gerechnet über beide Länderpopulationen - 8,2 % der Aufgaben gera­ten.

• Der Rateerfolg weicht lediglich etwa 2 % vom zu erwartenden statistischen Erfolg ab.

• Dies spricht dafür, dass höchstens punktuell, nicht aber durchgängig testwiseness­Strategien eingesetzt wurden.

• Die Gleichverteilung erweckt daher Vertrauen in die Korrektheit der Angaben in den Schülerquestionnaires.

Differenziert man getrennt nach Schweizer und deutschen Schülern, so ergibt sich ein deutlich anderes Bild:

geratene Aufgaben nach Länderverteilung (prozentual) Anzahl bearbei- % geratene davon richtig ge- davon falsch ge-teter Aufgaben Aufgaben raten in % raten in %

GER 1138 10,2 4,6 5,6 CH 710 4,4 2,4 2,0

• Die Schweizer Schüler haben eine prozentual nur halb so große Ratehäufigkeit, ob­wohl für sie die Geometrieaufgaben großenteils curriculuminvalide waren.

• Die Gleichverteilung des Rateerfolges bleibt jedoch etwa erhalten.

Interessant ist sicher auch ein Vergleich der Anzahl geratener zur Anzahl erst gar nicht bearbeiteter Aufgaben. Hier ergibt sich für die deutschen Schüler eine Anzahl von 160 nicht bearbeiteten Aufgaben gegenüber 116 geratenen Aufgaben, die Schweizer Schüler haben 40 Aufgaben nicht bearbeitet bei 31 geratenen Aufgaben.

5 Zusammenfassung

• Die Ratehäufigkeit liegt zwischen 5% (Schweiz) und 10% (Deutschland). Sie liegt in beiden Ländern unterhalb des Prozentsatzes nicht bearbeiteter Aufgaben.

• Trotz deutlicher Länderunterschiede in der Ratehäufigkeit liegt der Rateerfolg gleichbleibend bei etwa 50%.

• Somit ist nach dieser Studie die Annahme von Lind (statistisches Rauschen beim Raten von Me-Items) wesentlich glaubhafter als die These von Meyerhöher, MC­Items seien für solche Vergleichsuntersuchungen wegen der Rateproblematik nicht geeignet.

• Diese Annahme wird verstärkt durch einen Vergleich der Anzahl geratener zu der nicht bearbeiteter Aufgaben

152 Reinhard Woschek

• Eine Differenzierung nach der von Lind angedeuteten Schwierigkeitsproblematik wäre zwar möglich, scheint aber nach den Ergebnissen (statistische Ratehäufigkeit über verschiedene Länderpopulationen) nicht mehr erforderlich.

6 Literatur

Journal rur Mathematikdidaktik 25(2004)1, 62-70,70-74, Stuttgart, Leipzig und Wiesbaden: Teub­ner.

Lind, D.[1999]: Über die in TIMSS verwendeten Testmodelle. In: Beiträge zum Mathematikunter­richt, 349ff, Hildesheim: franzbecker.

http://www.csmonitor.com/2003/0422/p13s02-lepr.html. Christian Science Monitor, Twenty Years after ,A Nation at Risk'

Standardized Minds: The High Price Of America's Testing Culture, Da Capo Press, 2000 http://www.acs.ucalgary.ca/-dmjacobs/study_skills_sites.html. Achieving

Academic success, Study Skills and Testwiseness

Adresse des Autors

Sill a.D. Reinhard Woschek Wieselweg 8 41239 Mönchengladbach Email: [email protected]