Zum Kompetenzstufenmodell von PISA

294

Wolfram MeyerhOfer

Zum Kompetenzstufenmodell von PISA

Zusammenfassung: PISA beruft sich fur die inhaltliche Interpretation der mathematischen Testergebnisse auf ein Kompetenzstufenmodell, bei dem (nichtlinear und indirekt) die Losungshaufigkeiten der Aufgaben als Schwierigkeitswerte interpretiert werden.

In diesem Beitrag wird behauptet und zur Diskussion gestellt, dass die Losungshaufigkeiten der mathematischen PISA-Aufgaben allein und allgemein keine Aussage tiber ihre Schwierigkeit zulassen. Daraus wird gefolgert, dass man kein Modell konstruieren kann, welches aus der Losungshaufigkeit Aussagen tiber die Aufgabenschwierigkeit und daraus Aussagen iiber Schiilerkompetenzen zieht. Die inhaltliche Tragfahigkeit einer statistischen Definition von Schwierigkeit wird in Frage gestellt. 1m Beitrag wird zum anderen behauptet und zur Diskussion gestellt, dass die bei PISA verwendeten Kompetenzstufen so konstruiert sind, dass Aufgaben diesen Stu fen nicht zugeordnet werden konnen.

Das Programme for International Student Assessment (PISA) hat fur Deutschland einen Mathematikleistungswert von 490 bei einem OECD-Durchschnitt von 500 ermittelt. Deutschland Iiegt damit auf Platz 20 von 31 Teilnehmern. Die inhaltliche Interpretation dieses Ergebnisses (siehe Klieme, Neubrand, Ltidtke 2001, S.167 - 185) fuBt aufeinem KompetenzstufenmodeII, bei dem aus der Losungshaufigkeit der Aufgaben auf Kompetenzen der beteiligten Schtiler geschlossen wird. In diesem Beitrag wird eine Argumentation geflihrt, die die Aussagekraft dieses Kompetenzstufenmodells flir den mathematischen Testteil problematisiert. Zu den anderen Testteilen wird hier nicht argumentiert, aber es wiirde nicht iiberraschen, wenn sich die Grundprobleme dort reproduzierten.

Untersuchungsdesign

Die vorliegende Untersuchung betrachtet den vollstandigen Korpus jener internationalen mathematischen PISA-Aufgaben, welche der wissenschaftlichen Debatte tiber das Kompetenzstufenmodell zur Verfiigung stehen. Das sind die Aufgaben, deren Losungshaufigkeiten (und damit "Schwierigkeitswerte" in Rasch-Skalierung) und deren Aufgabentexte verOffentlicht sind. I

Zwar sind flir die inhaltliche Beschreibung der Kompetenzstufen die 86 nationalen Aufgaben hinzugezogen worden, flir eine das Modell dekonstruierende Argumentation gentigen aber die international en Aufgaben: Nur diese Aufgaben dienen als Gertist des ModeIIs, und nur diese Aufgaben stehen flir die Diskussion der Spezifik deutschen Ma-

I Die Aufgaben, die diese Bedingungen erfullen, sind in Klieme, Neubrand, Liidtke 200 I, S. 148, 152, 178, veroffentlicht. Aus den insgesamt 31 intemationalen Aufgaben sind das die Aufgaben "BauemhOfe", "Apfel" und "Dreiecke" mit insgesamt 6 Teilaufgaben. Weitere Aufgabenbeispiele, die aber nicht losbar sind (Aufgabe "Flache eines Kontinents"), nicht verwendet wurden bzw. fur die keine Daten zur Losungshaufigkeit vorliegen, finden sich in OECD 1999 und Neubrand u.a. 200 I.

(JMD 25 (2004) H. 3/4, S. 294-305)

Diskussionsbeitrage 295

thematikunterrichts und damit der Ursachen fur internationale Testleistungsunterschiede

zur Verfugung.2

Die Argumentation erfolgt auf zwei Ebenen: Nach einer kurzen Vorstellung des Kompetenzstufenmodells (Abschnitt 1) wird in Abschnitt 2 gezeigt, wie die Vielfalt von Losungszugangen es problematisch macht, den Losungshaufigkeitswert einer Aufgabe inhaltlich eindeutig zu interpretieren. Deshalb erweist es sich als unmoglich, den Kompetenzstufen einen Inhalt zuzuschreiben, so dass sich das Modell fur inhaltliche Aussagen als unbrauchbar erweist. 1m Abschnitt 3 wird die sich bereits in Abschnitt 2 andeutende Schwierigkeit, einzelne Losungswege bestimmten Kompetenzstufen zuzuordnen, naher betrachtet. Das Kompetenzstufenmodell erweist sich dabei zusatzlich als in seinen Kategorien fragwtirdig konstruiert.

1 Motivation und Konstruktion des Kompetenzstufenmodells

1.1 Motivation

Bei PISA wird das Konstrukt "Mathematikleistung" gem essen, dessen Inhalt die Summe dessen ist, was die einzelnen Aufgaben messen. Ein vieldimensionaler (und durch Diffusitat zwischen den Dimensionen gekennzeichneter) Wirklichkeitsbereich - namlich Mathematikleistung - soli erfasst werden. Dazu werden Aufgaben in einem Test zusammengestellt (siehe Neubrand u.a. 2001). 1m Idealfall ist der Aufgabenkorpus aus einer adaquaten Operationalisierung eines zuvor theoretisch erarbeiteten Konstrukts entstanden, denn dieser Aufgabenkorpus legt ja nun fest, was "Mathematikleistung" bei PISA ist: Ein Punktwert.

Ein Punktwert - ob fur einen Schtiler, eine Schule oder ein Land - befriedigt zwar ein voyeuristisches Interesse, wie kann man ihn aber inhaltlich deuten und flir einen Erkenntnisgewinn nutzen? Bei einer Klassenarbeit kann man Losungswege, Fehlverstandnis, Vergessen, Irritation, Halbwissen usw. rekonstruieren. Die PISA-Gruppe arbeitet zur Deutung der Resultate mit einem Kompetenzstufenmodell, mit dessen Hilfe sie weitreichende Schlussfolgerungen tiber Fahigkeitsverteilungen, tiber Starken und Schwachen (Klieme, Neubrand, LUdtke 2001, S.167-172, 177-179) sowie tiber Bedingungsfaktoren mathematischer Grundbildung (ebenda, S.IS0-1S3) im nationalen und internationalen Ma13stab zieht.

2 FUr die nationalen Aufgaben liegen keine internationalen Testwerte vor. Da die deutschen und die internationalen Losungshaufigkeiten sich unterscheiden, ist keine inhaltlich sinnvolle Fiitterung des durch die internationalen Aufgaben aufgebauten GerUsts durch nationale Aufgaben moglich, welche die weittragenden aus dem Kompetenzstufenmodell abgeleiteten Interpretationen fundieren konnte. FUr die Konstruktion der Kompetenzstufen kommt hinzu, dass die deutschen und die internationalen Losungshaufigkeiten eine Aufgabe manchmal auf zwei verschiedene Kompetenzstufen verweist.

296 Wolfram Meyerhofer

1.2 Konstruktion

Bei der Testauswertung werden zunachst die Losungshaufigkeiten in raschskalierte Aufgab en- und Personenwerte umgerechnet, wobei eine Person mit einem bestimmten Fahigkeitswert x die Aufgabe mit dem gleichen Punktwert x "mit einer Wahrscheinlichkeit" von 0,62 losen kann. Man hat also eine Liste der Losungshaufigkeiten der SchUler und eine Liste der Losungshaufigkeiten der Aufgaben. Mit HiIfe einer "VerknUpfungswahrscheinlichkeit" von 62% konstruiert man daraus eine Rasch-Skala, so dass die Elemente beider Listen nun auf der gleichen Skala eingeordnet werden konnen. Umgekehrt ist jetzt eine "inhaltliche" Aussage moglich: Ein SchUler mit dem Punktwert x lOst eine Aufgabe mit dem gleichen Punktwert x mit einer Wahrscheinlichkeit von 62%. Zur Bildung der Kompetenzstufen wird nun das gesamte "Fahigkeitsspektrum" in ftinf "gleich groBe" Abschnitte unterteilt. "Wie breit die Abschnitte sind, ergibt sich aus der Forderung, dass aile SchUler, die zu einer bestimmten Kompetenzstufe gehiiren, mindestens etwa 50 Prozent cler Aufgaben dieser Stufe losen konnen". Umgekehrt werden von einem Schiiler, dessen Kompetenz z.B. der Stufe II zugeordnet ist, die Aufgaben der Stufe III in weniger als 50 Prozent der Faile positiv bewertet. (Deutsches PISA-Konsortium 2001, S.80 ff., 187,517 ff.) Konkret heiBt das: Wennjeder Aufgabe ein Punktwert zugeordnet wurde, kann man das Intervall der Aufgabenpunktwerte in ftinf (bzw. beliebig viele) gleich groBe Abschnitte teilen. In den einzelnen Abschnitten liegen unterschiedlich viele Aufgaben und unterschiedlich viele SchUler. Die Aufgaben werden nach Punktwerten direkt zugeordnet, die SchUler Uber eine zusatzliche "Verknupfungswahrscheinlichkeit" von 50%.

Klieme, Neubrand, LUdtke (2001) beschreiben die Kompetenzstufen dann inhaltlich: "Personen mit ihren Fahigkeiten und Aufgaben mit ihren Schwierigkeitskennwerten werden bei der Konstruktion des PISA-Tests auf ein und derselben Skala angeordnet. Will man verstehen, wodurch sich Personen mit hoher (resp. niedriger) mathematischer Kompetenz im Sinne von PISA auszeichnen, muss man demnach die Anforderungsmerkmale der schwierigen (resp. leichten) Aufgaben betrachten. [ ... ] Die Schwierigkeitsstufen der Testaufgaben werden in Kompetenzstufen der Testbearbeiter "Ubersetzt".

[ ... ] Der intemationale Bericht verzichtet ... auf eine inhaltliche Beschreibung aller fiinf Stufen, wei! dies allein aufgrund der 31 international verwendeten Testitems nicht moglich ist. Indem die 86 nationalen Erganzungsaufgaben ebenfalls auf der PISA-Skala verankert werden - gerechtfertigt durch den Befund, dass beide Testteile eine gemeinsame Dimension bi!den -, gelingt es, die Stufen naher zu charakterisieren [ ... ].[Im folgenden werden die Stufen naher beschrieben, ich muss aus KUrzungsgrUnden auf die Wiedergabe der Beschreibungen hier verzichten. W.M.] Stufe I: Rechnen auf Grundschulniveau (Skalenwerte 329-420) Stufe II: Elementare Modellierungen (Skalenwerte 421-511) Stufe III: Modellieren und begriffliches VerknUpfen auf dem Niveau der Sekundarstufe I (Skalenwerte 512-603) Stufe IV: Umfangreiche Modellierungen auf der Basis anspruchsvoller Begriffe (Skalenwerte 604-695) Stufe V: Komplexe Modellierungen und innermathematisches Argumentieren (Skalenwerte Uber 696)" (Klieme, Neubrand, LUdtke 2001, S.159 f.)


2 Losongsvielfalt von Aofgaben ond Mischwertcharakter von "Schwierigkeitswerten"

Das Kompetenzstufenmodell nimmt eine Klasseneinteilung von Schiilern aufgrund ihrer Testpunkte vor. Meine Kritik des Modells beruft sich nun nicht auf jenen Teil der Fragilitlit des Modells, welcher durch die oben beschriebenen geringen Verkniipfungswahrscheinlichkeiten zustande kommt - es ist schliel3lich vollig unklar, ab welcher Verkniipfungswahrscheinlichkeit man von einem iiberzeugenden Modell sprechen wollte.

Ich argumentiere ausschliel3lich damit, dass man die Kompetenzstufen inhaltlich nicht beschreiben kann: Durch das beschriebene Verfahren werden die Aufgaben den Kompetenzstufen zugeordnet. Will man nun eine Kompetenzstufe inhaltlich beschreiben, so muss man die in der Stufe versammelten Aufgaben untersuchen. In den nachfolgenden Aufgabeninterpretationen stellt sich dabei heraus, dass die Vielfalt von Losungswegen diese Beschreibung unmoglich macht. Die implizite Vorannahme der Existenz der Stu fen als inhaltlich Relevantes und Beschreibbares muss man dann verwerfen.

Wenn man die Stufen inhaltlich nicht beschreiben kann, kann man verschiedene Losungshliufigkeiten sowohl von Aufgaben als auch von Schiilern nicht deuten. Die Erkenntnis des Tests besteht dann nur noch aus Losungshliufigkeiten.

Aufgabeninterpretationen Will man interpretieren, was eine Aufgabe misst, welche Flihigkeiten ein Schiiler also haben muss, urn die Aufgabe zu losen, so gehort dazu zunlichst die Untersuchung, auf welchen verschiedenen Wegen die Aufgabe gelOst werden kann. Jeder denkbare Losungsweg mit seiner je spezifischen Schwierigkeit kann prinzipiell auch yom Schiller beschritten werden. Aus der Losungshliufigkeit einer Aufgabe ist allerdings nicht zu schlieBen, welcher der Losungswege gegangen wurde bzw. an welchen Losungswegen SchUler gescheitert sind, auf welcher Schwierigkeitsstufe die Aufgabe also gelOst (bzw. nicht gelOst) wurde. Deshalb llisst die Losungshaufigkeit einer Aufgabe keine direkte Aussage Uber ihre "Schwierigkeit" zu - es sei denn, man bezeichnete von vornherein eine geringe Losungshaufigkeit als groBe Schwierigkeit, was zu Widerspriichen ftihrt. Will man eine Losungshaufigkeit interpretieren, so ist dies nur moglich, wenn die verschiedenen Losungswege die gleiche Anforderungsstruktur haben, wie z.B. bei den Aufgaben "Dreiecke" und "BauernhOfe 1". FUr die Interpretation muss man aber in jedem Fall die Aufgabe selbst betrachten; die Kompetenzstufeneinordnung, die sich ausschliel3lich auf

die Losungshaufigkeit beruft, bringt hier keine Hilfe.3

3 Man kann nach Eruierung der Losungswege die Operationalisierung von "mathematischer Leistungsfahigkeit" in die Testaufgaben weiter untersuchen. So kann man fragen, welche Losungswege Zeitvorteile bringen, inwiefern der Aufgabentext einzelne Losungswege sHirkt oder schwacht und welche Elemente von TesWihigkeit die AufgabenlOsung erleichtern. Die Beantwortung dieser Fragen ist aber flir die vorliegende Argumentation zum Kompetenzstufenmodell nicht notig, da in keinem Fall ein moglicher Losungsweg durch den Aufgabentext zerstOrt wird und eine Debatte z.B. tiber Testfahigkeit die Argumentation zwar starken, aber verkomplizieren wtirde. Einige objektiv-hermeneutische Aufgabeninterpretationen, die die genannten Fragen untersuchen, finden sich in MeyerhOfer (2004, 2005).

298 Wolfram Meyerhofer

Die Untersuchung der Losungswege flir eine Aufgabe trifft keine Aussage tiber die Spezifik individueller Losungen. Die Argumentation erfolgt ausschlieBlich auf der Ebene moglicher Losungswege flir eine schulmathematische Frage. (Kognitionspsychologische UberJegungen sind hier nicht notwendig, da lediglich begrtindet werden soli, dass man die Kompetenzstufen inhaltlich nicht flillen kann.) Natiirlich kann ein Schtiler verschiedene Losungswege ausprobieren und mit ihnen erfolgreich sein oder scheitern, er ,kann Wege, Irrwege und Umwege kombinieren und variieren. Dartiber ist keine Aussage moglich, man kann also nur die Aufgaben selbst untersuchen. Noch bei TIMSS wurden die Aufgaben nach der "falschen" Frage interpretiert: Was soil der Schuler nach unserer Vorstellung tun, um die Aufgabe zu losen? (siehe MeyerhOfer 2001) Bei PISA fragt man schon: Wie kann der Schuler die Aufgabe losen? Die PISA-Gruppe betrachtet dann aber nur wenige Losungswege (siehe Klieme, Neubrand, Ltidtke 2001, S.147 - 151 flir die Aufgaben dieses Beitrags) und verkennt, dass die verschiedenen Losungswege die Zuordnung einer Aufgabe zu Fahigkeitsstufen tiber die Losungshaufigkeit unmoglich macht.

1m Folgenden werden fur vier der sechs Teilaufgaben des Untersuchungskorpus Losungswege betrachtet. Es wird versucht, die Losungswege inhaltlich den Kompetenzstufen zuzuordnen.4

Bauernhofe

Hier siehst du ein Foto eines Bauernhauses mit pyramidenformigem Dach.

Nachfolgend siehst du eine Skizze mit den entsprechenden Maj3en, die eine Schulerin vom Dach des Bauernhauses gezeichnet hat. Der Dachboden, in der Skizze ABCD, ist ein Quadrat. Die Balken, die das Dach stutzen, sind die Kanten eines Quaders (rechtwinkliges Prisma) EFGHKLMN. E ist die Milte von - - - -AT, Fist die Milte von BT, Gist die Mitte von CT und H ist die Milte von DT, Jede

Kante der Pyramide in der Skizze misst 12 m.

Bauernhofe 1. Berechne den Flacheninhalt des Dachbodens ABCD. Der Flacheninhalt des Dachbodens ABCD = m2

.

4 Da die Herausgeber des JMD in der Zwischenzeit die Lange von Diskussionsbeitragen begrenzt haben, muss ich auf die Darstellung zu den Aufgaben Apfel 1, 2 und 3 verzichten. Sie finden sich unter http://\\oww.math.uni-potsdam.de/prof/o didaktikimitaimeNeroe, wo eine elektronische Version dieses Beitrags abgelegt ist, welche auch diese Aufgaben enthalt.


Bauernhofe 2. Berechne die Lange von EF, einer der waagerechten Kanten des Quaders.

Die Lange von EF = ___ m.

Losungswege zu "BauernhOfe 2" und ihre Zuordnung zu Kompetenzstufen5

:

- Intuition: E, F, G und H sind Mittelpunkte von Pyramidenseiten. Es liegt nahe anzunehmen, dass EF halb so lang wie die gegebenen 12 m der Grundseite AB ist. Man kann das ausgehend von der Intuition auch nachmessen bzw. rechnerisch tiberprtifen, aber das intuitive Losen stellt einen eigenen Weg der Losungsgenerierung dar. In der Kompetenzstufentheorie hat dieser Weg keinen Platz, obwohl auch die PISA-Gruppe ihn sieht. (ebd.; S.151)

- Messen: Hier kann direkt in der Zeichnung gemessen werden, man kann aber auch vorher eine maBstabliche Zeichnung anfertigen und in ihr messen. Das Messresultat muss dann noch in das Ausgangsproblem tibertragen werden. Das Messenkonnen bewegt sich zwar eher auBerhalb dessen, was man mit "mathematisch" bezeichnet, hat aber seine eigene Bedeutung. Das Messen als empirisches Vorgehen ist hier keine Annaherung an geometrische Operationen, sondern eine Abkehr von ihr, weil es ihre Unnotigkeit zur Erlangung des Losungspunktes unterstreicht. In jedem Fall ist das Ausmessen einer Strecke und die Ubertragung des Gemessenen in das Ausgangsproblem eine Fahigkeit, die man auf Stufe I (Wissen auf Grundschulniveau) verweisen wtirde, man konnte die Grenze zu Stufe II schon tiberschritten sehen, insbesondere wenn man den Fokus auf die Modellierungsanforderung setzt.

- Losen uber den Satz von der Mittellinie des Dreiecks: Dazu muss man EF als Mittellinie des Dreiecks ABT erkennen und wissen, dass die Mittellinie eines Dreiecks halb so lang wie seine Basis ist. Dieser Weg verlangt lokales mathematisches Fakten- bzw. Satzwissen. Man wtirde ihn wohl auf Stufe II (wegen der Einfachheit der Modellierung) oder III (wegen der Verankerung des Wissensinhalts in der Sekundarstufe) einordnen.

- Losen uber den 2.Strahlensatz: Dieser Weg setzt die Erkenntnis voraus, dass die Strecken AT und BT durch ihre Mittelpunkte halbiert sind. AuBerdem muss erkannt werden, dass eine Konstruktion vorliegt, die tiber den Strahlensatz bearbeitet werden kann. Uber eine allgemeine Betrachtung oder tiber das Einsetzen von Zahlen bzw. Variablen gelangt man mit Hilfe des zweiten Strahlensatzes zur Losung. Dieser Weg verlangt genuin mathematisches Denken. Man wtirde ihn auf Stufe IV (umfangreiche technische Verarbeitungsprozesse, wenn man mit den Werten arbeitet) oder V (wenn man mit Halften argumentiert) ansiedeln.

5 Hier wird versucht, die grundsatzlich denkbaren Wege zur Erlangung des Uisungspunktes zu betrachten. Vollstandigkeit wird angestrebt, ist aber flir die Argumentation nicht notwendig. Die einzelnen Wege werden durch den Aufgabentext zwar gestarkt bzw. geschwacht, das Testziel ist aber lediglich die Erlangung des Uisungspunktes. Jede Moglichkeit, diesen Punkt zu erhalten, verweist auf Bestandteile dessen, was die Aufgabe misst. Die Forderung "Berechne" in der Aufgabenstellung von "BauernhOfe" starkt zwar z.B. rechnerische Uisungswege, die anderen Uisungswege werden durch den Aufgabentext aber nicht zerstOrt, im Gegenteil: Die Textanalyse zeigt, dass der Aufgabentext intuitives Vorgehen erheblich sUirkt.

300 Wolfram Meyerh6fer

- andere innermathematische Argumentationen: Ein elegantes Beispiel ist es, die drei Mittelpunkte der Dreiecksseiten miteinander zu verbinden und dann Kongruenzen der entstehenden Dreiecke zu betrachten. Man kann aber auch das obere Teildreieck klappen oder spiegeln. Hier sind auf jeden Fall komplexe Argumentationen notig, die aber z.T. auch rein intuitiv abgesichert sein konnen. Dieses Vorgehen verweist aufStufe V.

Die Aufgabe BauemhOfe 2 lasst verschiedenste Losungswege zu, die sehr unterschiedliche Fahigkeiten verlangen und auf die Stufen I bis V verweisen. Der intuitive Losungsweg ist nicht zuordenbar. Die einzelnen Wege sind mit verschiedenen Zeitverbrauchen versehen und lief em Losungen mit unterschiedlich groBer Gewissheit. Wichtig ist, dass sie Losungen lief em, die zum Ziel flihren, also zum Erwerb des Punktes flir die richtige Antwort. Dies leisten aile Wege. Wenn 55% der intemationalen Population (national 41 %) diesen Punkt erhalten, so ist der damit gegebene "Schwierigkeitswert" von 524 offensichtlich ein Mischwert. Dieser Wert verweist aber nach dem Kompetenzstufenmodell auf Kompetenzstufe III und damit auf einen bestimmten Aufgabencharakter bzw. auf Schillerfahigkeiten. Die Aufgabenanalyse zeigt im Gegensatz dazu, dass man aus der Losungshiiujigkeit weder auf den Aufgabencharakter oder die Aufgabenschwierigkeit noch auf die Schillerfahigkeiten schlieBen kann. Auch eine Wahrscheinlichkeitsaussage ilber bestimmte Losungswege ist nicht moglich, da jede inhaltliche Grundlage daflir fehlt. Filr die Konstruktion des Kompetenzstufenmodells steht die Frage, welche der hier denkbaren Losungswege die PISA-Gruppe benutzt hat, urn die Kompetenzstufe III zu beschreiben bzw. welche der Losungswege sie mit welcher Argumentation nicht berilcksichtigt hat.

Filr vier der sechs Aufgaben des Untersuchungskorpus zeigt sich, dass die aus den Losungswahrscheinlichkeiten errechneten "Schwierigkeitswerte" inhaItlich nicht interpretierbar sind. Die Aufgaben sind auf verschiedenen Schwierigkeitsniveaus IOsbar und es ist keine Aussage dartiber moglich, welchen Weg ein Schiller gegangen ist bzw. wie viele Schiller in zu vergleichenden Gruppen welche Wege gegangen sind. Damit ist aus der Losungshaufigkeit keine Schlussfolgerung auf mathematische Fahigkeiten des Losers moglich. Umgekehrt ist es nicht moglich, die Kompetenzstufen inhaltlich zu beschreiben, ihnen also Kompetenzen zu-zuordnen.6 Das Kompetenzstufenmodell erweist sich dam it als fUr inhaltliche Aussagen nicht verwendbar. Die Beschrankung der Untersuchung auf intemationale Aufgaben erfiihrt durch die Ergebnisse eine weiteres Argument: Da die Aufgaben inhaltlich nicht einem einzigen Wert auf einer (echten) Schwierigkeitsskala zuzuordnen sind, konnen sie nicht als Gertist flir eine Zuordnung von Losungshaufigkeiten zu Schwierigkeitsinterpretationen dienen.

6 Das Problem ist auch durch Befragung der Schiller zu ihren Uisungswegen wahrend des Tests nicht behebbar. Der Schiller mtisste dazu passiv oder aktiv (durch Ankreuzen vorgegebener Beschreibungen von Losungswegen oder durch Beschreiben seines Losungswegs) explizieren, wie er vorgegangen ist. Das setzt nicht nur voraus, dass der Schtiler irgendeinen Losungsweg gehen kann (Mischwege wtirden bei passiver Explikation sowieso ausgeblendet, DiffusiUiten waren auf diese Weise kaum erfassbar), sondem dass auch noch dartiber reflektieren kann. Es bliebe unkontrollierbar, in weIchem MaBe das der Fall ist - ob man also etwas tiber den Losungsweg des Schtilers 0-

der tiber seine Fahigkeit zur Explikation des Losungsweges erflihrt -, wieviel durch Vorgaben suggeriert wird und ob die Verteilung der Losungswege unter denen, die sich auBem und denen, die sich nicht auBem, gleich ist.


3 Zurn Begriff der Schwierigkeit

Der eben dargestellten Argumentation wurde in Diskussionen entgegen gehalten, dass ich mich auf die Grundannahmen von PISA nicht einlasse. Insbesondere wird in der Testtheorie "Schwierigkeit" empirisch definiert, nicht analytisch, deshalb gehe die Argumentation von vorn herein am Tun von PISA vorbei. Gerade die inhaltliche Tragfahigkeit dieser empirisch-statistischen Definition von Schwierigkeit stelle ich mit meiner Argumentation in Frage. Es scheint mir auch semantisch problematisch zu sein, den Begriff der Schwierigkeit auf eine Weise zu verwenden, dass dieselbe Aufgabe national und international als verschieden schwierig angesehen wird, weil sie verschieden haufig korrekt gelost wird.

Die Alternative kann nun nicht sein, Schwierigkeit als subjektive Schwierigkeit zu fassen, weil subjektive Schwierigkeit einer hohen Unscharfe - im Sinne der Analyse der Schwierigkeit von Aufgaben sogar einer gewissen Beliebigkeit - unterliegt.7 In Interviews mit Schtilern tiber Aufgaben zeigt sich, dass Schtiler an Problemen scheitern konnen, die man in keiner Weise der Aufgabe selbst und ihrer Schwierigkeit zuschreiben kann. Die Alternative kann nur sein, den Begriff der Schwierigkeit einer Aufgabe an Eigenschaften der Aufgabe selbst zu binden, und diese Eigenschaften inhaltlich zu explizieren. In diesem Sinne kann man meine Argumentation als "empirischen Dekonstruktion" bezeichnen, das empirische Faktum, das hier analysiert wird, sind die Aufgaben. Subjektive Schwierigkeiten lassen sich wiederum nur vor dem Hintergrund einer solchen Analyse von Aufgabeneigenschaften verstehen.

lch mochte mein Argument mit einem Verweis auf den Lernprozess vertiefen: Bereits im Lernprozess ist nicht anzunehmen, dass das intellektuell (bzw. kognitiv) Schwierigere wirklich leichter - erst recht nicht haufiger - bewaltigt bzw. gelernt wird. Wir kennen das Phanomen, dass bestimmte Dinge unter gro/3eren Schwierigkeiten gelernt werden, weil sie "zu einfach" sind, weil sie also zu wenig intellektuelle Reibetlachen bieten bzw. die Ansprtiche auf Ebenen verlagern, die nicht das zu Lernende betreffen. Unter anderem daher riihrt die Abkehr von kleinschrittigem Vorgehen beim Unterrichten und die Zuwendung zu intellektuell bzw. kognitiv anspruchsvollem Unterrichten.

Daran zeigt sich auch, dass man verschiedene Anspruchs- oder Schwierigkeitsebenen deutlich auseinander halten muss: Ein kleinschrittiges fragend-entwickelndes Lehrer-Schiiler-Gesprach ist ja durchaus anspruchsvoll, weil der Schiiler dem Rhythmus des Lehrers folgen und dauerhaft aufmerksam sein muss, urn im Faile des Angesprochenwerdens erfolgreich zu erraten, was der Lehrer horen will. Dies kann gepaart sein mit einem erheblich niedrigen intellektuellen Anspruch. Eine vergleichbare Anspruchsverschiebung findet sich z.B. in der Aufgabe "BauernhOfe". Dort ist ein niedriger mathematischer Anspruch gepaart mit hohen Ansprtichen beztiglich verbaler Fahigkeiten und habitueller Toleranz (Analyse vgl. MeyerhOfer 2004, S.159-179, MeyerhOfer 2005, 5.2.). Andere Aufgaben paaren hohe formale oder fachsprachliche Ansprtiche mit niedrigerem mathematischem Anspruch oder umgekehrt. Hinzu kommen Probleme der Testfahigkeit und des Ratens (vgl. ebenda, S. 217-231), durch die die Losungshaufigkeiten nochmals verschoben werden, ohne dass man das als "Schwierigkeitsverschiebung" im Sinne des zu Testenden bezeichnen wiirde.

7 Mit dem empirisch-statistischen Schwierigkeitsbegriffwird eine Art kollektive Subjektivitat geschaffen.


4 Kritik der Konstruktion der Kompetenzstufen

Es hat sich bereits angedeutet, dass Zuordnungen von Uisungswegen zu den Kompetenzstufen oftmals nicht sicher moglich sind, weil die inhaltIiche Beschreibung der Stufen diffus ist. Dies soil weiter unten anhand der Aufgabe "Dreiecke", deren Losungswege man von ihren Kompetenzanforderungen als niveauahnlich ansehen kann, in diesem Kapitel vertieft werden. Die Aufgabe "BauernhOfe I" kann im Vergleich dazu als Beispiel fur den Fall einer eindeutig moglichen Zuordnung einer Aufgabe zu einer Kompetenzstufe dienen.

Die Beschreibungen der Kompetenzstufen treffen Aussagen auf vier inhaltlichen Ebenen: - Wissen bzw. Wissensinhalte: Hier wird zwischen Wissen der Grundschule (Stufen I

und II) und der Sekundarstufe I unterschieden. - Modellierungsanforderung: Hier scheint die Vorstellung von ansteigenden Modellie

rungsanforderungen mit sinkender Losungshaufigkeit vorzuliegen. So sind auf Stufe I keine und auf Stufe II einfachste begriffliche Modellierungen zu leisten, Stufe V beinhaltet Beweise und Begrundungen sowie das Retlektieren uber den Modellierungsprozess selbst.

- Verknupfung von Konzepten aus unterschiedlichen mathematischen Bereichen: Diese Verknupfung ist scheinbar erst ab Stufe III zu leisten. In der Kompetenzstufenbeschreibung ist diese Ebene nicht klar getrennt von der folgenden Ebene:

- Offenheit der Aufgabe: Auf Stufe I legt die Aufgabe eine bestimmte Standardmathematisierung nahe (was ein Widerspruch dazu ist, dass keine begrifflichen Modellierungen und also keine Mathematisierungen zu leisten sind). Auf Stufe V sind die Aufgaben sehr offen formuliert, ein Modell muss frei gewahlt bzw. selbst konstruiert werden.

Die Verzahnung dieser inhaltlichen Ebenen zu Kompetenzstufen erzeugt Schwierigkeiten der Zuordnung von Aufgaben oder einzelnen Losungswegen zu den Kompetenzstufen: Wenn eine Aufgabe sehr offen ist und damit auf der Ebene "Offenheit der Aufgabe" auf Stufe V gehort, so kann eventuell auch ein Schuler sie IOsen, der einen Losungsweg

wahlt, welcher sich auf den anderen Anspruchsebenen auf Stufe I bewegt. 8 Aber auch fur die reine Aufgabenbetrachtung kann diese Mehrebenenkonstruktion nicht funktionieren, weil eine Aufgabe ja sehr offen (Stufe V auf der Ebene "Offenheit"), aber mit Grundschulwissen (Stufe IIII auf der Ebene "Wissen bzw. Wissensinhalte") losbar sein kann.

Zudem sind Wissensinhalte nur unter Einschrankungen nach Schwierigkeiten zu ordnen, und groBere Offenheit von Aufgaben kann nicht mit groBerer Aufgabenschwie

rigkeit identifiziert werden9

(explizit in Neubrand u.a. 2002, S.107). Auch groBere Mo-

8 Statistisch geht das in der Zirkularkonstruktion der Kompetenzstufen unter, bei der "aIle Schuler, die zu einer bestimmten Kompetenzstufe gehoren, mindestens etwa 50 Prozent der Aufgaben dieser Stufe IBsen konnen." (ebd. S.187)

9 Ein wesentliches Merkmal der Offenheit von Aufgaben ist die Uisungswegvielfalt. Diese VieIfait muss aber die Aufgabe nicht erschweren, wie die PISA-Gruppe behauptet. Diese Annahme scheint mir eine Projektion zu sein: Offene Aufgaben sind nur flir Didaktiker oder flir Lehrer


dellierungsanforderungen machen eine Aufgabe nicht unbedingt schwieriger, wie man z.B. bei der Aufgabe BauernhOfe 2 sieht, bei der die Modellierungsanforderung den Losungsweg tiber Intuition fcirdert. Ftir drei der vier inhaltlichen Ebenen ist die Ordnung nach Schwierigkeit also bereits in sich inhaltlich problematisch. Die Verzahnung mehrerer solcher Inhaltsdimensionen heilt die Schwierigkeiten fur die einzelne Dimension nicht, sondern schafft nur ein neues Gesamtordnungsproblem. Dieses kann nicht durch die rechnerische Herstellung einer Koharenz zwischen Aufgabenpunktwert und Schtilerpunktwert behoben werden.

Die erkenntnislogische Ursache fur die Fehlkonstruktion der Kompetenzstufen liegt im kategorialen Denken selbst: Wenn man Aufgaben nach den genannten vier Anspruchseben en sortieren wollte, so wtirde man Idealtypen (im Sinne von Max Weber) konstruieren, die eventuell sogar monopolar oder bipolar (z.B. fur die Ebene Offenheit) sein konnten. Jede Aufgabeninterpretation konnte sich nun auf jeder Anspruchsebene auf diese 1-dealtypen beziehen. Der damit potentielle Erkenntniswert wird nattirlich zerstOrt, wenn man nun Kategorien aufmacht und einfach aile Anspruchsebenen zusammenwirft. Dieses Problem ist ein prinzipielles, wird aber bei kategorialen Konstruktionen oftmals dadurch verschleiert, dass die Kategorien einfach fur nicht disjunkt erklart werden. Bei PISA ist nicht einmal das der Fall, die Kompetenzstufen werden sogar als disjunkte Klassen fUr Interpretationen genutzt.

Die beschriebenen Probleme der Kompetenzstufenkonstruktion werden bei Betrachtung der Aufgabe "Dreiecke" deutlich:

Dreiecke

Kreise die Figur ein, die zur folgenden Besehreibung passt. Das 11reieek PQR hat einen reehten Winkel. in R. Die Streeke RQ ist kiirzer als...di.e Streeke PR. Mist Mittelpunkt der Streeke PQ und.l:l. ist Mittelpunkt der Streeke...QR . S ist ein Punkt im Innern des Dreieeks. Die Streeke MN ist langer als die Streeke MS.

Q~P

A.

Die Grundanforderung dieser Aufgabe besteht darin, ein Ausschlussverfahren vorzunehmen, bei dem zu entscheiden ist, welche Aussagen fUr ein Dreieck zutreffen und welche nicht. Die Ausschlusspragmatik ist variierbar - man kann tabellarisch den einzelnen Dreiecken und den Aussagen ein "trifft zu" oder "trifft nicht zu" oder "unklar" zuordnen; man kann jeweils die Dreiecke abstreichen, die durch eine Aussage ausgeschlossen werden usw. Ein Gedankenexperiment verdeutlicht den Kern des Anspruchs der Aufgabe: Man stelle sich nur eines der Dreiecke und eine

"schwieriger", wei! tiber einen Standardlosungsweg hinaus gedacht werden muss. Ftir Schiller konnten offene Aufgaben zunachst (d.h. auBerhalb der Unterrichtung auf einen Standardweg hin) so gar einfacher sein, weil eine hohe Losungswegvielfalt die Chance erhoht, einen dieser Lbsungswege zu linden.


der Aussagen als gegeben vor. Die Aufgabe hieBe dann lediglich: Trifft diese Aussage zu? Es handelt sich bei der Aufgabe "Dreiecke" quasi urn die mehrfache Wiederholung dieser Frage.

Urn die Aufgabe IOsen zu konnen, muss man die geometrischen Bezeichnungskonventionen fiir Dreiecke, Strecken und Winkel kennen. Man muss einen rechten Winkel grob von einem nicht rechten Winkel unterscheiden konnen. Man muss die Zuordnung eines Winkel zu einem Punkt ("Winkel in R") verstehen. Man muss die Lange von Strecken vergleichen konnen. Man muss Mittelpunkte von Strecken grob identifizieren konnen. Man muss entscheiden konnen, ob ein Punkt im Inneren eines Dreiecks liegt. Es liegt also ein umfangreicher begrifflich-technischer Anforderungskatalog vor, dessen Wissensinhalte man in der Gesamtbetrachtung der Sekundarstufe I zuordnen kann. Auf der Ebene "Wissen bzw. Wissensinhalte" liegt also mindestens Stufe III vor.

Eine Modellierungsanforderung besteht eher nicht. Die Wiederholung der Frage Trifft diese Aussage zu? schafft ja noch keine Modellierungsnotwendigkeit, und die Untersuchung des Zutreffens einer Aussage an sich ist ja auch keine Modellierung. Auch eine VerknUpfung von Anforderungen aus unterschiedlichen mathematischen Bereichen ist nicht zu leisten. Aile Teilanforderungen stammen aus demselben Gebiet, sie werden lediglich kumuliert. Auf diesen beiden Ebenen liegen die Anforderungen unterhalb von Stufe III.

Die Aufgabe ist von geringer Offenheit. Man kann die Ausschlusspragmatik variieren, das ist der einzige Offnende Aspekt. Die kognitiven Anforderungen fur den eigentlichen mathematischen Anspruch verandern sich dabei nicht, sondern lediglich die Art der Informationsverarbeitung. Gerade dieses Gleichbleiben des kognitiven Anspruchs ermoglichtja erst den Versuch, den "Schwierigkeitswert" von 537 (0,59 international/ 0,65 national, Stufe III) inhaltlich zu interpretieren. Es zeigt sich nun, dass dies nicht moglich ist, obwohl der Wert kein Mischwert ist: Wir haben eine Aussage zu den benotigten Wissensinhalten, die uns auf Stufe III oder hoher verweist. Wenn man Uberhaupt von Modellierungsanforderungen oder VerknUpfungsleistungen sprechen mochte, so liegen sie hochstens auf Stufe II. Die Offenheit der Aufgabe lasst keine Zuordnung zu einer Stufe zu. Das Problem der Bewaltigung der kumulierenden Ausschlusspragmatik, welches hier die groBte HUrde darstellt, hat gar keinen Platz in den Anforderungskategorien. Wir wissen nach der Analyse, dass die deutschen SchUler so eine Anforderung besser bewaltigen als die "gegnerischen Mannschaften". Aber auch bei dieser Aufgabe, deren Losungswege man von ihren Kompetenzanforderungen als niveauahnlich ansehen kann, erweist sich die konkrete inhaltIiche Zuordnung zu einer Kompetenzstufe als nicht mogIich.

5 Modellerweiterung und Problemreproduktion

Das Problem der inhaltlichen Oberfrachtung und Undifferenziertheit der Kompetenzstufen versucht die PISA-Gruppe zu losen, indem sie die Stufenbeschreibungen nochmals (horizontal) differenziert (siehe Knoche u.a. 2002, S.l82 ff., ausfiihrlicher Neubrand u.a. 2002). Das Problem der Unmoglichkeit der inhaltlichen FUlIung der Kompetenzstufen wird dabei reproduziert. Da die IMD-Redaktion in der Zwischenzeit die Lange fiir Diskussionsbeitrage begrenzt hat, muss ich die zugehorige Argumentation in diesem Beitrag weglassen. Sie findet sich


unter http://www.math.uni-potsdam.de/prof/o didaktikimitaimeNeroe, wo eine elektronische Version dieses Beitrags abgelegt ist, die meine Argumentation (und aile Aufgaben und Einwande) enthalt.

6 Einwande

Es gibt einige naheliegende Einwande und Bedenken gegen meine Argumentation, die ich flir diesen Beitrag beantwortet habe. Aufgrund der Platzbegrenzung gebe ich hier nur die Einwande wieder. Meine Antworten find en sich auf der genannten Website, wo eine elektronische Version dieses Beitrags abgelegt ist.

"Fur die betrachteten Aufgaben mdgen die Einwdnde stimmen. Aber fur eine seridse Aussage musste man aile Aufgaben untersuchen. "

"Die Argumentation mag fur jede einzelne Aufgabe stimmen, aber im Mittel aller Auf gaben gleicht sich das aus. "

"Es magja sein, dass eine aufStufe III eingeordnete Aufgabe auch aufStufe I16sbar ist. Aber offensichtlich haben die Schuler, die sich auf Stufe I befinden, sie ja nicht geldst, sonst wurde sie ja nicht so selten geldst. "

Literatur

Deutsches PISA-Konsortium (Hrsg.): PISA 2000. Opladen 2001 MeyerhOfer, Wolfram 2001: Was misst TIMSS? Einige Uberlegungen zum Problem der Interpre

tierbarkeit der erhobenen Daten. in: http://pub.ub.uni-potsdam.de/2001metaJ0012/door.htm MeyerhOfer, Wolfram 2004: Was testen Tests? Objektiv-hermeneutische Analysen am Beispiel

von TIMSS und PISA. Dissertationsschrift an der Universitat Potsdam. MeyerhOfer, Wolfram 2005: Tests im Test. Das Beispiel PISA. Verlag Barbara Budrich, Leverkusen. Neubrand, Michael u.a. 2001: Grundlagen der Erganzung des intemationalen PISA-Mathematik

Tests in der deutschen Zusatzerhebung. in: ZDM Vo!' 33 (2), S.45 - 59 Neubrand, Michael; Klieme, Eckhard; LUdtke, Oliver; Neubrand, Johanna 2002: Kompetenzstufen

und Schwierigkeitsmodelle flir den PISA-Test zur mathematischen Grundbildung. In: Unterrichtswissenschaft. 30Jahrgang, Heft 1, S.100-119

OECD (Ed.) 1999: Measuring student knowlegde and skills. A new framework for assessment. Paris: OECD Publication Service

Klieme, Neubrand, LUdtke 2001: Mathematische Grundbildung: Testkonzeption und Ergebnisse. in: Deutsches PISA-Konsortium 2001, S.139 - 190

Knoche, Norbert; Detlef Lind; Werner Blum; E1mar Cohors-Fresenborg, Lothar Flade; Wolfgang Lading; Gerd Moller; Michael Neubrand; Alexander Wynands (Deutsche PISAExpertengruppe Mathematik, PISA-2000): Die PISA-2000-Studie, einige Ergebnisse und Analysen. Journal flir Mathematik-Didaktik 23 (2002), Heft 3/4, S.159-202

Dr. Wolfram MeyerhOfer Universitat Potsdam, Institut flir Mathematik Postfach 60 15 53, 14415 Potsdam meyerhof(cilmath.uni-potsdam.de

Documents

Zum Kompetenzstufenmodell von PISA