5
JOST REISCHMANN Der Einsatz von Tests in der Schule Stellungnahme zu: W. ZEUCH: Was spricht gegen die Anwendung von Teetver- fahren? ln: Die Deutsche Schule, 65. Jg. (1973), 5, S.34H48. Tests geliören ni.cbt in d.ie Hände oon Dilettanten. Tests habcn ihrc Grenzen; ihre Herstellung und Anwendung unterliegt Gelahren, dia d.er bennen mu$, d.er sie sinnvoll als Hi.lt'smi.ttel einsetzen utill, Wcnn Lebrer mit Tests als pädagogi.scb-diagnostischen Verfaltren umgchcn, d.ann müssen sie in ibrer Aasbild.ung mit den Problemen der Testhcr- stellung and -zterwendung oertraut gemacht werd,en; weder ein ,,nai- ver Optimi,smtuso , üor dem Z e u c h rnit Recbt todrnt, noch eirt naioer Pessimismus tragen za einer realistischen Stellang gegenühcr dem Hilt'smittel Test bei. Daß Tests Hilfsmittel -it G..rrr.rr, Gefahren und Schwächen sind, braucht wcrlcr eingestanden zu werden, noch dient diese Feststellung der Vorbeugung (S. 340)'. Vielmehr ist dies eine Einsicht, ohne die eine sachgerechte Arbeit mit Tests nicht nri.ig- lich ist. Von daher ist es begrüßenswert, wenn ein Autor auf die begrenzte Atrssagc- kraft von Tests hinweist. Dennoch scheinen uns die Ausführungen Zrucns zu einseitig. Er beschränkt sich auf Kritik, die sich mit TnonN»rre / FfecrN in zwei Gruppen zu- sammenfassen läßt: ,,They are criticisms either of (a) the incompleteness and impcr- fection of the information yielded by our measurement procedures or (b) the unwisc things that we do with that information"z, wobei u. E. das Schwergewichr seincr Beispiele entgegen seiner Intention auf (b) liegt. Zudem leitet er aus seiner Kritilt keine positiven Forderungen ab und zeigt auch keine Alternativen auf. Dies abcr ist nach unserem Erachten als Beitrag für eine realistische Einschätzung der Möglichhci- ten des Tests nicht hinreichend. §7ir wollen daher einerseits Information über Tcsts vermitteln, andererseits zu den Vorwürfen Znuctts Stellung nehmen. Dabei beschränken wir unsere Überlegungen auf den Bereich der Schultests. Dies sind Prüf- verfahren, durch die bestimmte Effekte von lJnterricht und Erziehung festgestellt werdcn sollen; in einem weiteren Sinne werden hierzu auch Verfahren zur Feststellung der Voraus- setzungen von Lehr- bzw. Erziehungszielen gerechnets. Die Einschränkung auf Schultcsts scheint uns gerechtfertigt, da sich die Ausführungen in diesem Rahmen vor allem an Lehrcr wenden und sich die Kritik Zrucns auch an diesem Gebiet behandeln läßt. Zxvcu. will seine Kritik ,,nicht vordergründig gegen die Anwendung noch unvoll- kommener Techniken richten, sondern in erster Linie gegen die Gefahren, die auch t rt" *t"r"*"ben in Klammern beziehen sidr auf Zeudr, a. a. O. 2 Thorndike, R. / Hagen, E.: Measurement and Evaluation in Psydrology and Education, 2nd Edition - John §fiiley and Sons Iuc. New York 41964, S. 13. 3 Sü[wold, F.: Sd:ultests, In: Heiss, R, (Hrsg.): Handbudr der Psydrologie, Band 6, Psydrologisdre Diagnostik, Göttingen 21964, S, 352, Dis mit einer Perfektionierung der Test 1i. l+oy. Um diesen Ansiruch erfül den überlegungen einen Schritt lor Z Dle Aufgabe von Tests Ein Tesr isr - so definiert LrcNsnr Ürrt"r.r.lrurrg eines oder mehrerer mit dem Ziel eiter möglichst quan individuellen Merkmalsäusprägung" ,ol.h., Routineverfahren a-n "lneÄ anzutreffenden Verhahensvariatione wird ein bestimmter Merkmalsraster wodurch sie hinsichtlich dieses Merk Mcssung ist die möglichst exakte Fes Daraus ergibt sich: Die Aufgabe vo Hilfsmittei, um Information zu gew maß, zumeist in Form eines oder meh Mcssungcn durch Tests liefern also zun "i,r" B"ä"rtrrrg. Auf dieses oft anzutref clringlich hin: ,,A test will yield only ,.ur"] Th. infoÄation proviied in a tes Dicscr ,,tesr score" (nicht das, was Tcsttheorie gefordert, muß bestim sind Objektilvitat, Reiiabilität und gcnannr) sind Normierung, Vergleic iur.,g b"ä.rt.t dabei zum;ist, daß . mtiilictr ist (Realnorm), nicht die An ßei der Messung mit Tests wird dem bcurteilang odJr -bewert,,tng getrel folgt so sÄematisch und objektiv ( ..hf.d"rr., Benutzer) wie möglich einem zweiten Schriit muß der Leh Verantwortung heraus, also subjek mischung diesJr beiden Schritte wa Datensaämlung und Interpretation \(illkür Ttiruid Tor geöffnet. Ma und könnte nie rational begründete Objektive Leistungsmessung durch zuig flir Schülerbiurtei.lung dar. D ,"rrirrrg orientieren, aber zuiätzlich eine Entscheidung wohl erleichtern, 4 Lienert, G. A.: Testaufbau und Testanalyse 5 a. a. O.. S. 13. s Vs[. a. a. O., S. 12 ff. z vii- xtii*-'r- t.. u.a.: Lernzielorientie e Irä""t"Äp,'K. (tirig.), Tests in der Sdr Reischmann, Jost: Der Einsatz von Tests in der Schule. In: Die deutsche Schule 66 (1974) H. 4, S. 276-284.

-it - reischmannfam.de · (Hrsg.): Handbudr der Psydrologie, Band 6, Psydrologisdre Dia gnostik, Göttingen 21964, S, 352, Diskussionsbeitäge 277 mit einer Perfektionierung der

Embed Size (px)

Citation preview

JOS

T R

EIS

CH

MA

NN

Der E

insatz von Tests in der S

chule

Stellungnahm

e zu: W. Z

EU

CH

: Was spricht gegen die A

nwendung von T

eetver-fahren? ln: D

ie Deutsche S

chule, 65. Jg. (1973), 5, S.34H

48.

Tests geliören ni.cbt in d.ie H

ände oon Dilettanten. T

ests habcn ihrcG

renzen; ihre Herstellung und A

nwendung unterliegt G

elahren, diad.er bennen m

u$, d.er sie sinnvoll als Hi.lt'sm

i.ttel einsetzen utill, Wcnn

Lebrer mit T

ests als pädagogi.scb-diagnostischen Verfaltren um

gchcn,d.ann m

üssen sie in ibrer Aasbild.ung m

it den Problem

en der Testhcr-

stellung and -zterwendung oertraut gem

acht werd,en; w

eder ein ,,nai-ver O

ptimi,sm

tuso , üor dem Z

e u c h rnit Recbt todrnt, noch eirt

naioer Pessim

ismus tragen za einer realistischen S

tellang gegenühcr

dem H

ilt'smittel T

est bei.

Daß

Tests H

ilfsmittel -it

G..rrr.rr, G

efahren und Schw

ächen sind, braucht wcrlcr

eingestanden zu werden, noch dient diese F

eststellung der Vorbeugung (S

. 340)'.V

ielmehr ist dies eine E

insicht, ohne die eine sachgerechte Arbeit m

it Tests nicht nri.ig-

lich ist. Von daher ist es begrüß

enswert, w

enn ein Autor auf die begrenzte A

trssagc-kraft von T

ests hinweist. D

ennoch scheinen uns die Ausführungen Z

rucns zu einseitig.E

r beschränkt sich auf K

ritik, die sich mit T

nonN»rre / F

fecrN in zw

ei Gruppen zu-

samm

enfassen läßt: ,,T

hey are criticisms either of (a) the incom

pleteness and impcr-

fection of the information yielded by our m

easurement procedures or (b) the unw

iscthings that w

e do with that inform

ation"z, wobei u. E

. das Schw

ergewichr seincr

Beispiele entgegen seiner Intention auf (b) liegt. Z

udem leitet er aus seiner K

ritiltkeine positiven F

orderungen ab und zeigt auch keine A

lternativen auf. Dies abcr ist

nach unserem E

rachten als Beitrag für eine realistische E

inschätzung der Möglichhci-

ten des Tests nicht hinreichend. §7ir w

ollen daher einerseits Information

über Tcsts

vermitteln, andererseits zu den V

orwürfen Z

nuctts Stellung nehm

en.

Dabei beschränken w

ir unsere Überlegungen auf den B

ereich der Schultests. D

ies sind Prüf-

verfahren, durch die bestimm

te Effekte von lJnterricht und E

rziehung festgestellt werdcn

sollen; in einem w

eiteren Sinne w

erden hierzu auch Verfahren zur F

eststellung der Voraus-

setzungen von Lehr- bzw. E

rziehungszielen gerechnets. D

ie Einschränkung auf S

chultcstsscheint uns gerechtfertigt,

da sich die Ausführungen in diesem

Rahm

en vor allem an Lehrcr

wenden und sich die K

ritik Zrucns auch an diesem

Gebiet behandeln läß

t.

Zxvcu. w

ill seine Kritik ,,nicht vordergründig gegen die A

nwendung

noch unvoll-kom

mener T

echniken richten, sondern in erster Linie gegen die Gefahren, die auch

t rt" *t"r"*"ben

in Klam

mern beziehen sidr auf Z

eudr, a. a. O.

2 Thorndike, R

. / Hagen, E

.: Measurem

ent and Evaluation in P

sydrology and Education, 2nd E

dition - John

§fiiley and Sons Iuc. N

ew Y

ork 41964, S. 13.

3 Sü[w

old, F.: S

d:ultests, In: Heiss, R

, (Hrsg.): H

andbudr der Psydrologie, B

and 6, Psydrologisdre D

iagnostik,G

öttingen 21964, S, 352,

Diskussionsbeitäge

277

mit einer P

erfektionierung der T

esttechniken nicht aus dem V

eg gefäumt w

erden"

1i. l+oy. U

m diesen A

nsiruch erfüllen zu können, erscheint es uns notwendig, m

itden überlegungen einen S

chritt lor Zuucrr einzusetzen.

Dle A

ufgabe von Tests

Ein T

esr isr - so definiert LrcNsnr - ,ein w

issenschaftliches Routineverfahren

zur

Ürrt"r.r.lrurrg eines oder m

ehrerer empirisch abgretnbaret P

ersönlichkeitsmerkm

ale

mit dem

Ziel eiter m

öglichst quantiädven Aussage über den relativen G

rad derindividuellen M

erkmalsäusprägung"a. D

as bedeutet: Inhaltlich orientiert sich ein,ol.h., R

outineverfahren a-n "lneÄ

odet mehreren M

erkmalsgebieten und den dort

anzutreffenden Verhahensvariationen; zur F

eststellung der individuellen Ausprägung

wird ein bestim

mter M

erkmalsraster an die zu untersuchenden Individuen

angelegt,

wodurch sie hinsichtlich

dieses Merkm

als vergleichbar werden. D

as Ziel einer solchen

Mcssung ist die m

öglichst exakte Feststellung des Ist-Z

ustandes auf einer Skala'

Daraus ergibt sich: D

ie Aufgabe von T

ests besteht darin, zv messen. T

ests sind ein

Hilfsm

ittei, um Inform

ation zu gewinnen. D

as Ergebnis eines T

ests ist ein Verhältnis-

maß

, zumeist in F

orm eines oder m

ehrerer Testw

erte (,,score')'

Mcssungcn durch T

ests liefern also zunächst nur Information,

nicht jedoch ein Urteil oder

"i,r" B"ä"rtrrrg. A

uf dieses oft anzutreffende M

ißverständnis

weisen T

Honrorrr/H

eorN

ein-

clringlich hin: ,,A test w

ill yield only a score, not the conclusion to be drawn from

that,.ur"] T

h. infoÄation proviied in a test score is not a substitute for insight."s

Dicscr ,,tesr score" (nicht das, w

as mit dem

Ergebnis gem

acht wird), so w

ird in derT

csttheorie gefordert, muß

bestimm

ten Forderungen genügen: H

auptgütekriterien

sind Objektilvitat, R

eiiabilität und Validität, N

ebengütekri!.lr_"" (y9" ZrucH

nichtgcnannr) sind N

ormierung, V

ergleichbarkeit, O

konomie und N

ützlichkeito. Norm

ie-

iur.,g b"ä.rt.t dabei zum;ist, daß

.i, V

ergleich mit der entsprechenden P

opulation

mtiilictr ist (R

ealnorm), nicht die A

ngabe eines zu erreichenden Zieles (Idealnorm

T).

ßei der M

essung mit T

ests wird dem

nach die Leistungsfeststellung von der Leistungs-

bcurteilang odJr -bewert,,tng getrelrfi. D

er erste Schritt, die Leistungsfeststellung,

er-

folgt so sÄem

atisch und objektiv (d. h. unabhängig von subjektiven Einflüssen ver-

..hf.d"rr., Benutzer) w

ie möglich und dient der F

eststellung dessen, was ist. In

einem zw

eiten Schriit m

uß der Lehrer dann aus seiner pädagogischen E

rfahrung und

Verantw

ortung heraus, also subjektiv entscheiden, was w

erden soll. .Vor einer V

er-

mischung diesJr beiden S

chritte warnt IN

GE

NK

AM

r: ,,§7ürden die A

rbeitsschritte der

Datensaäm

lung und Interpretation nicht getrennt werden, so w

ären der subjektiven

\(illkür Ttiruid T

or geöffnet. Man w

üßte nicht, w

as Fakten und \flertungen sind,

und könnte nie rational begründete Stellungnahm

en abgeben."s

Objektive Leistungsm

essung durch Schulleistungsrcsß

stellt also_ nur die V

orausset-

zuig flir Schülerbiurtei.lung

dar. Die B

eurteilung selbst wird sich an dieser V

oraus-

,"rrirrrg orientieren, aber zuiätzlich Kriterien heranziehen. E

in Test hann dem

Lehrer

eine Entscheidung w

ohl erleichtern, nicht jedoch abnehmen.

4 Lienert, G. A

.: Testaufbau und T

estanalyse.'§fleinheim

21967' S' 7'

5 a. a. O.. S

. 13.s V

s[. a. a. O., S

. 12 ff.z vii-

xtii*-'r- t.. u.a.: Lernzielorientierte T

ests. Düsseldorf 1972' 5.23.

e Irä""t"Äp,'K

. (tirig.), T

ests in der Sdrulpraxis. 'W

einheim

21972, S'29'

Reischmann, Jost: Der Einsatz von Tests in der Schule. In: Die deutsche Schule 66 (1974) H. 4, S. 276-284.

278 Diskassionsbeiträge

\[enn wir die Einschränkung von Tests auf den Gewinn von Information betonen,mag dies den Eindruck erwecken, wir würden eine solche Messung als Selbstzweckbetrachten und auf diese \7eise den problematischen Verwertungsbereich ausklam-mern. Dies ist nicht der Fall. \flir halten es für ausgesprochen wichtig, auf die Gefah-ren bei der §Teiterbenutzung von Testergebnissen hinzuweisen und werden daraufnoch eingehen. Jedoch ist es für die Verbesserung der Situation zunächst unabdingbareVoraussetzung, zu unterscheiden, ob beobachtete Fehler (a) auf Mängeln des Testsoder (b) auf unsinniger \fleiterverwendung der Ergebnisse beruhen.

Grenzen, Mängel, Ge,iahren von Tests

Aufgrund seiner Konzeption, die wir kurz nt charakterisieren versucht haben, istder Test ein Hilfsmittel mit Grenzen, die auch bei einer Perfektionierung der Test-techniken nicht überwindbar sind. Hierz;u gehört:

- Tests orientieren sich an definierten Merkmalsbereichen

- Diese Merkmalsbereiche werden isoliert betrachtet* Gemessen wird ein (erlerntes) Verhalten in konkreter Situation

- Testaufgaben werden so zusammengestellt, daß sie einen Vergleich ermöglichen(differenzieren)

- Es handelt sich um eine zeitlich punktuelle Messung

- Es wird lediglich eine Aufgabenstichprobe gegeben

* Testnormen sind Erfahrungswerte

Zieht rnan solche Grenzen in Betracht, so relativiert dies die Atrssagemöglichkeit vonTests. Da Zvucu unmittelbar nach dem Verwertungszusammenhang von Tests fragt,entgehen ihm diese Voraussetzungen, die den Einsatzbereich von Tests viel grundsätz-licher einschränken als seine Beispiele. Das §Tissen um solche Grenzen schützt voreiner ungerechtfertigten Überschätzung der Verfahren und unrealistischen Erwar-tungen, denen Zrucu gerade in seiner Kritik selbst verschiedentlich verfäIlt.Unrealistische Erwartungen bestehen oft hinsichtlich der Meßgenauigkeit von Tests. So weistSruoss unmißverständlich darauf hin, daß trotz der relativen überlegenheit von Tests "daszu einem bestimmten Zeitpunkt erfaßbare Fähigkeits- und Kenntnisniveau eines Kindes keinelangfristige Prognose seines Schulerfolges erlaubt, die so sicher ist, daß man eine Schullauf-bahnlenkung innerhalb des starren und weitgehend undurchlässigen dreigliedrigen Schul-systems darauf gründen könnte"s.

Zr den unausweichlichen Problemen jeder Testkonstruktion gehört auch die Bestim-mung der Validitätrl. Um sich zu versichern, daß ein Test tatsächlich das mißt, was ermessen soll, gibt es zwei Prüfansätze: einen empirischen und einen inhaltlich-logischen.Bei der empiriscben Validierung wird das Testergebnis mit dem Kriteriumsverhalten,das es vorhersagen soll, verglichen (also z.B. das Ergebnis eines Schulreifetests oderdie Ei - Eierbecheraufgabe mit dem tatsächlichen Schulerfolg nach vier Jahren). Beider inhahlich-logi.scben Validierung werden die Aufgaben des Tests daraufhin be-

0 Simons, H.r In: Studienbegleitbrief 10 zum Funkkolleg Pädagogisdre Psy&ologie, \[einheim 1973, S.50. Vgl.aucl Zielinski, \[.: In: Studienbegleitbrief 12.ro Die Validitätsdefinition bei Zeuldr (S. 343 / 4, Absdrnitt) ist zum größten Teil (,,wenn seine Ergebnisse . . .lokalisiert") ein nidrt belegtes Zitat von Lienert, a. a. O., S. 16.

Diskussionsbeiträge 279

urreilr, ob sie repräsentativ sind für den geforderten Inhalt (so kritisiert z. B. Nrruzllam Erdkundetest Deußchland ETD 5-7 ein von der Geographie her nicht begrün-dendes übergewicht des norddeutschen R aumes).

Beide Verfahren haben ihre Vor- wie Nachteile: Die empirischeValidierung versichert

eilen tatsächlichen Zusammenhang zwischen Test und späterem Verhalten, ist aber

langwierig, daher auch rigide, und überhaupt nur dann durchführbar, wenn ein

opeiationäl definierbares und quantifizierbares Kriterium vorliegt. Die inhaltlich-Iogische Validierung dagegen läßt sich relativ kurzfristig und auch bei Inhaltendurchführen, für die ein operationales Kriterium nicht unmittelbar ausgemacht wer-den kann, hat aber den Nachreil, daß die Schätzung der Beurteiler möglicherweise

nicht mit den tatsächlichen Gegebenheiten des entsprechenden Gebietes überein-

stimmen.

Um die Brauchbarheit der auf die eine oder andere §(eise erstellten Validitätsanga-ben abschätzen zu können, enthalrcn die Handanweisungen für Tests Angaben über

die in (hoffentlich sorgfältig beschriebenen) Stichproben enthaltenen §flerte. Dies

sind, wie bereits gesagl f,rlibrrngswerterz und nicht etwa ,,Flochrechnungen" aufzukünfrige Durchführungen. Hier muß der Testbenutzer selbst abschätzen, inwieweitder Test fär seine Situation überhaupt aussagekräftig ist; dies erfordert, daß er ent-

sprechend vorgebildet ist.

§(/enn man Zuverlässigkeirs- und Gültigkeitskoeffizienten als Erfahrungswerte be-

rrachter, kann es nicht verwundern, daß in unterschiedlichen Untersuchungen ver-schiedene §flerte ermittelt werden. Hierzu braucht man nicht auf einen über 10 Jahrealten amerikanischen Beleg zu rekumieren (S. 345, Gnoss); es gibt genügend Erfah-rungsberichte über Testeinsatz in Deutschlandls. Dabei bestätigt sich jedoch nicht,daßdie festgestellten \flerte ,,in der Regel weit niedriger (sind) als die von Testautoren

selbst angegebenen" (S. 345).

Ein perfekter Test würde also zumindest den obigen Beschränkungen unterliegen.Da Tests aber von Menschen ausgedacht werden, können bei der Herstellung auch

Fehler unterlaufen, wie Zxucrt mit Beispielen illustriert. Allerdings wird man Tests

mit solchen Fehlern im Gegensatz ztZyucs wohl kaum als ,,perfekt" oder ,,technischgut" bezeichnen können. Konstruktionsfehler ergeben schlechte Tests; Zrucns Argu-mentation ist irreführend, wenn er ,,Mängel und Gefahren, die auch technisch gute

Tests aufweisen" (S. 34L), aafzeigen will, dann aber behebbare Konstruktionsmängelatfzählt und damit den Eindruck erweckt, trotz solcher Mängel handele es sich um

gute Tests.

Ztr diesen behebbaren Konstruktionsfehlern gehört die stereotype Aufgaben- andAuswertungsform. Eine einseitige Festlegung auf einen bestimmten Aufgabentypübersieht den Zusammenhang von Inhalt und Prüfungsform und verkürzt in unzu-lässiger §7eise den möglichen Prüfungsbereich. Die Aufgabenformen für Testatrfga-

benli sind zahlreich und sollten beweglich gehandhabt werden. Mit entsprechender

Auswertungsanweisung lassen sich auch Aufgaben mit ungebundener Antwortfornt

11 Niemz, G.: Objektivierte Leistungsmessung im Erdkundeunterridrt. In: Geographisdre Rundsdrau, 24. .fg.(1972), s.1O2-7O7.lll Vcl- Ineenkamo. a. a. O.. S. 69.rl Uä*.t"E- t. l'I"e""kr-p. K.: Literatur über Tests im Bereidr der S&ule. \fleinheim u. a. 1968.Krapo. A.lMandl.-H.: Sdrulreifetest und Sdrulerfolg. Mündren 1971.ii-äiit't";:'Th.; Ä;f;;b""1;iÄ"" fu. den lernzieloriintierten Test. In: Dohmen, G. (Hrsg.): Forcdrungr-teciniken'für die Ho-&sdruldidaktik. Mündren 7971, S, 9t-109.

280 Dishassionsbeiträge

hinreichend objektiv auswerten (vgl. z. B. die Nachzeichenaufgaben im §{reilburgerSchulreifetest, die Oberbegriffsbildung im I-S-T von Aureurn). Der Hinweis aufeine mögliche Verschiebung des Inhalts durch eine unbewegliche Aufgabenformulie-rung ist also richtig, jedoch unter ,unvollkom,mene Konstruktionstechnik" einzu-ordnen. Unter die gleiche Kategorie läßt sich die bemängelte Sinnverschiebung beider notwendigen Operationalisierung des Zieles (5.344 f.) subsumieren.

Auch Kreativität läßt sich grundsätzlich mit Tests erfassen. Da sich Tests jedoch, wie wiroben ausführten, auf ein einzelnes oder auf einige wenige Merkmalsgebiete beziehen, kannman nicht erwarten, daß ein Test alles mißt. Andererseits ist kaum anzunehmen, daß Kreati-vität in Leistwngstests ,,häufig negativ bewertet* (S,342) wird, da deren Aufgabenformulierung

- wie ZBucs selbst ausführt - zumeist eine kreative Lösung nicht zuläßt; sie wird vielmehrnicht erfaßt. §fler meint, daß die herkömmlichen Test nicht alle wichtigen Aspekte erfassen,muß die Entwicklung neuer, besserer Tests fordern. Znucn begnügt sich auch hier mit derKritik.

Das sich hieran anschließende Beispiel (5. 342) schildert ein Validitätsproblem: Istdie Zuordnung von Ei zu Eierbecher eine Aufgabe, die schulreife von nicht-schulrei-fen Kindern trennt? Und was ist mit den Schülern, die mit ZBvcn die Zuordnung,,Ei z,t FIut" als eine sich geradezu anbietende (die Größenordnung sei vernach-lässigt) unkonventionelle Lösung verstehen? Bei dieser Aufgabe, wie sie in den Veil-burger Testaufgaben und dem Reutlinger Test für Schulanfänger enthalten ist, wärein der Tat die Aufgabeninsruktion dahingehend abzuändern, daß man fragt: '§7as

paßt am besten zueinander? Es muß aber gesehen werden, daß solche Aufgabenbei-spiele - und zwar gerade einfachster Art - zur Vorübung von Tests gehören unddamit die Furcht vor ,,direkten' Lösungen abgebaut wird. Außerdem besteht ein Testimmer aus einem ganzen Satz von Aufgaben, so daß einzelne solche problematischeLösungen sich kaum auswirken (hier könnten sich überlegungen zur Reliabilität an-schließen). Vor allem aber werden die Einzelaufgaben und der Gesamttest vor demendgültigen Einsatz empirisch überprüft; bei einer Testanalyse werden Aufgaben,bei denen durch Fehler in der Aufgabenformulierung, irreführende Hinweise oderLösungsvorschläge die Leistungsbesten auf eine falsche Antwort gelenkt werden, je-doch bald entdeckt und überarbeitet oder entfernt. Gerade in dieser Erprobung istein großer Vorteil des Tests gegenüber der herkömmlichen Leistungsfeststellung zusehen.

Kurz wollen wir noch auf einige andere Get'abren bei. d.er Konstrukti.on von Schul-leistangstests hinweisen :

- überbetonung des leicht Meßbaren

- Atomisierung der pädagogischen Aufgabe in relativ sinnarme Fragmente

:.lnd bei normorienti,erten Tests:

- Überbetonung des Leistungsprinzips: ,,obar" und ,unten" wird den Schülern als,,natürliche" Ordnung geboten.

- Maximierung tatsächlicher Unterschiede

- Keine Aussage über absolutes Leistungsniveau

über die Brauchbarkeit eines Tests entscheidet also nicht allein das Ausmaß derFehldiagnosen, sondern zasätzlich die unterrichtliche Brauchbarkeit der inhaltlichenAussage. Hierzu empfiehlt IxcrNrrurnp: ,Ein Test sollte . ., nur entwickelt werden,

Diskussionsbeitrilge 281

wenn er ein Schülerverhalten angemessener erfassen kann als die bisherigen Unter-

,r.i"ngr*.it oden oder vorliegeiden Tests,. wenn die überprüfung des angestreb-

i." r.ir"rr"lgs bedeutsam g"n-,rg irt und nicht durch die Existenz eines Tests eine

,o"ri"i.t. gelechtfertigt" Äkr"rirrri.rung erfährt und wenn die Testkonstruktion in

übereirrrtimäung mit dldaktischen Intentionen gebracht werden kann"'16

Die Weitelverwendung von Testergebnl§sen

Nichr nur bei der Testkonstruktion, sondern auch bei der §fleiterverwendung der

i.räg"U"f";rt"d Fehler möglich. Und.hier liegt_ein Problem der ZsucHschen

A;;;;;;;;ilr,, öff"r,b", .,imät er an, daß die Lehrer weder bereit noch in der

ü;;il, -thr

subjektives Urteil relativ ieren zr lassen und deshalb geziel Meßergeb-

nisse verfälschen: ,,Der Einsatz von Tests verleiht der subjehtiven Beurteilung. des

i"rr."r, nur den schein d". obl"ttirrität.Er kann somit dem Lehrer zur verschleie-

*"g äa";' nechtfertigung seines subjektiven _Urteils vor Eltern, Schülern und vor

,i.lr"r"tfm dienen" 1S-. lä4, ähnlich 'S. f+f;. Mit einem solchen Lehrerbild wäre es

iöir.r,*,-ai" ÄUr.hrrfu"g d.. g.rr*r.o schule zu fordern, als nur so ein unbedeu-

i.id", t-iitfr*imel wie dä T.rt" r., geißeln, vor allem, wenn man zusätzlich davon

;;;;;., äß .Ji. S"t "t" meist gar kiine materiellen Möglichkeiten--be_sitzt, wirksame

it"irp.Lrfr.f.. m"ßrr"h*"r, g.gär, ".L"rrrrte

Srchwächen eltztsetzerr" (S. 341). Zudem

g;h; ä"r erhobene Vorwurf lri r"r, vorbei: Die Kritik trifft nicht den Test, sondern

äie mangelnde Objektivität des Lehrerurteils'

Das Bemühen, subjektive Einflüsse auf die Durchführung und Auswertung von Tests aus-

zuschließen, wird keir"rweg, d"i"t"h fragwürdig - wie Zrucn meint (S' 343)--' daß ein

är;;;r;;ilr";- tri-zrrir,a aischließend ,rl.i'e- Aussagekraft hinterfragt wird (,,§üurden

Besonderheiten in der Testsituation beobachtet? Wie gtoß itt der Mcßfehler?") und- dann

:;;[.h;"ir" ,o.h H;;;;;h;; *.iterer überleg"lc.i -" einer Entscheidung führt, in

d;-"1r"h ;;lj.ktirr" r.f"hrorrg." o"a v.rro"g.n ein!ehin16' Denn es ist einleuchtend, daß die

i""".rar.lgr.äit ob;"ktir". örä ,o"r, ui ,oüjekti""i verwertung noch höhe-r sein dürfte, als

*.rro ,ror- vorne herein iui ,ubjektive Daten herangezogen werdel. f"{ jeden Fall-irrt

ä""i",*".rr, ", -.ior, drß oi.h. tontrollierbar wäre, in welchem Maß {1 (objektives)-Test-

;s;;;i, it;;i" (rf;.[ri".1 Gesamtzensur herangezogen wird (S. 348): Eine einfache Korre-

latiionsberechnung zeigt diesen Zusammenhang'

Um den Unsicherheitsfaktor in der §[eiterverwendung von Testergeb:rissen so gering

-i" *ägfi[ ,,, h"lt"rr, Lrrr, *"r, die Kriterien dei Oblektivität,. Reliabilität und

vrlidita"t auch für diesen Schritt fordern. Diese Forderung kann nicht durch Mani-

p;i;;;;; iest e.ftillt werden; hierzu muß der Lehrer einerseits das Meßergebnis

[i"i.ri.rg* können, andererseits müssen zusätzliche Beobachtungs-- und Schätzver-

i;i."n eitwickelt und mit den Lehrern trainiert werden. Die Qualität der Verwen-

d""g-;;; T.stergebnissen ist also von der Kompetenz der Lehrer abhängig, die eine

solche Aufgabe zu erfüllen haben.

Daß Zsuci die Inkompetenz des Testanwenders als den Normalfall annimmt, geht

auch aus der Ausgangsäberlegung hervor, es sei für die Beurteilung eines Tests nicht

nebensächlich, ,,ii ltielche* "turlr. er eine mißbräuchliche Anwendung ermöglicht

ä lu? 3+ $;.tstt;- o* zusammenhangs dieser beiden-§drritte weist H' Hiltmann (*'-,'li'lfutTn3it*ii

{tälJu*"",t'l*"§i:if:;+:rö::; ,:i'll ''};,1,s' z"*li"i,a3"',t

.!'';i1,1" a!}T"*i,'J:';rü';m';;t.Messung" nidtt überoommen hat.

282 Diskassionsbeiträge

oder sogar provoziert" (S. 340). Ein Test ,provoziert" dann den Mißbrauch, wenndie Angaben über sein Zustandekommen und seine Erprobung fehlen (nach unserenobigen Überlegungen wäre ein solcher Test mangelhaftrT), aber auch, wenn ein un-kritischer Benutzer trotz dieser Angaben nicht in der Lage ist, die Grenzen d.er Test-aussage zu realisieren. Im ersten Fall wäre das Testbeiheft neu zu fassen oder aufden Test zu verzichten, im zweiten die Qualifikation des Benutzers zu heben oderihm von jeder Testbenutzung abzuraten. Zrucs empfiehlt jeweils das Zweite, unsschiene das Erste sinnvoller. §7ir würden also meinen, daß Tests nicht per se einemißbräuchliche Anwendung provozieren, sondern daß dies an der Qualität des Testsund der Qualifikation des Benutzers liegt. Und beides ist einer Verbesserung zu-gänglich.Für unsere Überlegungen, wie der Testeinsatz in der Schule verbessert werden kann,bewährt sich also die bei Znucrt vernachlässigte Trennung von Messung und Bewer-tung. Damit verstehen wir auch eine Reihe von Vorwürfen bei ZeucH als Fragen andie Kompetenz des Anwenders, nicht an den Test: §flenn Tests zur Einstufung, Selek-tion oder Disziplinierung eingesetzt werden (S. 341), wenn Berufseignungstesrs derAusbeutung dienen (S. 346), wenn Znucn beklagt, daß Schulleistung unabhängig vonder Lerngeschichte beurteilt werde (5. 347). Das Vorhandensein eines Tests genügtnoch nicht zur Rechtfertigung seines Einsatzes. Nur wenn sich der Anwender überdie pädagogische Bedeutung, die didaktische Angemessenheit, die diagnostischeFunktion und die möglichen Konsequenzen im klaren ist, wird der Testeinsatz einsinnvolles Element im Unterricht sein.

Der Vorwurf der Systemstabilisierung

Ob eine Testanwendung eher der Institution oder eher dem Individuum nützt, wirdnach diesen überlegungen also nur zum Teil vom Test bestimmt; die endgültigeDetermination liegt beim Verwender. Wenn Tests zum Zweck der Einstufung ange-wendet werden (2,8. ZrordnlrrTg z1t einem Stützkurs, Leistungsgruppe, Schulart),dann orientieren sie sich an den bestehenden Institutionen - auch an ihren Mängeln -und den dort vorgefundenen Verhaltensvariationen. ZBucrr verweist in diesem Zu-sammenhang dararf , daß die sozialen und kulturellen Bedingungen der Gesellschaftwesentlicher Bestandteil der Leistungstests seienrs. Tests tragen demnach in vielenFällen zur Systemstabilisierung bei. Dies ist jedoch keine grundsärzliche Aussage: Dieüberlegungen zur Validität haben gezeigt, daß Testinhalte nichr nur empirisch, son-dern auch durch inhaltlichen Konsens als verbindlich anerkannt werden können.Damit ist es grundsätzlich möglich, Tests für einen gerade erst erfundenen Schultypzu konstruieren.Kaum eine Schule kommt ohne Zuordnangs- und. Selebtionsentscbeid.wngen aus.

.§7'ie

aber werden diese Entscheidungen in der Praxis gefällt? Unabhängig von der Existenzvon Tests orientieren sich Lehrer wohl in den meisten Fällen an den vorhandenenEinrichtungen. Systemstabilisierung durch Selektion gibt es also schon vor den Tests.Kritik an unerwünschten Eigenschaften dieser Einrichtungen und Innovationsvor-schläge müssen dann an der Einrichtung selbst ansetzen; wenn man statt dessen dieTests kritisiert, schlägt man den Sack, statr den Esel! Es erscheint uns daher zumin-

17 Vgl. Belser, H.: \üie beurteilt man Sdrultests? In: Ingenkamp, a. a. O., S. 135-145.18 S. 345. Dabei (vorletzter Absatz ,empirisdre Normen . , . Leismngstest ist") handelt es si& mit Ausnahmetlcr Flcrvorhebungen um ein nicJrt belegtes Zitat yot Hiltmann, a. a. O., S. 21.

Disbassionsbeiträge 283

dest einseitig gesehen, in diesem Zusammenhang Tests als Loyalitätsuntersuchungen

zu qualifizieren.Durch eine Innovation werden Tests möglicherweise überholt - vielleicht nur für

;;;;i"" Ki*se,, Schularten oder aber ii ganzen. Schultests müssen deshalb immer

*i.a.. auf ihre Übereinstimmung mit Schule und curriculum geprüft werden. In

äi"r., UU"rp.üfbarkeit und Korrirollierbarkeit von Tests sehen wir einen weiteren

b.J.r*r-.r, Vorteil dieses Hilfsmittels. Vermutlich ist der Test durch diese Eige,-

schaften eher einer Systemüberwindung zugänglich als das Lehrerurteil.

Was ist die Alternative?

Unser Flauptvorwurf an Znucrt besteht darin, daß er sich damit begnügt, den p.äd-

;;;;t..k; }eigefinge, g.g"o d"r, Test z* erheben. Alternativen zeigt er leider nicht

auf.

Als Alternative zum Test ist entweder der Verzicht auf Messungen o.der d'ie Lehrer''rriar;""g denkbar: Im Leistungsbereich kann die Leistungsfeststellung dann er-

,rirf", g?striche^ werden, wenn" die überlegung, wozu ein T pistungsvergleicl.r S.e^-

ir*".irr'"rira u,d welcher Frrrrktion er dienenioll, zu einer negativen Antwort führtlo'jili- dr;i;; für die tägliche _schularbeit

(vo' der Unterrichtsforschu,g gatz zLl

;.;;;ü;t;"rüg.,ra B"relh. bleibe,, wo auf eine Leistungsfeststellung .nicht ver-

zichtet werden t r.r.. Oi. Alternative wäre hier die herkömmliche Zensierung mit

Hilfe von Klassenarbeiten und mündlichen Prüfungen. Diese Verfahren weisen jedoch

--*i" ,ni.lf".h nachgewies erPo - ganz erheblichc Mangel auf ; .gerade bei der Zensur

kommen die Befürchiungen, die üu"'gegen den Test hegt' voll zur Geltung'

Meßverfahren für nicht-kognitive Bereiche kommen derzcit in der Schule kaum zum Einsatz'

Motivation, Interesse, A"gr?ii"nf..i, werden, wenn sie überhaupt- Beachtung finden, vom Leh-

;;;;rar;kri" .irrg.r.hä.rrl-Äuch hier läßt sich vermuten, daß diese Schätzverfahren wesent-

ii"fr-r"'r"".Aarrii". ,ind-;, i.r", a, Vorurteile, selektive Beobachtungen und Stereotypien

tlas Lehrerurteil verfälschen21.

Bei aller Problematik stellt demnach der Test dort, wo es auf eine möglichst genaue

und zuverlässige Aussage ankommt, das derzeit beste Hilfsmittel zum Gewinn von

Information drr. D"r.rä"h ka,-,., das nicht einen Verzicht auf das Lehrerurteil bedeu-

,"rr. lr-, der Entwicklrrrg-b"rr..., Schätz- und Beobachtungstechniken für den Lehrer

ii.gt .i" noch kaum uri.grrrg.n., Problem der pädagogischen Diagnostik' Diese Ver-

faüren sollen sich jedoch irgänzen, nicht ausschließen'

Aktuelles Meßgebiet: Unterridtsevaluation

\Wir haben uns bisher der Beschränkung Zrucus (S. 341) angeschlossen und uns nlit

i.. ni*t"f".gsfrrnktio., ,on Tesrs befa-ßt. Es muß sicher zugegeben werden, daß die

Ä"rgrü. ä* äb;.k,io.n Leistungsmessu_ng noch vor zehn Jahren fast ausschließlich

in der Differ.rrri"r,rrrg von untelschiedliJh leistungsfähigen Schülern gesehen wurde;

ir1r*ir"h"r-, hat sich iie Diskussior- garrz entschieden verlagert. Mit der Forderung

,*1, kr;r"ri.n- und lerrrri.lb"zogene; Tests, der operationalisierung von Lehrzielen

,n ,"t. ,. B. die Übcrlegungcn zum untersudrungsziel bei tngenkamp' a' r- o" S' 44,J'

!o In-pcnkamD. K. (Hrse.): äi;'F;;s;ü;äi;i;i'-ää 2"-*'"'"eebungi'§ceinhcim l97l (Bibl')'et Vß"1. FIöh;, E.: Dcr-sdrlcchtc S&ülcr. München 1967'

284 Dishussionsbeiträge

und ihrer taxonomischen Strukturierung sowie Anweisungen zu informellen Verfahrenist die Fanktion aon Tests zur Cu.rriculum- omd Unterrichtseoalaation zunehmend inden Mittelpunkt der pädagogisch-psychologischen Testdiskussion getreten.

In diesem Zusammenhang dient der Test nicht zur Feststellung der ,,Qualitär" vonSchülern, sondern zur Kontrolle von lJnterricht. Eine solche Kontrolle wird nötig,wenn zur Bewertung unterrichdicher Arrangements nicht allein die proklamierten,sondern ihre realisierten Ziel.e herangezogen w'erden sollen. Die Kontrolle, ob eingewünschtes Unterrichtsziel auch tatsächlich erreicht wurde, unter welcher Bedingungund wie dauerhaft dies geschah, wurde in den Unterrichtstheorien in Deutschlandlarge Zert zugunsten der Planung und Vorbereitung von IJnterricht vernachlässigt.Erst im Didaktikmodell der Kybernetik und der Berliner Schule sowie mit derCurriculumdiskussion wird die überprüfung des Unterrichtserfolges zur Steuerungweiteren Unterrichts als integrierter Bestandteil des Unterrichts verstanden. Llnterdiesem Aspekt haben Prüfungen keinen Selbstzweck, sondern dienen daztr, den [.Inter-richtsprozeß erfolgreicher zu gestalten.

§flir müssen uns in diesem Rahmen mit einem kurzen Verweis auf dieses akuelle undauch von Znucs am Schluß erwähnte Anwendungsgebiet von Schultests begnügen.Die Auseinandersetzung mit diesem Gebiet würde für die Praxis sicherlich erheblichpositivere Anregungen bringen als die Kritik der Auslesefunktion. Voraussetzungauch für den Einsatz von Tests ^) Evalsationszwecken ist jedoch, daß die Lehrerdie Möglichkeiten, aber auch die Grenzen von Tests kennen.

S&luß

\flir akzeptieren durchaus die Beispiele, mit denen Znu*t die Mänge122 und Gefahrenbei der Anwendung von Tests illustriert, sehen allerdings die Ursachenzusammenhängeanders: Die meisten Vorwürfe beziehen sich auf Gefahren, die durch Fehler bei derKonstruktion und'Weiterverwendung von Tests den Zweck des Testeinsatzes verfeh-len lassen. Im Gegensatz zuZnucw halten wir es für grundsätzlich möglich, daß einTest vom Benutzer analysiert, hinterfragt und auf seine Brauchbarkeit geprüft werdenkann. Dies führt zu der unterschiedlichen Bewertung von Testverfahren bei Znucrrund bei uns: 'Wir sehen für Diagnose, Prognose und Selektion, für Evaluations- undForschungszwecke derzeit totz aller Mängel, Gefahren und Einschränkungen keinerealisierbare Alternative, die den Test überflüssig machen könnte.

Für einen sachgerechten und grenzbewußten Einsatz ist es jedoch notwendig, daß dieLehrer lernen, mit diesen Verfahren umzugehen. §flir glauben jedoch, daß unsereSchulen und Lehrer nicht so ,,systemstabil" sind, sich die für einen besseren Unterrichtunersetzliche Information auf die Dauer entgehen zu lassen. §flir schließen uns daherTnonNorrr/HAGEN an: ,\(/e must grant that our measurement procedures are notcomplete and our actions based on them are not always wise. But the remedy liesin developing better measurement procedures that will give us more complete andmore accurate information about the individual. It lies in gaining better understan-ding of our measures - their strengths and their weakness - so that we may use themwith more wisdom. It does notlie in getting less information."2s

" ^rrt* die Ausführungen zu projektiven Verfahren, die uns mehr Vorurreil statt Urteil zu sein

sdreincn !28 a, a. O,, S. 13.