Upload
nguyenlien
View
215
Download
0
Embed Size (px)
Citation preview
JOS
T R
EIS
CH
MA
NN
Der E
insatz von Tests in der S
chule
Stellungnahm
e zu: W. Z
EU
CH
: Was spricht gegen die A
nwendung von T
eetver-fahren? ln: D
ie Deutsche S
chule, 65. Jg. (1973), 5, S.34H
48.
Tests geliören ni.cbt in d.ie H
ände oon Dilettanten. T
ests habcn ihrcG
renzen; ihre Herstellung und A
nwendung unterliegt G
elahren, diad.er bennen m
u$, d.er sie sinnvoll als Hi.lt'sm
i.ttel einsetzen utill, Wcnn
Lebrer mit T
ests als pädagogi.scb-diagnostischen Verfaltren um
gchcn,d.ann m
üssen sie in ibrer Aasbild.ung m
it den Problem
en der Testhcr-
stellung and -zterwendung oertraut gem
acht werd,en; w
eder ein ,,nai-ver O
ptimi,sm
tuso , üor dem Z
e u c h rnit Recbt todrnt, noch eirt
naioer Pessim
ismus tragen za einer realistischen S
tellang gegenühcr
dem H
ilt'smittel T
est bei.
Daß
Tests H
ilfsmittel -it
G..rrr.rr, G
efahren und Schw
ächen sind, braucht wcrlcr
eingestanden zu werden, noch dient diese F
eststellung der Vorbeugung (S
. 340)'.V
ielmehr ist dies eine E
insicht, ohne die eine sachgerechte Arbeit m
it Tests nicht nri.ig-
lich ist. Von daher ist es begrüß
enswert, w
enn ein Autor auf die begrenzte A
trssagc-kraft von T
ests hinweist. D
ennoch scheinen uns die Ausführungen Z
rucns zu einseitig.E
r beschränkt sich auf K
ritik, die sich mit T
nonN»rre / F
fecrN in zw
ei Gruppen zu-
samm
enfassen läßt: ,,T
hey are criticisms either of (a) the incom
pleteness and impcr-
fection of the information yielded by our m
easurement procedures or (b) the unw
iscthings that w
e do with that inform
ation"z, wobei u. E
. das Schw
ergewichr seincr
Beispiele entgegen seiner Intention auf (b) liegt. Z
udem leitet er aus seiner K
ritiltkeine positiven F
orderungen ab und zeigt auch keine A
lternativen auf. Dies abcr ist
nach unserem E
rachten als Beitrag für eine realistische E
inschätzung der Möglichhci-
ten des Tests nicht hinreichend. §7ir w
ollen daher einerseits Information
über Tcsts
vermitteln, andererseits zu den V
orwürfen Z
nuctts Stellung nehm
en.
Dabei beschränken w
ir unsere Überlegungen auf den B
ereich der Schultests. D
ies sind Prüf-
verfahren, durch die bestimm
te Effekte von lJnterricht und E
rziehung festgestellt werdcn
sollen; in einem w
eiteren Sinne w
erden hierzu auch Verfahren zur F
eststellung der Voraus-
setzungen von Lehr- bzw. E
rziehungszielen gerechnets. D
ie Einschränkung auf S
chultcstsscheint uns gerechtfertigt,
da sich die Ausführungen in diesem
Rahm
en vor allem an Lehrcr
wenden und sich die K
ritik Zrucns auch an diesem
Gebiet behandeln läß
t.
Zxvcu. w
ill seine Kritik ,,nicht vordergründig gegen die A
nwendung
noch unvoll-kom
mener T
echniken richten, sondern in erster Linie gegen die Gefahren, die auch
t rt" *t"r"*"ben
in Klam
mern beziehen sidr auf Z
eudr, a. a. O.
2 Thorndike, R
. / Hagen, E
.: Measurem
ent and Evaluation in P
sydrology and Education, 2nd E
dition - John
§fiiley and Sons Iuc. N
ew Y
ork 41964, S. 13.
3 Sü[w
old, F.: S
d:ultests, In: Heiss, R
, (Hrsg.): H
andbudr der Psydrologie, B
and 6, Psydrologisdre D
iagnostik,G
öttingen 21964, S, 352,
Diskussionsbeitäge
277
mit einer P
erfektionierung der T
esttechniken nicht aus dem V
eg gefäumt w
erden"
1i. l+oy. U
m diesen A
nsiruch erfüllen zu können, erscheint es uns notwendig, m
itden überlegungen einen S
chritt lor Zuucrr einzusetzen.
Dle A
ufgabe von Tests
Ein T
esr isr - so definiert LrcNsnr - ,ein w
issenschaftliches Routineverfahren
zur
Ürrt"r.r.lrurrg eines oder m
ehrerer empirisch abgretnbaret P
ersönlichkeitsmerkm
ale
mit dem
Ziel eiter m
öglichst quantiädven Aussage über den relativen G
rad derindividuellen M
erkmalsäusprägung"a. D
as bedeutet: Inhaltlich orientiert sich ein,ol.h., R
outineverfahren a-n "lneÄ
odet mehreren M
erkmalsgebieten und den dort
anzutreffenden Verhahensvariationen; zur F
eststellung der individuellen Ausprägung
wird ein bestim
mter M
erkmalsraster an die zu untersuchenden Individuen
angelegt,
wodurch sie hinsichtlich
dieses Merkm
als vergleichbar werden. D
as Ziel einer solchen
Mcssung ist die m
öglichst exakte Feststellung des Ist-Z
ustandes auf einer Skala'
Daraus ergibt sich: D
ie Aufgabe von T
ests besteht darin, zv messen. T
ests sind ein
Hilfsm
ittei, um Inform
ation zu gewinnen. D
as Ergebnis eines T
ests ist ein Verhältnis-
maß
, zumeist in F
orm eines oder m
ehrerer Testw
erte (,,score')'
Mcssungcn durch T
ests liefern also zunächst nur Information,
nicht jedoch ein Urteil oder
"i,r" B"ä"rtrrrg. A
uf dieses oft anzutreffende M
ißverständnis
weisen T
Honrorrr/H
eorN
ein-
clringlich hin: ,,A test w
ill yield only a score, not the conclusion to be drawn from
that,.ur"] T
h. infoÄation proviied in a test score is not a substitute for insight."s
Dicscr ,,tesr score" (nicht das, w
as mit dem
Ergebnis gem
acht wird), so w
ird in derT
csttheorie gefordert, muß
bestimm
ten Forderungen genügen: H
auptgütekriterien
sind Objektilvitat, R
eiiabilität und Validität, N
ebengütekri!.lr_"" (y9" ZrucH
nichtgcnannr) sind N
ormierung, V
ergleichbarkeit, O
konomie und N
ützlichkeito. Norm
ie-
iur.,g b"ä.rt.t dabei zum;ist, daß
.i, V
ergleich mit der entsprechenden P
opulation
mtiilictr ist (R
ealnorm), nicht die A
ngabe eines zu erreichenden Zieles (Idealnorm
T).
ßei der M
essung mit T
ests wird dem
nach die Leistungsfeststellung von der Leistungs-
bcurteilang odJr -bewert,,tng getrelrfi. D
er erste Schritt, die Leistungsfeststellung,
er-
folgt so sÄem
atisch und objektiv (d. h. unabhängig von subjektiven Einflüssen ver-
..hf.d"rr., Benutzer) w
ie möglich und dient der F
eststellung dessen, was ist. In
einem zw
eiten Schriit m
uß der Lehrer dann aus seiner pädagogischen E
rfahrung und
Verantw
ortung heraus, also subjektiv entscheiden, was w
erden soll. .Vor einer V
er-
mischung diesJr beiden S
chritte warnt IN
GE
NK
AM
r: ,,§7ürden die A
rbeitsschritte der
Datensaäm
lung und Interpretation nicht getrennt werden, so w
ären der subjektiven
\(illkür Ttiruid T
or geöffnet. Man w
üßte nicht, w
as Fakten und \flertungen sind,
und könnte nie rational begründete Stellungnahm
en abgeben."s
Objektive Leistungsm
essung durch Schulleistungsrcsß
stellt also_ nur die V
orausset-
zuig flir Schülerbiurtei.lung
dar. Die B
eurteilung selbst wird sich an dieser V
oraus-
,"rrirrrg orientieren, aber zuiätzlich Kriterien heranziehen. E
in Test hann dem
Lehrer
eine Entscheidung w
ohl erleichtern, nicht jedoch abnehmen.
4 Lienert, G. A
.: Testaufbau und T
estanalyse.'§fleinheim
21967' S' 7'
5 a. a. O.. S
. 13.s V
s[. a. a. O., S
. 12 ff.z vii-
xtii*-'r- t.. u.a.: Lernzielorientierte T
ests. Düsseldorf 1972' 5.23.
e Irä""t"Äp,'K
. (tirig.), T
ests in der Sdrulpraxis. 'W
einheim
21972, S'29'
Reischmann, Jost: Der Einsatz von Tests in der Schule. In: Die deutsche Schule 66 (1974) H. 4, S. 276-284.
278 Diskassionsbeiträge
\[enn wir die Einschränkung von Tests auf den Gewinn von Information betonen,mag dies den Eindruck erwecken, wir würden eine solche Messung als Selbstzweckbetrachten und auf diese \7eise den problematischen Verwertungsbereich ausklam-mern. Dies ist nicht der Fall. \flir halten es für ausgesprochen wichtig, auf die Gefah-ren bei der §Teiterbenutzung von Testergebnissen hinzuweisen und werden daraufnoch eingehen. Jedoch ist es für die Verbesserung der Situation zunächst unabdingbareVoraussetzung, zu unterscheiden, ob beobachtete Fehler (a) auf Mängeln des Testsoder (b) auf unsinniger \fleiterverwendung der Ergebnisse beruhen.
Grenzen, Mängel, Ge,iahren von Tests
Aufgrund seiner Konzeption, die wir kurz nt charakterisieren versucht haben, istder Test ein Hilfsmittel mit Grenzen, die auch bei einer Perfektionierung der Test-techniken nicht überwindbar sind. Hierz;u gehört:
- Tests orientieren sich an definierten Merkmalsbereichen
- Diese Merkmalsbereiche werden isoliert betrachtet* Gemessen wird ein (erlerntes) Verhalten in konkreter Situation
- Testaufgaben werden so zusammengestellt, daß sie einen Vergleich ermöglichen(differenzieren)
- Es handelt sich um eine zeitlich punktuelle Messung
- Es wird lediglich eine Aufgabenstichprobe gegeben
* Testnormen sind Erfahrungswerte
Zieht rnan solche Grenzen in Betracht, so relativiert dies die Atrssagemöglichkeit vonTests. Da Zvucu unmittelbar nach dem Verwertungszusammenhang von Tests fragt,entgehen ihm diese Voraussetzungen, die den Einsatzbereich von Tests viel grundsätz-licher einschränken als seine Beispiele. Das §Tissen um solche Grenzen schützt voreiner ungerechtfertigten Überschätzung der Verfahren und unrealistischen Erwar-tungen, denen Zrucu gerade in seiner Kritik selbst verschiedentlich verfäIlt.Unrealistische Erwartungen bestehen oft hinsichtlich der Meßgenauigkeit von Tests. So weistSruoss unmißverständlich darauf hin, daß trotz der relativen überlegenheit von Tests "daszu einem bestimmten Zeitpunkt erfaßbare Fähigkeits- und Kenntnisniveau eines Kindes keinelangfristige Prognose seines Schulerfolges erlaubt, die so sicher ist, daß man eine Schullauf-bahnlenkung innerhalb des starren und weitgehend undurchlässigen dreigliedrigen Schul-systems darauf gründen könnte"s.
Zr den unausweichlichen Problemen jeder Testkonstruktion gehört auch die Bestim-mung der Validitätrl. Um sich zu versichern, daß ein Test tatsächlich das mißt, was ermessen soll, gibt es zwei Prüfansätze: einen empirischen und einen inhaltlich-logischen.Bei der empiriscben Validierung wird das Testergebnis mit dem Kriteriumsverhalten,das es vorhersagen soll, verglichen (also z.B. das Ergebnis eines Schulreifetests oderdie Ei - Eierbecheraufgabe mit dem tatsächlichen Schulerfolg nach vier Jahren). Beider inhahlich-logi.scben Validierung werden die Aufgaben des Tests daraufhin be-
0 Simons, H.r In: Studienbegleitbrief 10 zum Funkkolleg Pädagogisdre Psy&ologie, \[einheim 1973, S.50. Vgl.aucl Zielinski, \[.: In: Studienbegleitbrief 12.ro Die Validitätsdefinition bei Zeuldr (S. 343 / 4, Absdrnitt) ist zum größten Teil (,,wenn seine Ergebnisse . . .lokalisiert") ein nidrt belegtes Zitat von Lienert, a. a. O., S. 16.
Diskussionsbeiträge 279
urreilr, ob sie repräsentativ sind für den geforderten Inhalt (so kritisiert z. B. Nrruzllam Erdkundetest Deußchland ETD 5-7 ein von der Geographie her nicht begrün-dendes übergewicht des norddeutschen R aumes).
Beide Verfahren haben ihre Vor- wie Nachteile: Die empirischeValidierung versichert
eilen tatsächlichen Zusammenhang zwischen Test und späterem Verhalten, ist aber
langwierig, daher auch rigide, und überhaupt nur dann durchführbar, wenn ein
opeiationäl definierbares und quantifizierbares Kriterium vorliegt. Die inhaltlich-Iogische Validierung dagegen läßt sich relativ kurzfristig und auch bei Inhaltendurchführen, für die ein operationales Kriterium nicht unmittelbar ausgemacht wer-den kann, hat aber den Nachreil, daß die Schätzung der Beurteiler möglicherweise
nicht mit den tatsächlichen Gegebenheiten des entsprechenden Gebietes überein-
stimmen.
Um die Brauchbarheit der auf die eine oder andere §(eise erstellten Validitätsanga-ben abschätzen zu können, enthalrcn die Handanweisungen für Tests Angaben über
die in (hoffentlich sorgfältig beschriebenen) Stichproben enthaltenen §flerte. Dies
sind, wie bereits gesagl f,rlibrrngswerterz und nicht etwa ,,Flochrechnungen" aufzukünfrige Durchführungen. Hier muß der Testbenutzer selbst abschätzen, inwieweitder Test fär seine Situation überhaupt aussagekräftig ist; dies erfordert, daß er ent-
sprechend vorgebildet ist.
§(/enn man Zuverlässigkeirs- und Gültigkeitskoeffizienten als Erfahrungswerte be-
rrachter, kann es nicht verwundern, daß in unterschiedlichen Untersuchungen ver-schiedene §flerte ermittelt werden. Hierzu braucht man nicht auf einen über 10 Jahrealten amerikanischen Beleg zu rekumieren (S. 345, Gnoss); es gibt genügend Erfah-rungsberichte über Testeinsatz in Deutschlandls. Dabei bestätigt sich jedoch nicht,daßdie festgestellten \flerte ,,in der Regel weit niedriger (sind) als die von Testautoren
selbst angegebenen" (S. 345).
Ein perfekter Test würde also zumindest den obigen Beschränkungen unterliegen.Da Tests aber von Menschen ausgedacht werden, können bei der Herstellung auch
Fehler unterlaufen, wie Zxucrt mit Beispielen illustriert. Allerdings wird man Tests
mit solchen Fehlern im Gegensatz ztZyucs wohl kaum als ,,perfekt" oder ,,technischgut" bezeichnen können. Konstruktionsfehler ergeben schlechte Tests; Zrucns Argu-mentation ist irreführend, wenn er ,,Mängel und Gefahren, die auch technisch gute
Tests aufweisen" (S. 34L), aafzeigen will, dann aber behebbare Konstruktionsmängelatfzählt und damit den Eindruck erweckt, trotz solcher Mängel handele es sich um
gute Tests.
Ztr diesen behebbaren Konstruktionsfehlern gehört die stereotype Aufgaben- andAuswertungsform. Eine einseitige Festlegung auf einen bestimmten Aufgabentypübersieht den Zusammenhang von Inhalt und Prüfungsform und verkürzt in unzu-lässiger §7eise den möglichen Prüfungsbereich. Die Aufgabenformen für Testatrfga-
benli sind zahlreich und sollten beweglich gehandhabt werden. Mit entsprechender
Auswertungsanweisung lassen sich auch Aufgaben mit ungebundener Antwortfornt
11 Niemz, G.: Objektivierte Leistungsmessung im Erdkundeunterridrt. In: Geographisdre Rundsdrau, 24. .fg.(1972), s.1O2-7O7.lll Vcl- Ineenkamo. a. a. O.. S. 69.rl Uä*.t"E- t. l'I"e""kr-p. K.: Literatur über Tests im Bereidr der S&ule. \fleinheim u. a. 1968.Krapo. A.lMandl.-H.: Sdrulreifetest und Sdrulerfolg. Mündren 1971.ii-äiit't";:'Th.; Ä;f;;b""1;iÄ"" fu. den lernzieloriintierten Test. In: Dohmen, G. (Hrsg.): Forcdrungr-teciniken'für die Ho-&sdruldidaktik. Mündren 7971, S, 9t-109.
280 Dishassionsbeiträge
hinreichend objektiv auswerten (vgl. z. B. die Nachzeichenaufgaben im §{reilburgerSchulreifetest, die Oberbegriffsbildung im I-S-T von Aureurn). Der Hinweis aufeine mögliche Verschiebung des Inhalts durch eine unbewegliche Aufgabenformulie-rung ist also richtig, jedoch unter ,unvollkom,mene Konstruktionstechnik" einzu-ordnen. Unter die gleiche Kategorie läßt sich die bemängelte Sinnverschiebung beider notwendigen Operationalisierung des Zieles (5.344 f.) subsumieren.
Auch Kreativität läßt sich grundsätzlich mit Tests erfassen. Da sich Tests jedoch, wie wiroben ausführten, auf ein einzelnes oder auf einige wenige Merkmalsgebiete beziehen, kannman nicht erwarten, daß ein Test alles mißt. Andererseits ist kaum anzunehmen, daß Kreati-vität in Leistwngstests ,,häufig negativ bewertet* (S,342) wird, da deren Aufgabenformulierung
- wie ZBucs selbst ausführt - zumeist eine kreative Lösung nicht zuläßt; sie wird vielmehrnicht erfaßt. §fler meint, daß die herkömmlichen Test nicht alle wichtigen Aspekte erfassen,muß die Entwicklung neuer, besserer Tests fordern. Znucn begnügt sich auch hier mit derKritik.
Das sich hieran anschließende Beispiel (5. 342) schildert ein Validitätsproblem: Istdie Zuordnung von Ei zu Eierbecher eine Aufgabe, die schulreife von nicht-schulrei-fen Kindern trennt? Und was ist mit den Schülern, die mit ZBvcn die Zuordnung,,Ei z,t FIut" als eine sich geradezu anbietende (die Größenordnung sei vernach-lässigt) unkonventionelle Lösung verstehen? Bei dieser Aufgabe, wie sie in den Veil-burger Testaufgaben und dem Reutlinger Test für Schulanfänger enthalten ist, wärein der Tat die Aufgabeninsruktion dahingehend abzuändern, daß man fragt: '§7as
paßt am besten zueinander? Es muß aber gesehen werden, daß solche Aufgabenbei-spiele - und zwar gerade einfachster Art - zur Vorübung von Tests gehören unddamit die Furcht vor ,,direkten' Lösungen abgebaut wird. Außerdem besteht ein Testimmer aus einem ganzen Satz von Aufgaben, so daß einzelne solche problematischeLösungen sich kaum auswirken (hier könnten sich überlegungen zur Reliabilität an-schließen). Vor allem aber werden die Einzelaufgaben und der Gesamttest vor demendgültigen Einsatz empirisch überprüft; bei einer Testanalyse werden Aufgaben,bei denen durch Fehler in der Aufgabenformulierung, irreführende Hinweise oderLösungsvorschläge die Leistungsbesten auf eine falsche Antwort gelenkt werden, je-doch bald entdeckt und überarbeitet oder entfernt. Gerade in dieser Erprobung istein großer Vorteil des Tests gegenüber der herkömmlichen Leistungsfeststellung zusehen.
Kurz wollen wir noch auf einige andere Get'abren bei. d.er Konstrukti.on von Schul-leistangstests hinweisen :
- überbetonung des leicht Meßbaren
- Atomisierung der pädagogischen Aufgabe in relativ sinnarme Fragmente
:.lnd bei normorienti,erten Tests:
- Überbetonung des Leistungsprinzips: ,,obar" und ,unten" wird den Schülern als,,natürliche" Ordnung geboten.
- Maximierung tatsächlicher Unterschiede
- Keine Aussage über absolutes Leistungsniveau
über die Brauchbarkeit eines Tests entscheidet also nicht allein das Ausmaß derFehldiagnosen, sondern zasätzlich die unterrichtliche Brauchbarkeit der inhaltlichenAussage. Hierzu empfiehlt IxcrNrrurnp: ,Ein Test sollte . ., nur entwickelt werden,
Diskussionsbeitrilge 281
wenn er ein Schülerverhalten angemessener erfassen kann als die bisherigen Unter-
,r.i"ngr*.it oden oder vorliegeiden Tests,. wenn die überprüfung des angestreb-
i." r.ir"rr"lgs bedeutsam g"n-,rg irt und nicht durch die Existenz eines Tests eine
,o"ri"i.t. gelechtfertigt" Äkr"rirrri.rung erfährt und wenn die Testkonstruktion in
übereirrrtimäung mit dldaktischen Intentionen gebracht werden kann"'16
Die Weitelverwendung von Testergebnl§sen
Nichr nur bei der Testkonstruktion, sondern auch bei der §fleiterverwendung der
i.räg"U"f";rt"d Fehler möglich. Und.hier liegt_ein Problem der ZsucHschen
A;;;;;;;;ilr,, öff"r,b", .,imät er an, daß die Lehrer weder bereit noch in der
ü;;il, -thr
subjektives Urteil relativ ieren zr lassen und deshalb geziel Meßergeb-
nisse verfälschen: ,,Der Einsatz von Tests verleiht der subjehtiven Beurteilung. des
i"rr."r, nur den schein d". obl"ttirrität.Er kann somit dem Lehrer zur verschleie-
*"g äa";' nechtfertigung seines subjektiven _Urteils vor Eltern, Schülern und vor
,i.lr"r"tfm dienen" 1S-. lä4, ähnlich 'S. f+f;. Mit einem solchen Lehrerbild wäre es
iöir.r,*,-ai" ÄUr.hrrfu"g d.. g.rr*r.o schule zu fordern, als nur so ein unbedeu-
i.id", t-iitfr*imel wie dä T.rt" r., geißeln, vor allem, wenn man zusätzlich davon
;;;;;., äß .Ji. S"t "t" meist gar kiine materiellen Möglichkeiten--be_sitzt, wirksame
it"irp.Lrfr.f.. m"ßrr"h*"r, g.gär, ".L"rrrrte
Srchwächen eltztsetzerr" (S. 341). Zudem
g;h; ä"r erhobene Vorwurf lri r"r, vorbei: Die Kritik trifft nicht den Test, sondern
äie mangelnde Objektivität des Lehrerurteils'
Das Bemühen, subjektive Einflüsse auf die Durchführung und Auswertung von Tests aus-
zuschließen, wird keir"rweg, d"i"t"h fragwürdig - wie Zrucn meint (S' 343)--' daß ein
är;;;r;;ilr";- tri-zrrir,a aischließend ,rl.i'e- Aussagekraft hinterfragt wird (,,§üurden
Besonderheiten in der Testsituation beobachtet? Wie gtoß itt der Mcßfehler?") und- dann
:;;[.h;"ir" ,o.h H;;;;;h;; *.iterer überleg"lc.i -" einer Entscheidung führt, in
d;-"1r"h ;;lj.ktirr" r.f"hrorrg." o"a v.rro"g.n ein!ehin16' Denn es ist einleuchtend, daß die
i""".rar.lgr.äit ob;"ktir". örä ,o"r, ui ,oüjekti""i verwertung noch höhe-r sein dürfte, als
*.rro ,ror- vorne herein iui ,ubjektive Daten herangezogen werdel. f"{ jeden Fall-irrt
ä""i",*".rr, ", -.ior, drß oi.h. tontrollierbar wäre, in welchem Maß {1 (objektives)-Test-
;s;;;i, it;;i" (rf;.[ri".1 Gesamtzensur herangezogen wird (S. 348): Eine einfache Korre-
latiionsberechnung zeigt diesen Zusammenhang'
Um den Unsicherheitsfaktor in der §[eiterverwendung von Testergeb:rissen so gering
-i" *ägfi[ ,,, h"lt"rr, Lrrr, *"r, die Kriterien dei Oblektivität,. Reliabilität und
vrlidita"t auch für diesen Schritt fordern. Diese Forderung kann nicht durch Mani-
p;i;;;;; iest e.ftillt werden; hierzu muß der Lehrer einerseits das Meßergebnis
[i"i.ri.rg* können, andererseits müssen zusätzliche Beobachtungs-- und Schätzver-
i;i."n eitwickelt und mit den Lehrern trainiert werden. Die Qualität der Verwen-
d""g-;;; T.stergebnissen ist also von der Kompetenz der Lehrer abhängig, die eine
solche Aufgabe zu erfüllen haben.
Daß Zsuci die Inkompetenz des Testanwenders als den Normalfall annimmt, geht
auch aus der Ausgangsäberlegung hervor, es sei für die Beurteilung eines Tests nicht
nebensächlich, ,,ii ltielche* "turlr. er eine mißbräuchliche Anwendung ermöglicht
ä lu? 3+ $;.tstt;- o* zusammenhangs dieser beiden-§drritte weist H' Hiltmann (*'-,'li'lfutTn3it*ii
{tälJu*"",t'l*"§i:if:;+:rö::; ,:i'll ''};,1,s' z"*li"i,a3"',t
.!'';i1,1" a!}T"*i,'J:';rü';m';;t.Messung" nidtt überoommen hat.
282 Diskassionsbeiträge
oder sogar provoziert" (S. 340). Ein Test ,provoziert" dann den Mißbrauch, wenndie Angaben über sein Zustandekommen und seine Erprobung fehlen (nach unserenobigen Überlegungen wäre ein solcher Test mangelhaftrT), aber auch, wenn ein un-kritischer Benutzer trotz dieser Angaben nicht in der Lage ist, die Grenzen d.er Test-aussage zu realisieren. Im ersten Fall wäre das Testbeiheft neu zu fassen oder aufden Test zu verzichten, im zweiten die Qualifikation des Benutzers zu heben oderihm von jeder Testbenutzung abzuraten. Zrucs empfiehlt jeweils das Zweite, unsschiene das Erste sinnvoller. §7ir würden also meinen, daß Tests nicht per se einemißbräuchliche Anwendung provozieren, sondern daß dies an der Qualität des Testsund der Qualifikation des Benutzers liegt. Und beides ist einer Verbesserung zu-gänglich.Für unsere Überlegungen, wie der Testeinsatz in der Schule verbessert werden kann,bewährt sich also die bei Znucrt vernachlässigte Trennung von Messung und Bewer-tung. Damit verstehen wir auch eine Reihe von Vorwürfen bei ZeucH als Fragen andie Kompetenz des Anwenders, nicht an den Test: §flenn Tests zur Einstufung, Selek-tion oder Disziplinierung eingesetzt werden (S. 341), wenn Berufseignungstesrs derAusbeutung dienen (S. 346), wenn Znucn beklagt, daß Schulleistung unabhängig vonder Lerngeschichte beurteilt werde (5. 347). Das Vorhandensein eines Tests genügtnoch nicht zur Rechtfertigung seines Einsatzes. Nur wenn sich der Anwender überdie pädagogische Bedeutung, die didaktische Angemessenheit, die diagnostischeFunktion und die möglichen Konsequenzen im klaren ist, wird der Testeinsatz einsinnvolles Element im Unterricht sein.
Der Vorwurf der Systemstabilisierung
Ob eine Testanwendung eher der Institution oder eher dem Individuum nützt, wirdnach diesen überlegungen also nur zum Teil vom Test bestimmt; die endgültigeDetermination liegt beim Verwender. Wenn Tests zum Zweck der Einstufung ange-wendet werden (2,8. ZrordnlrrTg z1t einem Stützkurs, Leistungsgruppe, Schulart),dann orientieren sie sich an den bestehenden Institutionen - auch an ihren Mängeln -und den dort vorgefundenen Verhaltensvariationen. ZBucrr verweist in diesem Zu-sammenhang dararf , daß die sozialen und kulturellen Bedingungen der Gesellschaftwesentlicher Bestandteil der Leistungstests seienrs. Tests tragen demnach in vielenFällen zur Systemstabilisierung bei. Dies ist jedoch keine grundsärzliche Aussage: Dieüberlegungen zur Validität haben gezeigt, daß Testinhalte nichr nur empirisch, son-dern auch durch inhaltlichen Konsens als verbindlich anerkannt werden können.Damit ist es grundsätzlich möglich, Tests für einen gerade erst erfundenen Schultypzu konstruieren.Kaum eine Schule kommt ohne Zuordnangs- und. Selebtionsentscbeid.wngen aus.
.§7'ie
aber werden diese Entscheidungen in der Praxis gefällt? Unabhängig von der Existenzvon Tests orientieren sich Lehrer wohl in den meisten Fällen an den vorhandenenEinrichtungen. Systemstabilisierung durch Selektion gibt es also schon vor den Tests.Kritik an unerwünschten Eigenschaften dieser Einrichtungen und Innovationsvor-schläge müssen dann an der Einrichtung selbst ansetzen; wenn man statt dessen dieTests kritisiert, schlägt man den Sack, statr den Esel! Es erscheint uns daher zumin-
17 Vgl. Belser, H.: \üie beurteilt man Sdrultests? In: Ingenkamp, a. a. O., S. 135-145.18 S. 345. Dabei (vorletzter Absatz ,empirisdre Normen . , . Leismngstest ist") handelt es si& mit Ausnahmetlcr Flcrvorhebungen um ein nicJrt belegtes Zitat yot Hiltmann, a. a. O., S. 21.
Disbassionsbeiträge 283
dest einseitig gesehen, in diesem Zusammenhang Tests als Loyalitätsuntersuchungen
zu qualifizieren.Durch eine Innovation werden Tests möglicherweise überholt - vielleicht nur für
;;;;i"" Ki*se,, Schularten oder aber ii ganzen. Schultests müssen deshalb immer
*i.a.. auf ihre Übereinstimmung mit Schule und curriculum geprüft werden. In
äi"r., UU"rp.üfbarkeit und Korrirollierbarkeit von Tests sehen wir einen weiteren
b.J.r*r-.r, Vorteil dieses Hilfsmittels. Vermutlich ist der Test durch diese Eige,-
schaften eher einer Systemüberwindung zugänglich als das Lehrerurteil.
Was ist die Alternative?
Unser Flauptvorwurf an Znucrt besteht darin, daß er sich damit begnügt, den p.äd-
;;;;t..k; }eigefinge, g.g"o d"r, Test z* erheben. Alternativen zeigt er leider nicht
auf.
Als Alternative zum Test ist entweder der Verzicht auf Messungen o.der d'ie Lehrer''rriar;""g denkbar: Im Leistungsbereich kann die Leistungsfeststellung dann er-
,rirf", g?striche^ werden, wenn" die überlegung, wozu ein T pistungsvergleicl.r S.e^-
ir*".irr'"rira u,d welcher Frrrrktion er dienenioll, zu einer negativen Antwort führtlo'jili- dr;i;; für die tägliche _schularbeit
(vo' der Unterrichtsforschu,g gatz zLl
;.;;;ü;t;"rüg.,ra B"relh. bleibe,, wo auf eine Leistungsfeststellung .nicht ver-
zichtet werden t r.r.. Oi. Alternative wäre hier die herkömmliche Zensierung mit
Hilfe von Klassenarbeiten und mündlichen Prüfungen. Diese Verfahren weisen jedoch
--*i" ,ni.lf".h nachgewies erPo - ganz erheblichc Mangel auf ; .gerade bei der Zensur
kommen die Befürchiungen, die üu"'gegen den Test hegt' voll zur Geltung'
Meßverfahren für nicht-kognitive Bereiche kommen derzcit in der Schule kaum zum Einsatz'
Motivation, Interesse, A"gr?ii"nf..i, werden, wenn sie überhaupt- Beachtung finden, vom Leh-
;;;;rar;kri" .irrg.r.hä.rrl-Äuch hier läßt sich vermuten, daß diese Schätzverfahren wesent-
ii"fr-r"'r"".Aarrii". ,ind-;, i.r", a, Vorurteile, selektive Beobachtungen und Stereotypien
tlas Lehrerurteil verfälschen21.
Bei aller Problematik stellt demnach der Test dort, wo es auf eine möglichst genaue
und zuverlässige Aussage ankommt, das derzeit beste Hilfsmittel zum Gewinn von
Information drr. D"r.rä"h ka,-,., das nicht einen Verzicht auf das Lehrerurteil bedeu-
,"rr. lr-, der Entwicklrrrg-b"rr..., Schätz- und Beobachtungstechniken für den Lehrer
ii.gt .i" noch kaum uri.grrrg.n., Problem der pädagogischen Diagnostik' Diese Ver-
faüren sollen sich jedoch irgänzen, nicht ausschließen'
Aktuelles Meßgebiet: Unterridtsevaluation
\Wir haben uns bisher der Beschränkung Zrucus (S. 341) angeschlossen und uns nlit
i.. ni*t"f".gsfrrnktio., ,on Tesrs befa-ßt. Es muß sicher zugegeben werden, daß die
Ä"rgrü. ä* äb;.k,io.n Leistungsmessu_ng noch vor zehn Jahren fast ausschließlich
in der Differ.rrri"r,rrrg von untelschiedliJh leistungsfähigen Schülern gesehen wurde;
ir1r*ir"h"r-, hat sich iie Diskussior- garrz entschieden verlagert. Mit der Forderung
,*1, kr;r"ri.n- und lerrrri.lb"zogene; Tests, der operationalisierung von Lehrzielen
,n ,"t. ,. B. die Übcrlegungcn zum untersudrungsziel bei tngenkamp' a' r- o" S' 44,J'
!o In-pcnkamD. K. (Hrse.): äi;'F;;s;ü;äi;i;i'-ää 2"-*'"'"eebungi'§ceinhcim l97l (Bibl')'et Vß"1. FIöh;, E.: Dcr-sdrlcchtc S&ülcr. München 1967'
284 Dishussionsbeiträge
und ihrer taxonomischen Strukturierung sowie Anweisungen zu informellen Verfahrenist die Fanktion aon Tests zur Cu.rriculum- omd Unterrichtseoalaation zunehmend inden Mittelpunkt der pädagogisch-psychologischen Testdiskussion getreten.
In diesem Zusammenhang dient der Test nicht zur Feststellung der ,,Qualitär" vonSchülern, sondern zur Kontrolle von lJnterricht. Eine solche Kontrolle wird nötig,wenn zur Bewertung unterrichdicher Arrangements nicht allein die proklamierten,sondern ihre realisierten Ziel.e herangezogen w'erden sollen. Die Kontrolle, ob eingewünschtes Unterrichtsziel auch tatsächlich erreicht wurde, unter welcher Bedingungund wie dauerhaft dies geschah, wurde in den Unterrichtstheorien in Deutschlandlarge Zert zugunsten der Planung und Vorbereitung von IJnterricht vernachlässigt.Erst im Didaktikmodell der Kybernetik und der Berliner Schule sowie mit derCurriculumdiskussion wird die überprüfung des Unterrichtserfolges zur Steuerungweiteren Unterrichts als integrierter Bestandteil des Unterrichts verstanden. Llnterdiesem Aspekt haben Prüfungen keinen Selbstzweck, sondern dienen daztr, den [.Inter-richtsprozeß erfolgreicher zu gestalten.
§flir müssen uns in diesem Rahmen mit einem kurzen Verweis auf dieses akuelle undauch von Znucs am Schluß erwähnte Anwendungsgebiet von Schultests begnügen.Die Auseinandersetzung mit diesem Gebiet würde für die Praxis sicherlich erheblichpositivere Anregungen bringen als die Kritik der Auslesefunktion. Voraussetzungauch für den Einsatz von Tests ^) Evalsationszwecken ist jedoch, daß die Lehrerdie Möglichkeiten, aber auch die Grenzen von Tests kennen.
S&luß
\flir akzeptieren durchaus die Beispiele, mit denen Znu*t die Mänge122 und Gefahrenbei der Anwendung von Tests illustriert, sehen allerdings die Ursachenzusammenhängeanders: Die meisten Vorwürfe beziehen sich auf Gefahren, die durch Fehler bei derKonstruktion und'Weiterverwendung von Tests den Zweck des Testeinsatzes verfeh-len lassen. Im Gegensatz zuZnucw halten wir es für grundsätzlich möglich, daß einTest vom Benutzer analysiert, hinterfragt und auf seine Brauchbarkeit geprüft werdenkann. Dies führt zu der unterschiedlichen Bewertung von Testverfahren bei Znucrrund bei uns: 'Wir sehen für Diagnose, Prognose und Selektion, für Evaluations- undForschungszwecke derzeit totz aller Mängel, Gefahren und Einschränkungen keinerealisierbare Alternative, die den Test überflüssig machen könnte.
Für einen sachgerechten und grenzbewußten Einsatz ist es jedoch notwendig, daß dieLehrer lernen, mit diesen Verfahren umzugehen. §flir glauben jedoch, daß unsereSchulen und Lehrer nicht so ,,systemstabil" sind, sich die für einen besseren Unterrichtunersetzliche Information auf die Dauer entgehen zu lassen. §flir schließen uns daherTnonNorrr/HAGEN an: ,\(/e must grant that our measurement procedures are notcomplete and our actions based on them are not always wise. But the remedy liesin developing better measurement procedures that will give us more complete andmore accurate information about the individual. It lies in gaining better understan-ding of our measures - their strengths and their weakness - so that we may use themwith more wisdom. It does notlie in getting less information."2s
" ^rrt* die Ausführungen zu projektiven Verfahren, die uns mehr Vorurreil statt Urteil zu sein
sdreincn !28 a, a. O,, S. 13.