39
Itemanalyse und Reliabilität eines Deutsch-als-Fremdsprache- Einstufungstests Peter Paschke

Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

  • Upload
    vanbao

  • View
    223

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Itemanalyse und Reliabilität eines Deutsch-als-Fremdsprache-

Einstufungstests

Peter Paschke

Page 2: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

© Peter Paschke Padova 2000

Page 3: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Inhalt

0. Vorbemerkung 1

1. L2- Einstufungstests 1

2. Die DaF-Einstufungstests am C.L.I. Venedig 4

3. Test- und Itemanalyse des Einstufungstests TS1 6

4. Reliabilität und Messfehler des Einstufungstests TS1 13

5. IRT-Analyse des TS1 19

6. Revidierte Fassung des TS1 21

Literatur 24

Anhang 25

Page 4: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,
Page 5: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

0. Vorbemerkung* Konkreter Gegenstand dieser Hausarbeit ist ein DaF (=Deutsch als Fremdsprache)-Einstufungstest (TS1), der in seiner aktuellen Form seit 1994 am Sprachenzentrum (Centro Linguistico Interfacoltà - C.L.I.) der Universität Venedig eingesetzt wird. Nach zwei einführenden Kapiteln zu Fremdsprachen-Einstufungstests allgemein und zu den DaF-Einstufungstests am CLI im Besonderen, werden im Hauptteil der Arbeit 64 TS1-Testbögen einer statistischen Analyse unterzogen. Dabei geht es zum einen (Kapitel 3) um eine klassische Item- und Testanalyse, zum anderen (Kapitel 4) um die Reliabilität (Zuverlässigkeit) des Tests in seiner bisherigen Form. Kapitel 5 geht kurz auf die Item Response Theory ein, während im abschließenden 6. Kapitel eine revidierte Fassung des TS1 vorgestellt wird. Diese Arbeit kann und will keine umfassende Kritik und Neugestaltung der Einstu-fungstests Deutsch am Sprachenzentrum der Uni Venedig leisten. Eine solche müsste sich notwendig auf die gesamte Testbatterie (und nicht nur den TS1) erstrecken und zwangsläufig die verwendeten Testformate und ihre Validität einbeziehen. Dies bleibt einer geplanten zukünftigen Neuordnung vorbehalten (vgl. Kapitel 6). Mir geht es darum, an einem konkreten Beispiel aufzuzeigen, mit welchen (statistischen) Instru-menten (vor allem) die klassische Testanalyse dazu beitragen kann, die Messgenauig-keit von Tests mit geschlossenen Aufgabenformen zu verbessern. Die Ausführlichkeit der Darstellung in den Kapiteln 3 und 4 ist didaktisch begründet; mögliche Zielgruppe wären DaF-Lehrer, die bereits Erfahrung in der Testerstellung und Grundkenntnisse in der Didaktik der Leistungsmessung haben, aber mit den Verfahren und (mathema-tischen) Instrumenten der Testanalyse nicht vertraut sind. Da sich diese Arbeit ganz bewusst auf Fragen der Reliabilität beschränkt, kann die abschließend vorgestellte revidierte Fassung des TS1 auch nur vorläufigen Charakter haben. 1. L2-Einstufungstests Einstufungstests (engl. placement tests) unterscheiden sich von anderen Fremdspra-chentests hinsichtlich des Testzwecks bzw. der durch sie gesteuerten Entscheidungen. Einstufungstests dienen der Zuordnung von Lernern zu Lerngruppen bzw. –stufen und damit der Bildung homogener Lerngruppen. Sie beruhen gewöhnlich auf der Vorstellung einer linearen Skala von Sprachbeherrschung (von null bis quasi-muttersprachlich) (vgl. Blais/Laurier 1995: 73) und zielen darauf ab, Lerner mit einem ähnlichen Grad von Sprachbeherrschung in einer Lerngruppe zu vereinen, um optimale Lernvoraussetzungen zu schaffen. Einstufungstests werden gewöhnlich von Lernfortschrittstests (engl. achievement oder attainment tests) sowie Sprachstandstests (engl. proficiency tests) abgegrenzt (vgl. Albers/Bolton 1995: 14ff; Bachman 1990: 58ff, Klein-Braley 1992: 654f). Die beiden letztgenannten Testtypen dienen der

* Die vorliegende Arbeit entstand als Hausarbeit im Rahmen eines M.A.-Studiums am University College Dublin (Studienjahr 1999-2000)

1

Page 6: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Evaluierung voraufgegangener Lernprozesse, unterscheiden sich aber insofern von-einander, als Lernfortschrittstests auf das jeweilige Unterrichtsprogramm bezogen sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF, DSH usw.) – ähnlich wie Einstufungstests – den Grad der Sprachbeherrschung unabhängig vom Unterrichts-stoff zu ermitteln versuchen. Umgekehrt beeinflussen Sprachstandstests – besonders wenn es sich um anerkannte offizielle Prüfungen handelt – natürlich die Gestaltung von Lehrbüchern und Unterricht. Dieser sog. washback-Effekt ist bei Einstufungstests nicht zu erwarten, da die von ihnen abhängigen Entscheidungen auf zukünftige Lernprozesse bezogen sind. Ebenfalls zukunftsbezogen sind Eignungstests (engl apti-tude tests) und diagnostische Tests, aber mit anderen Zwecken: Abschätzung des voraussichtlichen Lernerfolgs bzw. Bestimmung von "Lücken" und Planung entspre-chender Hilfsmaßnahmen. Von Einstufungstests wird allgemein erwartet, dass sie zeitökonomisch arbeiten. Die Probanden sollen ohne großen Prüfungs- bzw. Korrekturaufwand – oftmals auch ohne Anwesenheit von qualifiziertem Personal (Sprachlehrern) – den jeweiligen Lernstufen zugeordnet werden können. Oft bestehen Einstufungstests daher aus geschlossenen Aufgaben (Lückentests, Multiple-Choice-Aufgaben u.ä.) und verzichten auf eine Überprüfung des freien mündlichen oder schriftlichen Ausdrucks. Natürlich fragt sich, ob solche Tests valide (gültig) sind, d.h. ob sie das messen, was sie messen sollen, nämlich den allgemeinen Sprachstand und nicht nur einzelne Fertigkeiten oder Wissensbereiche. Dass viele Institutionen dennoch mit sehr zeitökonomischen Einstufungstests arbeiten, lässt vermuten, dass die Testresultate hinreichend gut mit der allgemeinen Sprachbeherrschung korrelieren.1 Der durch andere Testformate mögliche Zugewinn an Information rechtfertigt u.U. nicht den damit verbundenen höheren Zeitaufwand. Zu bedenken ist auch, dass Einstufungsentscheidungen in vielen Fällen nachträglich korrigiert werden können, wenngleich mit Fehleinstu-fungen verbundene Frustrationen und Zeitverluste nicht unterschätzt werden sollten (Wesche et al. 1996: 200). Wo eine nachträgliche Korrekturmöglichkeit nicht besteht, z.B. bei Sprachstandstests und den entsprechenden Zertifizierungen, werden höhere Anforderungen an die Inhaltsvalidität gestellt.2 Sprachstandsmessungen ohne produk-tive Testaufgaben könnten – anders als Einstufungstests – auch leicht einen uner-wünschten washback-Effekt haben: im vorbereitenden Unterricht würden z.B. Übun-gen zum freien Sprechen vernachlässigt. Dass Einstufungsentscheidungen korrigiert werden können und Einstufungstests keine washback-Effekte entfalten, heißt natürlich nicht, dass Validität hier keine Rolle spielt. Aber man wird sich bei Einstufungstests immer sehr genau fragen, ob ein eventueller Mehraufwand (z.B. durch Schreib-übungen oder Einzelgespräche) in einem angemessenen Verhältnis zum Informations-gewinn steht. Vor allem wird man bei Einstufungstests bestrebt sein, die korrelative Validität zu überprüfen und zu optimieren. Möglich ist dies u.a., weil die Angemes-senheit der Einstufungsentscheidungen im nachfolgenden Unterricht überprüft werden kann (vgl. Wesche et al. 1996). Überhaupt lohnt sich die Testanalyse und –optimie-

1 zum Begriff der "korrelativen Validität" vgl. Klein-Braley 1992: 651; Bachman 1990: 248ff 2 Zum Begriff der Inhaltsvalidität i.S. einer repräsentativen Auswahl aus allen theoretisch möglichen

Testaufgaben; vgl. Klein-Braley 1992: 652; Bachmann 1990: 244ff. Z.B. soll der bisher nur aus Multiple-choice-Aufgaben bestehende TOEFL einer eingehenden Revision unterzogen werden (Wintermann 1998: 105f). Auch der von Fulcher (1997) evaluierte Englisch-Einstufungstest der Universität Surrey umfasst neben Leseverstehen und Strukturen zwei Schreibaufgaben, die die Validität erhöhen sollen (ebd., 114). Bei diesem Test sind die Ansprüche höher, weil er als Screening-Test funktioniert: Wer den Test "besteht", braucht keine studienbegleitenden Sprachkurse zu besuchen. Fehlentscheidungen können bei dieser Teilgruppe also kaum noch korrigiert werden.

2

Page 7: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

rung besonders bei Einstufungstests, weil sie in vielen Institutionen (nahezu) unverän-dert über längere Zeiträume eingesetzt werden. In der Testtheorie (vgl. Bachman 1990: 58ff, 72ff; Klein-Braley 1992: 655f; Vollmer 1995: 273) unterscheidet man lehrzielorientierte und normorientierte Tests (engl. criterion-referenced vs. norm-referenced tests). Ziel von normorientierten Tests ist es, Leistungsunterschiede deutlich zu machen; die Testergebnisse sollen über die gesamte Bandbreite der Skala streuen (Normalverteilung um den Mittelwert). Normorientierte Tests antworten auf die Frage "Wo steht der Einzelne im Verhältnis zur Gruppe?"3 Sie sind z.B. geeignet, die Teilnehmer an einem Sommersprachkurs in (ungefähr gleich große) Niveau-Gruppen einzuteilen; wo die Grenzwerte (engl. Cut-offs) liegen, also bei welchen Punktwerten (engl. scores) man in die nächsthöhere/ -niedrigere Stufe kommt, ist nicht vorher festgelegt. Die Lehrer müssen ihr Unterrichtsprogramm in diesem Fall dem Lernstand der Gruppe jeweils neu anpassen.4 Eine andere Situation liegt vor, wenn eine Institution, z.B. eine Volkshochschule, festgelegte Kursstufen anbietet. Der Bezugspunkt für die Einstufung ist dann nicht die Gruppe der Probanden (als "Norm"), sondern ein bestimmtes Unterrichtsprogramm. Man spricht deshalb von kriterien- bzw. lehrzielorientierten Tests. Kriterienorientierte Tests antworten auf die Frage "Wo steht der Einzelne im Verhältnis zu einem externen Kriterium?" Die Cut-offs liegen in diesem Fall fest und die Testinhalte orientieren sich an den Kursinhalten des jeweiligen Curriculums. Im reinen Fall eines kriterienorientierten Tests gilt es lediglich festzustellen, ob die Probanden ein bestimmtes Lernziel erreicht haben oder nicht, ohne dass ein Interesse bestünde, die positiven Leistungen untereinander zu differenzieren (etwa zwecks Notengebung5). Bei einem kriterienorientierten Einstufungstest kann es allerdings durchaus erwünscht sein, dass die Ergebnisse stark streuen, zumal er mitunter gleich mehrere Lernstufen diskriminieren soll. Bei Einstu-fungstests – so können wir zusammenfassen – kommen sowohl Norm- wie Kriterien-orientierung in der Praxis vor. Aber in jedem Fall ist eine starke Streuung (Normal-verteilung) der Testresultate zu erwarten und auch erwünscht, weshalb die für normorientierte Tests bestimmten Verfahren der Reliabilitätsberechung (vgl. Kapitel 4) i.d.R. auch auf Einstufungstests Anwendung finden. Abschließend möchte ich auf einige gebräuchliche bzw. öffentlich zugängliche DaF-Einstufungstests hinweisen. In Anhang 1 ist ein Selbsteinstufungstest des Goethe-Instituts abgedruckt: für jede der vier Grundfertigkeiten sind Niveaubeschreibungen in aufsteigender Folge angegeben; Interessierte sollen ankreuzen, welche Beschrei-bungen ihren tatsächlichen Fähigkeiten entsprechen, also was sie mit der Sprache tun können. Vorteil dieses Verfahrens ist die Möglichkeit, bei geringem Zeitaufwand

3 Davidson (2000: Zeile 2038ff) meint, dass es dem normorientierten Testen (NRM) vor allem darum

gehe, Rangfolgen von Probanden herzustellen; die Testinhalte seien demgegenüber zweitrangig. Er begrüßt daher den "Paradigmenwechsel" hin zum kriterienbezogenen Testen (CRM) als Sieg der Inhalte über die Statistik: "In CRM, content dominates statistics. This, in my opinion, is the essence of the paradigm shift from NRM to CRM." (ebd., 2081-84).

4 Der Begriff "normorientiert" wird verständlicher, wenn als "Normgruppe" nicht einfach die anderen Probanden, sondern eine bestimmte Bevölkerungsgruppe (z.B. alle amerikanischen Erstklässler) fest-gelegt wird. Nach Linda Bond (1996:1) werden normorientierte Tests zunächst einer repräsentativen Auswahl der Normgruppe vorgelegt. Beim späteren Einsatz des Tests ist eine Punktzahl X dann so zu interpretieren, dass die Leistung des Probanden gleich gut oder besser als die von X Prozent der Vergleichsgruppe ist (ebd., 3).

5 "In der Praxis vermengen sich die beiden (…) Typen der Bewertung leicht, schon deshalb, weil Leistungstests beide Arten der Information liefern und der Zwang zu einer normalverteilten Benotung von Lernerleistungen groß ist." (Vollmer 1995; 273f)

3

Page 8: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

auch produktive Fertigkeiten einzubeziehen. Allerdings ist die Reliabilität von Selbsteinstufungen fraglich. Bei einem Vergleich von vier Einstufungsinstrumenten stellten Wesche et al. (1996) keine signifikante Korrelation zwischen der Selbstein-stufung und den drei anderen Tests fest, verweisen aber auch auf die positiven Erfahrungen, die andernorts gemacht wurden (ebd., 199f). Im Internet (http:// www.goethe.de/i/deitest.htm) bietet das Goethe-Institut einen Einstufungstest mit 28 Mehrfachwahlaufgaben zur Grammatik an (je 4 Optionen pro Item). Die richtige Antwort kann durch Anklicken ausgewählt werden, anschließend wird der Test auto-matisch ausgewertet. Etwas Ähnliches bietet das Sprachforum Heinrich Heine in Düsseldorf (http://www.sprachforum.de/e-test.phtml): 40 Dreifachwahlaufgaben zur deutschen Grammatik. Das Institut für Internationale Kommunikation Universität Düsseldorf (http://www.iik-duesseldorf.de/ctest/ ctestallg.txt.html) dagegen offeriert einen C-Test, der aus 5 kurzen Lesetexten steigenden Schwierigkeitsgrads besteht. Auch das Eurozentrum Köln verwendet einen C-Test, der in Albers/Bolton (1995: 62ff) vorgestellt wird. C-Tests sind ganzheitliche Aufgaben (Klein-Braley 1992: 656) und scheinen stark mit mündlichen Sprachleistungen zu korrelieren, also einen guten Indikator für den allgemeinen Sprachstand zu bilden. "C-Tests have extraordinarily high correlations with a variety of other procedures for measuring subjects' general proficiency in a language." (vgl. Raatz/Klein-Braley A: 4). Eine große Auswahl an "Einstufungstests für Anfänger und Fortgeschrittenenkurse" bietet Lothar Jung (1994). Neben Multiple-Choice- und Lückenaufgaben zu Grammatik und Wortschatz finden sich Aufgaben zum Leseverstehen und zum schriftlichen Ausdruck. Letztere sind relativ stark gesteuert, entweder weil sie sich auf voraufgegangene Lesetexte beziehen oder weil nur Umformulierungen von vorgegebenen Einzelsätzen verlangt werden. Bei diesen halboffenen Aufgaben fehlen leider präzise Angaben zum erwarteten Textumfang und zu den Kriterien der Punktvergabe. 2. Die DaF-Einstufungstests am C.L.I. Venedig Das Centro Linguistico Interfacoltà, eine gemeinsame Einrichtung der vier Fakultäten der Universität Venedig, bietet u.a. Sprachkurse in mehreren Fremdsprachen und in Italienisch als Fremdsprache an. Teilnehmer sind überwiegend Studenten der Universität selbst, z.T auch Universitätsbedienstete und (bis zu einem Drittel der verfügbaren Plätze und gegen eine höhere Gebühr) auch Universitätsexterne. Die Abschlussprüfungen dieser Kurse und die entsprechenden Leistungszertifikate sind (bisher) nicht studiengangsrelevant. Die Kurse haben eine Dauer von je 48 Stunden und werden gewöhnlich in drei Kursperioden im Studienjahr angeboten. Die italienische Nomenklatur der Kursstufen ist sprachübergreifend, und – zumindest für Deutsch als Fremdsprache – eher irreführend: 1. principianti assoluti, 2. intermedio, 3. medio progredito, 4. progredito, 5. avanzato. Mit der höchsten Kursstufe wird kein Fortgeschrittenenniveau erreicht, sondern in etwa ein Sprachstand, wie er durch das Zertifikat DaF als Abschluss der Grundstufe definiert ist (vgl. Paschke 1997). Die in einem Trimester jeweils angebotenen Kursstufen (und das entsprechende Unterrichts-material) sind vorher festgelegt. Es werden also nicht alle Interessenten akzeptiert, sondern nur diejenigen, deren Sprachstand den jeweiligen Kursstufen entspricht. Daher sind die Einstufungstests kriterienorientiert angelegt, d.h. sie operieren mit festen Grenzpunktwerten (Cut-offs). Für DaF gibt es vier Einstufungstests (TB2, TB3, TS1, TS2), die jeweils zwei benachbarte Kursstufen diskriminieren. In der aktuellen Form sind sie seit 1994 in Gebrauch. Jeder der vier Tests besteht aus 20 Multiple-Choice-Aufgaben, die gleich gewichtet sind (je 1 Punkt). In Abhängigkeit von der

4

Page 9: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

erreichten Punktzahl wird der Proband einer der beiden Stufen zugeordnet oder muss sich – bei extremen Werten – dem nächsthöheren/niedrigeren Test unterziehen. Eine kleine Übersicht soll das verdeutlichen: Test Einstufung in Abhängigkeit von der erreichten Punktzahl TB2 0- 9 Kurs 1 10-14 Kurs 2 15-20 TB3 TB3 0-5 TB 2 6-10 Kurs 2 11-15 Kurs 3 16-20 TS1 TS1 0-4 TB 3 5- 9 Kurs 3 10-14 Kurs 4 15-20 TS2 TS2 0-4 TS 1 5-10 Kurs 4 11-17 Kurs 5 18-20 Die Einstufungstests werden jeweils einige Tage vor Beginn der Kurse angeboten; die Teilnahme ist obligatorisch für die Einschreibung ab Kursstufe 2, wenn die Interes-sentin nicht zuvor erfolgreich an einem anderen DaF-Kurs am C.L.I. teilgenommen hat. Die Probanden werden kurz nach Art, Dauer und Zeitpunkt vorheriger Deutsch-lernerfahrungen befragt; auf der Grundlage von Erfahrungswerten wird dann einer der vier Einstufungstests angeboten6. Die Auswertung erfolgt direkt im Anschluss an die Bearbeitung, für die maximal 20 Minuten zur Verfügung stehen. Liegt die Punktzahl sehr hoch/niedrig, wird ein weiterer Test durchgeführt, anderfalls erfolgt die Zuweisung zu einer Kursstufe. In Zweifelsfällen wird versucht, den Lernstand durch ein kurzes Gespräch in der Fremdsprache genauer zu bestimmen. Da der Test bei verspäteter Einschreibung zuweilen auch vom Verwaltungspersonal durchgeführt wird, ist es erforderlich, geschlossene Aufgaben zu verwenden. Dieses Format er-leichtert darüber hinaus die rasche Korrektur direkt im Anschluss an die Testdurch-führung. Gegenstand dieser Arbeit ist der in Anhang 2 abgedruckte Einstufungstest TS1, der die Kursstufen 3 und 4 (medio-progredito und progredito) diskriminiert. Die Trennlinie zwischen den beiden Stufen entspricht in etwa dem Niveau der Prüfung "Grundbaustein zum Zertifikat Deutsch als Fremdsprache" (PAS 1991). Der TS1 besteht, wie die anderen Einstufungstests auch, aus zwei Teilen: Teil A umfasst 10 Multiple-Choice-Items (Replikenpaare mit jeweils einer Lücke) zu Grammatik und Lexik, Teil B ist ein zusammenhängender Text (entnommen aus dem Lehrwerk "Themen"7) mit 10 Lücken, wiederum mit jeweils einer Multiple-Choice-Aufgabe. Die Probanden werden in der Anweisung zu Teil B darauf hingewiesen, dass die Antworten sprachlich korrekt sein und zum Inhalt des Gesamttextes passen sollen. Teil B soll neben Grammatik und Lexik auch Leseverstehen und Textkompetenz überprüfen. Bei allen 20 Mehrfachwahlaufgaben werden vier Antworten zur Auswahl angeboten, also neben der Lösung drei Distraktoren. Der TS1 ist ein kriterien-orientierter Test mit fixem Cut-off-Wert (9,5 Punkte) und orientiert sich an Kurs-stufen, die in einem Curriculum (Paschke 1997) festgelegt sind. Im Gegensatz zu kriterien-(bzw. lehrziel-)orientierten Tests, wie sie am Ende einer Unterrichtseinheit oder eines Kurses durchgeführt werden, ist allerdings (wie beim normorientierten Test) durchaus eine breite Streuung der Testresultate erwünscht; insbesondere sollen die von sehr guten/schlechten Kandidaten erzielten Punktwerte in die Grenzbereiche fallen, welche die Durchführung des nächsthöheren/ niedrigeren Tests vorsehen. 6 Zeitweilig wurde die Auswahl des Tests durch eine vorgeschaltete Selbsteinstufung gesteuert, bei der

die Probanden beurteilen sollten, was sie mit der Sprache in den vier Grundfertigkeitsbereichen tun können. Weil der Zeitaufwand für die Testdurchführung deutlich anstieg, ohne dass sich eine größere Präzision bei der Selektion des Tests erkennen ließ, wurde dieses Vorgehen in der Folge wieder aufgegeben.

7 Aufderstraße, Hartmut: Themen 2. Arbeitsbuch Ausland. München: Hueber 1985, S. 75

5

Page 10: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

3. Test- und Itemanalyse des Einstufungstests TS1 Auf die Notwendigkeit, empirisch zu untersuchen, wie Tests und einzelne Items funktionieren, wird in der einschlägigen Literatur immer wieder hingewiesen. Auch bei sehr sorgfältiger Testvorbereitung durch hochqualifiziertes Personal können sich Fehler und Probleme einschleichen, die erst bei statistischer Auswertung entdeckt werden.8 Die Test- und Itemanalyse des TS1 basiert auf 64 Testbögen, die an verschiedenen Terminen im Zeitraum 1994-1999 von Interessenten an den DaF-Kursen des C.L.I. ausgefüllt worden sind und die Grundlage für Einstufungsentscheidungen gebildet haben. Anhang 3 listet die Antworten aller 64 Probanden mit ihrer jeweiligen Gesamt-punktzahl ("Score") auf. Die Nummerierung der Probanden (01-64) ist zufällig und entspricht der Reihenfolge der Dateneingabe; in der Tabelle aber sind die Probanden nach ihrem Score geordnet. Wie zu sehen, streuen die Ergebnisse nicht über die gesamte Skala (1-20) sondern im Bereich 4 – 19 Punkte und konzentrieren sich im mittleren Bereich von 8 bis 16 Punkten. In der grafischen Darstellung erscheint die typische Glockenform der Normalverteilung, wenn man jeweils zwei Scorewerte zusammenfasst:

Häu

figke

it

Punktzahl 20-19 18-17 16-15 14-13 12-11 10-9 8-7 6-5 4-3 2-1 Zahl der Studenten 3 6 10 12 13 8 7 4 1 0 Auffällig ist, dass die höheren Scores stärker vertreten sind; im Bereich 0-3 Punkte dagegen findet sich kein einziger Proband, und nur einer hat 4 Punkte. Die grafische Darstellung erscheint nicht zentriert, sondern leicht nach links versetzt. Der Grund ist, dass man auch bei Ankreuzen nach dem Zufallsprinzip (bling guessing) bei jedem Item (mit 4 Antwortalternativen) eine Chance von 25% hat, die richtige Option zu wählen. Demzufolge kann man bei 20 Items durch "blindes Raten"9 auf 5 Punkte kommen. Scores von weniger als 5 Punkten sind daher prinzipiell eher unwahrschein-lich, und die Testergebnisse bestätigen dies. Die Verknüpfung von Score und Hand-lungsanweisung (also Kurseinstufung bzw. Verweis auf einen anderen Test) erscheint vor diesem Hintergrund fragwürdig, denn für den TS1 gelten (s.o.) folgende Werte: TS1 0-4 TB 3 5-9 Kurs 3 10-14 Kurs 4 15-20 TS2 Wenn Punktzahlen von 0-4 äußerst unwahrscheinlich sind, dann wird fast nie jemand vom Test TS1 zum nächstniedrigeren Test TB3 verwiesen. Dieser Umstand ist dann

8 Fulcher (1997: 120) berichtet z.B. von einem doppeldeutigen Multiple-Choice-Item, das erst bei der

Auswertung der ersten Durchführung eines Einstufungstests entdeckt wurde. Alderson et al. (1995: 73) referieren die Ergebnisse einer empirischen Untersuchung, welche zeigt, wie unterschiedlich der Schwierigkeitsgrad eines Items von Lehrern eingeschätzt wird. Erst die Durchführung und Auswertung des Tests kann zeigen, wie schwierig bestimmte Items für eine bestimmte Testpopulation tatsächlich sind.

9 Die Betonung liegt hier auf "blind", denn (intelligentes) Raten spielt bei vielen Problemlösungen eine Rolle, ganz sicher auch bei Sprachtests. Vgl. Leclercq 1987: 13; 94

6

Page 11: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

weniger problematisch, wenn sich die Probandin vom TB3 zum TS1 "hochgearbeitet" hat10, kann aber in allen anderen Fällen zu Fehleinstufungen führen. Die Relationen zwischen Scores und Handlungsanweisung müssen beim TS1 (und ähnlicher Weise auch bei den anderen Einstufungstests) also unbedingt revidiert werden. In Anhang 3 ist auch der Score-Durchschnitt (also das arithmetische Mittel aller erreichten Punktzahlen) ausgewiesen, er beträgt Mt = 12,226, was 61,3% der Höchstpunktzahl von 20 entspricht. Der theoretische Idealwert für einen norm-orientierten Test (also für einen Test mit dem Ziel, die Unterschiede zwischen den Probanden sichtbar zu machen) wäre 62,5%. Dieser Prozentsatz liegt genau auf halber Strecke zwischen der Erfolgswahrscheinlichkeit bei blindem Raten (25%) und 100% (25% + [(100%-25%)/2] = 62,5%. (vgl. Matlock 1997: 3) In der untersten Zeile der Tabelle in Anhang 3 ist für jedes Item angegeben, wie viel Prozent der Probanden es richtig beantwortet haben. Dieser Wert entspricht dem sogenannten Schwierigkeitskoeffizienten P (engl. difficulty index). Z.B. haben 48% der 64 Probanden Item 1 richtig beantwortet; das entspricht einem Schwierigkeitskoeffizienten von P = 0,48. Zuweilen, z.B. von Alderson et al. (1995: 82f), wird dieser Koeffizient auch als facility value bezeichnet, da er umgekehrt proportional zur Schwierigkeit des Items ist. Wir aber wollen hier bei der traditionellen Bezeichnung bleiben. Natürlich ist P nicht nur von der intrinsischen Schwierigkeit der Aufgabe abhängig, sondern auch vom Leistungsniveau der Proban-den. P gibt an, mit welcher Wahrscheinlichkeit eine bestimmte Gruppe von Lernern ein bestimmtes Item richtig beantwortet. Wenn es – wie beim Einstufungstest TS1 - darum geht, Lerner nach ihrem Fähigkeitsniveau zu diskriminieren, sind Items mit sehr hohem oder sehr niedrigem Schwierigkeitskoeffizienten unerwünscht bzw. wenig hilfreich. Betrachten wir die beiden Extremfälle: Ist P=1, dann haben alle Probanden das Item korrekt beantwortet, d.h. es ist zu leicht, um gute und schlechte Probanden zu unterscheiden. Dasselbe gilt umgekehrt bei P=0: das Item ist für die jeweilige Gruppe zu schwierig, um Leistungsunterschiede deutlich zu machen. Am effektivsten sind Items mit einem mittleren Schwierigkeitsgrad (vgl. Alderson et al. 1995: 84), der bei einer Vierfachwahl-Aufgabe aber nicht bei 0,5 liegt, sondern wegen der blind guessing Wahrscheinlichkeit von 25% bei 0,625 (vgl. Matlock 1997: 3). Was für das einzelne Item gilt, lässt sich in gewisser Weise auf den Gesamttest übertragen: ein Test, bei dem die Probanden im Durchschnitt auf 100% oder 0% (oder bei MC-Items mit je 4 Optionen alle auf ca. 25%) der Punktzahl kommen, ist wenig geeignet, zwischen Probanden mit unterschiedlichen sprachlichen Fähigkeiten zu diskri-minieren. Auch hier liegt (s.o.) das Idealmaß in der Mitte, also in unserem Fall bei Mt = 62,5%. Dieser Mittelwert allein ist aber noch keine Garantie für aussagekräftige Resultate, da es ja sein könnte, daß alle Probanden genau auf diesen Wert kommen, bzw. sich sehr eng darum herum gruppieren. Bei einem normorientierten Test, und selbstverständlich auch bei einem Einstufungstest wie dem TS1, der zwischen zwei Niveaus diskriminieren soll, ist also eine gewisse "Dispersion" oder Streuung der Scores um den Mittelwert erwünscht. Das wichtigste statistische Maß zur Quantifizie-rung dieser Streuung ist die Standardabweichung s (engl. standard deviation S.D., frz. écart type). Sie gibt in etwa an, wie stark die einzelnen Scores durchschnittlich vom

10 D.h. er/sie ist – aufgrund des Testergebnisses von TB3 - mindestens auf dem Niveau von Kurs 3 und

bleibt, bei sehr niedrigem TS1 Score (z.B. 5 Punkte) auf dieser Stufe stehen. Wer dagegen beim TS1 einsteigt und 5 Punkte erreicht (also in Kurs 3 eingestuft wird), hätte sich bei Durchführung von TB3 u.U. als Lerner(in) der Stufe 2 herausgestellt.

7

Page 12: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

mittleren Score abweichen und entspricht der Quadratwurzel aus der Varianz s2. Die Varianz (engl./frz. variance) wird nach folgender Formel berechnet:

nMx

s ∑ −=

22 )(

Varianz

Darin ist x= jeder einzelne Score, M = der Score-Mittelwert, n= die Zahl der Proban-den. Die Varianz ist also die durch n geteilte Summe der Quadrate aller Differenzen zwischen Score und Mittelwert. 11 Varianz und Standardabweichung der TS1-Scores sind in Anhang 3 angegeben und betragen (gerundet) s2 = 14,4 und s = 3,8. Bei einer Normalverteilung, wie sie beim TS annähernd vorliegt, kann die Standardabweichung übrigens benutzt werden, um folgende Aussagen über die Dispersion zu machen (vgl Bachman 1990:73): 34% aller Studenten haben einen Score, der maximal 1s über dem Mittelwert M liegt, ebenfalls 34% liegen max. 1s darunter. Anders gesagt: 68% der Probanden liegen ± 1s um M herum, in unserem Fall müssten also 0,68 * 64 = 43,52 Probanden im Bereich 12,3 ± 3,8 d.h. zwischen 8,5 und 16,1 Punkten liegen. Tatsächlich haben 43 Studenten 9 bis 16 Punkte. In gleicher Weise kann man davon ausgehen, dass 95% aller Probanden (= 60,8) im Bereich von ± 2s um M, also zwischen 4,7 und 19,9 Punkten liegen. Hier ist die Schätzung etwas ungenauer, denn tatsächlich liegen 63 Probanden (= 98%) in diesem Bereich. Zurück zu den Schwierigkeitskoeffizienten der einzelnen Items. Wenn diese sehr hoch oder sehr niedrig liegen, so haben wir gesehen, sind sie wenig geeignet, Unterschiede zwischen den Probanden deutlich zu machen12 und sollten eventuell ausgeschlossen oder modifiziert werden. Statistisch gesehen bewirken extreme P-Werte nämlich, dass die Varianz der Itemscores sehr niedrig ausfällt. Die Varianz eines "dichotomen" Items (richtig/ falsch) lässt sich sehr einfach nach folgender Formel (zur mathematischen Herleitung vgl. Leclercq 1987: 45) berechnen.

Itemvarianz s2 = P * Q Darin ist P der schon bekannte Schwierigkeitskoeffizient, also der Anteil der Probanden, die das Item richtig gelöst haben, Q ist (1-P), also der Anteil der Testpopulation, der das Item falsch beantwortet hat. Die Itemvarianz ist mit 0,25 am größten, wenn P=Q=0,5. Wenn P=0,6 und Q=0,4 (oder umgekehrt), dann ist s2 = 0,24. Selbst bei P-Werten von 0,7 oder 0,3 erreicht die Itemvarianz noch 0,21. Dann aber fällt sie immer schneller ab: 0,8*0,2=0,16 und 0,9*0,1=0,09. Erreicht die Itemvarianz solch niedrige Werte, dann kann das Item kaum noch dazu beitragen, Unterschiede in der Testpopulation sichtbar zu machen.13

11 Diese Formel orientiert sich z.B. an Leclerq 1987: 45. Andere Autoren, z.B. Alderson et al. (1995:

277), dividieren durch (n-1) statt n. Im Tabellenkalkulationsprogramm Excel, das ich zur Berechnung verwendet habe, sind beide Funktionen angegeben. Dort ist die Version mit n für die Varianz einer Gesamtpopulation vorgesehen, die mit n-1 für Stichproben.

12 Items mit hohem P-Wert (leichte Items) dienen dazu, schwache Probanden untereinander zu differenzieren, Items mit niedrigem P-Wert sind umgekehrt geeignet, Unterschiede zwischen sehr guten Probanden deutlich zu machen.

13 Kehoe (1995b: 2) schreibt, dass Items mit mehr als 85% richtigen Antworten ein deutlich reduziertes Diskriminationsvermögen aufweisen und dass in guten Tests die meisten Items von 30-80% der Probanden richtig beantwortet werden.

8

Page 13: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Wir können z.B. alle Items, deren P-Wert relativ weit vom Idealwert einer MC-Aufgabe mit 4 Optionen (0,625=62,5%) entfernt liegt, heraussuchen. Im TS1 sind das, wie wir der Tabelle in Anhang 4 entnehmen (grau unterlegte Felder in der Spalte "Anteil"), die "zu leichten" Items 9 (81%), 13 (83%), 15 (84%), 18 (88%) und 19 (84%) sowie die "zu schweren" Items 3 (38%) und 14 (31%). Allerdings sind diese Werte nicht mehr als ein grober Hinweis, denn wichtig ist ein zweiter, qualitativer Gesichtspunkt: Ein "gutes" Item soll nicht nur eine gewisse Varianz aufweisen (quantitativer Aspekt), sondern es soll dies so tun, dass leistungsstarke Probanden das Item richtig beantworten, leistungsschwache dagegen falsch. Woher aber weiß man, welche Probanden leistungsstark bzw. –schwach sind? Meist hat man kein externes Kriterium zur Verfügung und behilft sich statt dessen mit dem Testscore der Kandidaten, d.h. man nimmt an, dass der Test in seiner Gesamtheit den Sprachstand (oder eine spezielle Fertigkeit) zuverlässig misst und dass eventuelle Probleme nur einzelne Items betreffen. Man könnte auch sagen, man prüft die Kohärenz zwischen Test und einzelnem Item. Zu diesem Zweck sind unterschiedliche Verfahren bzw. Koeffizienten entwickelt worden. Beim sog. Verfahren der "extremen Gruppen" werden zunächst die Scores aller Probanden bestimmt, dann werden diese – wie in Anhang 3 - in absteigender Folge geordnet. Man bildet nun eine Gruppe mit den besten Probanden und eine mit den schlechtesten; diese Gruppen müssen gleich groß sein, z.B. je 30% aller Probanden14, das sind in unserem Fall je 19. Nun kann für jedes Item der Diskriminationskoeffizient D berechnet werden:

A

BA

NRR

D−

=

Darin ist RA die Zahl der richtigen Antworten in der starken Gruppe, RB die Zahl der richtigen Antworten in der schwachen Gruppe und NA die Zahl der Studenten in der A-(bzw. B-)Gruppe. Für Item 1 z.B. haben die 19 besten Probanden in 15 Fällen richtig geantwortet, die 19 schwächsten aber nur 5 mal. D.h. D= (15-5)/19 = 0,53. Dieser Wert lässt sich aus der Tabelle in Anhang 4 entnehmen. In der letzten Spalte sind dort die D-Werte aufgeführt; der Wert von Item 1 findet sich bei der (fett ge-druckten) Lösung, also bei Option C, denn wir haben ja die Zahl der richtigen Ant-worten in beiden Gruppen miteinander verglichen. In der Literatur gelten Werte über 0,4 als sehr gut, darunter bis 0,3 noch als recht gut, aber verbesserungsfähig, zwischen 0,3 und 0,2 als verbesserungsbedürftig und unter 0,2 als unbrauchbar15. Wir können also sagen, dass Item 1 gut zwischen guten und schlechten Probanden diskriminiert bzw. dass Item 1 mit sehr ähnlicher Tendenz misst wie der Gesamttest. Der höchst-mögliche Wert von D ist 1, er wird erreicht, wenn alle Mitglieder in Gruppe A die Frage richtig beantwortet haben, alle in Gruppe B falsch, so dass D = (19-0)/19 =1. Ein Wert von D=0 würde anzeigen, dass die Zahl der korrekten Antworten (z.B. 7) in beiden Gruppen gleich groß ist: D = (7-7)/19 = 0/19 = 0. Das Item würde in diesem 14 In der Literatur werden Werte von 21% bis 33% vorgeschlagen, vgl. Leclercq 1987: 70f, Matlock-

Hetzel 1997: 5; Alderson et al. 1995: 81, 274; Ongaro/Schiavinato 2000 (Appendice: Analisi dei quesiti) schlagen vor, die Gesamtgruppe in zwei gleich große Teile zu teilen (je 50%). Leclercq 1987: 68f. stellt auch eine Methode zur graphischen Veranschaulichung der Diskriminationsfähigkeit vor, die auf vier Gruppen beruht.

15 Alderson et al. 1995: 82; Matlock-Hetzel 1997: 7 schreiben unter Berufung auf Ebel/ Frisbie 1986: "As a rule of thumb, in terms of discrimination index, .40 and greater are very good items, .30 to .39 ar reasonably good but possibly subject to improvement, .20 to .29 are marginal items and need some revision, below .19 are considered poor items and need major revision or should be eliminated." Davidson (2000: Zeile 1829ff) schreibt: "Furthermore, d-values rarely get above .60 or .70 (depending on the particular formula used), because the item is typically binary-scored and the total score is a continuous measure." Vgl. auch ebd., Zeile 2431ff.

9

Page 14: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Fall überhaupt nicht dazu beitragen, zwischen guten und schlechten Kandidaten zu diskriminieren. Negative Werte von D (theoretisch möglich bis max. –1) würden anzeigen, dass mehr schwache als starke Probanden die Lösung gefunden haben. Eine Durchsicht der D-Werte der 20 Items bzw. Lösungen in Anhang 4 zeigt (vgl. grau unterlegte Felder), welche Items schlecht funktionieren (in Klammern der jeweilige Diskriminationskoeffizient): Item 3 (0,26), Item 9 (0,26), Item 12 (0,16), Item 13 (0,21) und Item 18 (0,21). Diese Items bedürfen vermutlich einer Revision. Ein Item (Nr. 19) liegt bei 0,37 und alle anderen Items erreichen Werte von über 0,4 – dis-kriminieren also sehr gut. Ein Vergleich mit dem Schwierigkeitskoeffizienten in derselben Tabelle zeigt, dass sich in einigen Fällen der durch extreme P-Werte begründete Verdacht bestätigt hat, das Item diskriminiere nur wenig, und zwar bei den Items 3, 9, 13 und 18. Z.T. konnte der Verdacht entkräftet werden, nämlich bei Item 14, 15, 19; schließlich wurden bei Item 12 die Probleme erst bei der Berechnung von D deutlich. Das schlechte Diskriminationsvermögen dieses Items hängt offenbar nicht davon ab, dass es zu leicht oder zu schwer ist (P=0,58 ist fast ideal), sondern – aus zu untersuchenden Gründen – wird die richtige Antwort von der starken Gruppe nicht signifikant öfter gewählt als von der schwachen. Diskriminationskoeffizienten lassen sich übrigens auch für die Distraktoren berechnen. Z.B. wurde der Distraktor c von Item 3 in der leistungsstarken Gruppe nur einmal gewählt, von der schwachen Gruppe jedoch 5 mal, daher D = (1-5)/19 = -0,21. Da Distraktoren im Allgemeinen von schwachen Probanden öfter gewählt werden als von guten, haben sie gemeinhin negative Werte. Positive D-Werte weisen Distrak-toren als zu attraktiv für gute Schüler aus und sollten daher Anlass zu einer Revision geben. Beim TS1 treten sind sie in der untersuchten Stichprobe nicht auf. Bei Item 12 allerdings haben mehr gute (nämlich 1) als schlechte (nämlich 0) Studenten keine Antwort gegeben, daher der positive D-Wert von 0,05. In allen Fällen, wo eine Distraktor überhaupt nicht gewählt wurde (d.h. 0% in der Spalte "Anteil"), kann er auch nicht zur Unterscheidung hinsichtlich des Leistungsstands beitragen, so dass der Diskriminationskoeffizient den Wert 0 annimmt. Der Nachteil des Koeffizienten D ist, dass seiner Berechnung nur ein Teil der verfüg-baren Daten zugrunde liegt, in unserem Fall 2 * 30% = 60% (bzw. 38 von 64 Tests). So wurde z.B. Distraktor d von Item 1 zweimal gewählt, aber die entsprechenden Probanden (Nr. 43 und 52) gehörten nicht den Extremgruppen an (daher D = (0-0)/19 = 0). Ein Blick in die Tabelle in Anhang 1 zeigt aber, dass beide Probanden zur schwächeren Hälfte der Testpopulation gehören, Distraktor D erfüllt also durchaus seinen Zweck, d.h. er ist für schwache Kandidaten attraktiver als für leistungsstarke. Um die gesamte Datenbasis bei der Berechnung des Diskriminationsvermögens eines Items zu berücksichtigen, sind komplexere mathematische Formeln entwickelt worden. Besonders häufig findet die sog. punkt-biserielle Korrelation rpbis16 Awendung. Eine Formel zur Berechnung von rpbis lautet (vgl Leclercq 1987: 50):

QP

sMtMxrpbis −

=

10

16 darin steht "r" für Korrelation "p" für Punkt und "bis" für biseriell. Der Ausdruck "punkt-biseriell"

(engl. point biserial) deutet darauf hin, dass ein dichotomischer Wert (richtig/falsch bzw. 1/0 Punkte), die Population in zwei "Serien" teilt. (vgl. Leclercq 1987: 50)

Page 15: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Darin ist Mx der Score-Durchschnitt derjenigen Probanden, die das Item richtig beant-wortet haben, Mt ist der Score-Durchschnitt aller Probanden, s ist die Standardabwei-chung aller Scores, P ist der Anteil der richtigen Antworten beim jeweiligen Item, Q der Anteil der falschen Antworten. Beispielhaft sei die punkt-biserielle Korrelation für die Option C (=Lösung) von Item 1 berechnet. Der durchschnittliche Score aller 31 Probanden, die Option C gewählt haben, ist die Summe ihrer Scores, 433, dividiert durch 31, Ergebnis Mx = 13,97. Wie zu erwarten, ist dieser Wert höher als der Score-Durchschnitt aller Testteilnehmer Mt = 12,266. Die Standardabweichung aller Testscores beträgt s = 3,788 (s.o.), der Anteil der Probanden, die Option C gewählt haben ist 48%, also P = 0,48; der komplementäre Wert Q = 0,52. Nach Einsetzen aller Werte in die Formel ergibt sich:

44,09230,0449,052,048,0

788,3266,1231/433

__1_ ==−

=COptionItemrpbis

Dieser Wert von rpbis kann der vorletzten Spalte der Tabelle in Anhang 4 entnommen werden. Ebenso wie D kann auch rpbis für sämtliche Distraktoren berechnet werden und sollte dabei ebenfalls negative Werte annehmen.17 Überhaupt sind die Werte von D und rpbis ähnlich zu interpretieren.18 Zu fragen ist aber, ob sich der erhöhte Rechenaufwand19 für die punkt-biserielle Korrelation lohnt. Ein Vergleich der beiden letzten Spalten in Anhang 2 lässt nämlich erkennen, dass sich beide Parameter sehr ähnlich verhalten.20 Vor allem scheint es, dass wir unser Urteil über die Qualität der Items nicht bzw. kaum revidieren müssen. Bei gut diskriminierenden Items sind die rpbis-Werte der Lösungen zwar meist etwas niedriger als D, aber i.d.R. immer noch >0,4 (Item 1, 2, 4, 5, 6, 7, 8, 10, 11, 14, 15, 16, 17, 19, 20). Bestätigt wird auch die schlechte Diskriminationsfähigkeit von Item 3, 9, 12, 13. Die einzige signifikante Abweichung ergibt sich bei Item 18: Obwohl es sehr leicht ist (P=0,88), diskriminiert es nicht so schlecht, wie der D-Wert vermuten ließ; offenbar konzentrieren sich die wenigen falschen Antworten überwiegend am unteren Ende der Rangfolge der Probanden (vgl. Anhang 1). Item 18 diskriminiert daher recht gut am unteren Ende der Leistungsskala. An einem konstruierten Beispiel lässt sich diese unterschiedliche Funktionsweise von D und rpbis gut veranschaulichen: Nehmen wir an, nur 3 Kandi-daten hätten Item 18 falsch beantwortet und alle 3 gehörten dem schwächsten Drittel, also der B-Gruppe der Stichprobe an. Unabhängig davon, ob diese drei Probanden 17 rpbis bewegt sich im selben Bereich wie D, kann aber aus mathematischen Gründen (Division durch

0) nicht den Wert 0 annehmen. Bei Distraktoren, die nicht gewählt wurden, wird daher kein Wert für rpbis angegeben.

18 Leclercq 1987: 54 gibt als Referenzwert für rpbis NI/1 an, wobei NI = Zahl der Items ist. Für den TS1 mit NI=20 ergibt sich 0,22. Dieser Wert kann wie folgt interpretiert werden: Auch ein Item, das völlig inkohärent ist (also nicht mit den Ergebnissen bei den anderen Items korreliert), beeinflusst den Score immer noch soweit (beim TS1 zu 1/20), dass sich in jedem Fall eine Korrelation zwischen Itemscore und Gesamttestscore von 0,22 ergibt. Da rpbis eben diese Korrelation misst, muss ein rpbis von 0,22 als Null-Korrelation angesehen werden. Je weniger Items ein Test hat (je stärker also ein einzelnes Item das Gesamtergebnis beeinflusst), umso höher liegt der Referenzwert (z.B. 0,32 bei 10 Items)

19 Ich habe für die Berechnung das Tabellenkalkulationsprogramm Excel (Microsoft) verwendet. Im Handel gibt es aber auch spezielle Software für klassische Itemanalysen, die u.a. die punkt-biserielle Korrelation berechnen, z.B. ITEMAN (http://www.assess.com)

20 Die statistische Korrelation r (-1 < r < 1) von rpbis und D liegt beim TS1 bei r= 0,96, wenn alle 20*4 Optionen berücksichtigt werden; bei r = 0,90, wenn nur die Werte der 20 Lösungen in die Rechnung eingehen. Solch gute Werte sind die Regel (vgl. Leclercq 1987: 72) und zeigen, dass man in vielen Fällen mit dem einfach zu berechnenden Koeffizienten D arbeiten kann.

11

Page 16: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

innerhalb der B-Gruppe zu den besseren oder schlechteren Schülern gehören, würde der Diskriminationskoeffizient D stets den Wert 0,16 annehmen. Anders rpbis: wenn die drei besten Probanden der B-Gruppe (Rang 46-48 der Gesamtgruppe) falsch antworten, dann liegt rpbis bei dem ebenfalls bescheidenen Wert 0,20; wenn aber nur die absoluten Schlusslichter (Rang 62-64 der Gesamtgruppe) falsch antworten, dann steigt rpbis auf den beachtlichen Wert von 0,47 (und das, obwohl der Schwierigkeitskoeffizient P mit 0,95 extrem hoch liegen würde). Rpbis hat also nicht nur eine breitere Datenbasis als D, sondern reagiert auch wesentlich sensibler auf die Verteilung der Antworten innerhalb der nach Gesamtpunktzahl geordneten Testpopulation. Allerdings können wir sagen, dass der Informationsgewinn durch die Berechnung von rpbis insgesamt doch gering ausfällt; in vielen Fällen liefert ein nach der Methode der extremen Gruppen berechneter Diskriminationskoeffizient ausreichende Informationen für die Itemrevision. Selbst die aufgezeigte Diskrepanz bei Item 18 ist zwar interessant, bleibt im vorliegenden Fall aber dennoch ohne praktische Konsequenzen: eine Überarbeitung des Items ist nämlich in jedem Fall opportun, da es mit seinem hohen Schwierigkeitskoeffizienten von 0,88 überhaupt nur am untersten Ende der Leistungsskala diskriminieren kann (dass es das tut, beweist rpbis). Da der TS1-Test aber nur zwei Niveaus differenzieren soll (Kursstufe 3/ Kursstufe 4), sind Items mit mittlerem Schwierigkeitsgrad eher geeignet. Die Diskussion über Diskriminationskoeffizienten wie D oder rpbis soll nicht abgeschlossen werden, ohne darauf hinzuweisen, dass ein hohes Diskriminations-vermögen kein Wert an sich ist (vgl. Alderson et al. 1995: 85; Leclercq 1987: 46). Bei einem lehrzielbezogenen Lernfortschrittstest z.B. kann es sogar erwünscht sein, dass die große Mehrheit der Kursteilnehmer festgelegte Mindestkenntnisse und –fertig-keiten und damit sehr hohe Punktzahlen erreicht.21 Aber bei einem Einstufungstest sollen Unterschiede im allgemeinen Sprachstand natürlich möglichst deutlich werden; gut diskriminierende Items sind daher unverzichtbar. Schließlich sei daran erinnert, dass beide hier präsentierten Koeffizienten, D und rpbis, die Resultate des einzelnen Items zu den Testscores in Beziehung setzen, welche sich aber ihrerseits aus den Itemresultaten zusammensetzen. Ist dies nicht "logically suspect" (Alderson et al. 1987: 85), d.h. liegt hier nicht ein logischer Zirkelschluss vor? In der Tat wird vorausgesetzt, dass der Gesamttest (mehr oder weniger zuverlässig) das misst, was er messen soll, d.h. die Validität des Tests wird im Grunde vorausgesetzt. Diskrimina-tionskoeffizienten lassen lediglich erkennen, wie gut einzelne Items zur Messleistung des Gesamttests beitragen. Natürlich kann man für die Einteilung in "gute" und "schlechte" Probanden auch ein externes Kriterium benutzen (Schulnoten, Beurteilung durch Lehrer etc.), soweit es zur Verfügung steht. Ein solches Vorgehen würde sich der Prüfung der korrelativen Validität annähern, mit dem Unterschied, dass man die Korrelation von Itemscores (statt Testscores) mit einem externen Kriterium unter-suchen würde. (zur "concurrent/ predictive validity" vgl. Bachman 1990: 248ff; Alderson et al. 1995: 177ff). Zuletzt wollen wir noch einen Blick auf die Distraktoren werfen. Dabei ist besonders auf solche zu achten, die von der Testpopulation nie oder fast nie gewählt wurden. Da sie weder gute noch schwache Kandidaten zu "überzeugen" vermögen, tragen sie nichts zur Diskriminierung des Leistungsniveaus bei und sind eigentlich nutzlos. In

21 Im schulischen Kontext (und nicht nur dort) ist allerdings oftmals ebenso erwünscht, dass innerhalb

der Mehrheit, die das Lehr- bzw. Lernziel grundsätzlich erreicht hat, Leistungsunterschiede deutlich werden, die dann als Grundlage der Notengebung dienen.

12

Page 17: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

dem Maße, wie sie von allen Testteilnehmern als falsche Antworten eindeutig identifizierbar sind, erhöht sich außerdem die Chance schwacher Kandidaten, durch Zufallsauswahl aus den restlichen Optionen die richtige Antwort zu treffen.22 Von den 60 Distraktoren des TS1 sind – wie wir der Tabelle in Anhang 4 entnehmen können - nur vier überhaupt nie gewählt worden: 2d, 3a, 15d und 17d; in diesen Fällen ist eine Überarbeitung angezeigt. In weiteren fünf Fällen haben nur 2% der Probanden (= 1 Person) einen Distraktor gewählt, auch hier ist u.U. eine Revision vorzunehmen: 6c, 9b, 13d, 14a und 20a. Schließlich sollte man bei allen Items überprüfen, wie viele Probanden keine Antwort gegeben haben. Hohe Prozentsätze weisen eventuell auf missverständliche Fragen hin, besonders wenn der zugehörige Diskriminations-koeffizient (D oder rpbis) positive Werte hat; dies hieße nämlich, dass sich leistungsstarke Kandidaten nicht für eine Option entscheiden konnten. Einen hohen Anteil von fehlenden Antworten hat mit 11% (= 7 Personen) nur Item 8; die nur schwach negative punkt-biserielle Korrelation rpbis (= -0,08) verrät, dass hier auch im (Leistungs-)Mittelfeld viele Probanden unsicher waren (vgl. Anhang 3). Proble-matisch sind auch die positiven rpbis-Werte für fehlende Antworten bei Item 3 und 12, denn sie bedeuten, dass hier mehr gute als schwache Probanden unsicher waren. Dies bestätigt unseren obigen Befund, dass diese Items nicht zuverlässig zwischen verschiedenen Leistungsniveaus unterscheiden, auch wenn die Zahl der unentschie-denen Kandidaten sehr niedrig liegt (2% = 1 Proband bei Item 3; 3% = 2 Probanden bei Item 12). 4. Reliabilität und Messfehler des Einstufungstests TS123 Die Classical True Score (CTS)-Messtheorie geht davon aus, dass sich die tatsächlich in einem Test erreichte Punktzahl aus zwei Größen zusammensetzt: dem true score und dem error score:

eterrortrue xxxxxx +=+= bzw. Der Testscore ist also kein völlig zuverlässiges Maß für das jeweilige psychische Merkmal (z.B. die allgemeine Sprachbeherrschung), weil in ihn immer auch ein mehr oder weniger großer Fehler eingeht. Ziel der Testoptimierung ist es, den vom Mess-instrument selbst ausgehenden Fehler zu minimieren und so die Messgenauigkeit bzw. Reliabilität des Tests zu erhöhen. Freilich ist der true score eine Unbekannte, der Messfehler kann also nie genau bestimmt, sondern höchstens geschätzt werden. Sol-che Schätzungen beruhen auf der Annahme, dass die Auswirkungen des Fehlers auf die Testscores unsystematisch, zufällig sind, während der true score durch das Leis-tungsniveau der Probanden gesteuert ist. Die Varianz in den Testscores, also die Tatsache, dass verschiedene Probanden unterschiedliche Punktzahlen erzielen, lässt sich also einerseits auf einen systematischen Einflussfaktor (die Leistungsunter-schiede) zurückführen und beinhaltet zum zweiten eine zufällige, durch den Mess-fehler verursachte Varianz:

et sss 222 += 22 In diesem Sinne würde ich Frary (1995: 1) widersprechen, der es für unnötig hält, dass alle Aufgaben

die gleiche Anzahl von Optionen aufweisen: "There is no psychometric advantage to having a uniform number, especially if doing so results in options that are so implausible that no one or almost no one marks them." Statt unwahrscheinliche Optionen lediglich zu entfernen, sollte man, wo immer möglich, versuchen, sie durch plausiblere zu ersetzen.

23 Dieses Kapitel stützt sich weitgehend auf Bachman 1990: 166-178

13

Page 18: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Die Reliabilitätsschätzungen der CTS-Theorie beruhen auf dem Konzept paralleler Tests. Dies sind Tests, die dasselbe latente psychische Merkmal (latent trait) (auf derselben Skala) messen und deshalb zu identischen true scores führen müssen. Jede Abweichung in den tatsächlich beobachteteten Scores ist folglich durch Messfehler bedingt. Die Reliabilität eines Tests kann in dieser Sicht angegeben werden durch die Korrelation zwischen den in zwei parallelen Tests erzielten Scores. Hätten z.B. die 64 Probanden der TS1-Stichprobe in einem sehr ähnlichen, ebenfalls aus 20 MC-Items bestehenden Test jeweils völlig identische Punktzahlen erreicht, dann wäre die Korrelation zwischen den Scores, und damit die Reliabilität des Test, perfekt und hätte einen numerischen Wert von 1. Dies ist aber, eben aufgrund des Messfehlers, nicht zu erwarten; z.B. wird man mit einem Wert von 0,8 oder 0,9 schon sehr zufrie-den sein. Das hieße, dass die Varianz der Testresultate zu 80 bzw. 90% durch das gemessene psychische Merkmal gesteuert ist und zu 20 bzw. 10% durch Messfehler. Damit ist noch nicht bewiesen, dass der Test auch valide ist, also z.B. wirklich das allgemeine Sprachleistungsniveau misst – und nicht etwa nur Grammatikkenntnisse. Aber das, was der Test misst, misst er mit einer angebbaren Zuverlässigkeit. Grund-voraussetzung für solch eine Reliabilitätsschätzung ist, dass die beiden parallelen Test experimentell unabhängig sind, denn gäbe es z.B. in Test 2 ein paar Fragen, die nur derjenige beantworten kann, der bestimmte Lösungen in Test 1 gefunden hat, würde dies die Korrelation zwischen den Scores "künstlich" steigern. Da man meist keine "parallelen" Test zur Verfügung hat, behilft man sich mit dem split-half-Ansatz, d.h. der Test wird in 2 Hälften geteilt, für die getrennte Scores ermittelt werden. Die Korrelation zwischen den Scores der beiden Testhälften ist dann ein Maß für die Reliabilität der Scores im Gesamttest. Bei der Halbierung des Tests wird man i.d.R. so vorgehen, dass verschiedene Testteile, die auf unterschiedliche Fertigkeiten oder sprachliche Teilkompetenzen abzielen, gleichmäßig auf beide Hälften verteilt werden. Denn bestünde etwa die Testhälfte A nur aus Items zum Hör-verstehen und Testhälfte B aus solchen zur Grammatik, wäre eine systematisch bedingte geringere Korrelation deshalb zu erwarten, weil Grammatikkennntisse und Hörverstehensfertigkeit eben in einem gewissen Maße unabhängig voneinander aus-gebildet werden. Oftmals wird der Test deshalb so gesplittet, dass alle geraden Items im ersten Halbtest zusammengefasst werden, alle ungeraden im anderen. Da in vielen Tests die Items nach Schwierigkeitsgrad geordnet dargeboten werden, vermeidet man auf diese Weise auch, dass eine Hälfte leichte, die andere schwere Items enthält. Wendet man die split-half-Methode auf den TS1 an, so ergibt sich folgendes Bild:

0

2

4

6

8

10

12

0 5 10 15

Ungerade Items

Ger

ade

Item

s

14

Page 19: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Jeder Punkt in dieser Graphik repräsentiert einen oder mehrere Probanden mit einer bestimmten Score-Kombination. Z.B. gibt es niemanden, der sowohl bei den unge-raden als auch bei den geraden Items je 4 Punkte erzielt hat. Probanden mit 4 (von 10) Punkten bei den ungeraden Items haben 1, 2, 5 oder 6 Punkte bei den geraden Items. An der Ausdehnung der Punktwolke in der Graphik lässt sich abschätzen, wie hoch die Teilscores miteinander korrelieren. Wäre die Korrelation perfekt (=1), dann würden alle Punkte auf einer Geraden liegen, die vom Ursprung im 45-Grad-Winkel nach rechts oben geht. In numerischer Form beträgt die Korrelation24 rhh =0,62. Dies ist aber noch kein Maß für die Reliabilität des Gesamttests, sondern für die eines Halbtests. Da die Zuverlässigkeit der Messung mit der Zahl der Items steigt, wurden Korrekturformeln entwickelt, um die (Gesamt)Testreliabilität rtt ausgehend von rhh zu schätzen. Die Formel von Spearman-Brown setzt voraus, dass die beiden Testhälften äquivalent und experimentell voneinander unabhängig sind:

767,0623,01623,02

12

=+∗

=+

=hh

hhtt r

rr

Durch Einsetzen der entsprechenden Werte gelangen wir zu einer Reliabilität des TS1 von rtt = 0,77.25 Wenn Zweifel an der Äquivalenz (zum Begriff vgl. unten) der beiden Testhälften bestehen, sollte man auf die Formel von Guttman zurückgreifen. Da sie von den Varianzen der Teiltests ausgeht, erfordert sie übrigens auch nicht die Berechnung der Korrelation zwischen den Teiltests. Für den TS1 ergibt sich ein Wert von rtt = 0,76:

763,035,14

03,585,31212 22

21

2

=

+−∗=

+−∗=

t

hhtt s

ssr

Darin ist rtt die Reliabilität des gesamten Tests, s2h1 die Score-Varianz der ersten

Hälfte, s2h2 die der zweiten, s2

t die des gesamten Tests. Auch bei möglichen anderen Splitvarianten ergeben sich vergleichbare Werte für die Reliabilität des TS1. Für eine Halbierung in Item 1-10/ Item 11-20 liefern beide Formeln einen Wert von 0,76. Werden die Items vor der Aufteilung in gerade/ ungerade Items nach dem Schwierig-keitsgrad geordnet, um die Äquivalenz der beiden Hälften zu steigern, so ergibt sich eine Reliabilität von 0,80. Bei zwei weiteren Formeln zur Schätzung der Testreliabilität stellt sich nicht das Problem, wie der Test halbiert werden soll. Statt der Varianzen der Testhälften-Scores (wie bei Guttmann), werden die Varianzen aller Item-Scores in Beziehung zur Varianz des Gesamttestscores gesetzt. Dadurch ergibt sich ein Durchschnittswert aller möglichen Halbierungen. Während die Formeln von Kuder-Richardson (KR 20 und KR 21, vgl. Bachman 1990: 176) nur für dichotomische Items gelten, hat Cronbach eine allgemeine Formel für einen Realibilitätskoeffiezienten entwickelt, meist Cron-bachs Alpha genannt:

−= ∑

t

i

ss

kk

2

2

11

α

24 Hierin steht r für die Korrelation, hh für die beiden Testhälften. Formeln für die Korrelation können

in jedem Statistiklehrbuch nachgeschlagen werden; für praktische Zwecke, also zur Berechnung, bedient man sich allerdings am besten eines Tabellenkalkulationsprogramms (wie z.B. Excel).

25 Nach Kehoe (1995b: 3) sind Werte von 0,5 bei kurzen Tests mit 10-15 Items zufriedenstellend; bei 50 Items sollte die Reliabilität bei 0,8 oder höher liegen. Dies sei auch die untere Grenze bei wichtigen Entscheidungen über einzelne Probanden.

15

Page 20: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Darin ist k die Zahl der Items, s2

i die Item(score)varianz und s2t die Test(score)-

varianz. Besteht der Test nur aus zwei Items (bzw. zwei Hälften), dann ist die Formel gleichbedeutend mit der von Guttmann; sind alle Items dichotomisch (richtig/falsch), dann ist s2

i=p*q (s.o.) und Cronbachs Formel entspricht Kuder-Richardsons KR20. Für den TS1 ist Cronbachs Alpha = 0,75. Die Reliabilität des TS1, berechnet auf der Grundlage der CTS-Theorie, liegt also, wenn wir die Ergebnisse der verschiedenen Formeln und Splittings berücksichtigen, im Bereich 0,75 – 0,80. Es sei daran erinnert, dass alle CTS-Reliabilitätskoeffizienten nur unter bestimmten Bedingungen gelten, nämlich bei Äquivalenz, d.h. inhaltlicher Vergleichbarkeit der Testhälften bzw. einzelnen Items, und bei Unabhängigkeit der Testhälften bzw. Items voneinander. Beide Bedingungen werden vom TS1 zwar weit-gehend, aber doch nicht völlig erfüllt. Die Items 11-20 beziehen sich ja auf einen durchgehenden Text und die Probanden sollen jene Optionen auswählen, die nicht nur innerhalb des Satzes sprachlich und inhaltlich korrekt, sondern auch dem gesamten Textinhalt und der Überschrift angemessen sind. In der Tat sind nur Item 16, 18 und 20 auch ohne Berücksichtigung des Textzusammenhangs korrekt lösbar, in einge-schränktem Maße vielleicht Item 11 und 12; alle anderen setzen aber voraus, dass der Proband über die Satzgrenze hinausschaut. D.h. wie ein Item beantwortet wird, hängt u.U. davon ab, wie vorausgegangene Items beantwortet wurden, so dass das Gebot der Unabhängigkeit verletzt würde. Ein Beispiel mag das veranschaulichen: Einige Kan-didaten haben vermutlich nicht erfasst, dass es sich um einen Werbetext handelt, der insgesamt ein positives Bild vom Herbsturlaub an der Nordsee zeichnet. Wer sich etwa in der ersten Lücke (Item 11) für den Distraktor "tut mir leid"26 entschieden hat (11% entsprechend 7 Probanden auf den Rängen 37-64), der ist u.U. schon auf der "falschen Fährte" und könnte sich – eben weil er den (falsch ergänzten) Textzusam-menhang berücksichtigt – auch bei Item 17 für "leider" entschieden haben; tatsächlich haben 5 der o.g. 7 Probanden den Distraktor "leider" gewählt. Nun ist dies noch kein Beweis für Abhängigkeit, nährt aber immerhin den Verdacht. Je stärker das Gebot der Unabhängigkeit verletzt wird, desto höher erscheint die Korrelation zwischen den Itemscores, so dass die Reliabilität der Testscores überschätzt wird. Besondere Vorsicht ist z.B. bei Diktaten, C-Tests und Leseverständnis-Aufgaben (zu ein und demselben Textabschnitt) angebracht (vgl. Bachmann 1990: 174). Das zweite Pro-blem ist die Äquivalenz: wenn unterschiedliche Testteile verschiedene Kenntnis-bereiche oder Fertigkeiten testen, dann ist damit zu rechnen, dass die Korrelation der Itemscores innerhalb der Teile höher liegt als zwischen den Teilen. Je heterogener die Testteile bzw. Items sind, desto niedriger wird die Korrelation zwischen ihnen ausfallen, d.h. die Reliabilität der Testscores wird vermutlich unterschätzt. Beim TS1 zielt der erste Teil (Item 1-10) auf Grammatik- und Wortschatzkenntnisse, der zweite (Item 11-20) zusätzlich auf Textverständnis (Semantik), Pragmatik (Aussageabsicht) und Textgrammatik (z.B. Konnektoren wie "deshalb", "allerdings", "zwar … aber" usw.). Da aber beim split-half-Verfahren (vgl. oben) die Reliabilität bei Aufteilung in erste/zweite Hälfte mit 0,76 nur unwesentlich niedriger ist als bei derjenigen in gerade/ ungerade Items (0,77), darf man jedoch annehmen, dass die beiden Teile keine unterschiedlichen Kompetenzen messen.

26 etwa mit folgender Interpretation: "Tut mir leid für Sie, wenn Sie nur im Herbst kommen können,

denn der Sommer ist natürlich viel schöner."

16

Page 21: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Die dargestellten Reliabilitätskoeffizienten der CTS-Theorie messen im Grunde nicht anderes als die innere Konsistenz bzw. Kohärenz eines Tests (engl. "internal consis-tency", vgl. Bachman 1990: 172). Je mehr Items etwas anderes messen als der Test in seiner Gesamtheit (bzw. die restlichen Items), desto geringer ist die Korrelation zwischen den Itemscores und damit die Reliabilität. Ein Item, das die Leistungs-unterschiede deutlicher hervortreten lässt (also die Varianz der Testscores steigert) erhöht die Reliabilität, eines das sie verwischt (weil es z.B. von "guten" Probanden meist falsch beantwortet wird), verringert sie.27 Ein Test mit vielen gut diskriminie-renden Items besitzt also eine hohe Reliabilität. An dieser Stelle offenbart sich der Zusammenhang zwischen Itemanalyse und Reliabilität: Die Itemanalyse dient der Entdeckung und Eliminierung schlecht diskriminierender Items mit dem Ziel, die Reliabilität des Gesamttests zu erhöhen. Wenn wir z.B. die vier Items, die sich im vorigen Kapitel als besonders problematisch herausgestellt haben, also Item 3, 9, 12 und 13 (mit rpbis-Werten zwischen 0,17 und 0,24) aus dem Test entfernen, dann steigt Cronbachs Alpha von 0,7458 auf 0,7712.28 Dies ist umso beachtlicher, als die Reliabilität mit sinkender Itemzahl gewöhnlich abnimmt. Zum Vergleich: Entfernen wir 4 relativ gute Items aus dem Test (Nr. 1, 2, 4 und 5), dann sinkt Alpha deutlich von 0,7458 auf 0,6864. In der Regel wird man schlecht diskriminierende Items nicht einfach entfernen, sondern ersetzen. Unter der Voraussetzung, dass die Ersatzitems in ihrer Qualität in etwa den restlichen Items entsprechen, lässt sich die resultierende Reliabilität nach folgender Formel abschätzen (vgl. Leclercq 1987: 151):

l

ln rn

rnr

⋅−+⋅

=)1(1

Darin ist rn die Reliabilität des verlängerten Tests, n der Faktor, um den die Zahl der Items erhöht wird29, rl die Reliabilität des Tests in seiner ursprünglichen Länge. Erhöhen wir von 16 auf 20 Items, dann ist n=1,25 und die Reliabilität rl = 0,7712 (s.o.) erhöht sich auf 0,8081:

8081,07712,0)125,1(1

7712,025,1=

⋅−+⋅

=nr

Natürlich könnte der Einstufungstest TS1 auch noch weiter verlängert werden, um seine Reliabilität zu erhöhen. Unter der Voraussetzung, dass es gelingt, das Qualitätsniveau der 16 Items bei der Verlängerung aufrecht zu erhalten, stellt sich der Zusammenhang von Itemanzahl und Reliabilität wie folgt dar: Zahl der Items: 20 25 30 35 40 45 50 55 60 100Reliabiliät: 0,808 0,840 0,863 0,881 0,894 0,905 0,913 0,921 0,927 0,955

27 Bezogen auf die Formel von Cronbachs Alpha, können wir sagen, dass ein gut diskriminierendes

Item die Varianz der Testscores im Nenner (des Bruchs in der Klammer) stärker erhöht als die Summe der Itemvarianzen im Zähler. Ein schlecht diskriminierendes Item erhöht zwar die Summe der Itemvarianzen, aber verringert u.U. die Varianz der Testscores. Je größer der Nenner (die Testscore-Varianz) im Verhältnis zum Zähler (der Summe der Itemvarianzen), desto größer, d.h. näher am Wert 1, ist der Klammerausdruck und damit der Wert von Alpha.

28 Auch Kehoe (1995b: 3) macht auf dieses "interesting paradox" aufmerksam: "often the precision of a test can be increased simply by discarding the items with low item-test correlations."

29 Wenn n=2, dann entspricht die Formel derjenigen von Spearman-Brown (s.o. Seite 15).

17

Page 22: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Der Einstufungstest würde zu viel Zeit in Anspruch nehmen, wenn die Zahl der Items auf 100 stiege. Machbar erschiene ein Steigerung auf 40 Items. Dabei könnte man die Stimuli in vielen Fällen verkürzen, um den Zeitaufwand zu verringern. Z.B. würde bei Item 1 folgender Kontext ausreichen: "Ich bin ins Bett gegangen und sofort ___." Bei 40 Items könnte eine Reliabilität von nahezu 0,9 erzielt werden. Welche Aussagen erlauben nun Realibilitätskoeffizienten bei der Interpretation eines einzelnen Testscores? Was lässt sich über den true score sagen? Zunächst sei daran erinnert, dass die Reliabilität rxx den Anteil der True-Score-Varianz s2

t an der Varianz der beobachteten Scores s2

x angibt (vgl. oben S. 14 und Bachman 1990: 170f):

x

txx s

sr 2

2

=

Eine Reliabilität von 0,90 bedeutet z.B., dass 90% der Score-Varianz systematischer Natur sind, also etwa durch unterschiedliche sprachliche Fertigkeiten erklärbar sind. Außerdem wissen wir, dass sich die Varianz der beobachteten Scores s2

x aus der true-score- und der error-score-Varianz zusammensetzt:

1 :daher 2

2

2

2222 =+=+

x

e

x

txet

ss

sssss

Darin ist s2

e die Varianz des error score. Wenn wir in der letzten Formel den ersten Bruch durch rxx ersetzen und so umformen, dass s2

e auf der linken Seite steht, erhalten wir:

xxxexxxe rssrss −=−= 1 bzw. )1(22

se ist eine Schätzung für den Standardmessfehler SEM (engl. standard error of measurement) und lässt sich aus der Standardabweichung der beobachteten Testscores (=3,788 beim TS1) und der Reliabilität (z.B. Cronbachs Alpha = 0,7458 berechnen. Für den TS1 ergibt sich se = 1,91. Wie wie bei den Testscores (vgl. oben), kann die Standardabweichung verwendet werden, um folgende Aussagen über den SEM zu machen: 68% der error scores liegen im Bereich ±1,91, oder anders ausgedrückt: der true score liegt mit 68%iger Wahrscheinlichkeit maximal 1,91 Punkte über oder unter dem tatsächlich beobachteten Score; mit 95% Wahrscheinlichkeit liegt er max. 2*1,91 = 3,82 Punkte über/unter dem tatsächlich erzielten Punktwert. Halten wir uns noch einmal die Einstufungsempfehlungen des TS1 in Abhängigkeit von der erzielten Punktzahl vor Augen: TS1 0-4 TB 3 5-9 Kurs 3 10-14 Kurs 4 15-20 TS2 Wollen wir Aussagen mit hohem Wahrscheinlichkeitsgrad (95%) über die true scores machen, so müssen wir sagen, daß sie in einem (Konfidenz)intervall von ± 4 Punkten um den erreichten Score herum liegen. Bei einem Score von 12 Punkten, liegt der true score also mit sehr hoher Wahrscheinlichkeit im Bereich 8-16 Punkte. Dass dieses Intervall drei verschiedenen Einstufungsempfehlungen entspricht, lässt erkennen, dass die Reliabilität des TS1 verbesserungsbedürftig ist. Läge die Reliabilität z.B. bei 90%, so könnte (bei gleichbleibender Scorevarianz) das 95%-Band auf ± 2,4 Punkte verengt werden. Mit 68% Wahrscheinlichkeit läge der true score sogar in dem sehr engen Bereich von ± 1,2 Punkten. Es sei noch einmal daran erinnert, dass eine hohe

18

Page 23: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Reliabilität nichts darüber aussagt, ob der Test valide ist, also in unserem Fall wirklich den allgemeinen Sprachstand misst. Es könnte sein, dass er nur eine Teilfertigkeit oder bestimmte Kenntnisbereiche misst. Eine hohe Reliabilität und ein niedriger S.E.M. bedeuten lediglich, dass der Test, das, was er misst, zuverlässig misst.30 5. IRT-Analyse des TS1 Die in den beiden vorigen Kapiteln dargestellte Testanalyse gehört zum klassischen Repertoire der Testtheorie. In anspruchsvollen empirischen Untersuchungen bedient man sich heute in der Regel komplizierterer Modelle. Mit den Mitteln der sog. Item Response Theory (IRT)31 ist es z.B. möglich, Angaben zum Item-Schwierigkeitsgrad von der untersuchten Gruppe unabhängig zu machen. Das Fertigkeitsniveau der Pro-banden und der Schwierigkeitsgrad der Items werden auf einer einheitlichen sog. Logit-Skala abgebildet (z.B. 0 bis 100 oder –3 bis + 3). Voraussagen über das vermut-liche "Abschneiden" bei einzelnen Items basieren nicht nur auf dem Schwierigkeits-grad des Items (einem Durchschnittswert, der das Fertigkeitsniveau der Gesamtgruppe widerspiegelt), sondern auch auf dem individuellen Sprachstand. Darüberhinaus lässt sich der Messfehler für jeden einzelnen Probanden angeben. IRT-Modelle setzen voraus, dass alle Items ein und dasselbe psychische Merkmal messen ("Eindimen-sionalität") und arbeiten mit 1 bis 3 Parametern: Schwierigkeitsgrad der Items/ Fertigkeitsniveau der Probanden (beide in Logits); Diskriminationsvermögen der Items; Wahrscheinlichkeit richtiger Antworten bei extrem schwachen Probanden (blind guessing-Wahrscheinlichkeit). Je mehr Parameter berücksichtigt werden, umso komplizierter sind die mathematischen Modelle und umso mehr größere Gruppen sind erforderlich, um zuverlässige Aussagen machen zu können. Beim 1-Parameter (Schwierigkeitsgrad) oder sog. Rasch-Modell reichen ca. 100 Personen, beim 2-Parameter Modell (Schwierigkeitsgrad und Diskriminationskoeffizienten) sind 200 erforderlich, beim 3-Paramter-Modell gar 1000 (vgl. Alderson et al. 1995: 91). Mit den 64 Probanden des TS1 ist allerhöchstens eine Rasch-Analyse sinnvoll. Alle IRT-Modelle beruhen auf der Annahme einer bestimmten mathematischen Beziehung zwischen Itemschwierigkeitsgrad und Erfolgswahrscheinlichkeit, die sich graphisch darstellen lässt. Jede der drei Kurven (Item Characteristic Curve, ICC) in der folgenden Graphik entspricht einem Item. Je weiter links die Kurve liegt, desto einfacher ist das Item. Ein Student mit einem Fertigkeitsniveau von 50 Logits hat z.B. eine fast 90%ige Wahrscheinlichkeit, Item 1 richtig zu beantworten. Bei Item 2 sinkt der Wert auf 50%, bei Item 3 auf etwas über 10%. Als Schwierigkeitsgrad eines Items gilt jenes Fertigkeitsniveau, das erforderlich ist, um eine 50:50-Chance zu haben. Die Schwierigkeitskoeffizienten der Items betragen also 30 Logits beim ersten, 50 Logits beim zweiten und 70 Logits beim dritten Item. Je steiler die Itemkurve, desto höher ist 30 Fehlentscheidungen hinsichtlich des Vorliegens der für den Besuch einer bestimmten Kursstufe

nötigen Voraussetzungen, lassen sich in zwei Gruppen einteilen: falsch positive und falsch negative. Hält man falsch positive für besonders problematisch, weil die betroffenen Lerner durch zu hohe Anforderungen frustriert werden könnten, dann kann der Grenzpunktwert (Cut-off-score) angehoben werden; umgekehrt wird man verfahren, wenn man falsch negative für schädlicher hält. Je weiter sich der Cut-off-score vom durchschnittlichen Score entfernt, desto höher ist die Wahrscheinlichkeit richtiger Entscheidungen (vgl. Bachmann 1990: 218f; hier wird auch der Koeffizient k2(x, Tx) zur Berechnung dieser Wahrscheinlichkeit vorgestellt). Mir scheint aber, dass jeweils ein spiegelbild-licher negativer Effekt unvermeidlich ist, d.h. wenn das Risiko falsch positiver Einstufungen abnimmt, steigt gleichzeitig dasjenige falsch negativer Einstufungen und umgekehrt.

31 vgl. z.B. Bachman 1990: 202ff., Alderson et al. 1995: 89ff

19

Page 24: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

das Diskriminationsvermögen des Items; je flacher sie ist, umso schlechter diskriminiert das Item leistungsstarke und –schwache Probanden. Wäre die Kurve horizontal, dann hätten alle Prüflinge unabhängig von ihrem Niveau dieselbe Chance, das Item zu lösen. Die hier abgebildete Grafik entspricht dem Rasch-Modell (1 Parameter), da alle Item-Kurven dieselbe Steigung aufweisen und die Erfolgs-wahrscheinlichkeit keinen Sockelwert hat (bei MC-Aufgaben mit 4 Optionen müsste dieser Sockel bei 25% liegen).

0

0,5

1

0 50 100Item-Schwierigkeitsgrad / Leistungsniveau der

Probanden

Erfo

lgsw

ahrs

chei

nlic

hkei

t Item 1Item 2Item 3

Die mit Hilfe eines Computerprogramms durchgeführte Rasch-Analyse besteht nun darin, Logit-Werte für die verschiedenen Items einerseits und für sämtliche Studenten andererseits zu ermitteln, die unter Voraussetzung einer einheitlichen Form von IC-Kurve so gut wie möglich mit den empirischen Daten übereinstimmen. Bei diesem Vorgang der "Anpassung" (engl. fit) von Modell und empirischen Daten erweisen sich u.U. einige Items bzw. die zugehörigen Daten als schlecht integrierbar (misfit). Die betroffenen Items sind meist genau diejenigen, die bei der klassischen CTS-Analyse eine geringe Korrelation mit den Testscores aufweisen. Ich habe eine solche Analyse der TS1-Daten mit Hilfe der Demo-Software MINISTEP32 durchgeführt. Ein Bruchteil des umfangreichen Outputs ist in Anhang 5 wiedergegeben. Auf den ersten vier Rängen der am schlechtesten "passenden" Items stehen auch hier die Items 13, 12, 3 und 9 (vgl. Tabelle 10.1). In der Spalte "Score corr(elation)" finden wir Item-Test-Korrelationskoeffizienten, die nur kaum von den oben berechneten rpbis-Werten abweichen (vgl. Anhang 4). Ministep hat für die Testscores des TS1 eine Reliabilität von 0,72-0,74 berechnet (vgl. Tabelle 3.1); auch dieser Wert weicht nicht signifikant von den oben berechneten Koeffizienten ab. Tabelle 1.0 zeigt, wie sich die 64 Studenten (S01, S02, …) und die 20 Items (IT01, IT02, …) auf einer gemeinsamen Schwierigkeits- bzw. Fertigkeitsskala von 0-100 verteilen. Hier lässt sich erkennen, dass den besten Probanden am oberen Ende der Skala keine Items gegenüberstehen. D.h. der Test diskriminiert nur wenig im oberen Leistungsbereich. Dies ist allerdings auch nicht erforderlich, denn die Probanden mit sehr hohen Punktzahlen werden ja an den nächstschwierigeren Test verwiesen (TS2). Dass das Diskriminationsvermögen am oberen Leistungsbereich nachlässt, erkennt man in Diagramm 20.1 auch am Ab-flachen der Kurve oberhalb 80 Logits; im unteren Leistungsbereich flacht die Kurve erst bei ca. 40 Logits (entsprechend 4 Punkten im Test) ab, also in einem Bereich, der statistisch unwahrscheinlich und in der untersuchten Stichprobe nicht vertreten ist. Schließlich schlägt sich das schlechtere Diskriminationsvermögen in hohen Mess-fehlern am oberen Ende der Leistungsskala nieder: in Tabelle 20.1. erkennt man, dass

20

32 Ministep ist die Demo-Version von Winsteps; Download bei http://www.winsteps.com

Page 25: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

bei einem Score von 19 Punkten der Messfehler gut doppelt so groß ist wie im Bereich 7-14 Punkte. Die IRT-Analyse hat Vorteile gegenüber der CTS-Theorie, weil sie die Berechnung der Item-Schwierigkeits- und Probanden-Fertigkeits-Koeffizienten unabhängig von der Stichprobe macht und damit bei der Erstellung von Itembanken und adaptiven Computertests eine große Hilfe darstellt (vgl. Bachman 1990: 209, Alderson et al. 1995: 91f). Was allerdings Item-Analyse und Reliabilitätsberechnungen betrifft, so können wir am Beispiel des TS1 erkennen, dass eine IRT-Analyse keine wesentlichen Erkenntnisvorteile gegenüber der klassischen (true-score-)Analyse bietet. Das ist der Grund, warum die Item Response Theory im Rahmen dieser Arbeit nicht so ausführ-lich behandelt wurde. Außerdem sollte nicht vergessen werden, dass eine 1-Para-meter-IRT-Analyse (= Rasch-Analyse) eigentlich eine Stichprobe von mindestens 100 Probanden voraussetzt, während beim TS1 nur 64 zur Verfügung standen. 6. Revidierte Fassung des TS1 In Anhang 6 ist eine revidierte Fassung des TS1 mit Lösungs- und Bewertungschlüs-sel abgedruckt, die bei den C.L.I.-Einstufungstests Ende März 2000 erstmals ein-gesetzt worden ist. Wie man sieht, sind Testform, Inhalt und Itemzahl weitgehend unverändert geblieben. Alle weitergehenden Eingriffe bleiben einer umfassenden Revision der DaF-Einstufungstest am Sprachenzentrum der Universität Venedig vorbehalten.33 Der Einsatz von Multimedia-Software könnte dabei adaptive Tests er-möglichen, in die auch Hörverständnisaufgaben einbezogen werden34, um Zahl und Art der berücksichtigten sprachlichen Fertigkeiten zu erweitern und so die (inhalt-liche) Validität des Einstufungstests Deutsch zu steigern. Zu überlegen wäre in die-sem Zusammenhang auch der Einsatz von C-Tests.35 Da die Umsetzung eines solchen Vorhabens noch eine gewisse Zeit erfordern wird, erschien es angemessen, die Ergebnisse der hier durchgeführten Test- und Itemana-lyse für eine vorläufige Neufassung des TS1 fruchtbar zu machen. Dabei ist zunächst einmal der Bewertungsschlüssel entsprechend den Überlegungen in Kapitel 3 verän-dert worden.36 Vor allem wird der Prüfling jetzt schon bei einem Score von 7 oder weniger Punkten (=13 oder mehr Fehlern) an den leichteren Test TB3 verwiesen: TS1 alt 0-4 TB 3 5-9 Kurs 3 10-14 Kurs 4 15-20 TS2 TS1 neu 0-7 TB 3 8-11 Kurs 3 12-15 Kurs 4 16-20 TS2 Außerdem wurden die Items 3, 9, 12 und 13 modifiziert, bei denen die Korrelation zwischen Item- und Testscore (rpbis) mit ca. 0,20 sehr schlecht ausgefallen war. Beim (alten) Item 3 (vgl. Anhang 2) war der Distraktor "lieber" zu attraktiv. Das dürfte mehrere Gründe haben: a) der Ausdruck einer Präferenz mit "lieber" ist auf dieser Lernstufe (Ende Grundstufe 1) sicherlich wesentlich vertrauter als die Formulierung 33 Eine gute, praxisnahe Anleitung zur Entwicklung von Sprachtests bieten Bachman/Palmer 1996 34 Zum computergestützten adaptiven Testen (CAT) vgl. Klein-Braley 1995: 502; zu CAT im Bereich

Hörverstehen vgl. Dunkel 1997; zur Typologie von HV-Tests z.B. Doyé 1988: 19ff.; zur Problematik von MC-Hörverstehensaufgaben vgl. Klein-Braley 1992: 660ff.

35 Zur Orientierung über C-Tests vgl. Klein-Braley / Raatz (1984), Klein-Braley 1997 und - im WWW zugänglich - die Bibliographie von Grotjahn (1995) und die Einführung von Raatz/Klein-Braley (A).

36 Dies gilt auch für die Tests TB2, TB3 und TS2, die ansonsten unverändert geblieben sind.

21

Page 26: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

"ich finde es viel schöner + zu + Inf."; b) das "gern" im voraufgehenden Fragesatz schafft bereits die Erwartung, dass ein "lieber" folgen könnte; c) die Steigerung eines Komparativs mit "viel" (statt "sehr" im Positiv) wird vermutlich noch nicht sicher ge-lernt, so dass eventuell Zweifel an der sprachlichen Korrektheit der Lösung "viel schöner" entstanden sind. In der neuen Fassung wird der enge inhaltliche und grammatische Zusammenhang von "gern" und "lieber" respektiert; die Lösung ist jetzt "lieber". Zwangsläufig mussten auch die Distraktoren (von denen "am liebsten" nie gewählt worden war) modifiziert werden: "liebe" wird oft mit "lieber" verwechselt (phonetische Ähnlichkeit; Interferenz mit ital. amare fare qualcosa), sollte aber aufgrund der Satzkonstruktion als falsch identifizierbar sein; "leider" hat eine graphische Ähnlichkeit mit der Lösung, ist aber inhaltlich nicht akzeptabel; "glücklich" könnte als "glücklicherweise" interpretiert werden. Bei Item 9 hatte sich vor allem der Distraktor "könnte" störend bemerkbar gemacht, denn (das zeigt der positive rpbis-Wert 0,02) mehr gute als schlechte Kandidaten hatten sich für "könnte" entschieden. Vielleicht erschien ihnen "konnte" als zu banal und deshalb unwahr-scheinlich und der Konjunktiv II wurde u.U. als "ich hätte nichts kaufen können (auch wenn ich gewollt hätte)" interpretiert. Hätten sich die besseren Probanden für die richtige Antwort entschieden, wäre zwar der Schwierigkeitskoeffizient P zwar noch weiter auf 0,89 gestiegen, aber immerhin hätte sich rpbis auf 0,34 verbessert. In der Neuformulierung der Distraktoren sollte nun klarer sein, dass es nicht um den Modus geht, sondern nur um Tempus und korrekte Form. Es bleibt abzuwarten, ob die bekanntlich leicht verwechselbaren Verben können und kennen eine bessere Diskrimination gewährleisten. Item 12 hatte ebenfalls einen schlechten Diskrimina-tionskoeffizienten. In der Neuformulierung sollte die Lösung von einem guten Probanden eindeutig zu identifizieren sein. Der einleitende Satz des Textes ("Auch der Herbst ist schön") ist eine klare inhaltliche Vorgabe; das auszuwählende Adjektiv sollte also positiv konnotiert sein. Nun mag (die Lösung) "angenehm" nicht zum aktiven Wortschatz der Zielgruppe gehören, aber die drei Distraktoren sollten als falsch erkennbar sein. Bei Item 13 war die Lösung ("können") wenig geeignet, starke und schwache Probanden zu diskriminieren; das Item war mit einem P-Wert von 0,83 recht leicht. In der revidierten Form wurde die Bedeutung des Modalverbs nominal wiedergegeben ("Möglichkeit"). Von den neuen Distraktoren dürfte wohl vor allem "Zeit" attraktiv sein, denn bei oberflächlichem Verständnis könnte der Satz als "es ist nicht die richtige Zeit, um im Meer zu baden" aufgefasst werden. Ob auch die anderen beiden Distraktoren eine gewisse Plausibilität haben, muss sich empirisch erweisen. Überhaupt ist klar, dass niedrige Diskriminationskoeffizienten zwar wichtige Indizien für schlecht funktionierende Items sind, aber nicht anzugeben vermögen, wie das je-weilige Problem zu lösen ist. Auch die hier gemachten Vorschläge bedürfen erneuter empirischer Überprüfung. Zusätzlich wurden Veränderungen bei einigen weiteren Items bzw. Optionen vorge-nommen, um zu attraktive/ unattraktive Distraktoren auszutauschen oder den Schwie-rigkeitsgrad zu modifizieren. In Item 2 wurde der nie gewählte Distraktor "meinen" durch das inhaltlich assoziierbare "probieren" ersetzt, und in Item 6 finden wir jetzt "wen" statt des weniger vertrauten "woran" (nur für einen der 64 Probanden über-zeugend). Bei Item 11 wurde der zu attraktive Distraktor "falsch ist" eliminiert, der aus zwei Gründen relativ häufig (30%) gewählt worden sein mag: a) im Vergleich zum Mittelmeer ist ein Sommer an der Nordsee nicht besonders schön; b) der Text propagiert den Herbst, also könnte man annehmen, er wolle die Vorteile des Sommers kleinreden. Auch wenn die leistungsstarken Probanden nicht in diese Falle gelaufen sind (rpbis ist negativ), habe ich das Item verändert, um am Anfang des Textes

22

Page 27: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

falsche inhaltliche Weichenstellungen zu vermeiden, die die weitere Bearbeitung beeinflussen und somit zu unerwünschten Abhängigkeiten zwischen den Items führen könnten. Die vorgeschlagene Lösung ist inhaltlich neutral und konzentriert sich auf die Auswahl des passenden Verbs, ohne die Textbedeutung je unterschiedlich festzulegen. Die Distraktoren zeichnen sich allesamt dadurch aus, dass sie relativ häufig nach initialem "es" im Satz erscheinen. Bei Item 14 war der Distraktor "Warum" nur von einem der 64 Probanden gewählt worden; aufgrund des fehlenden Fragezeichens konnte diese Option allzu leicht als falsch erkannt werden und wurde gegen "Darum" ausgetauscht. Mit P = 0,31 (zum Vergleich: die blind-guessing-Chance beträgt 0,25) war dieses Item das schwierigste überhaupt. Da der Test aber besonders im mittleren Leistungsbereich gut diskriminieren soll, wurde das auf dieser Lernstufe weniger bekannte "Allerdings" gegen "Trotzdem" ausgetauscht. Dadurch sollte das Item etwas leichter werden. Der nie gewählte Distraktor d ("Abend") von Item 15 wurde gegen "Strand" ausgetauscht. Es bleibt abzuwarten, ob diese vermut-lich attraktivere Option nicht die "falschen" Probanden in die Irre führt. Voraussicht-lich wird das Item insgesamt relativ leicht bleiben. Bei Item 17 wurde der syntaktisch völlig unmögliche (und nie gewählte) Distraktor "möchten" gegen "damals" einge-wechselt, das nur aus inhaltlich-semantischen Gründen verworfen werden kann. Zu leicht und deshalb verbesserungsbedürftig erschien Item 18 mit P = 0,88. Zwei der Distraktoren konnten fast niemand überzeugen und die lexikalische Verbindung "irgendwo Urlaub machen" ist vermutlich so banal, dass sie auf dieser Lernstufe kaum zu diskriminieren vermag. Jetzt beruht die Lösung auf der Wendung "seinen Urlaub irgendwo verbringen" und als Distraktoren fungieren "verdienen, vergehen, verglei-chen". Bei Item 19 wurde der Distraktor d "Frühling" (der keinen Bezug im Text hat) gegen "Sommer" ausgetauscht; das Demonstrativpronomen der Lösung "dieser Zeit" wurde in den Stimulus verlegt, um die für mittelmäßige Kandidaten zu attraktive Option "Nordsee" (rpbis war leicht positiv!) unwahrscheinlicher zu machen. Bei Item 20 wurde der erste, von nur 2% der Testpopulation gewählte Distraktor "Lesen" gegen das semantisch und syntaktisch völlig falsche, aber zur Sprachhandlung passende "Empfehlen" ausgetauscht. Schließlich wurde Item 8 ("Waldbrände") sprachlich ver-einfacht ("Naturkatastrophen"), um die Zahl fehlender Antworten zu reduzieren. Eine erste empirische Bewertung der revidierten Fassung des TS1 ist möglich auf-grund der 11 Testbögen, die beim Einstufungstermin im März 2000 bearbeitet wur-den. Es muss jedoch betont werden, dass bei einer so kleinen Stichprobe alle Angaben, insbesondere die zur Reliabilität und zum Standardmessfehler der revidier-ten Fassung, mit großer Vorsicht zu interpretieren sind. Dennoch können wir Tenden-zen erkennen: Item 3, 12 und 13 scheinen jetzt erheblich besser zu diskriminieren, während Item 9 – dies ist das wichtigste Ergebnis der Analyse – einen leicht negativen rpbis-Wert (-0,03) aufweist, also dringend noch einmal überarbeitet werden muss; verantwortlich dafür ist der Distraktor c ("kann"), der nur aufgrund des Präteritums im Stimulus ("hatte") als falsch erkannt werden kann. Während die Ver-änderung des Schwierigkeitsgrades der Items 14 (P= 0,55) und 18 (P= 0,45) gelungen zu sein scheint, lassen sich über die Attraktivität der Distraktoren bei nur 11 Probanden kaum gesicherte Aussagen machen. Die Distraktoren 2d, 6c, 19d und 20a wurden jedenfalls auch weiterhin nicht gewählt; 14a, 15d und 17d dagegen erhielten 1-2 Präferenzen. Hier sind weitere Untersuchungen mit breiterer Basis erforderlich.

23

Page 28: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Literatur Albers, Hans-Georg/ Bolton, Sibylle (1995): Testen und Prüfen in der Grundstufe.

Einstufungstests und Sprachstandsprüfungen. München: Langenscheidt (Fern-studieneinheit 7)

Alderson, J. Charles/ Clapham, Caroline/ Wall, Dianne (1995): Language Test Construction and Evaluation. Cambrigde University Press

Bachman, Lyle F. (1990): Fundamental Considerations in Language Testing. Oxford University Press

Bachman, Lyle F./ Palmer, Adrian S. (1996): Language Testing in Practice. Oxford University Press

Bausch, Karl-Richard/ Christ, Herbert/ Krumm, Hans-Jürgen (Hrsg.) (1995): Handbuch Fremdsprachenunterricht. Tübingen und Basel: Francke (3. Auflage)

Blais, Jean-Guy/ Laurier, Michel D. (1995): The dimensionality of a placement test from several analytical perspectives. Language Testing 12, 1, 72 - 98.

Bond, Linda (1996): Norm- and Criterion-Referenced Testing. Practical Assessment, Research & Evaluation. A peer reviewed electronic journal. http://ericae.net/pare/getvn.asp?v=5&n=2

Davidson, Fred (2000): Principles of Language Testing. Course lecture and discussion notes for English as an International Language (EIL) 360, University of Illinois at Urbana-Champaign, http://www.uiuc.edu/ph/www/fgd

Doyé, Peter (1988): Typologie der Testaufgaben für den Unterricht Deutsch als Fremdsprache. München: Langenscheidt

Doyé, Peter (1995): Funktionen und Formen der Leistungsmessung in: Bausch u.a. 1995: 277-282

Dunkel, Patricia A. (1997): Computer-Adaptive Testing of Listening Comprehension: A Blueprint for CAT Development. http://langue.hyper.chubu.ac.jp/jalt/pub/tlt/97/oct/dunkel.html

Ebel, R.L./ Friesbie, D.A. (1986): Essentials of educational measurement, New York: Holt, Rinehart and Winston

Frary, Robert B. (1995): More Multiple-Choice Item Writing Do's And Don'ts, ERIC/AE Digest Series EDO-TM-95-4, October 1995 http://www.campus.cua.edu/www/eric_ae/digests/tm9504.htm

Fulcher, Glenn (1997): An English language placement test: issues in reliability and validity. Language Testing 14, 2, 113 - 139.

Grotjahn, Rüdiger (1995): The electronic C-Test bibliography: WWW version December 1995. http://www.slf.ruhr-uni-bochum.de/biblio/ctbib.html

Jung, Lothar (ed.) (1994): Einstufungstests für Anfänger- und Fortgeschrittenenkurse. Deutsch als Fremdsprache. Ismaning/München: Verlag für Deutsch

Kehoe, Jerard (1995a): Writing Multiple-Choice Test Items, ERIC/AE Digest Series EDO-TM-95-3, October 1995 http://www.campus.cua.edu/www/eric_ae/digests/tm9503.htm

Kehoe, Jerard (1995b): Basic Item Analysis for Multiple-Choice-Tests. Practical Assessment, Research & Evaluation. A peer reviewed electronic journal. http://ericae.net/pare/getvn.asp?v=4&n=10

Klein-Braley, Christine/ Raatz, Ulrich (1984): A survey of research on the C-Test. Language Testing 1, 2, 134 - 146.

Klein-Braley, Christine (1992): Objektives Erfassen von Hör- und Leseverstehen. –Einige Erkenntnisse aus der Theorie der Leistungsmessung und deren Bezug zur PNdS. in: Info DaF19, 6 (1992), 649-663

24

Page 29: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Klein-Braley, Christine (1995): Leistungsmessung, in: Bausch u.a. 1995: 499-503

Klein-Braley, Christine (1997): C-Tests in the context of reduced redundancy testing: an appraisal. Language Testing 14, 47 - 84.

Leclercq, Dieudonné (1987): Qualité des questions e signification des scores – avec application aux QCM. Bruxelles: Editions Labor

Matlock-Hetzel, Susan (1997): Basic Concepts in Item and Test Analysis. http://ericae.net/ft/tamu/Espy.htm

Ongaro, Valeria/ Schiavinato, Gino (2000): Testing Computerizzato e competenza comunicativa. Unveröffentlichtes Typoskript, Universität Venedig, Centro Linguistico Interfacoltà

PAS (1991): Grundbaustein zum Zertifikat Deutsch als Fremdsprache, hrsg. von der Pädagogischen Arbeitsstelle (PAS) des Deutschen Volkshochschulverbandes e.V., Bonn-Frankfurt, 3. Auflage.

Paschke, Peter (1997): Curricolo per i corsi di lingua tedesca del Centro Linguistico Interfacoltà Università di Venezia, unveröff. Typoskript

Raatz, Ulrich/ Klein-Braley, Christine (A): Introduction to language testing and C-Tests. http://www.uni-duisburg.de/FB3/ANGLING/FORSCHUNG/ HOWTODO.HTM (ohne Jahr)

Raatz, Ulrich/ Klein-Braley, Christine (B): Glossary of the most frequent concepts in statistics and test theory. o.J. http://www.uni-duisburg.de/FB3/ANGLING /FORSCHUNG/GLOSSARY.HTM (ohne Jahr)

Vollmer, Helmut J. (1995): Leistungsmessung: Überblick. in: Bausch u.a. 1995: 273-277

Wall, Dianne/ Clapham, Caroline/ Alderson, J. Charles (1994): Evaluating a placement test. Language Testing 11, 3, 321 - 344.

Wesche, Marjorie/ Paribakht, T. Sima/ Ready, Doreen (1996): A comparative study of four ESL placement instruments, in: Performance testing, cognition and assessment: Selected papers from the 15th Language Testing Research Colloquium (LTRC), Cambridge and Arnhem. Cambridge University Press, 199-210

Wintermann, Bernd: Zuverlässig – Objektiv – Gültig? DSH und TESTDAF – Sprachprüfungen auf dem Prüfstand. in: Info DaF 25, 1 (1998), 104-110

Übersicht über die Anhänge: Anhang 1 Selbsteinstufungstest des Goethe-Instituts Anhang 2 Einstufungstest TS1 Anhang 3 TS1 Itemschwierigkeitsgrad, Scores, Mittelwert, Varianz, Standardabweichung Anhang 4 TS1 Diskriminationskoeffizienten Anhang 5 TS1 Rasch-Analyse mit Ministeps-Software Anhang 6 Revidierter TS1-Einstufungstest Anhang 7 Auswertung des revidierten TS1 (Antworten von 11 Probanden)

25

Page 30: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Anhang 1 Selbsteinstufungstest des Goethe-Instituts von 1998 Deutsche Version:

26

Page 31: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Anhang 1 (Forts.) Italienische Version:

27

Page 32: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Anhang 2 Einstufungstest TS1 (Version von 1994) mit Lösungs- und Bewertungsschlüssel

TS1 - Test di tedesco – Medio Progr./Progred. – Nome: ___________ Nei seguenti esercizi a scelta multipla una sola risposta è corretta. Dovete decidere quale degli elementi proposti (A, B, C, D) è appropriato al buco (___) in questione. Scrivete la relativa lettera nella casellina al margine destro del foglio. Tempo: 20 minuti. PARTE A: Singoli mini-dialoghi

1 + Bist du nach dem Film noch weggegangen? * Nee, ich war todmüde. Ich bin ins Bett gegangen und sofort ___

a. geschlafen b. verschlafen

c. eingeschlafen d. hingelegt c

2 + Wie ___ Ihnen mein selbstgebackener Kuchen? * Oh, ganz ausgezeichnet! Können Sie mir das Rezept geben?

a. schmeckt b. gefällt

c. finden d. meinen a

3 + Gehst du gern allein auf Reisen? * Nein, ich finde es ___, mit anderen zusammen zu fahren.

a. am liebsten b. lieber

c. mehr schön d. viel schöner d

4 + Was liest du denn da? Einen Roman? * Schön wär's! Das ist eine Geschichte ___ deutschen Literatur.

a. vom b. der

c. des d. von b

5 + Warum redest du denn so leise? * ___ Georg nicht zu stören. Er schläft nämlich schon.

a. - b. Für

c. Um d. Weil c

6 + Weißt du, ___ das Stipendium monatlich gezahlt wird? * Keine Ahnung, tut mir leid.

a. ob b. wenn

c. woran d. daß a

7 + Sollen wir die nächste Übung auch noch machen? * Nein, die ___ Sie nicht zu machen. Das ist nicht nötig.

a. sollen b. können

c. brauchen d. dürfen c

8 + Die Zahl der Waldbrände ist wieder einmal gestiegen. * Und warum? Kennt man die ___ für diese Entwicklung?

a. Funktionen b. Ergebnisse

c. Folgen d. Gründe d

9 + Warum bist du so hungrig? Hast du heute noch nichts gegessen? * Nein, ich hatte mein Geld vergessen und ___ nichts kaufen.

a. konnte b. hätte

c. könnte d. hatte a

10 + Wir können nun doch keinen Skiurlaub machen. Es gibt keine Hotelzimmer mehr.

* Schade, ich hatte mich schon so ___ gefreut.

a. worauf b. darauf

c. auf das d. auf den b

PARTE B: In questo testo di tipo promozionale, le singole riposte devono essere sia linguisticamente corrette, sia appropriate al contenuto dell'intero testo.

11 WARUM NUR SOMMERURLAUB AN DER NORDSEE? Auch der Herbst ist schön. Es ___, daß der Sommer an der Nordsee besonders schön ist.

a. falsch ist b. geht

c. stimmt zwar d. tut mir leid c

12 Aber kennen Sie ___ schon den Herbst bei uns? a. vor allem b. also

c. auch d. sicher c

13 Da gibt es sicher weniger Sonne, und Sie __ auch nicht baden. a. dürfen b. können

c. müssen d. wissen b

14 ___ gibt es nicht so viel Regen, wie Sie vielleicht glauben. a. Warum b. Deshalb

c. Allerdings d. Sonst c

15 Natur und Landschaft gehören Ihnen im ___ ganz allein, … a. Sommer b. Herbst

c. Hotel d. Abend b

16 denn die meisten Feriengäste ___ jetzt wieder zu Hause. a. fahren b. gehen

c. stehen d. sind d

17 Sie treffen ___ am Strand nur noch wenige Leute, und in den Restaurants und Hotels hat das Personal wieder viel Zeit für Sie.

a. sich b. leider

c. deshalb d. möchten c

18 ___ Sie also auch einmal Herbsturlaub an der Nordsee! a. Fragen b. Machen

c. Bringen d. Gehen b

19 Übrigens sind Hotels und Pensionen in ___ besonders preiswert. a. dieser Zeit b. Bayern

c. Nordsee d. Frühling a

20 ___ noch ein Tip: Herbst bedeutet natürlich auch Wind. Deshalb sollten Sie warme Kleidung nicht vergessen.

a. Lesen b. Überall

c. Erinnern d. Zum Schluß d

0-5 Fehler: TS2 6-10 Fehler: Kursstufe 4 ("progredito) 11-15 Fehler: Kursstufe 3 ("medio progr.") 16-20 Fehler: TB3

28

Page 33: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

29

Anhang 3 TS1: Scores in absteigender Folge; Anteil korrekter Antworten pro Item, Score-Durchschnitt, Varianz und Standardabweichung (Rang 1-19 = A-Gruppe; Rang 46-64 = B-Gruppe)

Item Nr.: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Score Schlüssel: c a d b c a c d a b c c b c b d c b a d 1. Proband 15 c a b b c a c d a b c c b c b d c b a d 19 2. Proband 16 c a d b c a c d a b c b b c b d c b a d 19 3. Proband 17 c b d b c a c d a b c c b c b d c b a d 19 4. Proband 01 c a b b c a c d a b c c a c b d c b a d 18 5. Proband 18 c a b b c a c d a b c c b c b d a b a d 18 6. Proband 19 b a b b c a c d a b c c b c b d c b a d 18 7. Proband 20 c a d b c a c d a b c b b c b d a b a d 18 8. Proband 21 c a d a c a c d a b a c b d b d c b a d 17 9. Proband 22 c a d b c b c d a b c n b c b a c b a d 17 10. Proband 23 a a b b c a b d a b c c b c b a c b a d 16 11. Proband 24 c a d b c a c d c b a c b b b c c b a d 16 12. Proband 25 c a b b c a c d a b b d b d b d c b a d 16 13. Proband 05 c c d b c b c b a b c c b d b d c b a d 16 14. Proband 14 c a d d c b a d a b c c b d b a c b a d 15 15. Proband 26 c a c b c a b d a b b c b d b d c a a d 15 16. Proband 27 a c b b c b c d a b a c b c b d c b a d 15 17. Proband 28 a a d c c a b a a b c b b c b d c b a d 15 18. Proband 29 c a b b c a c d a b b d b d b d b b a d 15 19. Proband 30 c a d a c b c n a b c c b c b a c b c d 15 20. Proband 08 a b n b c a c d a b c n b d b a c b a d 1421. Proband 10 a c b b c a d d a b c c b d b d a b a d 14 22. Proband 31 b a b b c a c d a b a c b d b a c b a c 14 23. Proband 32 c a d b c a c n c b a c a c b a c b a c 14 24. Proband 33 c a b b c a c n c b a c d c b d a b a d 14 25. Proband 34 c b d b c a d b c b c c a d b d c b a d 14 26. Proband 35 c b d d b a d d a b c c b d b d c b a c 14 27. Proband 36 c a b b c d c d d b a c b c b a a b a d 14 28. Proband 37 b a d a c d d d a b a b b c b d c b a d 14 29. Proband 38 c a d a a a c n c c a c b c b a c b a d 13 30. Proband 39 a a b b c a c d a b c c b b b a a b c c 13 31. Proband 40 c a c b c b c d a b b b b a b c a b a d 13 32. Proband 02 a a d c d a a d a b c c b c b a b c a b 12 33. Proband 41 a a d b c a b d a b c b a d b a b b a c 12 34. Proband 43 d a b b c b b c a b c b b b b d c b a c 12 35. Proband 11 a c c b d a c a a b c c b b a d a b a b 11 36. Proband 42 a a d a d b c d a d a c b d b c a b a d 11 37. Proband 44 a c c c c a d b a b c d b d b a c b a d 11 38. Proband 45 a c b a c a a d a c d c b d b d a b a d 11 39. Proband 46 a a b b c a d d a b a b b b b a a b a c 11 40. Proband 47 c a b a c b a c a c c d b d b d b b a d 11 41. Proband 49 a a c d c a c n a b c c b b a b a b a c 11 42. Proband 50 c c b d d b c d a b a b a c b d a b a d 11 43. Proband 51 c a d d d d c a a b d b b d b a b b a d 11 44. Proband 52 d a c b c b c d a d a a b d b d a d a d 11 45. Proband 03 c a b b d a a c a d a a b d b a a b a d 10 46. Proband 04 a a b b c a a a a b c d b d a a b b c d 1047. Proband 53 c a d c a b d b a c a c b d b a a b a d 10 48. Proband 54 c c b c b b c b a d c c b d b d b b a c 10 49. Proband 55 a a b d c a c a a d c c b b c c b b d d 10 50. Proband 12 a a c b a b b d a b d b b b b b b b a c 9 51. Proband 56 a c c c d a c d b b a c b b c d a b a a 9 52. Proband 57 a c d d c a d b a b c a a d a c c b a c 9 53. Proband 09 a c b a d a d d c b d c b d b c b b a b 8 54. Proband 58 a a b b c b c b a a b b b b b a a b d c 8 55. Proband 59 c c d b d b c n a n b d a b b c n b n d 8 56. Proband 60 c b d b d b b a d b d c b b b a b a a c 8 57. Proband 61 b c c b d b b d c b a b b d b d c b b c 8 58. Proband 62 a c c c c d b b a b d c b d b a b b a c 8 59. Proband 48 a c b b c a c a d c b c b c n n n n n n 7 60. Proband 13 b b b d c c c a d a b c c b b c a b a c 6 61. Proband 06 a c d a b b b a a b n c a n a d b d b c 5 62. Proband 63 c b b c d b a a a b a b c b b a a b b c 5 63. Proband 64 a c c a c b d n a d a d b b a b b d a d 5 64. Proband 07 a c b d b b d c a b d b b b c a a d a b 4 Korrekt 31 39 24 37 45 37 36 35 52 50 29 37 53 20 54 29 27 56 54 40 Summe in Prozent 48 61 38 58 70 58 56 55 81 78 45 58 83 31 84 45 42 88 84 63 =785 Zahl der Probanden N = 64 Score-Durchschnitt Mt = 785/64 = 12,266 Score-Varianz s2 = 14,351 (a/b/c/d = Multiple-Choice-Optionen; n = keine Antwort) Standardabweichung s = 3,788 (Korrekte Antworten sind fett gedruckt)

Page 34: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Anhang 4 TS1-Einstufungstest Verteilung der Antworten auf die Optionen und Diskriminationsindices Anteil = gibt an, wie viel Prozent der Probanden diese Option gewählt haben rpbis = punkt-biserielle Korrelation D = Diskriminationsindex, berechnet nach der Methode der zwei extremen Gruppen (je 30% = 19 Probanden) (Grau unterlegte Felder weisen auf problematische Werte hin.) Item Frage (engl. "stem") Optionen Anteil rpbis D

1 a. geschlafen 41% -0,42 -0,47 b. verschlafen 8% -0,02 -0,05 c. eingeschlafen 48% 0,44 0,53 d. hingelegt 3% -0,04 0,00

+ Bist du nach dem Film noch weggegangen?

* Nee, ich war todmüde. Ich bin ins Bett gegangen und sofort ___

(keine Antwort) 0% 0,00 2 a. schmeckt 61% 0,48 0,58 b. gefällt 11% -0,08 -0,11 c. finden 28% -0,47 -0,47 d. meinen 0% 0,00

+ Wie ___ Ihnen mein selbstgebackener Kuchen?

* Oh, ganz ausgezeichnet! Können Sie mir das Rezept geben?

(keine Antwort) 0% 0,00 3 a. am liebsten 0% 0,00 b. lieber 44% -0,05 -0,05 c. mehr schön 17% -0,26 -0,21 d. viel schöner 38% 0,24 0,26

+ Gehst du gern allein auf Reisen? * Nein, ich finde es ___, mit anderen

zusammen zu fahren.

(keine Antwort) 2% 0,06 0,00 4 a. vom 16% -0,14 -0,05 b. der 58% 0,42 0,42 c. des 13% -0,23 -0,21 d. von 14% -0,23 -0,16

+ Was liest du denn da? Einen Roman? * Schön wär's! Das ist eine Geschichte ___

deutschen Literatur.

(keine Antwort) 0% 0,00 5 a. - 5% -0,09 -0,11 b. Für 6% -0,27 -0,16 c. Um 70% 0,51 0,58 d. Weil 19% -0,37 -0,32

+ Warum redest du denn so leise? * ___ Georg nicht zu stören. Er schläft

nämlich schon.

(keine Antwort) 0% 0,00 6 a. ob 58% 0,43 0,42 b. wenn 34% -0,37 -0,32 c. woran 2% -0,21 -0,05 d. daß 6% -0,04 -0,05

+ Weißt du, ___ das Stipendium monatlich gezahlt wird?

* Keine Ahnung, tut mir leid.

(keine Antwort) 0% 0,00 7 a. sollen 11% -0,16 -0,05 b. können 16% -0,17 -0,11 c. brauchen 56% 0,39 0,42 d. dürfen 17% -0,23 -0,26

+ Sollen wir die nächste Übung auch noch machen?

* Nein, die ___ Sie nicht zu machen. Das ist nicht nötig.

(keine Antwort) 0% 0,00 8 a. Funktionen 16% -0,39 -0,32 b. Ergebnisse 13% -0,15 -0,21 c. Folgen 6% -0,21 -0,05 d. Gründe 55% 0,54 0,63

+ Die Zahl der Waldbrände ist wieder einmal gestiegen.

* Und warum? Kennt man die ___ für diese Entwicklung?

(keine Antwort) 11% -0,08 -0,05 9 a. konnte 81% 0,17 0,26 b. hätte 2% -0,11 -0,05 c. könnte 11% 0,02 -0,05 d. hatte 6% -0,24 -0,16

+ Warum bist du so hungrig? Hast du heute noch nichts gegessen?

* Nein, ich hatte mein Geld vergessen und ___ nichts kaufen.

(keine Antwort) 0% 0,00 10 a. worauf 3% -0,25 -0,11

b. darauf 78% 0,41 0,42 c. auf das 8% -0,14 -0,11 d. auf den 9% -0,23 -0,16

+ Wir können nun doch keinen Skiurlaub machen. Es gibt keine Hotelzimmer mehr.

* Schade, ich hatte mich schon so ___ gefreut. (keine Antwort) 2% -0,14 -0,05

30

Page 35: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Anhang 4 (Fortsetzung)

11 a. falsch ist 30% -0,10 -0,11 b. geht 13% -0,13 -0,05 c. stimmt zwar 45% 0,46 0,47 d. tut mir leid 11% -0,35 -0,26

WARUM NUR SOMMERURLAUB AN DER NORDSEE? Auch der Herbst ist schön. Es ___, daß der Sommer an der Nordsee besonders schön ist. (keine Antwort) 2% -0,24 -0,05

12 a. vor allem 5% -0,13 -0,05 b. also 23% -0,14 -0,11 c. auch 58% 0,20 0,16 d. sicher 11% -0,13 -0,05

Aber kennen Sie ___ schon den Herbst bei uns?

(keine Antwort) 3% 0,15 0,05 13 a. dürfen 13% -0,09 -0,11

b. können 83% 0,21 0,21 c. müssen 3% -0,32 -0,11 d. wissen 2% 0,06 0,00

Da gibt es sicher weniger Sonne, und Sie __ auch nicht baden.

(keine Antwort) 0% 0,00 14 a. Warum 2% 0,02 0,00

b. Deshalb 25% -0,48 -0,47 c. Allerdings 31% 0,54 0,58 d. Sonst 41% -0,03 -0,05

___ gibt es nicht so viel Regen, wie Sie vielleicht glauben.

(keine Antwort) 2% -0,24 -0,05 15 a. Sommer 9% -0,32 -0,21

b. Herbst 84% 0,47 0,42 c. Hotel 5% -0,27 -0,16 d. Abend 0% 0,00

Natur und Landschaft gehören Ihnen im ___ ganz allein, …

(keine Antwort) 2% -0,18 -0,05 16 a. fahren 36% -0,15 -0,16

b. gehen 5% -0,23 -0,11 c. stehen 13% -0,21 -0,21 d. sind 45% 0,43 0,50

denn die meisten Feriengäste ___ jetzt wieder zu Hause.

(keine Antwort) 2% -0,18 -0,10 17 a. sich 33% -0,22 -0,21

b. leider 22% -0,38 -0,42 c. deshalb 42% 0,60 0,74 d. möchten 0% 0

Sie treffen ___ am Strand nur noch wenige Leute, und in den Restaurants und Hotels hat das Personal wieder viel Zeit für Sie.

(keine Antwort) 3% -0,23 -0,10 18 a. Fragen 3% -0,04 0,00

b. Machen 88% 0,39 0,21 c. Bringen 2% -0,01 0,00 d. Gehen 6% -0,41 -0,20

___ Sie also auch einmal Herbsturlaub an der Nordsee!

(keine Antwort) 2% -0,18 -0,10 19 a. dieser Zeit 84% 0,38 0,37

b. Bayern 5% -0,37 -0,16 c. Nordsee 5% 0,02 0,00 d. Frühling 3% -0,15 -0,10

Übrigens sind Hotels und Pensionen in ___ besonders preiswert.

(keine Antwort) 3% -0,23 -0,10 20 a. Lesen 2% -0,11 -0,05

b. Überall 6% -0,24 -0,11 c. Erinnern 28% -0,40 -0,53 d. Zum Schluß 63% 0,57 0,70

___ noch ein Tip: Herbst bedeutet natürlich auch Wind. Deshalb sollten Sie warme Kleidung nicht vergessen.

(keine Antwort) 2% -0,18 -0,10

31

Page 36: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Anhang 5 IRT-Analyse des TS 1 mit Hilfe von MINISTEP 3.00 (Demo-Version von WINSTEPS) TABLE 10.1 TS 1 Einstufungstest C.L.I. ts1out.dat Mar 18 12:25 2000 INPUT: 64 STS, 20 ITEMS ANALYZED: 64 STS, 20 ITEMS, 2 CATS MINISTEP v3.00 -------------------------------------------------------------------------------- ITEMS STATISTICS: MISFIT ORDER +----------------------------------------------------------------------+ |ENTRY RAW | INFIT | OUTFIT |SCORE| | |NUMBER SCORE COUNT LOGITS REALSE|MNSQ ZSTD|MNSQ ZSTD|CORR.| ITEM| |------------------------------------+----------+----------+-----+-----| | 13 53 64 48.52 3.73|1.10 .5|1.60 1.2|A .20| It13| | 12 37 64 63.57 3.17|1.26 2.3|1.57 2.6|B .19| It12| | 3 24 64 73.92 3.25|1.26 1.9|1.42 2.0|C .23| It03| | 9 52 64 49.74 3.75|1.19 .9|1.28 .6|D .18| It09| | 2 39 64 61.97 2.85| .95 -.5|1.18 .9|E .44| It02| | 7 36 64 64.36 2.89|1.06 .5| .97 -.1|F .41| It07| | 4 37 64 63.57 2.86|1.03 .3| .96 -.2|G .42| It04| | 6 37 64 63.57 2.85|1.02 .2| .96 -.2|H .43| It06| | 16 29 64 69.86 2.84|1.02 .2|1.01 .0|I .44| It16| | 1 31 64 68.28 2.81|1.01 .1|1.02 .1|J .44| It01| | 10 50 64 52.00 3.30|1.01 .1| .77 -.7|j .39| It10| | 11 29 64 69.86 2.82|1.00 .0| .90 -.6|i .47| It11| | 19 54 64 47.21 3.67| .96 -.2| .82 -.4|h .36| It19| | 5 45 64 56.88 3.01| .91 -.6| .75 -1.0|g .49| It05| | 8 35 64 65.15 2.81| .90 -1.0| .81 -1.2|f .53| It08| | 18 56 64 44.28 4.00| .89 -.4| .82 -.3|e .37| It18| | 15 54 64 47.21 3.67| .87 -.6| .60 -1.0|d .44| It15| | 20 40 64 61.16 2.86| .86 -1.3| .75 -1.3|c .55| It20| | 14 20 64 77.42 3.03| .85 -1.1| .80 -.9|b .57| It14| | 17 27 64 71.46 2.84| .83 -1.6| .80 -1.3|a .58| It17| |------------------------------------+----------+----------+-----+-----| | MEAN 39. 64. 61.00 3.15|1.00 .0| .99 -.1| | | | S.D. 11. 0. 9.60 .39| .12 .9| .27 1.0| | | +----------------------------------------------------------------------+ TABLE 3.1 TS 1 Einstufungstest C.L.I. ts1out.dat Mar 18 12:25 2000 INPUT: 64 STS, 20 ITEMS ANALYZED: 64 STS, 20 ITEMS, 2 CATS MINISTEP v3.00 -------------------------------------------------------------------------------- SUMMARY OF 64 MEASURED STUDENTS +-----------------------------------------------------------------------------+ | RAW REAL INFIT OUTFIT | | SCORE COUNT LOGITS ERROR MNSQ ZSTD MNSQ ZSTD | |-----------------------------------------------------------------------------| | MEAN 12.3 20.0 67.77 5.86 1.00 -.1 .99 -.1 | | S.D. 3.8 .0 11.30 1.30 .20 .9 .38 .9 | | MAX. 19.0 20.0 94.05 10.87 1.57 2.1 2.44 2.0 | | MIN. 4.0 20.0 44.55 4.93 .55 -2.5 .42 -2.3 | |-----------------------------------------------------------------------------| | REAL RMSE 6.00 ADJ.SD 9.57 SEPARATION 1.60 ST RELIABILITY .72 | |MODEL RMSE 5.79 ADJ.SD 9.70 SEPARATION 1.67 ST RELIABILITY .74 | | S.E. OF ST MEAN 1.42 | +-----------------------------------------------------------------------------+ TABLE 20.1 TS 1 Einstufungstest C.L.I. ts1out.dat Mar 18 16:24 2000 INPUT: 64 STS, 20 ITEMS ANALYZED: 64 STS, 20 ITEMS, 2 CATS MINISTEP v3.00 -------------------------------------------------------------------------------- TABLE OF LOGITS ON COMPLETE TEST +--------------------------------------------------------------------------+ | SCORE LOGITS S.E. | SCORE LOGITS S.E. | SCORE LOGITS S.E. | |------------------------+------------------------+------------------------| | 0 14.75E 18.52 | 7 53.63 5.17 | 14 71.28 5.26 | | 1 27.48 10.49 | 8 56.23 5.04 | 15 74.17 5.52 | | 2 35.42 7.77 | 9 58.73 4.97 | 16 77.42 5.91 | | 3 40.53 6.64 | 10 61.18 4.93 | 17 81.27 6.55 | | 4 44.51 6.01 | 11 63.61 4.94 | 18 86.26 7.69 | | 5 47.87 5.62 | 12 66.07 4.99 | 19 94.09 10.43 | | 6 50.87 5.35 | 13 68.61 5.09 | 20 106.74E 18.49 | +--------------------------------------------------------------------------+

32

Page 37: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Anhang 5 (Fortsetzung) Table 20.1 (Fortsetzung) RAW SCORE-LOGITS OGIVE FOR COMPLETE TEST ++-----+-----+-----+-----+-----+-----+-----+-----+-----+-----++ 20 + E + 19 + * + 18 + * + 17 + * + E 16 + * + X 15 + * + P 14 + * + E 13 + * + C 12 + * + T 11 + * + E 10 + * + D 9 + * + 8 + * + S 7 + * + C 6 + * + O 5 + * + R 4 + * + E 3 + * + 2 + * + 1 + * + 0 + E + ++-----+-----+-----+-----+-----+-----+-----+-----+-----+-----++ 10 20 30 40 50 60 70 80 90 100 110 LOGITS TABLE 1.0 TS 1 Einstufungstest C.L.I. ts1out.dat Mar 18 12:25 2000 INPUT: 64 STS, 20 ITEMS ANALYZED: 64 STS, 20 ITEMS, 2 CATS MINISTEP v3.00 -------------------------------------------------------------------------------- STUDENTS -MAP- ITEMS <more>|<rare> 100 + | S15 S16 S17 | | 90 T+ | S01 S18 S19 S20 | | 80 S21 S22 S+T S05 S23 S24 S25 | It14 S14 S26 S27 S28 S29 S30 | It03 S08 S10 S31 S32 S33 S34 S35 S36 S37 | It17 70 +S It11 It16 S38 S39 S40 M| It01 S02 S41 S43 | It07 It08 S11 S42 S44 S45 S46 S47 S49 S50 S51 S52 | It02 It04 It06 It12 60 S03 S04 S53 S54 S55 +M It20 S12 S56 S57 S| It05 S09 S58 S59 S60 S61 S62 | S48 |S It10 50 S13 + It09 S06 S63 S64 | It13 It15 It19 S07 T| It18 |T 40 + <less>|<frequ>

33

Page 38: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Anhang 6 Revidierter TS1-Einstufungstest mit Lösungs- und Bewertungsschlüssel (Veränderungen sind fett gedruckt)

TS1 - Test di tedesco – Medio Progr./Progred. – Nome: ___________ Vers. 3/2000

Nei seguenti esercizi a scelta multipla una sola risposta è corretta. Scrivete la lettera della soluzione nella casellina al margine destro del foglio. Tempo complessivo: 15 minuti. PARTE A: Singoli mini-dialoghi

1 + Bist du nach dem Film noch weggegangen? * Nee, ich war todmüde. Ich bin ins Bett gegangen und sofort ___

a. geschlafen b. verschlafen

c. eingeschlafen d. hingelegt c

2 + Wie ___ Ihnen mein selbstgebackener Kuchen? * Oh, ganz ausgezeichnet! Können Sie mir das Rezept geben?

a. schmeckt b. gefällt

c. finden d. probieren a

3 + Gehst du gern allein auf Reisen? * Nein, ___ fahre ich mit anderen zusammen.

a. leider b. lieber

c. glücklich d. liebe b

4 + Was liest du denn da? Einen Roman? * Schön wär's! Das ist eine Geschichte ___ deutschen Literatur.

a. vom b. der

c. des d. von b

5 + Warum redest du denn so leise? * ___ Georg nicht zu stören. Er schläft nämlich schon.

a. - b. Für

c. Um d. Weil c

6 + Weißt du, ___ das Stipendium monatlich gezahlt wird? * Keine Ahnung, tut mir leid.

a. ob b. wenn

c. wen d. dass a

7 + Sollen wir die nächste Übung auch noch machen? * Nein, die ___ Sie nicht zu machen. Das ist nicht nötig.

a. sollen b. können

c. brauchen d. dürfen c

8 + Die Zahl Naturkatastrophen ist in den letzten Jahren gestiegen. * Und warum? Kennt man die ___ für diese Entwicklung?

a. Funktionen b. Ergebnisse

c. Folgen d. Gründe d

9 + Warum bist du so hungrig? Hast du heute noch nichts gegessen?

* Nein, ich hatte mein Geld vergessen und ___ nichts kaufen.

a. konnte b. kenne

c. kann d. kannte a

10 + Wir können nun doch keinen Skiurlaub machen. Es gibt keine Hotelzimmer mehr.

* Schade, ich hatte mich schon so ___ gefreut.

a. worauf b. darauf

c. auf das d. auf den b

PARTE B: Le frasi 11-20 formano un testo di tipo promozionale. Le riposte devono essere non solo grammaticalmente corrette, ma anche appropriate al messaggio dell'intero testo. 11 WARUM NUR SOMMERURLAUB AN DER NORDSEE?

Auch der Herbst ist schön. Es ___ zwar, daß der Sommer an der Nordsee besonders schön ist.

a. ist b. geht

c. stimmt d. gibt c

12 Aber auch der Herbst kann sehr ___ sein. a. langweilig b. regnerisch

c. schlecht d. angenehm d

13 Da gibt es sicher weniger Sonne, und Sie haben auch nicht die ___, im Meer zu baden.

a. Erlaubnis b. Möglichkeit

c. Kenntnis d. Zeit b

14 ___ gibt es nicht so viel Regen, wie Sie vielleicht glauben. a. Darum b. Deshalb

c. Trotzdem d. Sonst c

15 Natur und Landschaft gehören Ihnen im ___ ganz allein, … a. Sommer b. Herbst

c. Hotel d. Strand b

16 denn die meisten Feriengäste ___ jetzt wieder zu Hause. a. fahren b. gehen

c. stehen d. sind d

17 Sie treffen ___ am Strand nur noch wenige Leute, und in den Restaurants und Hotels hat das Personal wieder viel Zeit für Sie.

a. sich b. leider

c. deshalb d. damals c

18 ___ Sie doch mal Ihren Herbsturlaub an der Nordsee! a. Verdienen b. Verbringen

c. Vergehen d. Vergleichen b

19 Übrigens sind Hotels und Pensionen in dieser ___ besonders preiswert.

a. Zeit b. Hochsaison

c. Nordsee d. Sommer a

20 ___ noch ein Tipp: Herbst bedeutet natürlich auch Wind. Deshalb sollten Sie warme Kleidung nicht vergessen.

a. Empfehlen b. Überall

c. Erinnern d. Zum Schluß d

34 0-4 Fehler: Test TS2 5-8 Fehler: Kursstufe 4 9-12 Fehler: Kursstufe 3 13-20 Fehler: Test TB3

Page 39: Itemanalyse und Reliabilität eines Deutsch-als ...venus.unive.it/paschke/pubblic/Paschke2000_ItemanalyseEinstufTest.pdf · sind, während Sprachstandstests (z.B. Prüfungen wie ZDaF,

Anhang 7 TS1 revidierte Fassung vom 20.3.2000: Auswertung der Antworten von 11 Probanden Verteilung der Antworten und rpbis-Diskriminationskoeffizient (fett gedruckt = Lösung)

Item Option A rpbis Option B rpbis Option C rpbis Option D rpbis keine

Antwort

rpbis

1 27% -0,85 9% -0,01 55% 0,89 0% 9% -0,23

2 82% 0,72 9% -0,4 9% -0,57 0% 0%

3 9% -0,34 73% 0,45 9% 0,22 9% -0,57 0%

4 0% 73% 0,48 9% 0,22 18% -0,72 0%

5 0% 0% 91% 0,57 9% -0,57 0%

6 55% 0,83 45% -0,83 0% 0% 0%

7 9% -0,01 18% -0,47 64% 0,72 0% 9% -0,57

8 9% -0,4 9% -0,01 0% 64% 0,72 18% -0,6

9 73% -0,03 0% 9% 0,28 18% -0,18 0%

10 0% 73% 0,63 0% 9% -0,4 18% -0,43

11 45% -0,05 18% -0,22 27% 0,61 9% -0,57 0%

12 27% -0,56 9% -0,23 9% -0,34 55% 0,83 0%

13 0% 82% 0,68 0% 18% -0,68 0%

14 18% -0,68 18% -0,47 55% 0,89 9% -0,01 0%

15 0% 91% 0,34 0% 9% -0,34 0%

16 45% -0,37 0% 9% -0,57 36% 0,73 9% -0,01

17 36% -0,72 0% 55% 0,57 9% 0,22 0%

18 9% 0,22 45% 0,57 18% -0,68 18% -0,05 9% -0,23

19 82% 0,68 9% -0,34 9% -0,57 0% 0%

20 0% 0% 9% -0,4 82% 0,72 9% -0,57

Score-Durchschnitt Mt = 12,27

Score-Varianz s2 = 31,54

Standardabweichung s = 5,62

Cronbachs Alpha r = 0,92

Standardmessfehler SEM = 1,58

35