Grenzen der Meritokratie oder warum Quotenregulierungen sinnvoll sind; The limits of meritocracy or why quote regulations are indispensable;

Berichte und diskussionen

Köln Z Soziol (2014) 66:115–131DOI 10.1007/s11577-013-0249-y

© Springer Fachmedien Wiesbaden 2013

V. Müller-Benedict ()Zentrum für Methodenlehre, Universität Flensburg,Auf dem Campus 1, 24943 Flensburg, DeutschlandE-Mail: [email protected]

Grenzen der Meritokratie oder warum Quotenregulierungen sinnvoll sind

Volker Müller-Benedict

Zusammenfassung: Die ökonomische Theorie konnte nachweisen, dass ökonomische Diskri-minierung sich nicht über längere Zeit halten kann, weil Marktmechanismen bewusste oder un-bewusste Fehleinschätzung der Leistungsfähigkeit von Bewerbern durch Konkurrenz eliminieren. Im Gegensatz zu diesen Ergebnissen zeigt der Artikel mit Hilfe eines theoretischen Modells, dass in typischen Selektionssituationen die meritokratische Praxis der Auswahl von Bewerbern für Bildungsinstitutionen auch unter starker Diskriminierung einer bestimmten Bewerbergruppe wichtige Erfolgsindikatoren der Institutionen nicht beeinträchtigt. Weil diese Ergebnisse unter sehr generellen Bedingungen in Bezug auf Testreliabilitäten und Verteilungsannahmen zustande kommen, können sie als theoretische Basis für die Erklärung vieler empirischer Untersuchungen dienen, die fortwährende Diskriminierung in nicht-ökonomischen Bereichen feststellen sowie als generelle Kritik der Grenzen der Meritokratie.

Schlüsselwörter: Diskriminierung · Konkurrenz · Quotenregulierung · Faire Tests · Bildungsleistung · Noten · Selektion · Meritokratie

The limits of meritocracy or why quote regulations are indispensable

Abstract: Economic theory has shown that economic discrimination can not persist for longer periods due to the intervention of market mechanisms. In contrast to this view, this article will demonstrate by using a theoretical model that in typical selection situations the practice of admit-ting persons to educational institutions while strongly discriminating against a particular group of applicants does not affect important success indicators of those educational institutions. As this observation also holds true under very general circumstances with respect to test reliabilities and distributional assumptions, it therefore can be used as a theoretical basis for many empirical investigations of persisting discrimination in non-economic spheres and for a general critique of meritocratic selection procedures.

Keywords: Discrimination · Competition · Fair tests · Selection · Success of educational institutions · Grades · Quota regulations · Meritocracy

116 V. Müller-Benedict

1 Einleitung

Dieser Beitrag möchte zeigen, dass nicht-ökonomische Institutionen sich bei der Aus-wahl ihres Personals Diskriminierung leisten können, ohne den Erfolg ihrer Arbeit zu beeinträchtigen. Diskriminierungspraktiken haben den Nachteil, dass besser geeignete Personen, die der diskriminierten Gruppe angehören, nicht aufgenommen werden. Das führt aber im nicht-ökonomischen Institutionenwettbewerb entgegen der Erwartung nicht zu Erfolgseinbußen. Nicht-Diskriminierung kann deshalb nur normativ oder moralisch garantiert werden. Das Argument wird wie folgt entwickelt: Kurzen Erläuterungen zum meritokratischen Prinzip folgt eine Darstellung früherer theoretischer Zugänge zum Problem (Abschn. 2), dann wird der Unterschied zur ökonomischen Situation präzisiert (Abschn. 3) und im anschließenden Hauptteil der Beweis geführt (Abschn. 4).

Meritokratie bedeutet, dass Bewerber auf Positionen nur nach ihren Fähigkeiten und nicht mehr wie vor den bürgerlichen Revolutionen nach ihrem Stand ausgewählt wer-den. Das meritokratische Prinzip erfüllt wichtige Funktionen für moderne Gesellschaf-ten, indem es die marktförmige Allokation von Arbeitskräften effektiv gestaltet und die Mobilisierung der Bildungsressourcen aller gesellschaftlichen Schichten unterstützt (Bell 1975). Die Effektivität einer Auswahl auf der Basis von guten Zeugnissen liegt darin, dass die ausgewählten Personen eine höhere Wahrscheinlichkeit haben, auch weiterhin erfolgreich zu sein. Eine Auswahl der „Besten“ ist deshalb nur dann notwendig für die auswählende Institution, wenn Kosten und Nutzen der Ausgewählten für den Erfolg der Institution wichtig sind. Ein Gegenbeispiel ist die Auswahl von Studiums-Bewerbern, die eine Universität immer etwa gleich viel kosten werden, egal, ob sie ihr Studium gar nicht, schlecht oder exzellent beenden werden. Solange die Zahl und Qualität der abgehenden Studierenden einer Universität nichts mit ihrer Ausstattung oder Reputation oder anderen Zielen zu tun hat, erübrigt sich eine Eingangsselektion. Eine meritokratische Auswahl ist deshalb direkt mit dem Vorhandensein von Konkurrenz unter allen Institutionen, die potenziell die Bewerber aufnehmen können, verbunden.

Die Meritokratie hat einen weiteren Vorteil. Sobald alle potenziellen Bewerber die Chance haben, Zeugnisse zu erwerben, erscheint eine Selektion auf Grund der vorge-legten Zertifikate gerechtfertigt, weil niemand auf der Grundlage von askriptiven oder anderen nicht beeinflussbaren Merkmalen zurückgewiesen wird. Der eigene Erfolg hängt so ausschließlich von den eigenen Anstrengungen ab. Da diese sich jedoch nur innerhalb der sozialen Strukturen wie Familie, Bildungssystem, Ungleichheiten der Sozialstruk-tur, segregierte Arbeitsmärkte, etc. entfalten können, die ihrerseits ungleichheitserhaltend wirken, kann das meritokratische Prinzip auch als Schließungsmechanismus angesehen werden, der die generationelle Weitergabe des sozialen Status sichert (Bourdieu und Passeron 1971; Collins 1979). Die Kritik an der Meritokratie besteht deshalb darin, dass sie zwar als Legitimation diene, tatsächlich aber nicht in ihrer egalisierenden Weise wir-ken könne, weil andere Einflüsse vorherrschten, die verhindern, dass die Besten auch ihre Chancen wahrnehmen können (zusammenfassend: Solga 2005; Breen und Goldthorpe 1999). Wenn also diese Schließungswirkungen abgeschwächt würden, könnte das meri-tokratische Prinzip seine Effektivität als Marktmechanismus entfalten.

Viele solcher Einflüsse sind tatsächlich schwächer geworden. Beispielsweise hat sich die Bildungsungleichheit der Geschlechter seit der Bildungsreform der 1970er Jahre fast

Grenzen der Meritokratie oder warum Quotenregulierungen sinnvoll sind 117

umgekehrt. Trotzdem sind Lohnunterschiede oder unterschiedliche Auswahlkriterien für Männer und Frauen sehr dauerhaft. Seit längerer Zeit gibt es eine breite politische Dis-kussion über die Notwendigkeit von Quotenregulierungen, um solche Diskriminierung zu verhindern. Daher kommt die Frage auf, und das ist die Forschungsfrage dieses Beitrags, ob das meritokratische Prinzip nicht schon von sich aus, ohne die Annahme, dass es nicht rein angewendet werde, ungeeignet ist, Diskriminierung auf lange Sicht verschwinden zu lassen. Diese Frage nach der Reichweite der „reinen“ Anwendung der meritokratischen Auswahl ist offenbar eine theoretische; entsprechend wird für die Beantwortung eine formal-statistische Modellierung angewendet.

Eine meritokratische Auswahl geht davon aus, dass die bei der Auswahl präsentierten Zertifikate den späteren Arbeitserfolg vorhersagen. Ein bekanntes Beispiel ist die Kor-relation von Abiturnoten mit den späteren Abschlussexamen an Hochschulen (Robbins et al. 2004; Müller-Benedict 2010). Im Abschn. 4 wird dieses Beispiel zentral verwendet. Aber die Resultate sind keineswegs auf dieses Beispiel beschränkt, sondern können auf jede meritokratische Auswahl angewendet werden, solange eine Korrelation zwischen den bei der Auswahl präsentierten Leistungen mit der späteren Leistung auf der Posi-tion angenommen wird. Für die Schätzung einer solchen Korrelation muss zwischen zwei Arten von Besten unterschieden werden: diejenigen, die bei der Auswahl die bes-ten Zertifikate hatten, und diejenigen, die bei der späteren Arbeitsleistung den größten Erfolg erzielen. Letztere sollen hier als die „Erfolgreichen“ bezeichnet werden. Ziel der Meritokratie ist, aus allen Bewerbern möglichst viele Erfolgreiche auszuwählen. Der tat-sächliche Anteil der Erfolgreichen in einer empirischen Auswahl kann natürlich nur im Nachhinein bestimmt werden. Der Erwartungswert dieses Anteils kann aber bei einer gegebenen Korrelation mit mathematisch-statistischen Modellen berechnet werden. Das bildet die Grundlage der Analyse dieses Beitrags.

Die Diskussion über die richtige Auswahl von Bewerbern wird in drei verschiede-nen Disziplinen geführt. Die Psychologie befasst sich mit der Konstruktion von reliablen Tests, mit denen Fehleinschätzungen der späteren Leistungsfähigkeit möglichst vermie-den werden sollen. Die Bildungsforschung diskutiert, wie in Bezug auf durch einen Test unterschiedlich bewertete Gruppen Fairness zwischen den Gruppen hergestellt werden kann. Die Ökonomie untersucht, welche Auswirkungen Fehleinschätzungen auf die Produktivität haben. Im folgenden Abschnitt werden die Unterschiede dieser Herange-hensweisen kurz am Beispiel ihrer Anfänge dargestellt, damit die spätere Argumentation darauf aufbauen kann.

2 Die theoretische Diskussion über Fehleinschätzungen in Psychologie, Pädagogik und Ökonomie

In der psychologischen Testtheorie werden Bewerber auf der Grundlage ihrer Testwerte y (engl. „testscores“, im Folgenden werden englische Ausdrücke in Überstimmung mit der angegebenen Literatur benutzt) so ausgewählt, dass möglichst viele eine erfolgreiche Leistung q („performance“) zeigen. Teilt man die Bewerber entsprechend ihrem testscore in die Ausgewählten A („accepted“) und Nicht-Ausgewählten R („rejected“) ein, und ihre spätere performance in Erfolg S („successfull“, dieser Anteil wird in der Testpsychologie


auch als „base-rate“ der Talentierten bezeichnet (Taylor und Russell 1939)) und Miss-erfolg F („failed“), lässt sich das Problem insgesamt wie in Abb. 1 darstellen:

Die Lage und die Breite der Punktwolke sind abhängig von der Korrelation r zwi-schen „testscore“ und „performance“, deren Wert gleichzeitig die Steigung einer Regres-sionsgeraden zwischen beiden darstellt. Der Wert r2 ist die Testreliabilität. Die beiden Grenzen teilen alle Bewerber in vier Regionen ein, deren Bezeichnungen AS, AF, RS und RF im Folgenden die Anzahl der Personen (Punkte) in diesen Regionen bezeichnen. Das Interesse der Testpsychologie richtet sich auf das Verhältnis AS/(AS + AF), das als Erfolgsquote („proportion of success“) bezeichnet wird (Linn 1973). Dieses Verhältnis ändert sich in Abhängigkeit von der Testreliabilität und ist in den Taylor-Russel-Tafeln dokumentiert. Je besser die Testreliabilität und damit die Konzentration der Punktwolke, desto höher ist dieser Wert. Das Interesse der Testpsychologie liegt darin, mit welchen Methoden die Testreliabilität erhöht werden kann.

Wenn eine bestimmte Bewerbergruppe in den Tests einen schlechteren Durchschnitts-wert erzielt oder der Test für sie eine geringere Reliabilität hat, werden Bewerber aus dieser Gruppe weniger ausgewählt, weil nur so die Erfolgsquote maximiert werden kann. Das kann daran liegen, dass der Test für diese Gruppe spezifische, z. B. kulturelle Schwie-rigkeiten aufweist, die nicht mit der zu messenden „performance“ zusammenhängen. Bei vielen Tests zeigten sich insbesondere zwischen Afroamerikanern und Weißen konstante Unterschiede bzgl. der Testreliabilität. Das führte dazu, dass ein fairer Test in der Psy-chologie dadurch definiert wurde, dass die Testreliabilität gleich ist für alle Gruppen von Bewerbern.

Die pädagogische Diskussion setzt an der Annahme an, dass es für viele mögliche Untergruppen von Bewerbern oft unbekannt ist, ob der Test für sie eine verminderte Reliabilität ausweist. Dann müssen gleiche Chancen für Gruppen anders definiert wer-den. Mit den obigen Regionen gibt es aber verschiedene Möglichkeiten (Cole und Zieky 2001, S. 372; Flaugher 1974):

AS

AF

RS

RF

rejected accepted

-2,5

-1,5

-,5,5

1,5

2,5

-2,5 -1,5 -,5 ,5 1,5 2,5testscore

performance

faile

d su

cces

sful

l

Abb. 1: Scatterplot von 1000 Bewerbern, jeder stellt einen Punkt dar („testscore“ y und „performance“ q, standardisierte Werte). Korrelation 0,4. Darge-stellt sind 4 Bereiche, abgeteilt durch die besten 20 % (oberhalb q = 0,84) der „performance“ und die besten 30 % (oberhalb y = 0,54) der „testscores“


● Linn: Quotient AS/(AS + AF) gleich für alle Gruppen ● Thorndike: Quotient (AS + AF)/(AS + RS) gleich für alle Gruppen ● Cole: Quotient AS/(AS + RS) gleich für alle Gruppen ● Darlington: eine Kombination der Verfahren, wobei eine normative Entscheidung

getroffen werden muss, welches Gewicht die Gruppen in der Auswahl haben sollen.

An der Definition von Darlington wird besonders deutlich, dass es unter dieser Annahme keine einheitliche Definition von Fairness mehr gibt, sondern dass eine Setzung über wünschenswerte Anteile jeder Gruppe getroffen werden muss, mit deren Hilfe dann ein dafür optimales Auswahlverfahren gewählt werden kann. Aus dem Blickwinkel der Bil-dungsforschung wird deshalb von vornherein damit gerechnet, dass die Unterschiede von Gruppen im Hinblick auf Testreliabilität und Durchschnittswerte nicht automatisch auch Unterschiede in der „performance“ widerspiegeln, sondern dass Korrekturen normativer Art notwendig sind.

Aus ökonomischer Sicht geht es vor allem darum, inwiefern die Testreliabiltät den Lohn beeinflusst. Hier stellen die Arbeitsproduktivität eines Beschäftigen, z. B. Stückzahl pro Stunde, die „performance“ q, und seine Einstellungsmerkmale, zu denen u. a. auch seine Gruppenzugehörigkeit gehört, die „testscores“ y dar. Die Arbeitgeber kennen diese Werte und können damit ihre Korrelation, in den Worten der Testpsychologie die Test-reliabilität, für verschiedene Gruppen abschätzen. Sie bezahlen jeden einzelnen nach dem Erwartungswert seiner „performance“ in Bezug auf seine Einstellungsmerkmale E(q|y). Dieser ist geringer, wenn die Testreliabilität und damit die Steigung der Regressionsge-raden zwischen beiden geringer ist (Phelps 1972, S. 661). Wenn das z. B. für die Gruppe der Afroamerikaner der Fall ist, bekommen diese, ganz rational vom Arbeitgeber aus gesehen, geringeren Lohn. Das ist die Definition der „statistischen Diskriminierung“.

Eine echte ökonomische Diskriminierung ist dagegen dadurch definiert: „when wor-kers do not receive pay or remuneration commensurate with their productivity“ (Aigner und Cain 1977, S. 177). Das kann nur geschehen, wenn ein Arbeitgeber auf Grund seiner „tastes of discrimination“ den gegebenen Erwartungswert ignoriert und einen geringeren Lohn zahlt. Ein solcher Zustand kann jedoch bei einem funktionierenden Arbeitsmarkt nicht lange anhalten, weil dort Löhne, die nicht der Produktivität entsprechen, durch Kon-kurrenz verschwinden. Wie Arrow (1998, S. 95) es ausdrückt: „If the members of the two races, after adjusting for observable differences in human capital and the like, received different wages or were charged different prices in commodity or credit markets, an arbi-trage possibility would be created which would be wiped out by competition“.

3 Der Unterschied zwischen der wirtschaftlichen und anderen Konkurrenz-Situationen

In der Ökonomie existiert also ein Marktmechanismus, der eine Fehleinschätzung der Produktivität einer Gruppe von Schwarzen durch Arbeitgeber, die vornehmlich Weiße einstellen, bestraft, indem diese Arbeitgeber zu hohe Löhne zahlen. Eine solche Argu-mentation ist jedoch, so Arrow, beschränkt auf entpersonalisierte Interaktionen: „It is increasingly recognized that many social interactions with economic implications are


not mediated through a depersonalized market… The hypothesis that prices do not ref-lect every kind of social interaction…is used in many contexts“ (Arrow 1998, S. 97). Arrow zählt einige Situationen auf, in denen Angehörige verschiedener (ethnischer) Gruppen unterschiedlich behandelt werden können, ohne dass Preise dabei eine große Rolle spielen: bei der Vergabe von Jobs, bei der Vergabe von Wohnungen, Vorenthaltung von Dienstleistungen wie im Restaurant bedient zu werden, unterschiedliche Angebote auf Automärkten oder bei Krediten. Preise oder Löhne spielen hier eine untergeordnete Rolle, weil sie gleich hoch für den Anbieter anfallen, etwa wenn genügend Bewerber für eine Stelle mit einer vorgeschriebenen Besoldung oder eine Wohnung mit einem fixen Mietpreis vorhanden sind. Dann können die Anbieter, sofern keine weiteren Vorschriften existieren, nach eigenen Präferenzen auswählen (Arrow 1998, S. 97). In solchen Situ-ationen ist deshalb zu erwarten, dass „tastes of discrimination“ ihre Wirkung entfalten können, ohne langfristig zu verschwinden.

Ein wichtiges Feld in dieser Hinsicht sind Stellenbesetzungen: „Discrimination mainly took the form of limiting the range of jobs in which blacks were hired at all“ (Arrow 1998, S. 93; s. a. Kaas und Manger 2010). Als erster Unterschied zur wirtschaftlichen Situation handelt es sich also um Besetzungen von Stellen, deren Produktivität nicht einfach in Geld messbar ist. Die „performance“ besteht dann nicht in der Produktion von markt-fähigen Produkten. Sie kann stattdessen z. B. in der Herstellung von Verhandlungserfolg, von Reputation, von Veröffentlichungen oder von Ausbildungsleistungen bestehen. Dazu gehört auch die Auswahl von Bewerbern für eine Ausbildung in Bildungsinstitutionen: Hier besitzen die Ausgewählten kein Pendant zum Lohn, das sie entsprechend ihrer erwar-teten „performance“ einfordern könnten, wenn sie sich diskriminiert fühlen. Diese Situ-ationen sollen im Folgenden Situationen der meritokratischen Selektion genannt werden.

In diesen Situationen ist die Schätzung der zukünftigen Leistung aus den bisherigen Zertifikaten nicht an die zukünftigen Kosten der Bewerber gekoppelt. Insbesondere kön-nen hier „tastes of discrimination“, d. h. Meinungen über den Unterschied zwischen erwarteter und tatsächlicher „performance“, zum Tragen kommen. Diese führen dazu, dass die gleichen „testscores“ verschieden gewertet werden. Bekannte subtile Diskrimi-nierungen sind z. B., dass von Frauen wegen der Möglichkeit schwanger zu werden oder wegen unterstellter häufigerer familiärer Verpflichtungen implizit verlangt wird, dieselbe Leistung in kürzerer Zeit zu erbringen, d. h. besser zu sein als Männer. Welche bewusste oder unbewusste Motive auch immer angewendet werden, sie führen dazu, dass „Frauen besser sein müssen als Männer“ auf denselben Positionen (BMFSJ 2010, S. 37; Girst 2009). Analog zur ökonomischen Definition kann man wie folgt definieren: Diskrimi-nierung in meritokratischen Selektionen heißt, bei derselben späteren tatsächlichen „per-formance“ nur mit einem höheren „testscore“ als die Nicht-Diskriminierten ausgewählt zu werden.

Weil der Lohnmechanismus fehlt, der die erwartete „performance“ bei der Auswahl mit der tatsächlichen „performance“ abgleicht, können systematische Fehleinschätzun-gen von Bewerbergruppen hier nicht auf eine ähnliche Weise langfristig korrigiert werden wie in der Ökonomie. Fehleinschätzungen können aber dazu führen, dass die Leistungen der auswählenden Institutionen insgesamt schlechter werden. Insbesondere Bildungsin-stitutionen stehen seit der neoliberalen Öffnung von Bildungsmärkten unter einer Art Konkurrenz. Sie müssen zunehmend ihre Effizienz nachweisen. Funktional gesehen


simuliert das Bildungssystem für die Ausbildung die Abläufe im Wirtschaftssystem nur, ohne aber dessen Effizienzkriterien dabei beachten zu müssen (Luhmann und Schorr 1988). Die Bildungsinstitutionen sind aber über ihre Finanzierung an das politische und wirtschaftliche System angebunden. Sie müssen über ihre Geldverwendung Effizienz nachweisen oder sich im Fall einer neoliberalen Bildungspolitik direkt der wirtschaftli-chen Konkurrenz unterwerfen. Die Konkurrenten eines solchen Bildungsmarkts sind also die Institutionen als Ganzes.

In vielen Ländern ist es seit einiger Zeit üblich, dass die Institutionen Erfolgsindikato-ren regelmäßig veröffentlichen müssen. Diese Erfolgsmerkmale können als das Pendant zur ökonomischen Produktivität q gesehen werden. Dort bestimmen sie allerdings die individuelle Lohnhöhe, dagegen werden sie in meritokratischen Selektionen nur aggre-giert auf der Ebene der aufnehmenden Institution wirksam. Die Möglichkeit, dass „tastes of discrimination“ in meritokratischen Selektionen ebenfalls evolutionär langfristig kor-rigiert werden könnten, kann deshalb nur über den Vergleich der Erfolgsmerkmale der Institutionen erfolgen. Die These der Übertragung der ökonomischen Argumentation des Ausgleichs von Fehleinschätzungen von Arbeitnehmergruppen auf Bewerbergruppen in meritokratischen Selektionen lautet deshalb: Wenn die „performance“ für eine Bewerber-gruppe systematisch unterschätzt wird, werden Institutionen, die Bewerber aus dieser Gruppe weniger einstellen, schlechtere Leistungen erreichen.

Wenn die These gilt, wird langfristig eine Anpassung der Erfolgsmerkmale der Insti-tutionen an die korrekte Einschätzung der „performance“ dieser Gruppe stattfinden und Diskriminierung über die Konkurrenz der Institutionen verschwinden.

Ein dritter Unterschied zur ökonomischen Situation ist also, dass eine Korrektur von „tastes of discrimination“ für eine Gruppe nur über den Vergleich der Leistungen von ganzen Institutionen erfolgen kann, die Personen dieser Gruppe zu unterschiedlichen Anteilen ausgewählt haben. Damit ist die Fragestellung der theoretischen Untersuchung in Bezug auf die nicht-ökonomischen Bereiche konkretisiert. Im Folgenden wird das Beispiel der Auswahl für ein Studium verwendet und die Abiturnote als „testscore“ und die Note im Abschlussexamen als Messung der „performance“ benutzt. Die Ergebnisse sind offenbar auf alle beschriebenen nicht-ökonomischen Bereiche übertragbar, sobald eine positive Korrelation zwischen „testscores“ und „performances“ existiert. Die Frage-stellung lautet für dieses Beispiel: Welche Differenzen in den Abschlussexamen treten auf, wenn eine Bewerbergruppe bei der Auswahl für ein Studium systematisch fehlein-geschätzt wird?

4 Wie wirkt Diskriminierung auf die Leistung der Institutionen?

Ziel der folgenden formal-statistischen Analyse ist die Widerlegung der These. Eine for-male Modellierung ist erforderlich, weil hier die Konsequenzen einer meritokratischen Auswahl als Prinzip, als reiner, nicht durch spezifische Anwendungskontexte veränderter Mechanismus im Fokus stehen. Formale Modellierungen oder „Mechanismen“ werden zunehmend als notwendige und fruchtbare Teile soziologischer Theoriebildung angese-hen (Esser 1993, S. 119 f.; Hedstroem und Swedberg 1998; Müller-Benedict 2003). Ins-besondere Behauptungen darüber, welche Entwicklungen von einer bestimmten Praxis


nicht erwartet werden können, eignen sich gut für formale Ableitungen, weil damit die logische Unmöglichkeit bewiesen werden kann. Wenn das meritokratische Prinzip sich in dieser theoretischen Ableitung als ungeeignet erweist, in nicht-ökonomischen Situationen Diskriminierungen zu verhindern, kann es in realen Situationen nicht mehr als Argument verwendet werden.

Die Modellierung erfolgt hier, indem über die Verteilung der Abiturnoten und der Exa-mensnoten sowie über die Stärke ihres Zusammenhangs Annahmen gemacht werden. Solange die mit diesen Annahmen erzeugten Verteilungen bekannten statistischen Ver-teilungen entsprechen, können damit die erwarteten Erfolgsindikatoren von Institutionen aus Anteilen unter diesen Verteilungen berechnet werden; in analoger Weise, wie es z. B. geschieht, wenn man die Abiturnoten als normalverteilt annimmt und mit den Parame-tern dieser Verteilung dann den Anteil der Abiturienten mit Noten über 2,0 berechnen kann. Mit diesen Annahmen werden sowohl für den Fall der Nicht-Diskriminierung als auch für den Fall diskriminierter Gruppen Erfolgsindikatoren der Institutionen berechnet und beide Fälle verglichen. Die Annahmen werden dann sukzessive gelockert und die Resultate letztlich für fast alle denkbaren Konstellationen bestätigt. Dabei werden die zuletzt behandelten Verteilungen durch simulierte Daten hergestellt, weil es für sie keine geschlossenen Formeln gibt.

Erfolgsindikatoren für Institutionen können auf verschiedene Weisen aus Abschluss-examen gebildet werden. Hier wird sowohl die Erfolgsquote als auch die Durch-schnittsexamensnote verwendet. Die Steigerung von Erfolgsquoten einerseits und der Durchschnittnote andererseits sind zwei Ziele von Bildungspolitik, die nicht notwendig miteinander gekoppelt sind (Müller-Benedict 2007). Deswegen ist es sinnvoll, die Folgen von Diskriminierung für beide Indikatoren zu berechnen.

4.1 Beeinflusst Diskriminierung die Erfolgsquote?

Um die Erfolgsquote AS/(AS + AF) zu berechnen, werden wie in Abb. 1 die Erfolgrei-chen durch eine Untergrenze q0 für die Examensnote q abgetrennt. Je nach Definition von „erfolgreich“ kann q0 anders gewählt werden. Wenn dabei an „Exzellente“ gedacht ist, wird q0 z. B. die besten 10 %, bei nur „Bestandenen“ die oberen 70 % abtrennen. Vorgege-ben sei weiter ein bestimmter Anteil an Auszuwählenden, z. B. 30 % aller Bewerber. Eine Grenznote y0 (die Grenze der „accepted“ in Abb. 1) wird so ermittelt, dass die Anzahl der Bewerber mit einer Abiturnote y ≥ y0 genau 30 % ergibt. Seien die Abiturnoten nach N(q, σq) und die Examensnoten nach N(y, σy) normalverteilt (diese übliche Annahme wird in 4.3 fallen gelassen) und ihre Korrelation rqy genannt, dann ist die Anzahl im Qua-drant AS gegeben durch

(N2: bivariate normal distribution)Auf diese Weise lassen sich die weiteren Quadranten und die Erfolgsquote EQ = AS/

(AS + AF) berechnen. Bei dieser Berechnung wird keine Unterscheidung der Bewerber vorgenommen; es findet keine Diskriminierung statt.

AS =∞∫

y0

∞∫

q0

N2(q,σq, y,σy,rqy)dqdy


Um die oben angestellte These zu widerlegen, wird nun Diskriminierung für merito-kratische Selektion nach der obigen Definition eingeführt. Dabei spielt es keine Rolle, ob die Diskriminierung gewollt oder unbeabsichtigt ist und auf welche Weise sie stattfindet – ihre Konsequenz ist immer eine systematische Unterschätzung der Leistung der dis-kriminierten Gruppe, plakativ: „Frauen müssen besser sein als Männer“. Für den Test der These wird die Erfolgsquote für diesen Fall der Unterschätzung berechnet und dann mit der Erfolgsquote ohne Diskriminierung verglichen.

Die Bewerber insgesamt seien also in zwei Gruppen GB (black) und GW (white) geteilt, die zunächst jeweils die Hälfte aller Bewerber stellen. Auf Grund der Diskriminierung werden für die B schlechtere spätere Examensnoten behauptet, obwohl sie tatsächlich gleich gut wären. Dadurch werden die B erst ausgewählt, wenn sie Abiturnoten yB > y0 besitzen. Durch yB wird ein bestimmter Anteil der B weniger ausgewählt als ohne Diskriminierung.

Um die Stärke der Diskriminierung zu messen, gibt es die beiden Möglichkeiten der absoluten oder relativen Angabe. Beträgt der Anteil der Auszuwählenden z. B. 30 % aller Bewerber, dann würden ohne Diskriminierung sowohl 30 % der besten W als auch 30 % der besten B ausgewählt. Dann bedeutet eine absolute Diskriminierung von 10 %, dass stattdessen nur 20 % der besten B, aber 40 % der besten W ausgewählt werden. Eine relative Diskriminierung von 10 % bedeutet dagegen, dass 10 der 30 % auszuwählenden B diskriminiert werden, also dass statt jeweils 30 % nur 27 % der B und zum Ausgleich 33 % der W ausgewählt werden.

Zwei Argumente sprechen dafür, die Diskriminierungsstärke relativ anzugeben. Wenn eine Gruppe als 10 % weniger leistungsfähig angesehen wird, wird sich das erstens bei der praktischen Auswahl so auswirken, dass ca. 10 % der Bewerber, die für die Auswahl in Frage kommen, diskriminiert werden und nicht 10 % aller Bewerber dieser Gruppe. Würde die Diskriminierungsstärke absolut angegeben, so würde zweitens z. B. bei einem Anteil von Auszuwählenden von 20 % schon eine Diskriminierungsstärke von 20 % zum kompletten Ausschluss der B führen. Im Folgenden wird deshalb die Diskriminierungs-stärke immer relativ angegeben.

Für die Darstellungen werden die Anteile der Auszuwählenden und die Messpunkte der Diskriminierungsstärke sinnvoll eingeschränkt. Ein hundertprozentiger Ausschluss der B bei 60 % Auszuwählenden z. B. ist sinnlos, weil dann gar nicht mehr alle freien Plätze besetzt werden könnten. Es würden dann alle W ausgewählt, aber diese stellen nur 50 % aller Bewerber dar. Deshalb werden die Berechnungen nur bis zu einem Anteil der Auszuwählenden von 50 % dargestellt. Die Skala der Diskriminierungsstärke wird auf die Werte von 0 (keine Diskriminierung) über 10, 20, 30, 40, 50% bis zuletzt dem kompletten Ausschluss festgelegt. Diskriminierungen über 50 % erscheinen unrealistisch, der kom-plette Ausschluss dient als Referenzpunkt.

Wenn nun z. B. 20 % der B wegen Diskriminierung ausgeschlossen werden, müssen entsprechend 20 % mehr W (mit einer entsprechenden Grenznote yW < y0) ausgewählt werden, um den Anteil der Auszuwählenden vollständig zu besetzen. Die im Vergleich zur obigen, nicht diskriminierenden Auswahl ausgeschlossenen B würden aber bessere Examensnoten erreichen als die zusätzlich hinzugekommenen W, weil sie höhere Abitur-noten haben und die mit der Diskriminierung behauptete schlechtere „performance“ ja tatsächlich nicht existiert. Deshalb ist zu erwarten, dass die Erfolgsquote, aus beiden Tei-


len zusammengerechnet, geringer ausfällt. Grafisch lassen sich die Anzahlen der erfolg-reichen B und W als die Punkte in den Bereichen ASB und ASw darstellen, s. Abb. 2.

Die Erfolgsquote für beide Gruppen zusammen (EB + W) ist die mit den relativen Antei-len der aus jeder Gruppe Ausgewählten gewichteten Summe der Erfolgsquoten EB und EW:

Von vorrangigem Interesse ist, wie die Erfolgsquote auf die Stärke der Diskriminierung reagiert. Für die folgende Berechnung wird der Anteil GB auf 50 % und die Korrelation auf den empirisch in vielen Untersuchungen bestätigten mittleren Wert von 0,4 (Robbins et al. 2004; Trapmann et al. 2007) gesetzt. Als erfolgreich wird zunächst eine Exzellenz-Auswahl gewählt: diejenigen, die die besten 10 % der Examensnoten erreichen. Abb. 3 zeigt die Werte der Erfolgsquote in Abhängigkeit von der Diskriminierungsstärke und den Anteilen an Auszuwählenden.

Der Fall ohne Diskriminierung (Stärke Diskriminierung = 0 %) wird durch den rech-ten, oberen Rand dargestellt. Wird die Hälfte aller Bewerber aufgenommen (Anteil Aus-gewählter = 50 %), werden ohne Diskriminierung von ihnen etwas 15 % ein exzellentes Examen erreichen (rechter Eckpunkt der Fläche). Werden nur die besten 10 % ausgewählt (Anteil Ausgewählter = 10 %), werden von diesen am Ende genau 26,64 % ein exzellentes Examen haben (oberster Punkt der Fläche, erster Wert in Tab. 2 im Online-Anhang1). Der linke, untere Rand der Oberfläche stellt dar, wie der komplette Ausschluss der B wirkt (Stärke Diskriminierung = 100 %). Weil dann alle Ausgewählten nur aus W bestehen, sinkt in diesem Fall die Quote der Exzellenten beträchtlich.

Was allerdings intuitiv nicht zu erwarten war, ist die Gestalt der Oberfläche in den anderen Bereichen. Sie sinkt nicht etwa monoton von rechts hinten nach links vorne ab, sondern verläuft von „keiner“ bis zu „50 %“ Diskriminierungsstärke fast parallel zur Achse der Diskriminierung! Das bedeutet, dass die These widerlegt ist. Eine wie auch immer zustande gekommene systematische Unterschätzung der Abiturnoten einer diskri-minierten Gruppe führt nur zu minimal schlechteren Erfolgsquoten. Sichtbar schlechter

1 Siehe http://www.uni-koeln.de/kzfss/materialien/KS-66-1-mueller-benedict.pdf.

EQB+W = EQB ·ASB + AFB

GB + GW+ EQW ·

ASW + AFW

GB + GW=

ASB + ASW

GB + GW

Abb. 2: (s. Abb. 1) Zu vergleichen ist der Anteil ASW + ASB mit 2 Mal AS in Abb. 1


werden sie nur dann, wenn die diskriminierte Gruppe vollständig ausgeschlossen wird (100 % Diskriminierungsstärke). Die Hoffnung, dass „tastes of discrimination“ bei der meritokratischen Selektion über einen Wettbewerb der Erfolgsquoten der Institutionen verschwinden, ist dadurch zunichte gemacht.

Die Ergebnisse der Grafik sind noch von den anderen drei Parametern abhängig: der Korrelation zwischen Abitur- und Examensnoten, der Definitionsgrenze der Erfolgrei-chen und dem Anteil GB. Weitere Berechnungen mit Variationen dieser Parameter, die in den Tab. 1, 2 und 3 im Online-Anhang aufgelistet sind, zeigen, dass die spezifische Gestalt der Oberfläche sich nur wenig verändert. Die überraschende Unabhängigkeit der Erfolgsquote von der Stärke der Diskriminierung bleibt immer vorhanden. Insbesondere ändert auch eine starke Erhöhung der Testreliabilität gegenüber der mit heutigen Tests maximal möglichen Korrelation von ca. 0,4 daran nichts. Die Entwicklung von Eingangs-tests an Universitäten zur Steigerung der Vorhersagequalität des Studienerfolgs, wie sie heute z. T. schon angewendet werden, wird an der Ungeeignetheit eines Wettbewerbs zur Verringerung der Diskriminierung bei der Bildungsselektion nichts ändern. Ebenso ändert sich auch durch eine andere Definition der Erfolgreichen nichts. Abb. 4 gibt ein Beispiel für den Fall, dass die Erfolgsquote auf Grund der „Bestandenen“ (als die besten 70 % definiert) gemessen wird, was einen eher extremen und unrealistischen Fall dar-stellt, und zusätzlich die Korrelation auf 0,7 erhöht wird.

Wenn 50 % aus allen ausgewählt, aber gleichzeitig alle B ausgeschlossen werden, müs-sen die W komplett aufgenommen werden. Das führt zu der definierten Bestehensquote von 70 % (untere Ecke der Fläche). Außer diesem Extremfall ist die Unabhängigkeit der Erfolgsquote von der Diskriminierungsstärke zwischen 0 und 50 % jedoch auch hier gut zu sehen. Der im Vergleich zu Abb. 3 stärkere Abfall in der Umgebung der unteren Ecke erklärt sich dadurch, dass dort, wegen der starken Diskriminierung der B, viele, mit gro-ßer Sicherheit (r = 0,7) nicht-bestehende W aufgenommen werden müssen.

0

5

10

15

20

25

30

Anteil Ausgewählter %

Erfolgs-quote %

Stärke Diskriminierung %

10 01020304050100

2030

4050

Abb. 3: Anteil der zu den besten 10 % der Examen Gehörenden in der Auswahl, in Abhängigkeit vom Anteil Auszuwählender und der Stärke der Diskriminierung (r = 0,4; s. Text)


4.2 Beeinflusst Diskriminierung die Durchschnittsnote?

Das zweite Erfolgskriterium ist die erreichte Durchschnittsnote M (in der Grafik: „Note“). Sie wird berechnet als Erwartungswert über alle Ausgewählten (die Regionen AS und AF):

Die Wirkung von Diskriminierung auf die Durchschnittsnote als Erfolgskriterium wird unter denselben Gegebenheiten wie eben berechnet. Die Gesamtdurchschnittsnote über beide Gruppen MB + W ist wieder die mit den relativen Anteilen gewichtete Summe aus MB und MW. Die Ergebnisse zeigt Abb. 5:

Wenn 50 % aller Bewerber ausgewählt werden sollen, darunter aber keine B sind (Dis-kriminierung = 100 %), ergibt sich als Durchschnittsnote genau die Mitte aller W = 50 %, d. h. 50 % liegen unter der Durchschnittsnote, die in relativen Anteilen dargestellt ist (untere Ecke der Fläche). Auch hier zeigt sich derselbe geringe Einfluss der Diskriminie-rung. Die Durchschnittsnoten bleiben weitgehend gleich groß, wenn die Diskriminierung steigt und fallen erst beim Übergang auf den kompletten Ausschluss der diskriminierten Gruppe ab. Eine Variation der weiteren Parameter ändert ebenso nichts an diesem Ergeb-nis (s. Tab. 1, 4 und 5 im Online-Anhang). Damit bestätigen sich alle Folgerungen, die oben aus den Berechnungen mit der Erfolgsquote gezogen wurden, auch für das Krite-rium der Durchschnittsnote.

M = E (q | (y, q) aus AS + AF) =

∞∫y0

∞∫−∞

q · N2(y, q,σy,σq,rqy)dqdy

∞∫y0

∞∫−∞

N2(y, q,σy,σq,rqy)dqdy

70

75

80

85

90

95

100

10 01020304050100

2030

4050

Anteil Ausgewählter % Stärke Diskriminierung %

Erfolgs-quote %

Abb. 4: Wie Abb. 3, mit r = 0,7 und Anteil der zu den besten 70 % der Examen Gehörenden in ders Auswahl


4.3 Aufhebung von Einschränkungen der Allgemeingültigkeit der Ergebnisse

Als erstes kann die Annahme einer konstant gleichen Diskriminierung für alle Abiturno-ten fallen gelassen werden. Da die obigen Ergebnisse schon alle Diskriminierungsstärken berücksichtigen, ändern je nach Abiturnote unterschiedliche Diskriminierungsstärken nichts am grundsätzlichen Ergebnis. Ein zweiter Einwand gegen die Berechnungen ist die Verwendung der Normalverteilung, die von empirischen Verteilungen von Noten besonders in zwei Hinsichten abweicht. Erstens sind empirische Verteilung beschränkt zwischen der Note „nicht bestanden“ und der Höchstnote, mit etwa vier bis fünf Stan-dardabweichungen Streuung. Zu prüfen ist, wie eine Einschränkung der unbeschränkten Normalverteilung auf einen quadratischen Bereich von vier bis fünf Standardabwei-chungen wirkt. Die Berechnungen ergeben, dass die Werte sich geringfügig ändern, die beschriebenen Zusammenhänge jedoch völlig gleich bleiben.

Zweitens können Noten auch eine andere Verteilungsform besitzen. Alle empirischen Notenverteilungen weisen meist eine Häufung im mittleren Bereich auf. Um dem Ein-wand zu begegnen, werden deshalb die obigen Berechnungen noch einmal mit einer Verteilungsform durchgeführt, die im Hinblick auf empirische Verhältnisse als extrem bezeichnet werden kann: einer Gleichverteilung der Noten. Es gibt allerdings keine ana-lytische Formel für zwei korrelierte Gleichverteilungen, sodass diese Berechnungen mit simulierten Daten durchgeführt werden müssen (s. Abb. 6).

Die Häufungen in der linken unteren und der rechten oberen Ecke ergeben sich aus der Bedingung der Gleichverteilung. Führt man die obigen Berechnungen für die Erfolgs-quote auf der Basis dieser Verteilungen durch2, ergibt sich analog zu den Abb. 3 und 4 die Abb. 7 (zu weiteren Parameteränderungen s. Tab. 4 und 5 im Online-Anhang).

2 Der Simulationsalgorithmus und die Berechnungen wurden als STATA-Programm geschrieben, die Berechnungen zur bivariaten Normalverteilung mit EXCEL durchgeführt. Beides kann gern vom Autor angefordert werden.

50

55

60

65

70

75

80

Anteil Aus-gewählter %

Note(%)

Stärke Dis-kriminierung %

10

0

1020304050100

2030

4050

Abb. 5: Wie Abb. 3, aber mit der Durchschnittsnote der Aus-gewählten. Note in relativen Werten (Prozentanteile, die die Note der Ausgewählten nicht erreichen)


Intuitiv war nicht vorherzusehen, dass die Ergebnisse auch für diesen Extremfall von gleichverteilten Noten fast identisch zu den Ergebnissen mit normalverteilten Noten sind. Da alle vorstellbaren Notenverteilungen zwischen diesen beiden Extremen liegen, ist damit auch der zweite Einwand entkräftet.

5 Zusammenfassung

Dass Tests Unterschiede in der Leistungsfähigkeit von Bevölkerungsgruppen messen, die sich durch askriptive, kulturelle oder soziale Merkmale unterscheiden, ist lange bekannt. Nicht erst seit dem Buch von Herrnstein und Murray (1994) ist die Diskussion darü-ber, wie diese Unterschiede zu bewerten sind, kontrovers und wertgeladen (Arrow et al. 1999). Wenn es einen sozialen Mechanismus gibt, der langfristig die Fehleinschätzungen der Tests dieser Gruppen auf Grund ihrer tatsächlichen späteren Leistung korrigiert, kann

5

10

15

20

25

Stärke Diskri-minierung %

Anteil Ausge-wählter %

50

55

60

65

70

Stärke Diskri-minierung %

Note %

Anteil Ausge-wählter %

Erfolgs-quote %

10

01020304050100

30

50

10

01020304050100

30

50

Abb. 7: Wie Abb. 3 und 5, aber die zugrunde liegenden Variablen Abiturnote und Examensnote sind nun gleichverteilt (Simulationsergebnisse, n = 1600)

2-2

0

-2 0 2testscore

performance

performance

-20

2

-2 0 2testscore

Abb. 6: Wie Abb. 1, aber Abiturnote (testscore) und Examensnote (performance) sind jeweils gleichverteilt (Si-mulationsergebnisse, n = 1600). Linke Grafik: Korrelation r = 0,4, rechte Grafik: Korrelation r = 0,7. Skalierung: Noten zentriert auf Bereich − 2,5 bis 2,5 Standardabweichungen


man hoffen, dass diese Diskussion ebenfalls langfristig überflüssig wird. In der ökonomi-schen Theorie wurde dieser Mechanismus bewiesen, sodass eine rein ökonomische Dis-kriminierung, d. h. unterschiedlicher Lohn bei gleicher Produktivität, theoretisch heute kaum noch diskutiert wird.

In der nicht-ökonomischen Sphäre gibt es keinen dem Lohn vergleichbaren Parame-ter, und die Leistungsfähigkeit wird anders gemessen. Im Bildungssystem werden auf jeder Stufe Tests geschrieben, die sowohl die vergangene Leistung bewerten als auch als Prognose der zukünftigen Leistung dienen. Die Bildungsinstitutionen verwenden diese Tests sowohl als Auswahlkriterium wie auch als Kriterium für ihre Leistungsfähigkeit. Besonders exzellente Institutionen z. B. zeichnen sich durch sehr gute Abschlussexa-men aus. Werden bei der Auswahl Diskriminierungen wirksam, könnte sich das in diesen Abschlussexamen niederschlagen.

Hier konnte in einem formalen Modell berechnet werden, dass es sich nicht so verhält. Der Grund liegt darin, dass sich sowohl die Erfolgsquoten als auch die Durchschnittsno-ten der Abschlussexamen im Fall ohne Diskriminierung nur unwesentlich unterscheiden von dem Fall, dass stark diskriminiert wird, d. h. bestimmte Bewerbergruppen zu viel geringeren Teilen aufgenommen werden, als es ihrem Testergebnis entsprechen würde. Man kann es auch so ausdrücken: Eine starke Diskriminierung einer Bewerbergruppe fällt im Ausbildungsergebnis einer Bildungsinstitution nicht auf. Auch diskriminierende Institutionen können im Wettbewerb bestehen. Dieses Ergebnis ist zwar formallogisch abgeleitet. Es bedeutet jedoch für reale Auswahlverfahren, dass man Diskriminierung nur aktiv verändern kann, weil eine meritokratische Auswahl zusammen mit Institutio-nen-Konkurrenz allein nicht zum Rückgang der Fehleinschätzungen der Diskriminierten führt.

Dieses überraschende Ergebnis beruht auf den spezifischen Häufigkeitsverhältnissen bivariater Verteilungen. Es kommt zudem unter sehr allgemeinen Bedingungen zustande. Erstens ist es stabil auch bei sehr starker Diskriminierung. Erst bei der kompletten Exklu-sion einer Bewerbergruppe zeigt sich ein nennenswerter Effekt auf die Erfolgsquoten und die Durchschnittnoten. Zweitens gilt es auch für hohe Testreliabilitäten. Das bedeutet, dass auch starke Verbesserungen der heutigen Tests daran nichts ändern werden. Drittens ist es robust in Bezug auf die empirisch vorhandenen Verteilungen der Noten, seien es die Noten eines Eingangstests oder der Abschlussexamen. Ihre Gestalt berührt dieses Ergeb-nis nicht. Obwohl viertens die Analyse unter den Bedingungen von existierenden Ein-gangstests und Abschlusstests durchgeführt wurde, kann sie auf alle weiteren Bereiche ausgedehnt werden, in denen kein dem Lohn vergleichbarer finanzieller Mechanismus die individuellen Arbeitsergebnisse auf die Eingangstestergebnisse zurückkoppelt. Damit ist das Ergebnis eine theoretische Begründung für viele beobachtete Entwicklungen, in denen langfristige Diskriminierungen bestehen bleiben, obwohl alle Bewertungen und Tests offen gelegt sind und Leistungen öffentlich diskutiert werden.

Die Ergebnisse können damit auch für politische Maßnahmen in diesen Bereichen eine theoretische Legitimation sein, indem sie aussagen, dass die Selbstheilungskräfte des Marktes hier versagen. Dabei ist zunächst natürlich daran zu denken, dass Fehleinschät-zungen und diskriminierende Praktiken mit geeigneten Maßnahmen möglichst unterbun-den werden. Oft helfen aber Appelle oder Vorschriften eines bestimmten moralischen Verhaltens wenig, weil bei Diskriminierungen eher unbewusst gehandelt wird. Solche


Maßnahmen beruhen zudem darauf, dass sich im Prinzip Fehleinschätzungen aufdecken lassen, weil die Tests für alle Gruppen gleich reliabel sind. Wenn aber unklar ist, ob es überhaupt kulturell oder sozial nicht mit Verzerrungen behaftete Tests gibt, dürfte es bes-ser sein, auf die bildungswissenschaftliche Fairness-Diskussion zurückzugreifen und von vornherein bestimmte Quoten möglicherweise diskriminierter Gruppen festzulegen. Mit den hier entwickelten theoretischen Ergebnissen lässt sich, um die Titelfrage zu beant-worten, eine Quotenregulierung sinnvoll begründen.

Literatur

Aigner, Dennis J., und Glen G. Cain. 1977. Statistical theories of discrimination in labor markets. Industrial and Labor Relations Review 30:175–187.

Arrow, Kenneth J. 1998. What has economics to say about racial discrimination? Journal of Eco-nomic Perspectives 12:91–100.

Arrow, Kenneth J., S. Bowles und S. Durlaf. Hrsg. 1999. Meritocracy and economic inequality. Princeton: University Press.

Bell, Daniel. 1975. Die nachindustrielle Gesellschaft. Frankfurt: a. M.: Campus.BMFSJ (Bundesministerium für Familie, Senioren, Frauen und Jugend). 2010. Frauen in Füh-

rungspositionen. Heidelberg: Sinus.Bourdieu, Pierre, und Jean-Pascal Passeron. 1971. Die Illusion der Chancengleichheit. Stuttgart:

Klett.Breen, Richard, und John H. Goldthorpe. 1999. Class inequality and meritocracy: A critique of

Saunders and an alternative analysis. British Journal of Sociology 50:1–27.Cole, Nancy S., und Michael J. Zieky. 2001. The new faces of fairness. Journal of Educational

Measurement 38:369–382.Collins, Randall. 1979. The credential society. NewYork: Academic Press.Esser, Hartmut. 1993. Soziologie. Allgemeine Grundlagen. Frankfurt a. M.: Campus.Flaugher, Ronald L. 1974. The new definitions of test fairness in selection: Developments and

implications. Educational Researcher 3:13–16.Girst, Friederike, und Julia Rothaas. Hrsg. 2009. Herrschaftszeiten! Vom Leben unter Männern.

Köln: DuMont.Hedstroem, Peter, und Richard Swedberg. Hrsg. 1998. Social mechanisms. An analytical approach

to social theory. Cambridge: University Press.Herrnstein, Richard J., und Charles Murray. 1994. The bell curve: Intelligence and class structure

in American life. New York: The Free Press.Kaas, Leo, und Christian Manger. 2010. Ethnic discrimination in Germany’s labour market: A field

experiment. IZA Discussion Paper No. 4741. Konstanz: Institut für die Zukunft der Arbeit.Linn, Robert L. 1973. Fair test use in selection. Review of Educational Research 43:139–161.Luhmann, Niklas, und K. Schorr. 1988. Reflexionsprobleme im Erziehungssystem. Frankfurt a. M.:

Suhrkamp.Müller-Benedict, Volker. 2003. Modellierung in der Soziologie – heutige Fragestellungen und Per-

spektiven. In Soziologische Forschung: Stand und Perspektiven, Hrsg. Barbara Orth, Thomas Schwietring und Weiß Johannes, 339–352. Opladen: leske+budrich.

Müller-Benedict, Volker. 2007. Intendierte und nicht-intendierte Folgen von Bildungspolitik – eine Simulationsstudie über die sozialstrukturellen Grenzen politischer Einflussnahme. In Bildung als Privileg? (2. Aufl.), Hrsg. R. Becker und W. Lauterbach, 381–415. Wiesbaden: VS Verlag für Sozialwissenschaften.


Müller-Benedict, Volker. 2010. Grenzen leistungsbasierter Auswahlverfahren. Zeitschrift für Erzie-hungswissenschaft 13:451–472.

Phelps, Edmund S. 1972. The statistical theory of racism and sexism. American Economic Review 62:659–661.

Robbins, Steven B., Kristy Lauver, Huy Le, Daniel Davis und Ronelle Langley. 2004. Do psy-chosocial and study skill factors predict college outcomes? A meta analysis. Psychological Bulletin 130:261–288.

Solga, Heilke. 2005. Meritokratie – die modern Legitimation ungleicher Bildungschancen. In Ins-titutionalisierte Ungleichheiten, Hrsg. Peter Berger und Heike Kahlert, 19–38. Weinheim: Juventa.

Taylor, H. C., und J. T. Russell. 1939. The relationship of validity coefficients to the practical effecti-veness of tests in selection: Discussion and tables. Journal of Applied Psychology 23:565–578.

Trapmann, Sabrina, Benedikt Hell, Sonja Weigand und Heinz Schuler. 2007. Die Validität von Schulnoten zur Vorhersage des Studienerfolgs – eine Metaanalyse. Zeitschrift für Pädagogi-sche Psychologie 21:11–27.

Volker Müller-Benedict, 1952, Dr., Dipl.-Math., Professor für Methoden und Statistik am Zen-trum für Methodenlehre der Universität Flensburg. Forschungsgebiete: Modellierung sozialer Systeme, Bildungssoziologie, Sozialstrukturanalyse, historische Bildungsforschung. Veröffentli-chungen (Auswahl): Grundkurs Statistik in den Sozialwissenschaften (5. Aufl.). Wiesbaden 2011. Können Examensnoten verglichen werden? Zeitschrift für Soziologie 2011. Grenzen leistungsba-sierter Auswahlverfahren. Zeitschrift für Erziehungswissenschaft 2010.

Documents

Grenzen der Meritokratie oder warum Quotenregulierungen sinnvoll sind; The limits of meritocracy or why quote regulations are indispensable;