6
Peer-Review DOI: 10.1002/ange.200800513 Die EffektivitȨt des Peer-Review-Verfahrens: ȠbereinstimmungsreliabilitȨt und VorhersagevaliditȨt der Manuskriptbegutachtung bei der Angewandten Chemie Lutz Bornmann* und Hans-Dieter Daniel* Manuskriptbegutachtung · Peer-Review · ȠbereinstimmungsreliabilitȨt · VorhersagevaliditȨt 1. Einleitung In der modernen Wissenschaft ist das Peer-Review zum wichtigsten Be- wertungsverfahren avanciert. [1] Fɒr die Befɒrworter des Verfahrens ist es un- verzichtbar, weil nur aktive Wissen- schaftler aus demselben Forschungsge- biet – die „Peers“ – in der Lage seien, die Forschung ihrer Fachkollegen auf ihre wissenschaftliche Gɒte hin zu ɒberprɒfen. [2] Die Kritiker des Peer- Reviews sehen die SchwȨchen des Ver- fahrens insbesondere darin, dass erstens mehrere Gutachter selten in der Be- wertung ein und derselben wissen- schaftlichen Arbeit ɒbereinstimmen (Problem der Ƞbereinstimmungsrelia- bilitȨt) und dass zweitens Empfehlun- gen und Entscheidungen im Peer-Re- view systematische Urteilsverzerrungen – „Biases“ – aufweisen, sodass der Zu- sammenhang zwischen der Publikati- onsentscheidung und dem Impact der begutachteten Arbeit nach der Publi- kation gering sei (Problem der Vorher- sagevaliditȨt). [3, 4] Die Peer-Review-Forschung, die sich in den letzten Jahren mit der Kritik am Verfahren beschȨftigt hat, bezieht sich zum grɆßten Teil auf das Peer-Re- view bei Zeitschriften, [5–8] etwas seltener auf das Peer-Review bei Forschungs- und StipendienantrȨgen. [9–11] Fɒr God- lee und Jefferson „the biggest surprise is how little we know about its workings. For a system that demands ever increa- sing rigor and levels of proof from scientists, it remains itself remarkably untouched by the rigors of science“. [12] Viele Peer-Review-Studien weisen me- thodische SchwȨchen auf und „most of the publications on journal peer review are more opinion than research, often the ruminations of a former editor. Likewise, most of the many letters to editors on the topic, the comments of one kind or ano- ther are predominantly opinion“. [13] In der vorliegenden Studie wird ge- prɒft, ob die Kritik am Peer-Review- Verfahren bei einer Zeitschrift, die wis- senschaftliche Originalartikel publiziert, gerechtfertigt ist. Daniel [14] hatte mit der Studie „Guardians of science“ das Peer- Review der Zeitschrift Angewandte Chemie Mitte der 1980er Jahre evalu- iert. Mit einem optimierten Studien- design und modernen Verfahren der statistischen Datenanalyse haben wir erneut die Gɒte des Peer-Reviews der Angewandten Chemie nach den Kriteri- en der ȠbereinstimmungsreliabilitȨt und der VorhersagevaliditȨt untersucht. Fɒr die Untersuchung der Reliabili- tȨt haben wir das Ausmaß der Ƞber- einstimmung zwischen den Gutachtern bestimmt. [15] Urteile gelten dann als re- liabel (zuverlȨssig), wenn die Empfeh- lungen mehrerer unabhȨngiger Gut- achter ɒber ein und dasselbe Manu- skript ɒbereinstimmen. [16] Fɒr die Ƞberprɒfung der Vorhersa- gevaliditȨt des Peer-Reviews werden in den Studien zur Manuskriptbegutach- tung – aus Mangel an anderen operatio- nalisierbaren Indikatoren – ZitierhȨu- figkeiten von angenommenen und abge- lehnten, jedoch andernorts publizierten Zeitschriftenartikeln verwendet. [17] Nach van Raan geben Zitierungen „a good to even very good quantitative impression of at least one important aspect of quality, namely international impact“. [18] Nach Lindsey sind Zitierungen „our most reli- able convenient measure of quality in science—a measure that will continue to be widely used“. [19] Wissenschaftliche Urteile ɒber die Publikationswɒrdigkeit von Zeitschriftenmanuskripten gelten dann als prȨdiktiv valide, wenn sich die ZitierhȨufigkeiten von angenommenen und abgelehnten, jedoch andernorts pu- blizierten Manuskripten statistisch signi- fikant unterscheiden. [14] 2. Methode Die Angewandte Chemie ist Eigen- tum der Gesellschaft Deutscher Che- miker (GDCh, Frankfurt am Main) und wird von ihr beim Verlag Wiley-VCH (Weinheim) herausgegeben. Eine „Zu- schrift“ (Communication, Letter), die bei der Zeitschrift eingereicht wird, wird in der Regel einer internen und einer externen Begutachtung unterzogen. [*] Dr. L. Bornmann, Prof. Dr. H.-D. Daniel ETH Zɒrich, Professur fɒr Sozialpsycholo- gie und Hochschulforschung ZȨhringerstraße 24, 8092 Zɒrich (Schweiz) Fax: (+ 41) 44-632-12-83 E-Mail: [email protected] Prof. Dr. H.-D. Daniel UniversitȨt Zɒrich Leiter der Evaluationsstelle Mɒhlegasse 21, 8001 Zɒrich (Schweiz) Fax: (+ 41) 44-634-43-79 E-Mail: [email protected] Hintergrundinformationen zu diesem Bei- trag sind im WWW unter http://dx.doi.org/ 10.1002/ange.200800513 zu finden. Angewandte Chemie 7285 Angew. Chem. 2008, 120, 7285 – 7290 # 2008 Wiley-VCH Verlag GmbH & Co. KGaA, Weinheim

Die Effektivität des Peer-Review-Verfahrens: Übereinstimmungsreliabilität und Vorhersagevalidität der Manuskriptbegutachtung bei der Angewandten Chemie

Embed Size (px)

Citation preview

Page 1: Die Effektivität des Peer-Review-Verfahrens: Übereinstimmungsreliabilität und Vorhersagevalidität der Manuskriptbegutachtung bei der Angewandten Chemie

Peer-ReviewDOI: 10.1002/ange.200800513

Die Effektivitt des Peer-Review-Verfahrens:�bereinstimmungsreliabilitt und Vorhersagevalidittder Manuskriptbegutachtung bei der AngewandtenChemieLutz Bornmann* und Hans-Dieter Daniel*

Manuskriptbegutachtung · Peer-Review ·"bereinstimmungsreliabilit%t · Vorhersagevalidit%t

1. Einleitung

In der modernen Wissenschaft istdas Peer-Review zum wichtigsten Be-wertungsverfahren avanciert.[1] F�r dieBef�rworter des Verfahrens ist es un-verzichtbar, weil nur aktive Wissen-schaftler aus demselben Forschungsge-biet – die „Peers“ – in der Lage seien,die Forschung ihrer Fachkollegen aufihre wissenschaftliche G�te hin zu�berpr�fen.[2] Die Kritiker des Peer-Reviews sehen die Schw.chen des Ver-fahrens insbesondere darin, dass erstensmehrere Gutachter selten in der Be-wertung ein und derselben wissen-schaftlichen Arbeit �bereinstimmen(Problem der 1bereinstimmungsrelia-bilit.t) und dass zweitens Empfehlun-gen und Entscheidungen im Peer-Re-view systematische Urteilsverzerrungen– „Biases“ – aufweisen, sodass der Zu-sammenhang zwischen der Publikati-onsentscheidung und dem Impact derbegutachteten Arbeit nach der Publi-

kation gering sei (Problem der Vorher-sagevalidit.t).[3,4]

Die Peer-Review-Forschung, diesich in den letzten Jahren mit der Kritikam Verfahren besch.ftigt hat, beziehtsich zum gr:ßten Teil auf das Peer-Re-view bei Zeitschriften,[5–8] etwas seltenerauf das Peer-Review bei Forschungs-und Stipendienantr.gen.[9–11] F�r God-lee und Jefferson „the biggest surprise ishow little we know about its workings.For a system that demands ever increa-sing rigor and levels of proof fromscientists, it remains itself remarkablyuntouched by the rigors of science“.[12]

Viele Peer-Review-Studien weisen me-thodische Schw.chen auf und „most ofthe publications on journal peer revieware more opinion than research, often theruminations of a former editor. Likewise,most of the many letters to editors on thetopic, the comments of one kind or ano-ther are predominantly opinion“.[13]

In der vorliegenden Studie wird ge-pr�ft, ob die Kritik am Peer-Review-Verfahren bei einer Zeitschrift, die wis-senschaftliche Originalartikel publiziert,gerechtfertigt ist. Daniel[14] hatte mit derStudie „Guardians of science“ das Peer-Review der Zeitschrift AngewandteChemie Mitte der 1980er Jahre evalu-iert. Mit einem optimierten Studien-design und modernen Verfahren derstatistischen Datenanalyse haben wirerneut die G�te des Peer-Reviews derAngewandten Chemie nach den Kriteri-en der 1bereinstimmungsreliabilit.tund der Vorhersagevalidit.t untersucht.

F�r die Untersuchung der Reliabili-t.t haben wir das Ausmaß der 1ber-einstimmung zwischen den Gutachtern

bestimmt.[15] Urteile gelten dann als re-liabel (zuverl.ssig), wenn die Empfeh-lungen mehrerer unabh.ngiger Gut-achter �ber ein und dasselbe Manu-skript �bereinstimmen.[16]

F�r die 1berpr�fung der Vorhersa-gevalidit.t des Peer-Reviews werden inden Studien zur Manuskriptbegutach-tung – aus Mangel an anderen operatio-nalisierbaren Indikatoren – Zitierh.u-figkeiten von angenommenen und abge-lehnten, jedoch andernorts publiziertenZeitschriftenartikeln verwendet.[17] Nachvan Raan geben Zitierungen „a good toeven very good quantitative impression ofat least one important aspect of quality,namely international impact“.[18] NachLindsey sind Zitierungen „our most reli-able convenient measure of quality inscience—a measure that will continue tobe widely used“.[19] WissenschaftlicheUrteile �ber die Publikationsw�rdigkeitvon Zeitschriftenmanuskripten geltendann als pr.diktiv valide, wenn sich dieZitierh.ufigkeiten von angenommenenund abgelehnten, jedoch andernorts pu-blizierten Manuskripten statistisch signi-fikant unterscheiden.[14]

2. Methode

Die Angewandte Chemie ist Eigen-tum der Gesellschaft Deutscher Che-miker (GDCh, Frankfurt am Main) undwird von ihr beim Verlag Wiley-VCH(Weinheim) herausgegeben. Eine „Zu-schrift“ (Communication, Letter), diebei der Zeitschrift eingereicht wird, wirdin der Regel einer internen und einerexternen Begutachtung unterzogen.

[*] Dr. L. Bornmann, Prof. Dr. H.-D. DanielETH Z4rich, Professur f4r Sozialpsycholo-gie und HochschulforschungZ%hringerstraße 24, 8092 Z4rich (Schweiz)Fax: (+41)44-632-12-83E-Mail: [email protected]

Prof. Dr. H.-D. DanielUniversit%t Z4richLeiter der EvaluationsstelleM4hlegasse 21, 8001 Z4rich (Schweiz)Fax: (+41)44-634-43-79E-Mail: [email protected]

Hintergrundinformationen zu diesem Bei-trag sind im WWW unter http://dx.doi.org/10.1002/ange.200800513 zu finden.

AngewandteChemie

7285Angew. Chem. 2008, 120, 7285 – 7290 2008 Wiley-VCH Verlag GmbH & Co. KGaA, Weinheim

Page 2: Die Effektivität des Peer-Review-Verfahrens: Übereinstimmungsreliabilität und Vorhersagevalidität der Manuskriptbegutachtung bei der Angewandten Chemie

Zun.chst pr�ft ein Redakteur, inwie-weit eine Zuschrift f�r die Entwicklungeines Teilgebietes der Chemie von gro-ßer Bedeutung ist (interne Begutach-tung). Wenn diese Bedeutung nachAnsicht des Redakteurs gegeben ist,wird die Zuschrift an mehrere (in derRegel drei)[20] unabh.ngige, externeGutachter mit der Bitte gesandt, eineBeurteilung auf einem Evaluationsbo-gen (auf dem unter anderem die Fragesteht: „Do you recommend acceptanceof the Communication?“) vorzunehmenund diese auf einem Kommentarblatt zubegr�nden. Liegen die Beurteilungendem Redakteur vor, entscheidet er aufihrer Grundlage �ber die Annahmeoder Ablehnung einer Zuschrift.[21]

Der 1berpr�fung des Peer-Reviewsder Angewandten Chemie liegen Infor-mationen zu insgesamt 1899 Zuschriftenzugrunde, die im Jahr 2000 begutachtetwurden. Die Informationen wurdendem Archivmaterial der Zeitschriftentnommen, das im Verlagshaus derAngewandten Chemie elektronisch er-fasst wurde. Mit den Zuschriften ausdem Jahr 2000 ist f�r die Studie eineetwas „.ltere“ Manuskriptkohorte alsDatengrundlage ausgew.hlt worden, daf�r die 1berpr�fung der Vorhersageva-lidit.t ein Zeitraum von mehreren Jah-ren zwischen der Begutachtung einerZuschrift und der Messung des Indika-tors f�r wissenschaftliche Qualit.t (hier:Zitierungen) liegen sollte.[22] Die 1899Zuschriften haben neben der internenBegutachtung durch die Redakteureinsgesamt 4593 externe Gutachten aufeinem Evaluationsbogen und/oderKommentarblatt erhalten. Im Durch-schnitt liegen demnach f�r eine Zu-schrift 2.4 externe Gutachten vor. Aufder Grundlage dieser Gutachten sindvon den 1899 Zuschriften 46% (n = 878)f�r die Publikation in der AngewandtenChemie angenommen und 54% (n =

1021) abgelehnt worden.

3. Ergebnisse

3.1. �bereinstimmungsreliabilit�t desPeer-Reviews3.1.1. �bereinstimmung zwischen den Emp-fehlungen der Gutachter

In Tabelle 1 sind Kappa-Koeffizien-ten zum Ausmaß der 1bereinstimmung

zwischen zwei oder mehr Gutachtern jeZuschrift bei der Antwort auf die Frage„Do you recommend acceptance of theCommunication?“ dargestellt (Ant-wortvorgaben: „Yes, without alterati-ons“, „Yes, after minor alterations“,„Yes, but only after major alterations“und „No“). Kappa (k) ist ein statisti-sches Maß f�r die H:he der 1berein-stimmung zwischen zwei oder mehrGutachtern.[23] k hat den Wert 1, wenndie Antworten der Gutachter vollst.n-dig �bereinstimmen; ist der Wert dage-gen nahe 0, ist das beobachtete nicht vielgr:ßer als das zu erwartende (d.h. daszuf.llige) Ausmaß der 1bereinstim-mung. „Multiplied by 100, k indicates thepercentage by which two raters) agree-ment exceeds the agreement that could beexpected from chance“.[23] Wie Tabelle 1zeigt, liegen f�r das Peer-Review derAngewandten Chemie die Kappa-Koef-fizienten je nach k-Statistik (gewichtet

oder ungewichtet) und Anzahl derGutachter, die eine Zuschrift beurteilthaben (zwischen zwei und f�nf), imBereich von 0.10 bis 0.21. Mit anderenWorten: Es werden von den Gutachtern10 bis 21% mehr Manuskripte �berein-stimmend beurteilt als rein zuf.llig�bereinstimmend beurteilt werdenw�rden. Obwohl unterschiedliche k-Statistiken berechnet wurden und dieAntworten einer unterschiedlich großenAnzahl an Gutachtern je Zuschrift indie Analyse eingingen, unterscheidensich die ermittelten Werte kaum.[24]

Gemessen an den Richtwerten f�r dieInterpretation von k[23] deutet die H:heder Koeffizienten in Tabelle 1 alles inallem auf ein geringes Ausmaß an1bereinstimmung zwischen den Gut-achterempfehlungen hin. Mit diesemBefund k:nnen wir das Ergebnis vonDaniel[25] zum Peer-Review der Ange-wandten Chemie Mitte der 1980er Jahre

Tabelle 1: "bereinstimmung zwischen Gutachtern bei der Antwort auf die Frage: „Do you re-commend acceptance of the Communication?“[a,b]

Anzahl Gutachterje Zuschrift

AnzahlgemeinsambegutachteterZuschriften

Beobachtete"berein-stimmung [%]

Erwartete"berein-stimmung [%]

k[c] Konfidenz-intervall[d]

Zwei Gutachter 952 41.8 31.8 0.15u[e] 0.10–0.19952 69.1 61.2 0.21g [e] 0.16–0.25

Drei Gutachter 535 0.10u[e] 0.07–0.14Zwischen zwei undf4nf Gutachter

1507 0.12u[f ] 0.09–0.15

[a] Antwortvorgaben: „Yes, without alterations“, „Yes, after minor alterations“, „Yes, but only aftermajor alterations“ und „No“. [b] In die statistische Analyse der "bereinstimmung zwischen denGutachtern der Angewandten Chemie konnten 1507 von insgesamt 1899 Zuschriften einbezogenwerden: Von insgesamt 4593 externen Gutachten liegen 3023 mit einem Evaluationsbogen vor, aufdem die Frage „Do you recommend acceptance of the Communication?“ vom externen Gutachtermit „Yes, without alterations“, „Yes, after minor alterations“, „Yes, but only after major alterations“oder „No“ beantwortet wurde. Diese 3023 Gutachten beziehen sich auf 1840 Zuschriften. Da f4rdie Pr4fung der Gutachter4bereinstimmung mindestens zwei Gutachten je Zuschrift vorliegenm4ssen, konnten 952 Zuschriften mit jeweils zwei Gutachten, 535 Zuschriften mit jeweils dreiGutachten, 19 Zuschriften mit jeweils vier Gutachten und eine Zuschrift mit f4nf Gutachten in dieAnalyse einbezogen werden (zu 333 Zuschriften liegt jeweils nur ein Gutachten vor). Neben demKappa-Koeffizienten f4r Zuschriften mit jeweils zwei bis f4nf Gutachten (n =1507) sind Koeffizi-enten f4r Zuschriften mit jeweils zwei (n =952) oder drei (n =535) Gutachten berechnet worden.F4r Zuschriften, bei denen jeweils vier oder f4nf Gutachten vorliegen, sind diese Koeffizienten nichtseparat berechnet worden, da mit 19 Zuschriften (vier Gutachten) und einer Zuschrift (f4nf Gut-achten) die Fallzahlen zu gering sind. In der Tabelle werden ungewichtete (u) und gewichtete (g) kdargestellt. Beim gewichteten k wird gegen4ber dem ungewichteten k zus%tzlich ber4cksichtigt,dass eine nicht vorhandene "bereinstimmung bei den Antworten von zwei Gutachtern unter-schiedlich deutlich ausgepr%gt sein kann. So wurde in der Analyse eine Gewichtung von 0.6667 f4rjene Zuschriften verwendet, bei denen die Gutachter in einer „Zwei-Drittel-"bereinstimmung“ sind(d.h. die Gutachter haben bei der Beantwortung der Frage „benachbarte“ Antwortkategorien ge-w%hlt, also z.B. „Yes, without alterations“ und „Yes, after minor alterations“). Eine Gewichtung von0.3333 wurde bei einer „Ein-Drittel-"bereinstimmung“ eingesetzt (z.B. „Yes, without alterations“und „Yes, after major alterations“). Schließlich wurden in der Analyse eine Gewichtung von 0 (d.h.keine Gewichtung) bei vollst%ndig kontr%ren Antworten und eine Gewichtung von 1 bei vollst%n-diger "bereinstimmung verwendet. [c] u=ungewichtet, g=gewichtet. [d] Basierend auf 1000Stichprobentabellen. [e] p<0.05. [f ] Signifikanztest kann nicht berechnet werden.

Essays

7286 www.angewandte.de 2008 Wiley-VCH Verlag GmbH & Co. KGaA, Weinheim Angew. Chem. 2008, 120, 7285 – 7290

Page 3: Die Effektivität des Peer-Review-Verfahrens: Übereinstimmungsreliabilität und Vorhersagevalidität der Manuskriptbegutachtung bei der Angewandten Chemie

best.tigen. Auch die anderen Studien,die die 1bereinstimmungsreliabilit.tgutachterlicher Empfehlungen f�r an-dere Fachzeitschriften untersucht ha-ben, berichten niedrige Kappa-Koeffi-zienten.[8]

3.1.2. �bereinstimmung zwischen den Emp-fehlungen der Gutachter und der Entschei-dung des Redakteurs

In der Manuskriptbegutachtungtrifft der Redakteur seine Entscheidung�ber die Annahme oder Ablehnung ei-ner Zuschrift auf der Grundlage dergutachterlichen Empfehlungen.[26] Fallsdie Empfehlungen der Gutachter �berein und dieselbe Zuschrift �bereinstim-men, kann der Redakteur im Sinnebeider Gutachter entscheiden. Doch wieentscheidet ein Redakteur, wenn vonden Gutachtern unterschiedliche Emp-fehlungen zu einem Manuskript vorlie-gen (wie z.B. „Yes, after minor altera-tions“ und „No“)? F�r die Beantwor-tung dieser Frage haben wir f�r jedeZuschrift aus den Antworten der Gut-achter auf die Frage „Do you recom-mend acceptance of the Communicati-on?“ eine Konfiguration gebildet (z.B.

Gutachter 1: „Yes, without alterations“und Gutachter 2: „Yes, after minor al-terations“) und den Zusammenhangzwischen dieser Antwortkonfigurationund der Entscheidung des Redakteursuntersucht.

Wie die Ergebnisse in Tabelle 2 zei-gen, korrespondieren Antwortkonfigu-rationen, bei denen die Gutachter dieAnnahme einer Zuschrift (mit kleinerenoder gr:ßeren 1berarbeitungsauflagen)empfehlen, mit der Entscheidung zurAnnahme; bei den abgelehnten Zu-schriften ist es genau umgekehrt. Ent-sprechend weist die Teststatistik hin-sichtlich der Antwortkonfigurationender Gutachter auf einen h:chst signifi-kanten Unterschied zwischen den An-nahme- und Ablehnungsentscheidun-gen hin (siehe Tabelle 2). Es kanndemnach als statistisch abgesichert gel-ten, dass eine Zuschrift in der Regeldann vom Redakteur angenommenwird, wenn zuvor beide Gutachter(Gutachter 1 und Gutachter 2) eineAnnahme empfohlen haben.

3.2. Vorhersagevalidit�t des Peer-Reviews

In den Hintergrundinformationenzu diesem Essay berichten wir ausf�hr-lich dar�ber, in welchen Fachzeitschrif-ten die von der Angewandten Chemieabgelehnten Zuschriften publiziertwurden und wie groß die Ver.nderun-gen waren, die die Autoren an den beider Angewandten Chemie abgelehntenZuschriften f�r die Publikation andern-orts vorgenommen haben. In der vor-liegenden Arbeit werden wir uns imFolgenden anhand von mittleren Zi-tierh.ufigkeiten f�r angenommene undabgelehnte, jedoch andernorts erschie-nenen Zuschriften sowie anhand von„Journal Impact Factors“ (JIFs) derZeitschriften, in denen die abgelehntenZuschriften erschienen sind, mit derVorhersagevalidit.t des Peer-Reviewsder Angewandten Chemie besch.ftigen.JIFs werden von Thomson Reuters(Philadelphia, PA, USA) in den JournalCitation Reports (JCR) ver:ffentlichtund geben die „mittlere“ Resonanz an,die ein Artikel in einer Zeitschrift in derFachwelt erhalten hat.[27] Ein JIF, dervon Thomson Reuters f�r eine Zeit-schrift j.hrlich ver:ffentlicht wird, ist

Tabelle 2: Annahme und Ablehnung einer Zuschrift aufgeschl4sselt nach der Antwortkonfiguration von zwei Gutachtern auf die Frage: „Do yourecommend acceptance of the Communication?“[a,b]

Antwortkonfiguration von zwei Gutachtern Anzahl Zuschriften Annahme (n =302) Ablehnung (n =416)

„Yes, without alterations“ – „Yes, without alterations“ 15 +100.0 �.0„Yes, without alterations“ – „Yes, after minor alterations“ 96 +100.0 �.0„Yes, after minor alterations“ – „Yes, after minor alterations“ 100 +98.0 �2.0„Yes, after minor alterations“ – „Yes, but only after major alterations“ 44 +97.7 �2.3„Yes, without alterations“ – „Yes, but only after major alterations“ 18 +94.4 �5.6„Yes, but only after major alterations“ – „Yes, but only after major alterations“ 9 44.4 55.6„Yes, without alterations“ – „No“ 24 37.5 62.5„Yes, after minor alterations“ – „No“ 73 �24.7 75.3„Yes, but only after major alterations“ – „No“ 91 �2.2 +97.8„No“ – „No“ 248 �.0 +100.0Gesamt 718 42.1 57.9

[a] Antwortvorgaben: „Yes, without alterations“, „Yes, after minor alterations“, „Yes, but only after major alterations“ und „No“ (Zeilenprozente,absteigend sortiert nach den Prozentwerten in der Spalte „Annahme“). [b] In diese Analyse konnten 718 von insgesamt 1899 Zuschriften einbezogenwerden: Um in der statistischen Analyse zu pr4fen, ob die Entscheidung eines Redakteurs auf den Empfehlungen der Gutachter beruht, ist esnotwendig, dass bei allen Gutachten, die zu einer Zuschrift vorliegen, der Gutachter die Frage „Do you recommend acceptance of the Communi-cation?“ beantwortet hat. Im Unterschied zu Tabelle 1 gingen in die vorliegende statistische Analyse keine Manuskripte ein, bei denen ein Ober-gutachter in die Manuskriptbegutachtung einbezogen wurde bzw. ein 4berarbeitetes Manuskript oder ein Einspruch, den ein Autor gegen dieAblehnung seines Manuskriptes eingelegt hatte, Gegenstand der gutachterlichen Stellungnahme war. Von den 1069 Zuschriften, bei denen dieseBedingungen erf4llt sind, liegen f4r 718 Zuschriften jeweils zwei Gutachten, f4r 241 Zuschriften jeweils drei und f4r sieben Zuschriften jeweils vierGutachten vor (bei 103 Zuschriften gibt es jeweils nur ein Gutachten). Da eine statistische Analyse, in die eine Antwortkonfiguration mit drei (n =241)bzw. vier (n =7) Gutachten pro Zuschrift eingeht, aufgrund der geringen Fallzahlen und der großen Anzahl mPglicher Konfigurationen nicht ratsam ist,wurde die Analyse mit 718 Zuschriften, f4r die jeweils zwei Gutachten vorliegen, durchgef4hrt. Bei dieser Teilgruppe f%llt die "bereinstimmungzwischen den Empfehlungen der Gutachter mit Kappa-Koeffizienten von 0.27 (ungewichtetes k) und 0.43 (gewichtetes k) hPher aus als in derGesamtgruppe (siehe Tabelle 1). Im Hinblick auf die Antwortkonfigurationen ist der Unterschied zwischen den Entscheidungen zur Annahme oderAblehnung statistisch signifikant; c2-Test: c2 (9, n =718) = 606.2, p<0.0001. Zellen mit standardisierten Residuen grPßer 2 (bzw. kleiner�2) sind inder Tabelle fett gedruckt. Residuen sind ein Maß daf4r, wie stark beobachtete und erwartete H%ufigkeiten voneinander abweichen.

AngewandteChemie

7287Angew. Chem. 2008, 120, 7285 – 7290 2008 Wiley-VCH Verlag GmbH & Co. KGaA, Weinheim www.angewandte.de

Page 4: Die Effektivität des Peer-Review-Verfahrens: Übereinstimmungsreliabilität und Vorhersagevalidität der Manuskriptbegutachtung bei der Angewandten Chemie

ein Quotient aus Zitierungen und zi-tierbaren Publikationen: Zur Bestim-mung des JIFs werden die Artikel einerZeitschrift jeweils aus einem Zeitfenstervon zwei Jahren herangezogen und de-ren Zitierungen innerhalb des darauffolgenden Jahres ermittelt. Die Anzahlder Zitierungen wird dann durch dieAnzahl der zitierbaren Publikationen(d.h. bei der Angewandten Chemie imWesentlichen Zuschriften und wenige1bersichtsartikel) in den beiden voran-gegangenen Jahren dividiert.[28]

Von den insgesamt 1021 bei der An-gewandten Chemie abgelehnten Zu-schriften sind nach den Ergebnissen einerRecherche in zwei Literaturdatenbanken959 als Zeitschriftenbeitrag (93.9%), sie-ben als Patent und zwei als Beitrag in ei-nem Sammelband erschienen. Zu 53 ab-gelehnten Zuschriften (5.2%) konntekeine Publikation ermittelt werden. Die959 Zuschriften, die in einer anderenZeitschrift erschienen sind, wurden in 136Zeitschriften publiziert. Jeweils 50 odermehr abgelehnte Zuschriften haben dieZeitschriften Chemical Communications(n=119), Organic Letters (n=91), Jour-nal of the American Chemical Society (n=

70), Tetrahedron Letters (n=60) und Or-ganometallics (n=50) ver:ffentlicht. Anetwa drei Viertel der abgelehnten Zu-schriften sind keine oder nur geringf�gigeVer.nderungen f�r die Publikation an-dernorts vorgenommen worden. Die ab-gelehnten Zuschriften sind in einer Zeit-spanne von sieben Jahren (d.h. zwischenden Jahren 2000 und 2006) von anderenZeitschriften publiziert worden.

Nach den Angaben in den JCR f�rdas Jahr 2006 variieren die JIFs dieserZeitschriften zwischen einem Wertkleiner als 1 (z.B. Chimia und Chinese

Chemical Letters) und einem Wert von9.96 (Nano Letters). Gemessen an denJIFs sind die Annahme- und Ableh-nungsentscheidungen der Redakteureder Angewandten Chemie hoch valide.Keine der insgesamt 956 abgelehntenZuschriften ist in einer Zeitschrift er-schienen, die einen h:heren JIFaufweistals die Angewandte Chemie (JIF 2006=

10.23);[*] alle abgelehnten Zuschriftensind in einer Zeitschrift mit einemniedrigeren JIF publiziert worden (mitAusnahme von 16 abgelehnten Zu-schriften, die nach einer erneuten Ein-reichung in der Angewandten Chemieerschienen sind). Dasselbe Ergebniszeigte sich bereits bei Daniel[14] zu denim Jahr 1984 bei der AngewandtenChemie abgelehnten Zuschriften. DieseBefunde best.tigen die allgemeine Be-obachtung von Cronin und McKenzie,dass Manuskripte, die von angesehenenZeitschriften mit einem hohen JIF ab-gelehnt werden, in der Regel bei Zeit-schriften mit einem niedrigeren JIFeingereicht (und publiziert) werden: „Itis widely recognised that there is an in-formal journal pecking order in almostevery discipline, and that a manuscriptrejected by a high-ranking journal willoften be re-submitted to one of lesserrepute“.[29]

Der JIF stellt ein nur sehr grobesMaß f�r die Bestimmung der Vorhersa-gevalidit.t dar, weil alle Beitr.ge in ei-ner Zeitschrift durch einen Durch-schnittswert charakterisiert werden.[30]

Sehr h.ufig zitierte Beitr.ge werdendadurch unterbewertet, nicht oder kaumzitierte dagegen �berbewertet.[14] Des-halb haben wir �ber die JIFs hinaus er-mittelt, wie h.ufig die angenommenenund abgelehnten, jedoch andernorts er-schienenen Zuschriften nach ihrer Ver-:ffentlichung bis Ende 2006 zitiert wur-den. Die Zitierh.ufigkeiten f�r die ein-zelnen Zuschriften wurden in der Lite-raturdatenbank Scopus recherchiert.[31]

Scopus ist eine neue, fach�bergreifendeDatenbank der Firma Elsevier (Ams-terdam, Niederlande), die �ber 33 Mil-lionen Abstracts und Quellenangabenvon etwa 15000 Zeitschriftentiteln ent-h.lt, die von mehr als 4000 Verlagenherausgegeben werden. Sie gilt als der-zeit gr:ßte multidisziplin.re Datenbankf�r wissenschaftliche Literatur.[32] Nachden Ergebnissen von Norris und Op-penheim[33] kann Scopus als eine

gleichwertige Alternative zu Web ofScience (WoS) von Thomson Reutersangesehen werden.

Wie die Ergebnisse f�r die Publika-tionsjahre 2000 und 2001 in Abbildung 1zeigen, sind die angenommenen Zu-schriften deutlich h.ufiger zitiert wor-den als die abgelehnten (ein .hnlichesErgebnis zeigte sich bei der Analyse vonZitierungen, die im Science CitationIndex (SCI, Thomson Reuters) und inder Datenbank Chemical Abstracts(Chemical Abstracts Services, Colum-bus, OH, USA) recherchiert wurden).[34]

F�r die Publikationsjahre 2002 bis 2006konnte dieser Vergleich nicht durchge-f�hrt werden, da nach 2001 nur abge-lehnte und andernorts publizierte, je-doch keine angenommenen Zuschriften(die im Jahr 2000 begutachtet wurden)in der Angewandten Chemie erschienensind (die Publikationsfristen bei derAngewandten Chemie sind vergleichs-weise kurz). Die Mittelwertsunterschie-de zwischen den Zitierh.ufigkeiten sindstatistisch signifikant (siehe Abbil-dung 1). Dieses Ergebnis korrespon-diert mit dem Befund, dass die abge-lehnten Manuskripte in Zeitschriftenmit einem niedrigeren JIF erschienensind (siehe oben). Da sich – wie dasErgebnis der Zitationsanalyse verdeut-licht – die Zitierh.ufigkeiten der ange-nommenen und abgelehnten Zuschrif-ten statistisch signifikant unterscheiden,best.tigen die Befunde der Zitations-analyse die Vorhersagevalidit.t desPeer-Review-Verfahrens der Ange-wandten Chemie.

4. Diskussion

Vor dem Hintergrund der Kritik amPeer-Review-Verfahren ist in der vor-liegenden Studie das Peer-Review derAngewandten Chemie nach den Kriteri-en der 1bereinstimmungsreliabilit.tund der Vorhersagevalidit.t untersuchtworden. Im Hinblick auf die Reliabilit.tdes Peer-Reviews deutet die H:he derKappa-Koeffizienten (zwischen 0.10und 0.21) auf ein geringes Ausmaß der1bereinstimmung zwischen den Emp-fehlungen der Gutachter zu einer Zu-schrift hin. 1ber ein .hnliches Ergebniszum Peer-Review der AngewandtenChemie berichtete bereits Daniel.[25]

[*] Legen wir die JIFs zugrunde, die vonThomson Reuters in den JCR f4r die Jahre2000 und 2001 verPffentlicht wurden (d.h.f4r die Jahre, in denen die meisten der ab-gelehnten Manuskripte andernorts publi-ziert wurden), ist insgesamt nur ein abge-lehntes Manuskript in einer Zeitschrift miteinem hPheren JIF erschienen, n%mlich inProceedings of the National Academy ofSciences of the United States of America(PNAS) (JIF 2000 = 10.79; JIF 2001 =10.90). Die damaligen JIFs der AngewandtenChemie betrugen 8.55 f4r das Jahr 2000 und8.26 f4r das Jahr 2001. In den JCR f4r dasJahr 2006 hat die Angewandte Chemie (JIF2006 = 10.23) einen hPheren JIF als PNAS(JIF 2006 = 9.64).

Essays

7288 www.angewandte.de 2008 Wiley-VCH Verlag GmbH & Co. KGaA, Weinheim Angew. Chem. 2008, 120, 7285 – 7290

Page 5: Die Effektivität des Peer-Review-Verfahrens: Übereinstimmungsreliabilität und Vorhersagevalidität der Manuskriptbegutachtung bei der Angewandten Chemie

Obwohl eine hohe 1bereinstim-mung bei Bewertungen generell alsw�nschenswert angesehen wird, wird sieim Hinblick auf das Peer-Review voneinigen Wissenschaftlern, wie z.B. Bai-lar, als nachteilig f�r den Begutach-tungsprozess beurteilt: „Too muchagreement is in fact a sign that the reviewprocess is not working well, that review-ers are not properly selected for diversity,and that some are redundant“.[35] Durchdie Auswahl von Gutachtern nach demKomplementarit.tsprinzip (z.B. Aus-wahl eines Generalisten und eines Spe-zialisten) werde zwar die 1bereinstim-mungsreliabilit.t verringert; davonk:nne aber nach Langfeldt die Validit.tdes Verfahrens profitieren: „Low inter-reviewer agreement on a peer panel is noindication of low validity or low legiti-macy of the assessments. In fact, it mayindicate that the panel is highly compe-tent because it represents a wide sampleof the various views on what is good andvaluable research“.[36] UnterschiedlicheEmpfehlungen bei der Begutachtungseien nicht unbedingt ein Zeichen f�rUneinigkeit, sondern w�rden sich durchunterschiedliche paradigmatische Posi-tionen („Schulen“), Herangehensweisenund Mentalit.ten der Gutachter erkl.-ren lassen.[37] Auch k:nnen Gutachter

eher streng oder mild urteilen;[38] sierichten – nach Eckberg – ihre Auf-merksamkeit auf „different points, andmay draw different conclusions about,worth1“.[39]

Die Recherche nach dem Schicksalder bei der Angewandten Chemie abge-lehnten Zuschriften hat gezeigt, dass bisauf wenige Ausnahmen alle Zuschriftenandernorts publiziert wurden. Die an-dernorts ver:ffentlichten Zuschriftenerschienen immer in Zeitschriften, dieeinen niedrigeren JIF als die Ange-wandte Chemie aufweisen. Die Zitati-onsanalyse hat gezeigt, dass angenom-mene Zuschriften im Durchschnitt sta-tistisch signifikant h.ufiger zitiert wer-den als abgelehnte, jedoch andernortspublizierte Zuschriften. Beide Befundebest.tigen die Vorhersagevalidit.t desPeer-Reviews der Angewandten Che-mie. 1ber ein .hnliches Ergebnis habenbislang nicht nur Daniel[14] f�r die An-gewandte Chemie, sondern auch Lock,[40]

Wilson[41] sowie Opthof, Furstner, vanGeer und Coronel[42] f�r das BritishMedical Journal, das Journal of ClinicalInvestigation und f�r die ZeitschriftCardiovascular Research berichtet.

Obwohl das Peer-Review der Ange-wandten Chemie seit Mitte der 1980erJahre (d.h. seit der Studie vonDaniel)[14]

unter deutlich ver.nderten Rahmenbe-dingungen stattfindet (wie z.B. einerdrastischen Zunahme der eingereichtenZuschriften und einem deutlichenR�ckgang der Annahmequote), belegendie Ergebnisse der vorliegenden Studiezur 1bereinstimmungsreliabilit.t undVorhersagevalidit.t die nach wie vorhohe G�te des Peer-Reviews der Ange-wandten Chemie.

Wir m4chten uns bei Dr. ChristopheWeymuth (vormals am organisch-che-mischen Institut der Universit7t Z9rich,derzeitig bei der BIOSYNTH AG in derSchweiz t7tig) f9r die Recherche nachden bei der Angewandten Chemie abge-lehnten und andernorts publiziertenManuskripten bedanken. Ferner dankenwir Dr. Andras Schubert (HungarianAcademy of Sciences) f9r die Bereitstel-lung von Journal Impact Factors, die vonThomson Reuters in den Journal Citati-on Reports f9r die Jahre 2000 und 2001ver4ffentlicht wurden, f9r die Ange-wandte Chemie und f9r die Zeitschriften,in denen abgelehnte, jedoch andernortspublizierte Manuskripte erschienen sind.Wir danken Dr. Peter G4litz, Chefre-dakteur der Angewandten Chemie, demKuratorium der Angewandten Chemieund der Gesellschaft Deutscher Chemi-

Abbildung 1. Box-Plots: Mittlere Zitierh%ufigkeiten (die vertikale Linie in der Mitte der Box gibt den Medianwert an) aufgeschl4sselt nach demPublikationsjahr der angenommenen und abgelehnten, jedoch andernorts publizierten Zuschriften und der Entscheidung des Redakteurs (Ausrei-ßer sind in der Abbildung nicht dargestellt). In die Analyse konnten 1827 von insgesamt 1899 Zuschriften einbezogen werden: 62 der bei derAngewandten Chemie abgelehnten Zuschriften sind – nach unserer Recherche – nicht andernorts publiziert worden. Zu 10 abgelehnten Zuschrif-ten, die andernorts erschienen sind, konnten keine Zitierungen in Scopus recherchiert werden. Der Unterschied zwischen den mittleren Zitierh%u-figkeiten f4r angenommene (Median=23.5) und abgelehnte (Median=15) Manuskripte, die im Jahr 2000 publiziert wurden, ist statistisch signifi-kant; U-Test nach Mann und Whitney: Z(n=778) = �6.29, p<0.0001. Der Unterschied zwischen den mittleren Zitierh%ufigkeiten f4r angenom-mene (Median=22) und abgelehnte (Median=13) Manuskripte, die im Jahr 2001 publiziert wurden, ist statistisch ebenfalls signifikant; U-Testnach Mann und Whitney: Z(n=885) = �7.45, p<0.0001. Nach 2001 wurden nur abgelehnte Zuschriften andernorts verPffentlicht.

AngewandteChemie

7289Angew. Chem. 2008, 120, 7285 – 7290 2008 Wiley-VCH Verlag GmbH & Co. KGaA, Weinheim www.angewandte.de

Page 6: Die Effektivität des Peer-Review-Verfahrens: Übereinstimmungsreliabilität und Vorhersagevalidität der Manuskriptbegutachtung bei der Angewandten Chemie

ker (GDCh) f9r die Erlaubnis, das Gut-achterwesen der Zeitschrift einer Ver-fahrensevaluation unterziehen zu d9rfen,sowie den Mitarbeitern der Redaktionf9r die großz9gig gew7hrte Unterst9t-zung w7hrend der Durchf9hrung derStudie. Die Gesamtstudie, in der auch dieQualit7tssicherung bei Open-Access-Zeitschriften untersucht wird, wird vonder Max-Planck-Gesellschaft unterst9tzt.Die Autoren m4chten sich bei drei an-onymen Gutachtern f9r ihre wertvollenKommentare bedanken.

Eingegangen am 31. Januar 2008,ver.nderte Fassung am 27. M.rz 2008Online ver:ffentlicht am 25. Juli 2008

[1] J. Ziman, Real Science. What it is, andwhat it means, Cambridge UniversityPress, Cambridge, 2000.

[2] M. Eisenhart, Res. Sci. Educ. 2002, 32,241.

[3] P. F. Ross, The Sciences) Self-manage-ment: Manuscript Refereeing, Peer Re-view, and Goals in Sience, The RossCompany, Todd Pond, 1980.

[4] H. J. Eysenck, S. B. G. Eysenck, Pers.Indiv. Differ. 1992, 13, 393.

[5] J. M. Campanario, Sci. Commun. 1998,19, 277.

[6] J. M. Campanario, Sci. Commun. 1998,19, 181.

[7] J. Overbeke, E. Wager in Peer Review inHealth Sciences, 2nd ed. (Hrsg.: F.Godlee, T. Jefferson), BMJ, London,2003, S. 45.

[8] A. C. Weller, Editorial Peer Review: ItsStrengths and Weaknesses, InformationToday, Medford, 2002.

[9] V. Demicheli, C. Pietrantonj in TheCochrane Library, Issue 1, Wiley, Chi-chester, 2004.

[10] S. Wessely, Lancet 1998, 352, 301.[11] L. Bornmann, H.-D. Daniel in Univer-

sit7t auf dem Pr9fstand. Konzepte undBefunde der Hochschulforschung(Hrsg.: S. Schwarz, U. Teichler), Cam-pus, Frankfurt, 2003, S. 211.

[12] Peer Review in Health Sciences, 2nd ed.(Hrsg.: F. Godlee, J. Jefferson), BMJ,London, 2003.

[13] M. F. Stieg Dalton, ARIST 1995, 30, 213.[14] H.-D. Daniel, Guardians of Science.

Fairness and Reliability of Peer Review,Wiley-VCH, Weinheim, 1993/2004. On-line ver:ffentlicht am 16. Juli 2004, Wi-ley Interscience, DOI: 10.1002/3527602208.

[15] D. V. Cicchetti, Behav. Brain Sci. 1991,14, 119.

[16] J. Ziman, Reliable Knowledge: An Ex-ploration of the Grounds for Belief inScience, Cambridge University Press,Cambridge, 1991.

[17] H.-D. Daniel, Learn. Publ. 2005, 18, 143.[18] A. F. J. van Raan, Scientometrics 1996,

36, 397.[19] D. Lindsey, Scientometrics 1989, 15, 189.[20] Anonymous, Chem. Eng. News Peer

Review 2008, 86(6), 48.[21] A. M. Coghill, L. R. Garson, The ACS

Style Guide, 3rd ed., American Chemi-cal Society, Washington, 2006.

[22] H. P. F. Peters, A. F. J. van Raan, J. Am.Soc. Inf. Sci. 1994, 45, 39.

[23] A. von Eye, E. Y. Mun, Analyzing RaterAgreement. Manifest Variable Methods,Lawrence Erlbaum, Mahwah, 2005.

[24] U. W. Jayasinghe, H. W.Marsh, N. Bond,Educ. Eval. Policy. Anal. 2001, 23, 343.

[25] H.-D. Daniel, Angew. Chem. 1993, 105,247; Angew. Chem. Int. Ed. Engl. 1993,32, 234.

[26] V. Bakanic, C. McPhail, R. J. Simon,Am. Sociol. Rev. 1987, 52, 631.

[27] L. Bornmann, L. Leydesdorff, W. Marx,CHIMIA 2007, 61, 104.

[28] W. Marx, H. Schier, Phys. Bl. 2001, 57,25.

[29] B. Cronin, G. McKenzie, J. Doc. 1992,48, 310.

[30] T. Braun, I. DiSspatonyi, S. Zsindely, E.ZTdor, Scientometrics 2007, 71, 541.

[31] J. Bar-Ilan, M. Levene, A. Lin, J. Infor-metrics 2007, 1, 26.

[32] F. de Moya-AnegSn, Z. Chinchilla-RodrUguez, B. Vargas-Quesada, E. Co-rera-Vlvarez, F. MuWoz-FernTndez, A.GonzTlez-Molina, V. Herrero-Solana,Scientometrics 2007, 73, 53.

[33] M. Norris, C. Oppenheim, J. Infor-metrics 2007, 1, 161.

[34] L. Bornmann, H.-D. Daniel, J. Am. Soc.Inf. Sci. Technol. 2008, 59, 830.

[35] J. C. Bailar, Behav. Brain Sci. 1991, 14,137.

[36] L. Langfeldt, Soc. Stud. Sci. 2001, 31,820.

[37] R. N. Kostoff, Scientometrics 1995, 34,163.

[38] S. S. Siegelman, Radiology 1991, 178,637.

[39] D. L. Eckberg, Behav. Brain Sci. 1991,14, 145.

[40] S. Lock, A Difficult Balance: EditorialPeer Review in Medicine, ISI, Philadel-phia, 1985.

[41] J. D. Wilson, J. Clin. Invest. 1978, 61,1697.

[42] T. Opthof, F. Furstner, M. van Geer, R.Coronel, Cardiovasc. Res. 2000, 45, 255.

Essays

7290 www.angewandte.de 2008 Wiley-VCH Verlag GmbH & Co. KGaA, Weinheim Angew. Chem. 2008, 120, 7285 – 7290