Über 100 Forschung zu Eignungsdiagnostik geben wertvolle Hinweise für die Praxis. Das Bild zeigt brennende Kerzen und eine große "100"

Auswahlmethoden: Was funktioniert?

Welche Methoden der Eignungsdiagnostik funktionieren in der Personalauswahl wirklich?  Auf welche Prozesse können sich Führungskräfte und Hiring Manager verlassen? Welche oft auch beliebten Vorgehensweisen sind überflüssig oder sogar schädlich?

Frank L. Schmidt, In-Sue Oh und Jonathan A. Shaffer haben in ihrem Working Paper von 2016 Ergebnisse aus über 100 Jahren Forschung zur Eignungsdiagnostik ausführlich erklärt. Sie zeigen, welche Auswahlmethoden wirklich einen Beitrag zur Personalauswahl leisten.

Auf der Studienseite  von eignungsdiagnostik.info finden Sie die deutsche Übersetzung des vollständigen Working Papers „The validity and Utility of Selection Methods in Personnel Psychology“ aus 2016. Wir danken Frank , In-Sue Oh und Jonathan A. Shaffer ganz herzliche für die Erlaubnis ihr wegweisendes Papier hier in einer deutschen Übersetzung zu veröffentlichen.

An dieser Stelle präsentieren wir Ihnen eine Kurzfassung mit den wesentlichen inhaltlichen Erkenntnissen und ACHUTNG! den häufigsten Missverständnissen zu dieser Meta Analyse.

Das Science-Practitioner Gap

Es wird immer wieder behauptet, dass das Science-Practitioner Gap, also die Lücke zwischen Wissenschaft und Praxis, in keinem Bereich so groß sei wie in HR. Woher diese Lücke wirklich kommt, sei dahingestellt. Vielleicht durch mangelndes Interesse. Vielleicht aber auch durch mangelnden Zugang zu verlässlichen Informationen. Die Konsequenz ist ein von Verfahren und Ratgebern schier überfluteter Markt, der es HR-Verantwortlichne nicht nur schwer macht, den Überblick zu behalten. Es ist ganz besonders schwer, sich für die richtigen Verfahren zu entscheiden.

Die Metaanalyse von 2016, 100 Jahre Forschung zu Eignungsdiagnostik

Dies ist eine Analyse, die in der letzten Zeit mehr und mehr zitiert wird und die handlungsleitende und für jeden, der sich mit Personalauswahl befasst, wichtige Informationen fundiert vermittelt. Sie enthält aber auch Stoff für wichtige und kontroverse Diskussionen. Es geht um das Working Paper, das Schmidt, Oh & Schaffer erstmals 2016 vorgelegt haben:  The Validity and Utility of Selection Methods in Personnel Psychology: Practical and Theoretical Implications of 100 Years of Research Findings.

Zunächst möchten wir uns noch einmal bei Frank Schmidt, In-Sue Oh und Jonathan Shaffer ganz herzlich für die Erlaubnis bedanken, den Volltext auf eignungsdiagnostik.info in unserer deutschen Übersetzung zu veröffentlichen. Das ist wichtig, denn nicht alle deutschen HR-Experten würden ein so umfangreiches Papier auf Englisch lesen. Allen, die sich ernsthaft für Assessment, Interviews und Tests interessieren, fehlt damit aber wirklich etwas. Wir denken daher, dass dies die wertvollen Gedanken und Erkenntnisse für Praktiker zugänglicher macht.

Die Tabelle auf Seite 65: ein Ranking von Verfahren?

Wir haben festgestellt, dass sich die Zitate des Working Papers mit seinem ganzen Reichtum, zumindest in Deutschland oft auf die Interpretation einer einzigen Tabelle auf Seite 65 zu beschränken scheint. Dort ist sie wie eine Art Rangliste der bei der Personalauswahl angewandten Methoden. In Diskussionen in den Foren, sozialen Netzwerken oder auch wenn man mit an Eignungsdiagnostik sehr ernsthaft Interessierten persönlich spricht geht es oft nur um die Ersten Plätze oder letzten Plätze auf dieser Liste.

Dies führt zu Missverständnissen bei der Bewertung einiger der Methoden (z.B. unstrukturierte Interviews), weil die Kommentare der Autoren im Text und in den Fußnoten offensichtlich übersehen oder ignoriert werden. Aus diesem Grund haben wir uns entschlossen, hier eine kurze Zusammenfassung der wesentlichen Erkenntnisse zu geben und mit den erwähnten Fehlinterpretationen aufzuräumen. Die vollständige Übersetzung finden Sie hier.

Missverständnisse

In den letzten Jahrzehnten gab es einige Versuche, die verschiedenen Verfahren in ihrer Wirksamkeit zu vergleichen. Die gleichzeitig umfangreichste und aktuellste Untersuchung ist sicher die Meta-Analyse von Schmidt, Oh und Shaffer aus dem Jahr 2016. (Google scholar) Das 65-seitige Artbeitspapier – wundert sich da noch jemand über das Science-Practioner-Gap? – vergleicht 31 verschiedene Auswahlverfahren mittels einer großen Menge von veröffentlichten Forschungsergebnissen aus den letzten 100 Jahren. Das Paper bietet damit ein Update auf die bereits wegweisenden Publikationen von Schmidt und Hunter aus den Jahren 1998 und 1986. (Google scholar).

Laut Schmidt et al. sind die großen Unterschiede zur letzten Analyse zum einen die Erweiterung der betrachteten Verfahren um neuartigere Methoden, die sich aus der technischen Weiterentwicklung der letzten 25 Jahre zwangsläufig ergeben haben, zum anderen die Optimierung der statistischen Methoden zur Auswertung der betrachteten Einzelstudien. Die Wirksamkeit der Verfahren werde durch die prognostische Validität, also das Ausmaß, in dem Leistungsunterschiede leistungsstarker und weniger leistungsstarker Mitarbeiter durch deren unterschiedlichen Ergebnisse in den einzelnen Auswahl-Verfahren vorhergesagt werden, abgebildet. Daraus wird geschlossen, wie gut ein Verfahren die spätere Leistung vorhersagt.

“Gute oder schlechte Eignungsdiagnostik wirken sich direkt auf das Ergebnis einer Organisation aus.“ Annika van Veen hat einen Meilenstein der Forschung zur Eignungsdiagnostik übersetzt und zusammengefasst Klick um zu Tweeten

Eignungsdiagnostik wirkt direkt auf das Unternehmensergebnis

Da sich Leistungsunterschiede nicht nur in der Zusammenarbeit und der Führung zeigen, sondern auch maßgeblich in den Rentabilitätskennzahlen und damit dem Gesamterfolg eines Unternehmens einfließen, ist der wirtschaftliche Wert eines guten Personalauswahl-Verfahrens entsprechend hoch.

Prognostische Validität

Prognostische Validität klingt zunächst nach einer belastbaren Kennzahl zum Vergleichen von Verfahren. Tatsächlich wäre sie auch eine der besten Möglichkeiten, die Qualität eines Verfahrens einzuschätzen, wenn sie sich so gut messen ließe, wie es zu wünschen wäre. Denn um zu messen, wie gut ein Verfahren die zukünftige Leistung voraussagt, wird neben den Ergebnissen des betreffenden Verfahrens eben auch ein Leistungskriterium benötigt.

Dieses Leistungskriterium ist in manchen Positionen einfacher zu erfassen, z.B. dort, wo konkrete Verkaufszahlen oder Produktivitätswerte vorliegen. In den meisten Positionen wird die Leistung aber ausschließlich durch Vorgesetztenbeurteilungen abgebildet – wobei die Objektivität und Aussagekraft mitunter durchaus auf der Strecke bleiben kann. Außerdem liegen typischerweise nur Mitarbeiterdaten vor. Die Stichproben, auf deren Basis die prognostische Validität bestimmt wird, sind also immer selektiv. Je nach Anzahl der berücksichtigten Studien können diese Einflüsse das Ergebnis einer Meta-Analyse durchaus verfälschen.

Attention to Detail!

Zugegeben, wenn ein langer Artikel eine Tabelle mit den wesentlichsten Daten enthält, kann das schon dazu verleiten, sich weniger intensiv mit den Methoden zu befassen. Das wäre im Fall dieser Meta-Analyse aber irreführend, weil der Text viele spannende Hinweise darauf enthält, wie die Ergebnisse zu interpretieren sind. Die Schmidt, Oh und  Shaffer schreiben deutlich Klartext.

Die Highlights

Es konnte gezeigt werden, dass die Messung kognitiver Fähigkeiten im Ranking der besten Verfahren weiterhin ungeschlagen ist. Natürlich fußt die Analyse der kognitiven Fähigkeiten auf viel mehr Untersuchungen als die der anderen Verfahren. Und natürlich ist auch die wissenschaftliche Fundierung höher für alle die Konstrukte, die in den Tests zur Intelligenz abgebildet werden, als für alle anderen Konstrukte und Messdimensionen. Das Bild ist also für die kognitiven Fähigkeiten genauer als für jedes andere Verfahren.

Die Botschaft ist eindeutig

Intelligenz ist und bleibt der beste Prädiktor für berufliche Leistung, und sollte daher in Auswahl-Prozessen unbedingt berücksichtigt werden. Das können auch die Bedenken, dass wahrscheinlich sehr unterschiedliche Konstrukte zur Analyse der kognitiven Leistung zusammengefasst wurden, nicht trüben.

Da dieser Prädiktor den anderen so haushoch überlegen ist, wurde in der weiteren Analyse von Schmidt, Oh & Shaffer zusätzlich überprüft, welchen Zugewinn die anderen Verfahren zusätzlich zu einem Test der Intelligenz liefern. Das Maß dafür ist die inkrementelle Validität. Sie erklärt, welchen zusätzlichen Anteil an der Vorhersage von Leistungsunterschieden ein weiteres Verfahren zusätzlich zu einem Intelligenztest  noch beitragen kann. Dabei ist wichtig, dass manche Verfahren zwar für sich schon eine gewisse Vorhersagekraft aufweisen, der zusätzliche Nutzen über einen Intelligenztest hinaus aber nur sehr gering ist. Ein gutes Beispiel ist das Assessment Center. Der Zugewinn an Validität gegenüber einem Intelligenztest beträgt hier kaum mehr als 0. Ja so ist es. Das muss schon ein sehr besonderes AC sein, damit sich der ganze Aufwand lohnt. Aus der Perspektive der Vorhersagekraft. Andere Aspekte wie soziale Akzeptanz, Partizipation von Führungskräften oder auch nur Aufmerksamkeit und Bedeutungsgewinn durch besonders hohen Aufwand können natürlich auch einen eigenen Wert haben, aber was die reine Vorhersagekraft angeht sollte man sich da nicht täuschen (lassen).  Der größte Teil der Vorhersagekraft für die berufliche Leistung ergibt sich im AC ja auch aus denjenigen Aufgaben, die mentale Fähigkeiten erfassen, und somit ebenso gut mit einem Intelligenztest gemessen werden können (und das wesentlich kostengünstiger!).

Methodische Stringenz 

Um diese Zusammenhänge zu ergründen wurde der statistische Zusammenhang zwischen den einzelnen Verfahren betrachtet. Je höher die Korrelation der Verfahren untereinander, desto geringer ist der Zugewinn an Validität und der praktische Nutzen. Was dabei wichtig ist; Die Korrelationen können ausschließlich auf Basis vorliegender Studien geschätzt werden. Bei manchen Verfahren, z.B. der Graphologie, ist die die Anzahl an Studien zur Güte der Voraussagen wenig umfangreich oder sehr alt; da ist eine Schätzung des praktischen Zugewinns nicht so belastbar wie für andere Verfahren.

Intelligenztests für gute Eignungsdiagnostiok

Dass Intelligenztests bei der Personalauswahl eine gute Entscheidung sind, kam auch 2016 nicht völlig überraschend, weder für die Autoren noch für die Leser. Überrascht zeigten sich aber viele Kommentatoren von Ergebnissen anderer Verfahren, die sich augenscheinlich aus der Ergebnistabelle ableiten ließen. Und hier wird es gleich richtig spannend.

Interviews

So zeigt die Tabelle z.B. die gleiche gute Varianzaufklärung für strukturierte und unstrukturierte Interviews. In der Analyse von 1998 konnte noch eine höhere Validität für strukturierte Interviews als für unstrukturierte nachgewiesen werden. (.51 vs. .38). Mit den neuen Korrekturmethoden lässt sich jedoch kein Unterschied mehr erkennen. Daraus wurde von vielen voreilig geschlossen, dass unstrukturierte Interviews in der Praxis genauso aussagekräftig seien wie strukturierte Interviews.

Die Frage ist, ist das so oder wie sehen die Autoren der Studie das?

Schmidt et. al erklären, dass dieses Ergebnis durch Anpassungen in den Berechnungen durch die neue Analyse-Methode zu begründen seien.

Nur für die besonders Interessierten: In der neuen Methode müssen Schätzungen der Reliabilität der Prädiktoren vorgenommen werden. In Interviews wird für diese Schätzung die durchschnittliche Korrelation zwischen den Ergebnissen von verschiedenen Interviewern genommen, die die gleiche Gruppe Kandidaten an verschiedenen Tagen interviewen (so hat man die Interrater-Reliabilität und eine Art Re-Test Reliabilität). Da in der vorliegenden Meta-Analyse nur zwei Studien aufgenommen werden konnten, in denen diese Messung für unstrukturierte Interviews vorhanden war, ist der Korrekturfaktor für dieses Verfahren in der Meta-Analyse sehr groß.

Das bedeutet wiederum, dass der Validitätskoeffizient aus Sicht der Autoren weit überschätzt wird. Und das ist auch gut nachvollziehbar, denn jemand, der so eine ausgefeilte Studie gestalten kann, wird auch besonders gute Interviews konzipieren können. Unstrukturiertes Interview ist bei weitem nicht gleich unstrukturiertes Interview. Auch ohne formale Struktur lassen sich mit geeigneten Fragetechniken durchaus Interviews führen, die den Interviewer sehr nahe an die Wahrheit und den Kern des Bewerbers oder der Bewerberin heranführt. Ein solcher Ansatz ist jedoch nur etwas für besondere Interview-Experten. Von diesen Interviews in den Studien auf unstrukturierte Interviews zu schließen, die man eben mal so durchführt, ist nicht realistisch. Demnach ist es sehr wahrscheinlich, dass unstrukturierte Interviews, wie sie land auf landab durchgeführt werden, in Wirklichkeit wie zuvor eine wesentlich geringere Validität aufweisen als strukturierte.

“Interview ist nicht gleich Interview!“ Strukturierte Interviews sind für die Meisten der bessere Weg Klick um zu Tweeten

Weil die unstrukturierten Interviews (aus den berücksichtigten Studien) eine höhere Korrelation mit GMA aufweisen, ist der Zugewinn geringer als bei den strukturierten Interviews. Es ist also weder unerheblich, welche Art von Interviews durchgeführt werden, noch ob diese als Ergänzung eines Intelligenztests geplant werden oder nur für sich allein stehen. Mehr zum Sinn und Unsinn und auch zu den Risiken von Einstellungsinterviews bei der Steuerung von Organisationen gibt es auf Eignungsdiagnostik.info ein seinem Artikel „Achtung interview!“von meinem Kollegen Harald Ackerschott.

Interessenstest

Diese Art von Tests kennt man wahrscheinlich eher im Zusammenhang mit berufsberatenden Maßnahmen. Die Interessen für bestimmte Tätigkeiten werden hierbei abgefragt. In der Studie von 1998 wurde wenig Zusammenhang zwischen berufliche Leistung und Interessen berichtet. Daher ist das Erstaunen groß, dass Interessenstests jetzt plötzlich einen prädiktiven Wert haben sollen. Der Grund ist ganz einfach: 1998 wurde nicht berücksichtigt, inwiefern die Interessen und die zu besetzenden Stellen irgendwie zusammenhingen. Für jede Job-Kategorie wurden alle Interessenskategorien verwendet. Dass der Krankenpfleger und der Versicherungsmakler nicht unbedingt die gleichen Interessen haben müssen, um in ihrem Beruf jeweils Leistungsträger zu sein, dürfte aber einleuchten. Somit war die allgemeine Validität 1998 gering.

In der neuen Meta-Analyse wurde diese Zuordnung von Interessen zu beruflichen Arbeitsinhalten vorgenommen und nur die Zusammenhänge betrachtet, die inhaltlich sinnvoll erschienen. Dadurch erreichten die Interessenstests eine Validität von .31 für berufliche Leistung, und eine inkrementelle Validität von .07.

Zu beachten sind hierbei aber noch andere Unterschiede:

Die einzelnen Interessenskategorien variieren in inkrementeller Validität (der zusätzlichen Validität gegenüber Intelligenztests), weil ihre eigene Korrelation mit mentaler Leistung unterschiedlich ausfällt. So ist z.B. der zusätzliche Erkenntnisgewinn durch Interessenstests gegenüber Intelligenztests bei einer handwerklichen Tätigkeit viel höher als z.B. bei einer Tätigkeit im Controlling.

Arbeitsproben

Genau anders herum verhält es sich mit den Arbeitsproben. Die ursprünglichen Validitätskoeffizienten waren relativ hoch (.54), sind in der neuen Meta-Analyse jedoch wesentlich geringer (.33). Das liegt daran, dass die ursprünglichen Messungen vor allem für handwerkliche Berufe galten, während in den neuen Analysen auch der Dienstleistungssektor inkludiert wurde. Es ist daher folgerichtig, dass Arbeitsproben für Tätigkeiten, die einen hohen manuellen Leistungsanteil haben, z. B. handwerkliche Berufe, eine wesentlich höhere zusätzliche Validität aufweisen, als der Zugewinn von Arbeitsproben gegenüber Intelligenztests für viele anderen Berufe beträgt.

Berufserfahrung

Der Zusammenhang zwischen beruflicher Leistung und Berufserfahrung ist nonlinear: Bis zu 5 Jahren steigt die berufliche Leistung mit der Anzahl an Jahren Berufserfahrung. Danach flacht die Kurve ab: Mehr Jahre Berufserfahrung führen nicht zu mehr beruflicher Leistung.

Persönlichkeitstests

In der Praxis werden sehr häufig Persönlichkeitsverfahren eingesetzt, häufig auf Basis der BIG Five. Was sagt die aktuelle Analyse? Tatsächlich bestätigt sich hier wieder, dass Extraversion, Agreeableness, emotionale Stabilität und auch Offenheit kaum zusätzliche Vorhersagekraft gegenüber einem Test der mentalen Fähigkeiten aufweisen. Ihr Nutzen für die Auswahl ist nach wie vor viel geringer als ihre Bearbeitung annehmen lässt. Einzig die Gewissenhaftigkeit kann – wie auch zuvor in anderen Studien gezeigt – punkten. Statt eines allgemeinen Persönlichkeitstests wäre daher zu überlegen, vielleicht einfach dieses Konstrukt genauer zu betrachten (The big ONE?). Zur Verwirrung in der Personalauswahl um den Begriff der Persönlichkeit finden Sie einen vertiefenden Beitrag auf Eignungsdiagnostik.info unter dem Titel „Lost in Personality„. 

Integritätstests

Integritätstests erfreuen sich in den USA großer Beliebtheit. Die Frage ist, ob das dem besonders asymmetrischen Verhältnis zwischen Arbeitgeber und Arbeitnehmer geschuldet ist. „Hire at will“ ist weit verbreitet. Daher mag die Integrität ein besonders wichtiges, zusätzlich zu erfassendes Merkmal sein; in Deutschland wird sie in der Regel vorausgesetzt. Die Beziehung zwischen Arbeitgeber und Arbeitnehmer ist durch allgemein gültige gesetzliche Rahmenbedingungen eher eine wesentlich fairere Austauschbeziehung. Dafür kommt der Gewissenhaftigkeit vielleicht eine bedeutendere Rolle zu als bisher angenommen. Schmidt, Oh und Shaffer argumentieren, dass die Gewissenhaftigkeit ein wichtiger Moderator für die berufliche Leistung darstellen könnte. Sowohl höhere kognitive Fähigkeiten als auch Gewissenhaftigkeit würden zu mehr Beschäftigung mit den Aufgaben und dadurch zu höherer beruflicher Leistung führen.

Welche Verfahren sollte man also in der Praxis nutzen?

Frank Schmidt hat es bereits 2000 auf den Punkt gebracht: „Select on intelligence“

Bei der Auswahl von Mitarbeiterinnen und Mitarbeitern ohne Berufserfahrung in der zu besetzenden Position ist die Intelligenz eigentlich der einzige relevante Prädiktor für berufliche Leistung. Diese Aussage kann auf Basis der Ergebnisse der Studie für alle Positionen mit mittlerem Komplexitäts- oder Verantwortungsgrad getroffen werden. Bei wenig komplexen Aufgaben ist die Aussagekraft von Intelligenztests allein geringer (.39). Für die Besetzung dieser Positionen wären entsprechend den Ergebnissen der aktuellen Meta-Analyse zum Beispiel Arbeitsproben oder Interessenstests ebenfalls gut zur Auswahl geeignet.

Bei hochkomplexen Aufgaben, wie Expertenstellen oder in verantwortungsvollen Managementpositionen steigt die prädiktive Validität von Intelligenztests jedoch für sich allein genommen sogar bis auf .74.

Viele Unternehmen scheuen davor zurück, bei der Besetzung von verantwortliche  Management Positionen eine systematische und standardisierte Erfassung der kognitiven Leistungsfähigkeit zur Auswahl zu nutzen.

Die vorliegende Analyse aber zeigt: Für verantwortungsvolle strategische und analytische Aufgabenstellungen keinen Intelligenztest zu nutzen, ist fast verantwortungslos.

One Response

Add a Comment

Your email address will not be published. Required fields are marked *

29 − 20 =