Das Bestimmtheitsmaß R²

Bianca Brünig • 25. Februar 2022

R² einfach erklärt...

Bei der Regressionsanalyse ist unser Ziel eine Gerade zu schätzen, welche den Zusammenhang zweier Variablen (bei einer multiplen Regression auch den Zusammenhang mehrerer Variablen) möglichst gut erfassen kann. Nehmen wir mal an, wir haben aus der Theorie folgende Hypothese ableiten können: Je älter man ist, desto mehr Stress erlebt man.
Die unabhängige Variable stellt hier das Alter dar, die abhängige Variable ist der erlebte Stress. Beide Variablen sind metrisch skaliert. Die Beziehung der beiden Variablen lässt sich grafisch gut anhand einer Punktewolke darstellen:

Mit Hilfe der linearen Regression möchten wir nun die Werte des Stresses anhand der Werte des Alters vorhersagen. Hierfür wollen wir eine Gerade in die Punktewolke legen, die die Punkte (= gemeinsame Verteilung) gut erfasst. Je mehr Punkte eine Regressionsgerade erfassen kann, desto besser unsere Schätzung. Dies bedeutet, dass wir viel Streuung der Punkte anhand des Alters vorhersagen können.

In der Realität werden wir jedoch nie eine Gerade schätzen können, die alle Punkte perfekt erfasst. Stattdessen werden immer einige Punkte abweichen – manche mehr, manche weniger. Im vorliegenden Beispiel sehen wir vor allem im unteren Bereich viele Punkte, die nicht von der Gerade erfasst wurden. Die Abweichungen von der Gerade nennt man Residuen. Sie bilden einen zentralen Teil der Analyse, da viele der Voraussetzungen der linearen Regression sich auf die Verteilung der Residuen beziehen.

Den Anteil der Punkte, die unsere Gerade erfasst, können wir über das Bestimmtheitsmaß R² erfassen. Dieses gibt uns an, welchen Anteil der Varianz der abhängigen Variable wir mit unserer unabhängigen Variable erfassen. R² kann einen Wert von 0 bis 1 annehmen, wobei hohe Werte für eine hohe Varianzaufklärung stehen und kleine Werte für eine geringe Aufklärung. Idealerweise streben wir somit ein möglichst hohes R² an. Habt ihr nur eine unabhängige Variable im Modell, könnt ihr das „normale“ R² interpretieren. Habt ihr mehr als eine unabhängige Variable im Modell (z.B. durch Dummy-Kodierung oder bei einer multiplen linearen Regression), nehmt ihr besser das korrigierte R².

Im Folgenden seht ihr ein Beispiel aus einer linearen Regression mit SPSS. Ihr findet das R² ziemlich am Anfang der Ausgabe in der Tabelle „Modellzusammenfassung“. Bei uns liegt ein R² von .062 vor. Dies bedeutet, dass 6,20 Prozent der Varianz des Stresses durch das Alter erklärt werden. Gleichzeitig bedeutet dies, dass wir 93,70 Prozent unerklärte Varianz haben. Diesen Anteil der Streuung in der Punktewolke konnten wir somit noch nicht erklären.

Was ist der Unterschied zwischen R² und dem korrigierten R²?

Das Bestimmtheitsmaß R² hat die Eigenschaft, dass es mit steigender Anzahl Variablen im Modell immer größer wird. Theoretisch könnte ich mein Modell also pushen, indem ich viele Variablen (z.B. Kontrollvariablen) mit aufnehme. Um für die Anzahl der Variablen zu kontrollieren, die sich im Modell befinden, bezieht das korrigierte R² die Anzahl geschätzter Koeffizienten im Verhältnis zur Fallzahl mit in seine Berechnung ein. Das korrigierte R² ist somit i.d.R. geringer als das normale R². Nachlesen könnt ihr die Berechnung des R² auf verständliche Weise in Stoetzer (2017, S. 42). Sobald ihr also mehr als einen Prädiktor habt oder Modelle vergleichen wollt, solltet ihr das korrigierte R² berichten.

Wie berichte ich R² in meiner Arbeit?

Das R² ist ein übliches Maß zur Beurteilung des Modellfits. Ihr solltet es somit unbedingt in eurem Bericht angeben. Ihr könnt das R² im Fließtext nennen oder in Klammern angeben. Hier drei Beispiele:

(1) Das Alter trägt zur Varianzaufklärung des Stresses bei (R² = .062).

(2) Das Modell hat mit .062 eine schwache Varianzaufklärung.

(3) Das Alter erklärt 6,20 Prozent der Varianz des erlebten Stresses.

Wann habe ich ein gutes R²?

Cohen (1988, S. 412ff.) gibt folgende Richtwerte zur Interpretation der Höhe des R²-Wertes an: ab R² = .02 liegt eine schwache Varianzaufklärung vor, ab R² = .13 liegt eine mittelstarke Varianzaufklärung vor, ab R² = .26 liegt eine starke Varianzaufklärung vor.

Nice to know

Bei einer einfachen, linearen Regression ist das R² tatsächlich die bivariate Korrelation r zum Quadrat. Bei einer multiplen Regression mit mehreren unabhängigen Variablen ist dies nicht mehr der Fall.

Literatur

Cohen, Jacob (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale: Erlbaum Associates.

Stoetzer, Matthias-W. (2017). Regressionsanalyse in der empirischen Wirtschafts- und Sozialforschung Band 1: Eine nicht-mathematische Einführung mit SPSS und Stata. Berlin: Springer Gabler Verlag. DOI 10.1007/978-3-662-53824-1

Neuerer Beitrag >

SPSS Tabellen formatieren (nach APA)

von Bianca Brünig • 19. Juni 2023

Wer kennt sie nicht, die wenig anschaulichen Tabellen von SPSS..... Die meisten Universitäten erlauben nicht, dass du Tabellen 1 zu 1 aus SPSS übernimmst. Vielmehr fordern viele Institutionen, dass du dich am APA Standard für Tabellenformatierung orientierst. Da dies viele Studierende bereits vor die erste Herausforderung stellt, möchte ic h dir heute im Rahmen eines kleinen Video-Tutorials zeigen, wie du deine Tabellen mit SPSS und Excel verschönern kannst.

Balkendiagramm für mehrere Variablen mit gleicher Antwortmöglichkeit

von Bianca Brünig • 14. April 2022

Vielleicht standest du auch schon vor der Herausforderung, wie du mehrere Variablen in einer Grafik veranschaulichen kannst, die alle das gleiche Antwortschema aufweisen. Häufig haben wir mehrere Fragen, welche mit einer Likert-Skala von 1 (stimme überhaupt nicht zu) bis 5 (stimme voll und ganz zu) beantwortet wurden. Diese möchtest du in einer Grafik darstellen, ohne für jedes Item einzeln eine grafische Darstellung zu wählen. Dies ist über das Grafikmenü schwierig. Deshalb möchte ich dir hier einen alternativen Weg vorstellen. Schritt 1: Wichtig für die Erstellung eines solchen Diagramms ist es, dass die Variablen, die du darstellen möchtest, alle die gleichen Antwortmöglichkeiten haben. Du gehst im SPSS Menü auf Analysieren -> Tabellen -> Benutzerdefinierte Tabellen

R- bzw. Python Erweiterungen & Makros für SPSS

von Bianca Brünig • 31. März 2022

Vielleicht ist dir auch schon aufgefallen, dass SPSS bei einigen komplexeren Analysen leicht an seine Grenzen kommt. Wenn du trotzdem gern mit dem Programm arbeitest und nicht zu beispielsweise R oder Stata wechseln möchtest, dann könnten Erweiterungen oder Makros eine Option sein. Eines der bekanntesten SPSS Makros ist PROCESS von Hayes. Mit diesem Makro kannst du Mediations- und Moderationsmodelle testen. Dabei bietet PROCESS den Vorteil, dass du nicht mehrere Gleichungen schätzen musst, sondern alles in einem Modell berechnen kannst. Über externe R oder Python Codes lässt sich die Funktionalität von SPSS zusätzlich erweitern. Auch wenn der Rahmen hier nicht ausreicht, um alle möglichen Funktionen vorzustellen, möchte ich dir an dieser Stelle zumindest eine kleine Übersicht bieten, welche Funktionen sich in Form von Erweiterungsbundles in das SPSS Klickmenü integrieren lassen. Integrieren lassen sich diese erweiterten Funktionen ab SPSS Version 24 über Erweiterungen -> Erweiterungshub. Hier wird dir eine Liste mit allen verfügbaren Funktionen angezeigt, eine kurze Beschreibung sowie, ob dein System die Voraussetzungen zur Installation erfüllt. Im folgenden Bild kannst du beispielsweise sehen, dass die Voraussetzungen zur Installation der KRR Erweiterung nicht gegeben sind, PLS aber problemlos integriert werden könnte.

Aufbau des Methodenkapitels

von Bianca Brünig • 13. März 2022

Bevor ihr in eurer Arbeit die Auswertung schreibt, solltet ihr euer methodisches Vorgehen im Rahmen eines Methodenkapitels vorstellen. Häufig gibt es hier Unsicherheiten, wie dieses aufgebaut werden kann und welche Inhalte in dieses Kapitel gehören. An dieser Stelle möchte ich meine Erfahrungen mit euch teilen. Generell sei aber angemerkt, dass es von Uni zu Uni und von Betreuer/in zu Betreuer/in durchaus unterschiedliche Vorstellungen gibt. Insofern wäre meine erste Empfehlung, an eurer Uni nach Vorlagen zu suchen oder euren Betreuer/in anzusprechen. Solltet ihr keine Hilfestellung erhalten, empfehle ich wie folgt vorzugehen. 1. Beschreibung der Datenerhebung Der erste Schritt sollte darin bestehen, aufzuzeigen, wie ihr eure Daten sammelt bzw. gesammelt habt. Dieses Unterkapitel kann von einer Diskussion (1) des quantitativen versus qualitativen Ansatzes reichen über (2) eine Diskussion über die genaue Erhebungsmethodik (online versus persönlich versus telefonisch…) bis hin zum (3) genauen Vorgehen. Während ihr für Punkt 1 und 2 auf Literatur und Referenzen zurückgreifen könnt, stellt das genaue Vorgehen meist eine individuelle Beschreibung dar. Bei dieser könnt ihr folgende Gesichtspunkte beschreiben: - Welches ist die Grundgesamtheit? - Wie habt ihr Kontakt zu den Teilnehmer/innen aufgenommen? - In welchem Zeitraum wurde die Studie durchgeführt? - Gab es einen Pretest? - Ggf. wie viele Personen wurden kontaktiert? - Wie war der Fragebogen aufgebaut? - Gab es ein Anschreiben oder weitere Informationen? - Bei Experimenten: Wie war der Versuchsaufbau? - Wie lange haben die Teilnehmer/innen im Durchschnitt für die Bearbeitung benötigt? Je nachdem, wie lang eure Arbeit wird, könnt ihr diese Themenbereiche ausführlicher oder kürzer diskutieren. Auch bietet es sich bei längeren Arbeiten an, die Datenerhebung in mehrere Unterkapitel zu unterteilen. 2. Stichprobe Nachdem ihr beschrieben habt, wie ihr zu den Daten gekommen seid, solltet ihr eure Stichprobe genauer vorstellen. Die Stichprobe bilden die Personen, die tatsächlich an eurer Umfrage teilgenommen haben. Es sind also nicht diejenigen gemeint, die ihr kontaktiert habt, denn von denen haben wahrscheinlich nicht alle tatsächlich euren Fragebogen bearbeitet. Die Stichprobe könnt ihr beschreiben, indem ihr zuerst darauf eingeht, wie viele Personen die Umfrage (1) bearbeitet haben, (2) wie viele von diesen die Umfrage auch abgeschlossen haben und (3) wie viele die Umfrage vollständig ausgefüllt haben. Bei manchen Umfragetools werden diese Selektionskriterien direkt angewendet, so dass ihr einen Datensatz herunterladet, in welchem nur vollständig ausgefüllte Fälle enthalten sind. Bei anderen müsst ihr selbst diese Selektion durchführen. Danach könnt ihr näher darauf eingehen, wie eure Stichprobe zusammengesetzt ist. Hierfür eignen sich in der Regel sozio-demografische Angaben wie Alter und Geschlecht. Je nach Themenbereich können aber auch weitere Kennwerte zur Beschreibung herangezogen werden. Diese Beschreibung ermöglicht es dem Leser einzuordnen, inwiefern eine ausgeglichene oder repräsentative Stichprobe vorliegt. An dieser Stelle können auch erste Grafiken oder Tabellen in die Beschreibung einfließen. 3. Operationalisierung Die Operationalisierung beschreibt den Prozess, wie ihr von den Konzepten eurer Hypothese(n) zu konkreten Variablen für die Auswertung gelangt. Bei manchen Variablen, wie z.B. dem Geschlecht oder dem Alter kann dies unkompliziert sein, da ihr die Daten direkt so erhoben habt, wie ihr sie für die Auswertung benötigt. Hier solltet ihr dann nur die Fragestellung und Antwortoptionen erwähnen. Häufig ist es aber ein aufwändigerer Prozess, bei welchem Umkodierungen durchgeführt werden oder Variablen zusammengefügt werden. Dies solltet ihr in diesem Unterkapitel beschreiben. Dafür könnt ihr auf (1) Umkodierungen, (2) das Zusammenfügen oder (3) Berechnen von neuen Variablen eingehen. Typischerweise wird hier für Skalen beispielsweise die Reliabilitäts- und Validitätsprüfung vorgestellt sowie der Wertebereich der neu entstandenen Skala vorgestellt. Persönlich schließe ich die Operationalisierung gern mit einer Tabelle ab, welche die Wertebereiche der benötigten Variablen inkl. Häufigkeiten oder Mittelwerten mit Standardabweichungen darstellt. Dies ist auch in vielen Publikationen eine gängige Praxis. 4. Auswertungsmethodik In diesem Unterkapitel könnt ihr nun vorstellen, wie ihr zur Auswertung eurer Daten vorgehen werdet (und warum). Es können also sowohl deskriptive als auch inferenzstatistische Methoden vorgestellt werden. Dabei solltet ihr nur auf Methoden eingehen, die ihr auch tatsächlich anwendet. Diese können mit zentralen Kennwerten und Schwellenwerten beschrieben werden. Ab welchem Wert liegt beispielsweise ein schwacher oder starker Zusammenhang vor? Welche Maßzahl kann zur Bewertung des Zusammenhangs herangezogen werden? In einem Satz solltet ihr zudem erwähnen, welches Signifikanzniveau ihr ansetzt und mit welchem Programm ihr die Analysen durchführt.

Mediation versus Moderation: Was ist der Unterschied?

von Bianca Brünig • 1. März 2022

In meinen Beratungen erlebe ich häufig, dass der Unterschied zwischen Mediations- und Moderationsanalysen nicht immer eindeutig ist. Beides sind Sonderformen der multiplen Regressionsanalyse, welche neben der unabhängigen und abhängigen Variable noch eine dritte Variable in das Modell integrieren. Aber starten wir von vorn. Regressionsanalysen untersuchen, inwiefern eine unabhängige Variable (UV, auch Prädiktor genannt) eine abhängige Variable (AV, auch Kriterium genannt) beeinflusst. Nehmen wir ein einfaches Beispiel. Wir vermuten, dass die Zeit, welche Personen täglich vor dem Fernseher verbringen vom Alter abhängt. Die tägliche Fernsehdauer ist somit die abhängige Variable, welche wir mit Hilfe des Alters erklären wollen. Schematisch lässt sich das Ganze so darstellen: