Bonus-Lektion: Prüfung der Voraussetzungen und Transformationen

Transkript

1 Seite 1 von 8 Bonus-Lektion: Prüfung der Voraussetzungen und Transformationen Ziel dieser Lektion: Du weißt, wie Du die einzelnen Voraussetzungen für die Signifikanztests und komplexeren Modelle prüfen kannst und kennst Datentransformationen. Inhalt: B1 Die Normalverteilung B2 Linearität B3 Varianzhomogenität B4 Sphärizität B5 Ausreißer B6 Homoskedastizität der Residuen B7 Unabhängigkeit der Residuen B8 Keine Multikollinearität B9 Log-Linearität B10 Proportionalität der Hazards B11 Transformationen Zusammenfassung Umsetzungsaufgabe Für die Auswahl der passenden Testverfahren ist es wichtig zu wissen, ob die einzelnen Voraussetzungen erfüllt sind. Besonders wichtig ist dabei die Normalverteilungsprüfung. Aber auch andere Voraussetzungen werden in einzelnen Methoden verlangt. Hier erkläre ich Dir, was jeweils mit dieser Voraussetzung gemeint ist und wie Du sie prüfen kannst. Bei manchen nicht erfüllten Voraussetzungen kann eine Transformation Abhilfe schaffen. Deshalb findest Du im letzten Abschnitt dieser Lektion das Kapitel zur Transformation.

2 Seite 2 von 8 B1 Die Normalverteilung Daten sind normalverteilt, wenn Sie einer Glockenkurve folgen. Wenn Normalverteilung geprüft wird geht es darum, die Abweichungen von der Normalverteilung zu untersuchen. Dafür gibt es zwei Begriffe, die bei der Beschreibung dieser Abweichung nützlich sind: Schiefe (Skew) und Excess (Kurtosis). Schiefe (Skew) Die Schiefe gibt dabei an, ob die Verteilung symmetrisch ist oder nicht. Eine positive Schiefe beschreibt dabei rechtsschiefe Daten (links steil, rechts schief), vergleiche rote Kurve in Abb. 1. Hier gibt es viele kleine Werte in den Daten. Eine negative Schiefe beschreibt linksschiefe Daten (links schief, rechts steil), vergleiche Abb. 2. Hier kommen viele große Werte vor und weniger kleine Werte. Abb. 1: Linkssteile, rechtsschiefe Verteilung mit positiver Schiefe Abb. 2: Rechtssteile, linksschiefe Verteilung mit negativer Schiefe Excess (Kurtosis) Der Exzess gibt dagegen die Wölbung an und beschreibt, ob die Verteilung im Gegensatz zur Normalverteilung spitz oder abgeflacht ist. Eine spitze Verteilung hat einen positiven Exzess. Hier liegen dann mehr Beobachtungen als gewöhnlich in den Enden der Verteilung, weshalb diese auch heavy-tailed genannt wird, vergleiche Abb. 3. Ein negativer Exzess beschreibt eine abgeflachte Verteilung. Eine solche Verteilung hat im Vergleich zur Normalverteilung dünne Enden (thin-tailed), vergleiche Abb. 4.

3 Seite 3 von 8 Abb. 3: Spitze Verteilung mit dicken Enden und positivem Exzess Abb. 4: Flache Verteilung mit flachen Enden und negativem Exzess Tests auf Normalverteilung Für die Prüfung, ob eine metrische Variable normalverteilt ist, können so genannte Normalverteilungstests verwendet werden. Zwei bekannte Normalverteilungstests sind der Shapiro-Wilk-Test und der Kolmogorov- Smirnoff-Test. Diese Tests prüfen, ob die Variable einer Normalverteilung folgt. Die Nullhypothese, die hier geprüft wird ist Es liegt Normalverteilung vor. Als Ergebnis liefert der Test einen p-wert. Ist der kleiner als 0,05, so sagt man, das Testergebnis ist signifikant. Das bedeutet, dass die Nullhypothese abgelehnt wird. Hier heißt das also, dass der Test sagt, dass keine Normalverteilung vorliegt. Wenn der p-wert größer als 0,05 ist bedeutet das, dass die Nullhypothese nicht abgelehnt wird. In dem Fall sagt der Test uns also, dass Normalverteilung vorliegt. Die Interpretation der Normalverteilungstests nochmals zusammengefasst: p < 0,05 keine Normalverteilung p 0,05 Normalverteilung Das Problem der Normalverteilungstests ist, dass sie bei größeren Fallzahlen zu streng sind (=die Normalverteilung zu oft ablehnen) und bei kleineren Fallzahlen zu liberal (=die Normalverteilung zu oft bestätigen). Deshalb empfehle ich immer auch die im Folgenden beschriebene Methode der Normalverteilungsdiagramme anzuwenden. Normalverteilungsdiagramme Neben der oben beschriebenen Verwendung von Tests kann die Verteilung auch mittels Normalverteilungsdiagrammen (Q-Q-Diagramme, Quantil-Plots) überprüft werden. Dabei wird für die zu untersuchende Variable eine Grafik

4 erstellt, die eine Diagonale Gerade enthält und in der die Quantile der Normalverteilung gegen die Quantile der untersuchten Variable als Punkte angetragen sind. Es ergibt sich eine Grafik, in der die Punkte mehr oder weniger gut der diagonalen Geraden folgen, vergleiche Abb. 5. Seite 4 von 8 Abb. 5: Q-Q-Diagramm. Die Punkte folgen gut der Geraden. Die Daten sind demnach annähernd normalverteilt. Liegen die Punkte gut entlang der Geraden, so sind die Daten annähernd normalverteilt. Liegen sie deutlich entfernt oder machen sie einen großen Bogen, dann sind die Daten nicht normalverteilt. B2 Linearität Linearität wird in der Pearson-Korrelation und in der linearen Regression als Voraussetzung genannt. Damit ist gemeint, dass die beiden metrischen Variablen nicht nicht-linear zusammen hängen, dass man also keine Kurve im Zusammenhang der beiden erkennt. Das prüfst Du, indem Du Dir das Streudiagramm der beiden Variablen ansiehst. Wenn man am ehesten eine Gerade und keine Kurve als Trend hineinlegen würde, dann ist die Voraussetzung der Linearität erfüllt. In der linearen Regression machst Du dieses Streudiagramm für jeden

5 Seite 5 von 8 metrischen Prädiktor. Zusätzlich kannst Du hier auch das Streudiagramm der standardisierten Residuen gegen die vorhergesagten Werte betrachten. Wenn die Punktwolke hier wild streut und kein Trend zu sehen ist, ist die Voraussetzung der Linearität erfüllt. Definition Residuen: Residuen sind die Abweichungen vom Modell, auch als 'Fehler' bezeichnet. B3 Varianzhomogenität Varianzhomogenität ist eine Voraussetzung im t-test und in der ANOVA. Varianzhomogenität bedeutet, dass sich die Streuungen in den Gruppen (Varianzen) nicht extrem unterscheiden. Das kannst Du z.b. mit dem Levene- Test prüfen. Er prüft die Nullhypothese Die Varianzen unterscheiden sich nicht. Ist der p-wert des Levene-Tests kleiner als 0,05, liegt keine Varianzhomogenität vor. Ist der p-wert größer oder gleich 0,05, so liegt Varianzhomogenität vor. B4 Sphärizität Sphärizität ist eine Voraussetzung der Messwiederholungs-ANOVA und bedeutet, dass die Differenzen der einzelnen Messwiederholungen gleiche Varianzan haben. Prüfen kannst Du das mit dem Mauchly-Test. Ist der p-wert des Mauchly-Tests signifikant (p<0,05), so liegt keine Sphärizität vor. Ist der p- Wert größer oder gleich 0,05, so liegt Sphärizität vor. B5 Ausreißer Ausreißer sind in vielen vor allem den komplexeren statitischen Modellen ein Problem. Deshalb sollten die Daten auf Ausreißer geprüft werden. Dies kann auf unterschiedliche Weise geschehen: Grafische Untersuchung der einzelnen metrischen Variablen mit Boxplots Grafische Untersuchung der Kombination von jeweils zwei metrischen Variablen mit Streudiagrammen. Betrachten der standardisierten Residuen in komplexeren Modellen (Werte größer 3 oder kleiner -3 gelten als Ausreißer) B6 Homoskedastizität der Residuen In der linearen Regression ist die Homoskedastizität der Residuen eine Voraussetzung. Sie liegt vor, wenn die Residuen für alle Werte der AV gleich streuen. Das lässt sich am besten mit dem Streudiagramm der standardisierten Residuen gegen die vorhergesagten Werte untersuchen. Wenn die Punktwolke hier wild streut und keine Trichterform zu sehen ist, ist die Voraussetzung der Homoskedastizität der Residuen erfüllt.

6 B7 Unabhängigkeit der Residuen Seite 6 von 8 Unabhängigkeit der Residuen ist für viele komplexere Modelle eine Voraussetzung. Meist ist sie allein schon durch das Studiendesign gegeben indem keine Mehrfachmessungen in den Modellen verwendet werden. Überprüft werden kann sie in der linearen Regression beispielsweise mit dem Durbin-Watson-Test. Liegt der Wert hier nahe an 2 (mindestens zwischen 1 und 3), so gibt es kein Problem mit abhängigen Residuen. B8 Keine Multikollinearität Multikollinearität liegt dann vor, wenn unabhängige Variablen in einem Modell zu stark zusammen hängen. Für die mehrfaktoriellen Modelle ist es Voraussetzung, dass für die metrischen UVs keine Multikollinearität vorlieg. Dies kann mit folgenden Bedingungen geprüft werden: die Korrelationskoeffizienten für alle metrischen UVs sind kleiner als 0,8, der Varianz-Inflations-Faktor (VIF) ist kleiner als 5 (mindestens kleiner als 10), der größte Konditionsindex ist kleiner als 30. Wenn diese Bedingungen erfüllt sind, gibt es keine Probleme mit Multikollinearität. B9 Log-Linearität Für die logistische Regression gilt die Log-Linearität der metrischen Prädiktoren mit der AV als Voraussetzung. Das bedeutet, dass die metrischen Prädiktoren einen linearen Zusammenhang zur Logit-Funktion der AV aufweisen. Geprüft wird das durch Rechnen zusätzlicher logistischer Regressionsmodelle für jeden metrischen Prädiktor mit folgendem Aufbau: AV: dichotome AV aus dem eigentlich interessierenden Modell Prädiktoren: auf Log-Linearität zu untersuchender metrischer Prädiktor, Logtransformation dieses metrischen Prädiktors und Interaktion zwischen metrischem Prädiktor und seiner Logtransformation. Wenn die Interaktion im Modell nicht signifikant wird (p 0,05), so ist die Log- Linearität gegeben. B10 Proportionalität der Hazards Die Proportionalität der Hazards wird in der Cox-Regression verlangt. Für einen Gruppenfaktor kann dies grafisch überprüft werden, indem die

7 Seite 7 von 8 Überlebenskurven (Kaplan-Meier-Kurven) gruppiert betrachtet werden. Zeigen sie einen ähnlich geformten Verlauf, so liegt Proportionalität der Hazards vor. B11 Transformation Eine Transformation der metrischen Variablen kann bei einigen dieser Voraussetzungen helfen, sie zu erfüllen. Es gibt keine grundsätzliche Regel, welche Transformation wann passt. Du musst hier nach dem Prinzip von Trial-and-Error vorgehen. Du probierst also einfach eine Transformation nach der anderen aus. Das heißt, 1. Du transformierst Deine Variable mit der ausgewählten Formel. Dazu erstellst Du eine neue Variable im Datensatz, berechnet aus der alten Variable mit der ausgewählten Formel. 2. Dann prüfst Du die Voraussetzung, z.b. Normalverteilung oder Linearirät. 3. Wenn das Ergebnis passt, die neue Variable also die Voraussetzungen erfüllt, rechnest Du die folgende Analysen (insbesondere die Signifikanztests) mit dieser neuen Variablen weiter. 4. Wenn nicht, suchst Du Dir eine neue Formel aus und probierst diese aus, beginnst also wieder oben bei 1. Damit Du bei der Auswahl der Transformation nicht völlig im Nebel stocherst, gebe ich Dir in der folgenden Tabelle die gängigsten Transformationen mit den Einsatzgebieten als Übersicht. Damit kannst Du leichter auswählen, mit welcher Art von Transformation Du das Ausprobieren startest. Transformation Formel Verwendung mit dem Logarithums (Logtransformation) mit der Wurzelfunktion log(x) wurzel(x) Positive Schiefe, positive Kurtosis, ungleiche Varianzen, Nicht-Linearität Positive Schiefe, positive Kurtosis, ungleiche Varianzen, Nicht-Linearität mit dem Kehrwert 1/x Positive Schiefe, positive Kurtosis, ungleiche Varianzen Reverse-Score (jeden Wert vom größten Wert abziehen) maximum - x diese Transformation wird mit obigen kombiniert, um z.b. negative Schiefe zu bereinigen, Beispiel: log(maximum - x) Diese Transformation wird vorgeschalten, wenn die Variable negative Werte oder Nuller enthält, damit Addieren einer Konstanten x + a anschließend eine der obigen Transformationen angewandt werden kann. Beispiel: 1/(x + a) Tabelle: Transformatonen und ihre Verwende. In Klammern sind für die Verwendung jeweils die Einsatzgebiete angegeben, die für die Normalverteilung nicht relevant sind aber unter Umständen später relevant werden können.

8 Seite 8 von 8 Zusammenfassung Normalverteilung wird geprüft mit Normalverteilungstests oder Normalverteilungsdiagrammen Linearität wird geprüft mittels Streudiagramm Varianzhomogenität wird geprüft mittels Levene-Test Sphärizität wird geprüft mittels Mauchly-Test Ausreißer werden kontrolliert mittels Boxplots, Streudiagrammen oder Betrachten der standardisierten Residuen Homoskedastizität wird geprüft mittels Streudiagramm der Residuen gegen die vorhergesaten Werte Unabhängigkeit der Residuen wird geprüft mittels Durbin-Watson-Test Multikollinearität wird ausgeschlossen über Korrelationskoeffizienten, Varianz-Inflations-Faktor und Konditionsindex Log-Linearität wird geprüft mittels Interaktionsterm des Prädiktors mit seiner Logtransformation Proportionalität der Hazards wird geprüft über ähnlichen Kurvenverlauf der Kaplan-Meier-Kurven Transformationen metrischer Variablen können helfen, die Voraussetzungen zu erfüllen Umsetzungsaufgabe für Dich: Notieren im Arbeitsblatt Fragestellung und Hypothesen zu den jeweiligen Analysemethoden die Methoden, die Du zur Voraussetzungsprüfung benötigst.