Varianzhomogenität bei Pearson Korrelation?

Allgemeine Fragen zu Statistik mit R.

Varianzhomogenität bei Pearson Korrelation?

Beitragvon Fledermaus » Mi 24. Okt 2018, 15:45

Hallo,
es soll die Korrelation zweier Datensätze (Temperatur und Anzahl von Flugbewegungen in einer Lichtschranke) überprüft werden.
Beide Datensätze sind normalverteilt, deshalb würde ich die Korrelation mittels Pearsons Korrelationstest überprüfen.
Allerdings bin ich mir unsicher, ob ich die Datensätze in diesem Fall auch auf Varianzhomogenität testen muss (auf manchen Internetseiten steht es als Voraussetzung dabei und bei manchen nicht) und wenn ja, mit welchem Test.
Bartlett-Test? Levene-Test?
So wie ich diese Tests verstanden habe testen diese die Varianzhomogenität zweier (oder mehrerer) Gruppen, z.B. die Varianzhomogenität des Einkommens von Männern und Frauen, wobei die Männer und die Frauen ja Gruppen/faktoriell sind und das ist bei diesen Datenreihen ja nicht der Fall.
Kann mir jemand etwas dazu sagen?

Vielen dank :)
Fledermaus
 
Beiträge: 18
Registriert: Do 15. Mär 2018, 15:44
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Varianzhomogenität bei Pearson Korrelation?

Beitragvon jogo » Mi 24. Okt 2018, 19:55

Hallo Bianca,

Korrelation hat etwas mit linearer Regression zu tun.
Bei der linearen Regression gibt es die Voraussetzung der Normalverteilung mit einheitlicher (also von der Beobachtung unabhängiger) Varianz für die Residuen.
(Gauß-Markov-Theorem: ... verschiedene Voraussetzungen ==> LS-Schätzer ist BLUE).
Hast Du das lineare Modell schon in R gerechnet?
Hast Du Dir die Diagnose-Plots angesehen?
Kannst Du bitte etwas Code und Ergebnisse zeigen?

Gruß, Jörg
jogo
 
Beiträge: 111
Registriert: Mo 26. Feb 2018, 09:56
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Varianzhomogenität bei Pearson Korrelation?

Beitragvon Fledermaus » Fr 26. Okt 2018, 08:24

Hallo Jörg,
vielen Dank für deine Hilfe.
Hier sind erstmal die Werte mit denen ich hier rechne
Code: Alles auswählen
Datum   Gesamt   Außentemperatur
06.12.2017   244   6.8
07.12.2017   272   5.7
08.12.2017   398   3.3
09.12.2017   296   1.5
10.12.2017   228   0.2
14.12.2017   216   2.6
15.12.2017   255   1.7
16.12.2017   309   2.2
17.12.2017   184   0.8
18.12.2017   190   -0.2
22.12.2017   208   5.4
23.12.2017   184   6.7
24.12.2017   134   8.3
25.12.2017   161   7.9
26.12.2017   112   4.8
27.12.2017        89   3.0
31.12.2017   65   7.7
01.01.2018   50   6.7
02.01.2018   33   4.1
03.01.2018   50   4.4
04.01.2018   71   5.3


Hier habe ich die beiden Datenreihen auf Normalverteilung getestet

Code: Alles auswählen
> normalityTest(~Außentemperatur, test="shapiro.test", data=Dataset)

   Shapiro-Wilk normality test

data:  Außentemperatur
W = 0.95903, p-value = 0.4968


> normalityTest(~Gesamt, test="shapiro.test", data=Dataset)

   Shapiro-Wilk normality test

data:  Gesamt
W = 0.96243, p-value = 0.5663



und dann habe ich einen Pearson Test auf Korrelation gemacht

Code: Alles auswählen
> with(Dataset, cor.test(Außentemperatur, Gesamt, alternative="two.sided",
+   method="pearson"))

   Pearson's product-moment correlation

data:  Außentemperatur and Gesamt
t = -1.7858, df = 19, p-value = 0.0901
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.69676655  0.06286452
sample estimates:
       cor
-0.3791105


Ich habe auch noch ein lineares Modell gemacht und mir die diagnostischen Plots angesehen

Code: Alles auswählen
> RegModel.1 <- lm(Gesamt~Außentemperatur, data=Dataset)

> summary(RegModel.1)

Call:
lm(formula = Gesamt ~ Außentemperatur, data = Dataset)

Residuals:
    Min      1Q  Median      3Q     Max
-147.44  -63.71   13.91   46.24  206.07

Coefficients:
                Estimate Std. Error t value   Pr(>|t|)   
(Intercept)      239.351     39.764   6.019 0.00000862 ***
Außentemperatur  -14.369      8.046  -1.786     0.0901 . 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 94.03 on 19 degrees of freedom
Multiple R-squared:  0.1437,   Adjusted R-squared:  0.09866
F-statistic: 3.189 on 1 and 19 DF,  p-value: 0.0901


> oldpar <- par(oma=c(0,0,3,0), mfrow=c(2,2))

> plot(RegModel.1)

> par(oldpar)



Bei dem Plot Residuals vs. Fittet, der mir ja etwas über die Varianzhomogenität der Residuen sagt (richtig?), ist die rote Linie nicht exakt auf der gestrichelten Linie die die Erwartungswerte anzeigt, sondern macht in der Mitte einen kleinen Bogen. Kann man das nun so gelten lassen oder dürfen die tatsächlichen Werte nicht so von den erwarteten Werten abweichen, wie in diesem Fall.
Falls es nun so ist, dass ich hier die Voraussetzungen für Pearson nicht erfülle, ist es dann richtig die Korrelation mit Spearman zu testen?
Wo ist nun der Unterschied zwischen dem Test auf Korrelation nach Pearson und dem linearen Regressionsmodell? Ist es einfach sinvoll ein Regressionsmodell zu machen um sich die diagnostischen Plots anzusehen, um einen Eindruck zu bekommen wie aussagekräftig der Test ist, was ja bei einem einfachen Test auf Korrelation nicht geht (also die Diagnoseplots)?

Danke nochmal,
LG
Bianca
Fledermaus
 
Beiträge: 18
Registriert: Do 15. Mär 2018, 15:44
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Varianzhomogenität bei Pearson Korrelation?

Beitragvon jogo » Fr 26. Okt 2018, 10:06

Hallo Bianca

Fledermaus hat geschrieben:Hier habe ich die beiden Datenreihen auf Normalverteilung getestet

Code: Alles auswählen
> normalityTest(~Außentemperatur, test="shapiro.test", data=Dataset)
   Shapiro-Wilk normality test
data:  Außentemperatur
W = 0.95903, p-value = 0.4968

> normalityTest(~Gesamt, test="shapiro.test", data=Dataset)
   Shapiro-Wilk normality test
data:  Gesamt
W = 0.96243, p-value = 0.5663
das ist üblich bei nur 21 Beobachtungen.

und dann habe ich einen Pearson Test auf Korrelation gemacht
Code: Alles auswählen
> with(Dataset, cor.test(Außentemperatur, Gesamt, alternative="two.sided", method="pearson"))
   Pearson's product-moment correlation
data:  Außentemperatur and Gesamt
t = -1.7858, df = 19, p-value = 0.0901
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.69676655  0.06286452
sample estimates:
       cor
-0.3791105


Ich habe auch noch ein lineares Modell gemacht und mir die diagnostischen Plots angesehen

Code: Alles auswählen
> RegModel.1 <- lm(Gesamt~Außentemperatur, data=Dataset)

> summary(RegModel.1)
...
Coefficients:
                Estimate Std. Error t value   Pr(>|t|)   
(Intercept)     ...
Außentemperatur  -14.369      8.046  -1.786     0.0901 . 
---
...
ich habe mal den Output etwas eingedampft, damit Du besser gucken kannst. Fällt Dir was auf?

> plot(RegModel.1)

Bei dem Plot Residuals vs. Fittet, der mir ja etwas über die Varianzhomogenität der Residuen sagt (richtig?), ist die rote Linie nicht exakt auf der gestrichelten Linie die die Erwartungswerte anzeigt, sondern macht in der Mitte einen kleinen Bogen. Kann man das nun so gelten lassen oder dürfen die tatsächlichen Werte nicht so von den erwarteten Werten abweichen, wie in diesem Fall.
Falls es nun so ist, dass ich hier die Voraussetzungen für Pearson nicht erfülle, ist es dann richtig die Korrelation mit Spearman zu testen?
Ich würde bei diesen Skalenarten und den gutmütig verteilten Daten immer in der Richtung argumentieren, dass die Voraussetzungen erfüllt sind. Die kleinen Abweichungen sind durch die geringe Anzahl der Beobachtungen bedingt.


Wo ist nun der Unterschied zwischen dem Test auf Korrelation nach Pearson und dem linearen Regressionsmodell? Ist es einfach sinvoll ein Regressionsmodell zu machen um sich die diagnostischen Plots anzusehen, um einen Eindruck zu bekommen wie aussagekräftig der Test ist, was ja bei einem einfachen Test auf Korrelation nicht geht (also die Diagnoseplots)?
siehe meine Frage oben.

Hier noch eine kleine Beigabe:
Code: Alles auswählen
plot(Gesamt~Außentemperatur, data=Dataset)
abline(RegModel.1)

Dataset$D <- as.Date(as.character(Dataset$Datum), format="%d.%m.%Y")
plot(Außentemperatur ~ D, data=Dataset)

Gruß, Jörg

Code: Alles auswählen
> dput(Dataset)
structure(list(Datum = c("06.12.2017", "07.12.2017", "08.12.2017",
"09.12.2017", "10.12.2017", "14.12.2017", "15.12.2017", "16.12.2017",
"17.12.2017", "18.12.2017", "22.12.2017", "23.12.2017", "24.12.2017",
"25.12.2017", "26.12.2017", "27.12.2017", "31.12.2017", "01.01.2018",
"02.01.2018", "03.01.2018", "04.01.2018"), Gesamt = c(244L, 272L,
398L, 296L, 228L, 216L, 255L, 309L, 184L, 190L, 208L, 184L, 134L,
161L, 112L, 89L, 65L, 50L, 33L, 50L, 71L), Außentemperatur = c(6.8,
5.7, 3.3, 1.5, 0.2, 2.6, 1.7, 2.2, 0.8, -0.2, 5.4, 6.7, 8.3,
7.9, 4.8, 3, 7.7, 6.7, 4.1, 4.4, 5.3), D = structure(c(17506,
17507, 17508, 17509, 17510, 17514, 17515, 17516, 17517, 17518,
17522, 17523, 17524, 17525, 17526, 17527, 17531, 17532, 17533,
17534, 17535), class = "Date")), .Names = c("Datum", "Gesamt",
"Außentemperatur", "D"), row.names = c(NA, -21L), class = "data.frame")
jogo
 
Beiträge: 111
Registriert: Mo 26. Feb 2018, 09:56
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Varianzhomogenität bei Pearson Korrelation?

Beitragvon Fledermaus » Fr 26. Okt 2018, 14:25

Hallo Jörg,
ah ja der Wert der t-Statistik und der p-Wert der linearen Regression und des Pearson Tests sind gleich. Also ist da eigentlich gar kein wirklicher Unterschied?
Also alles in allem bedeutet das, ich kann den Pearson Test benutzen und interpretiere daraus, dass es zwischen der Anzahl der Flugbewegungen (Gesamt) und der Außentemperatur keinen signifikanten Zusammenhang gibt.

Vielen Dank!
LG
Bianca
Fledermaus
 
Beiträge: 18
Registriert: Do 15. Mär 2018, 15:44
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Varianzhomogenität bei Pearson Korrelation?

Beitragvon jogo » Fr 26. Okt 2018, 19:27

Hallo Bianca,

Fledermaus hat geschrieben:ah ja der Wert der t-Statistik und der p-Wert der linearen Regression und des Pearson Tests sind gleich. Also ist da eigentlich gar kein wirklicher Unterschied?

so ist es. Der Pearsonsche Korrelationkoeffizient hat genau die lineare Abhängigkeit als grundlegendes Konstrukt. Du hättest noch den Wert des Korrelationkoeffizienten quadrieren können, um zum R² der Regression zu kommen.

Also alles in allem bedeutet das, ich kann den Pearson Test benutzen und interpretiere daraus, dass es zwischen der Anzahl der Flugbewegungen (Gesamt) und der Außentemperatur keinen signifikanten Zusammenhang gibt.
Du kannst ja noch anmerken, dass das Vorzeichen bei der Regression erwartungsgemäß geschätzt wurde.
(Es sei denn, Du würdest annehmen wollen, dass die Fledermäuse bei niedrigen Temperaturen besonders aktiv sind, z.B. um sich warm zu halten. :mrgreen: )

Vielleicht kann man spaßeshalber nochmal einen einseitigen t-Test durchführen.

Gruß, Jörg
jogo
 
Beiträge: 111
Registriert: Mo 26. Feb 2018, 09:56
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Varianzhomogenität bei Pearson Korrelation?

Beitragvon Fledermaus » Sa 27. Okt 2018, 07:45

Hallo Jörg,
super, vielen Dank, deine Antworten haben mir sehr geholfen. :D
LG
Bianca
Fledermaus
 
Beiträge: 18
Registriert: Do 15. Mär 2018, 15:44
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Varianzhomogenität bei Pearson Korrelation?

Beitragvon jogo » Sa 27. Okt 2018, 14:29

Hallo Bianca,

das freut mich.

Da dieses Forum sich in Agonie befindet, bin ich viel öfter in meinem Heimatforum http://forum.r-statistik.de unterwegs.
Also nicht wundern, wenn ich in diesem Forum mal einige Tage nicht antworte.

Gruß, Jörg
jogo
 
Beiträge: 111
Registriert: Mo 26. Feb 2018, 09:56
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post


Zurück zu Statistik allgemein

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste

cron