Lektion 4 – einfache Hypothentests

Nach der Besprechungen von deskriptiven Statistiken in Lektion 3, geht es in dieser Lektion das erste Mal um Analysen: einfache Hypothesentests. Das folgende Video erklärt Ein- und Zweistichproben t-Tests und Varianztests. Im Video wird zudem der Unterschied zwischen der alternativen Hypothese und der Nullhypothese erklärt. Unterhalb des Videos folgt eine kurze Zusammenfassung der wichtigsten Punkte.

Die alternative Hypothese (HA) ist die Hypothese, an welcher wir interessiert sind. Sie sollte aus der Theorie hergeleitet werden. Die Nullhypothese (H0) postuliert das Gegenteil. Da wir eine Hypothese nicht bestätigen können, müssen wir versuchen, die Nullhypothese zu verwerfen.

Nehmen wir an unsere alternative Hypothese lautet wie folgt: «Das durchschnittliche Alter der Population ist nicht 42.» Dann lautet die Nullhypothese: «Das durchschnittliche Alter der Population unterscheidet sich nicht signifikant von 0.» In R können wir die Hypothese mit der Funktion t.test() überprüfen.

df_selects2015 = schlegel::selects2015
t.test(df_selects2015$age, mean = "42")

Das Testergebnis sagt uns nochmals, was die alternative Hypothese ist «true mean is not equal to 0». Da der p-Wert sehr klein ist und damit kleiner als 0.05, können wir die Nullhypothese verwerfen und annehmen, dass sich das Durchschnittsalter der Population signifikant von 42 unterscheidet. 0.05 ist der Alphawert, welcher in der Wissenschaft am häufigsten verwendet wird. Bei einer kleinen Stichprobengrösse wird manchmal auch 0.1 als Schwelle genommen. Einige Wissenschaftler argumentieren auch für einen kleineren Alphawert von 0.005. Der p-Wert ist die Wahrscheinlichkeit, dass wir die Nullhypothese fälschlicherweise verwerfen, obwohl sie in Wirklichkeit wahr ist. Der Wert sagt nichts über die Effektgrösse aus.

Anstatt auf Ungleichheit zu testen, können wir auch auf grösser («greater») oder kleiner («less») testen. Wir können beispielsweise testen, ob das durchschnittliche Alter kleiner als 42 ist. Die Nullhypothese ist dann: «Das durchschnittliche Alter ist grösser oder gleich 42.» In R fügen wir den Parameter alternative hinzu,

t.test(df_selects2015$age, mean = "42", alternative = "less")

Jetzt bekommen wir einen p-Wert von 1 und können deshalb die Nullhypothese nicht verwerfen. Das bedeutet, dass die alternative Hypothese verworfen werden muss.

Neben dem Einstichproben t-Test gibt es auch noch den Zweistichproben t-Test. Dieser vergleicht die Durchschnitte zweier Stichproben miteinander. Die alternative Hypothese können beispielsweise lauten: «Der Altersdurchschnitt von Männern und Frauen ist unterschiedlich.» Die Nullhypothese wäre dann: «Der Altersdurchschnitt von Männer und Frauen unterscheidet sich nicht statistisch von einander.»

library(tidyverse)
men = selects2015 %>% filter(gender == "male")
women = selects2015 %>% filter(gender == "female")
t.test(men$age, women$age)

Der p-Wert ist 0.41. Das heisst wir können die Nullhypothese nicht verwerfen. Auch hier kann wieder mit «less» und «greater» gearbeitet werden.

Wenn wir wissen, dass die Varianzen der Stichproben gleich sind, können wir zudem den Parameter var.equal auf TRUE setzen.

t.test(men$age, women$age, var.equal = TRUE)

Um die Varianzen zu testen, können wir die Funktion var.test() verwenden. Der Test überprüft das Verhältnis zwischen den beiden Varianzen. Im folgenden überprüfen wir die alternative Hypothese, dass das Verhältnis nicht gleich 1 ist.

var.test(men$age, women$age)

Der p-Wert liegt bei 0.66, d.h. wir können wir Nullhypothese nicht verwerfen. Die Varianzen sind also mehr oder weniger gleich und der Parameter var.equal darf auf TRUE gesetzt werden beim t-Test.