Skalierungsarten, Zentralmaße und Streuungsmaße
gedruckt am 03. Oct. 2024
Bevor man eine Statistik erheben und auswerten möchte, braucht man Klarheit über die Art des Datenmaterials. Wir unterscheiden:
Nominalskala: Namen, z.B. Haarfarbe; es gibt keine Rangordnung.
Ordinalskala: Geordnete Klassifikation, z.B. Schulnoten, Schulbildung: VS – HS – HAK – UNI.
Intervallskala: Differenzenvergleich kann durchgeführt werden, etwa bei Temperatur, IQ.
Proportional-(Verhältnis-)skala: Werte sind auf einen absoluten Nullpunkt bezogen, Verhältnisse sind daher vergleichbar.
Je nach Skala können verschiedene statistische Werte berechnet werden.
Zentralmaße
Die Mittelwerte bzw. Zentralmaße wollen das Zentrum der Daten angeben: der Modalwert ist der häufigste Wert, der Median der Wert in der Mitte der sortierten Datenreihe und das arithmische Mittel (der umgangsprachliche Durchschnitt) die Summe der Daten geteilt durch die Anzahl.
Intuitiv argumentiert man (auch im Privatleben) mit dem geeigneten Mittelwert: Schüler/innen verteidigen ihre Note damit, dass die meisten die gleiche Note haben (Modalwert), dass ich genau in der Mitte liege (Median), oder dass ich (knapp) über dem Durchschnitt bin (arithmetisches Mittel).
Bei einer Nominalskala ist nur der Modalwert sinnvoll, für den Median ist zumindest Ordinalskal nötig und das arithmetische Mittel gibt erst ab Intervallskalenniveau eine sinnvolle Aussage.
Der Median wird von stark abweichenden Daten nicht beeinflusst, das arithmetische Mittel jedoch schon. Das zeigt auch, dass in Fällen stark abweichender Daten (vor allem wenn sie in eine Richtung abweichen), neben dem arithmischen Mittel der Median eine wichtige Größe ist. So wird beispielsweise beim Durchschnittseinkommen einer Bevölkerung das Median-Einkommen angegeben, weil es jenes Einkommen ist, das die Bevölkerung in zwei gleich große Hälften teilt: die eine Hälfte verdient mehr, die andere weniger als das Median-Einkommen. Das arithmetische Mittel würde durch wenige extreme Spitzenverdiener stark verfälscht.
Der Median ist einfacher zu ermitteln, weil man nichts rechnen muss, das arithmetische Mittel hingegen nützt die Dateninformation effizienter: Die Abweichungen spielen eine Rolle.
Streuungsmaße
Die Streuungs- oder Abweichungsmaße wollen eine Aussage über die Abweichung der Daten vom Zentrum geben. Die Spannweite gibt ist die Differenz zwischen größter und kleinster Zahl der Daten, die Quartile teilen die sortierten Daten in vier gleich große Teile, der Median ist in der Mitte und die Quartile geben die Grenzen für diese vier Gruppen an – es werden also von den beiden Gruppen, die der Median bildet, nochmals die Mediane berechnet. Die Quartile sind das Abweichungsmaß für den Median. Anstelle der Quartile kann man auch Dezile ermitteln.
Die Standardabweichung ist etwas komplizierter zu berechnen: Man bildet die Abweichungen der einzelnen Daten vom arithmetischen Mittel und quadriert diese Abweichungen. Von der Summe der Quadrate zieht man die Wurzel. Die Standardabweichung ist demnach die Wurzel der Summe der quadrierten Abweichungen vom arithmetischen Mittel. Die Standardabweichung ist das Abweichungsmaß für das arithmetische Mittel. Durch das Quadrieren der Abweichungen vom arithmetischen Mittel werden große Abweichungen stärker gewichtet als kleine Abweichungen – das zeichnet die Standardabweichung als statistische Größe aus.
Zur Interpretation der Standardabweichung lässt sich noch folgendes sagen: Unter bestimmten Voraussetzungen (kleinere Abweichungen sind häufiger als größere Abweichungen und die Abweichungen sind in beide Richtungen etwa gleich häufig, es wurden mindestens etwa 100 Daten erhoben) gibt die Standardabweichung eine klare Auskunft über die Datenverteilung:
68% der Daten befinden sich im Intervall Mittelwert plus/minus einfache Standardabweichung,
95% der Daten befinden sich im Intervall Mittelwert plus/minus zweifache Standardabweichung,
99% der Daten befinden sich im Intervall Mittelwert plus/minus dreifache Standardabweichung.
Von dieser Standardisierung (die Prozentsätze und die Vielfachen der Standardabweichung sind ja unabhängig von Maßeinheiten und Größenordnungen!) hat die Standardabweichung ihren Namen. Diese Verteilung von Daten wird durch die Normalverteilung beschrieben.
Die Methode, die Differenzen der Daten (hier: vom arithmetischen Mittel) zu quadrieren, spielt auch in anderen mathematischen Gebieten eine wichtige Rolle: unter anderem bei der Methode der kleinsten Quadrate zum Auffinden einer linearen Näherungs-Funktion, die durch Punkte gegeben ist und bei der Methode der kleinsten Quadrate für die Berechnung der Näherungs-Wählerstrommatrix bei der Wahlhochrechnung (Siehe Menüpunkt Matrizen). Es handelt sich hierbei natürlich immer um dieselbe Methode der kleinsten Quadrate und das arithmetische Mittel ist tatsächlich jener Wert, zu dem die Summe der Quadrierten Datenabstände am kleinsten ist.