Diskrete Häufigkeitsverteilungung: Berechnung statistischer Werte


Vorbemerkung:


Die Berechnung statistischer Werte bei diskreten Häufigkeitsverteilungen ist mit Schwierigkeiten verbunden. Auch Statistik-Funktionen in Calc (Tabellenkalkulationsprogramm in der freien und kostenlosen Office-Suite LibreOffice) bzw. MS Excel wie etwa „MITTELWERT“, „MITTELABW“ oder „STABWN“ sind nicht direkt anwendbar. Die nachfolgend dargestellten Formeln und die herunterladbaren Calc- bzw. Excel-Tabellen „diskrete_Haeufigkeitsverteilung.ods“ und „diskrete_Haeufigkeitsverteilung.xlsx“ mögen in manchen Fällen zur Problemlösung beitragen, da mit ihrer Hilfe eine unmittelbare Berechnung diverser statistischer Werte ohne zusätzlich anzufertigender Tabellen möglich ist.

In Anlehnung an Michael Monka / Werner Voß, Statistik am PC, 4. Auflage, sei exemplarisch folgende Tabelle einer diskreten Häufigkeitsverteilung aufgeführt, die sich auch in den herunterladbaren Calc- bzw. Excel-Tabellen wiederfindet:

 D   H   W 
1 17  0,1416666667 
2 33 0,275
3 34 0,2833333333
4 19 0,1583333333
5 10 0,0833333333
6 4 0,0333333333
7 2 0,0166666667
8 1 0,0083333333

Vorab werden zur Erläuterung der nachfolgenden Formeln einige Abkürzungen definiert:

„D“: Zahlenwerte „Daten“ als Merkmalsausprägung in einer Spalte oder Zeile (in den herunterladbaren Tabellen in den Spalten A und F bzw. im so definierten Bereich „D“);


„DD“: Zahlenwerte „Daten“ als Einzelaufstellung („Einzelwerte“) unter Verzicht auf absolute oder relative Häufigkeiten in einer Spalte oder Zeile (in den herunterladbaren Tabellen in der Spalte H bzw. im so definierten Bereich „DD“) - üblicherweise würden dann solche Einzelwerte mehrfach auftreten (ungruppierte Daten bzw. Multimenge);


„H“: Zahlenwerte „absolute Häufigkeit“ oder kurz „Häufigkeit" in einer Spalte oder Zeile (in den herunterladbaren Tabellen in Spalte B bzw. im so definierten Bereich „H“);


„W“: Zahlenwerte „relative Häufigkeit“ bzw. „Wahrscheinlichkeit“ in einer Spalte oder Zeile mit der Summe 1 (in den herunterladbaren Tabellen in Spalte G bzw. im so definierten Bereich „W“) als Alternative zu den Zahlenwerten „Häufigkeit“ („H“) — wer sich hier am Begriff „Wahrscheinlichkeit“ stören sollte: im Falle einer endlosen zufälligen Wahl von Einzeldaten aus dem Datenpool (Urnenmodell mit Zurücklegen) fällt die relative Häufigkeit der Daten mit der jeweiligen Merkmalsausprägung präzise quantitativ mit der Wahrscheinlichkeit ihrer Wahl zusammen;


„n“: Anzahl der Zahlenwerte „Einzelwerte“ („DD“) im Falle des Fehlens der Zahlenwerte „Häufigkeit“ („H“) sowie „Wahrscheinlichkeit“ („W“).


Bei den nachfolgenden statistischen Werten werden jeweils 3 Fälle unterschieden:


Mittelwert:

(Monka/Voß Seite 81)
1) absolute Häufigkeit:

Formel in Calc und Excel:

=SUMMENPRODUKT(D*H)/SUMME(H)

Mathematische Formel:



2) relative Häufigkeit:

Formel in Calc und Excel:

=SUMMENPRODUKT(D*W)

Mathematische Formel:



3) Einzelwerte:

Formel in Calc und Excel:

=SUMME(DD)/ANZAHL(DD)

Mathematische Formel:



Mittlere lineare Abweichung:

(Monka/Voß Seite 94)
1) absolute Häufigkeit:

Formel in Calc und Excel:

=SUMMENPRODUKT(H*ABS(D-SUMMENPRODUKT(D*H)/SUMME(H)))/SUMME(H)

Mathematische Formel:



2) relative Häufigkeit:

Formel in Calc und Excel:

=SUMMENPRODUKT(W*ABS(D-SUMMENPRODUKT(D*W)))

Mathematische Formel:



3) Einzelwerte:

Formel in Calc und Excel:

=SUMMENPRODUKT(ABS(DD-SUMME(DD)/ANZAHL(DD)))/ANZAHL(DD)

Mathematische Formel:



Standardabweichung bei Grundgesamtheit (nicht Stichprobe):

(Monka/Voß Seite 96)
1) absolute Häufigkeit:

Formel in Calc und Excel:

=WURZEL(SUMMENPRODUKT(H*POTENZ(D-SUMMENPRODUKT(D*H)/SUMME(H);2))/SUMME(H))

Mathematische Formel:



2) relative Häufigkeit:

Formel in Calc und Excel:

=WURZEL(SUMMENPRODUKT(W*POTENZ (D-SUMMENPRODUKT(D*W);2)))

Mathematische Formel:



3) Einzelwerte:

Formel in Calc und Excel:

=WURZEL(SUMMENPRODUKT(POTENZ(DD-SUMME(DD)/ANZAHL(DD);2))/ANZAHL(DD))

Mathematische Formel:



Herfindahl-Index:

(Monka/Voß Seite 104)
1) absolute Häufigkeit:

Formel in Calc und Excel:

=SUMMENPRODUKT(H*POTENZ(D/SUMMENPRODUKT(D*H);2))

Mathematische Formel:



2) relative Häufigkeit:

entfällt

3) Einzelwerte:

Formel in Calc und Excel:

=SUMMENPRODUKT(POTENZ(DD/SUMME(DD);2))

Mathematische Formel:



normierter Gini-Koeffizient
bzw. Lorenz/Münzner-Maß:

(Monka/Voß Seite 106)

1) und 2) absolute und relative Häufigkeit:

entfallen

3) Einzelwerte:

Hinweis zu allen nachfolgenden Calc- und Excel-Formeln:

Die Kompliziertheit der Formeln ist nicht unwesentlich darauf zurückzuführen, dass die Daten nicht am oberen bzw. linken Rand beginnen oder aufsteigend sortiert sein müssen. Die Funktion KKLEINSTE() innerhalb der Funktion SUMMENPRODUKT() ermöglicht eine aufsteigende Quasisortierung.

Formel in Calc - die Daten sind in einer Spalte aufgeführt:

=(2*SUMMENPRODUKT(KKLEINSTE(DD;ZEILE(DD)-XX+1)*(ZEILE(DD)-XX+1))/(ANZAHL(DD)*SUMME(DD))-(ANZAHL(DD)+1)/ANZAHL(DD))*ANZAHL(DD)/(ANZAHL(DD)-1)

Hinweis:
LibreOffice lässt es aufgrund einer obskuren Fehlermeldung (in der Version 4.2.7) scheinbar nicht zu, eine konsistente Formel anzubieten. In der obigen Formel wird folgender Formelteil in die (beliebig gewählte) Zelle "XX" ausgelagert:
=ZEILE(DD)

Formel in Excel - die Daten sind in einer Spalte aufgeführt:

=(2*SUMMENPRODUKT(KKLEINSTE(DD;ZEILE(DD)-ZEILE(INDIREKT(ADRESSE(ZEILE(DD);SPALTE(DD))))+1)*(ZEILE(DD)-ZEILE(INDIREKT(ADRESSE(ZEILE(DD);SPALTE(DD))))+1))/(ANZAHL(DD)*SUMME(DD))-(ANZAHL(DD)+1)/ANZAHL(DD))*ANZAHL(DD)/(ANZAHL(DD)-1)

Formel in Calc - die Daten sind in einer Zeile aufgeführt:

=(2*SUMMENPRODUKT(KKLEINSTE(DD;SPALTE(DD)-XX+1)*(SPALTE(DD)-XX+1))/(ANZAHL(DD)*SUMME(DD))-(ANZAHL(DD)+1)/ANZAHL(DD))*ANZAHL(DD)/(ANZAHL(DD)-1)

Hinweis:
In der obigen Formel wird folgender Formelteil in die (beliebig gewählte) Zelle "XX" ausgelagert:
=SPALTE(DD)

Formel in Excel - die Daten sind in einer Zeile aufgeführt:

=(2*SUMMENPRODUKT(KKLEINSTE(DD;SPALTE(DD)-SPALTE(INDIREKT(ADRESSE(ZEILE(DD);SPALTE(DD))))+1)*(SPALTE(DD)-SPALTE(INDIREKT(ADRESSE(ZEILE(DD);SPALTE(DD))))+1))/(ANZAHL(DD)*SUMME(DD))-(ANZAHL(DD)+1)/ANZAHL(DD))*ANZAHL(DD)/(ANZAHL(DD)-1)

Mathematische Formel:



Der Faktor nn-1 macht aus dem einfachen den normierten Gini-Koeffizienten.

Die Funktion SUMMENPRODUKT()


lässt sich – wie oben demonstriert – in vielfältiger Weise einsetzen, wenn Formeln, die Summen ( ∑ ) enthalten, in Calc oder Excel umzusetzen sind. Die simpelsten Beispiele sind folgende (x und y stehen für Spalten oder Zeilen):

∑ x+y → =SUMMENPRODUKT(x+y) – identisch mit SUMME(x;y)

∑ x-y → =SUMMENPRODUKT(x-y)

∑ x⋅y → =SUMMENPRODUKT(x*y)

xy → =SUMMENPRODUKT(x/y) – sofern keine Zelle in y = 0 oder leer ist!

xy → =SUMMENPRODUKT(x^y)

Der Begriff „SUMMENPRODUKT“ ist daher irreführend.

Abschließend sei dem Excel Forum gedankt, das der Funktion SUMMENPRODUKT() unter http://excelwelt.de/Excelallg/sumprod.html einige Geheimnisse entriss.


ods-Icon

Berechnung statistischer Werte bei diskreten Häufigkeitsverteilungen -
OpenDocument Tabelle [91 KB]: diskrete_Haeufigkeitsverteilung.ods



xlsx-Icon

Berechnung statistischer Werte bei diskreten Häufigkeitsverteilungen -
Microsoft Excel Tabelle [38 KB]: diskrete_Haeufigkeitsverteilung.xlsx








 

Ende Gelände ♦ Aus die Maus ♦ Schicht im Schacht ♦ Klappe zu - Affe tot

So long ♦ See You Later, Alligator - In A While, Crocodile ♦ Over And Out