Stell dir vor, du hast eine Datenreihe und daraus ein Punktdiagramm erstellt. Einer oder auch mehrere Werte passen deiner Ansicht nach nicht so recht in die Datenwolke, denn sie stehen ein wenig außerhalb diese Gebildes.
Du fragst dich, ob diese Werte sogenannte Ausreißer sind, denn die könnten einen arithmetischen Mittelwert verfälschen.
Deshalb willst du eine Analyse der Daten auf Ausreißer durchführen. Dazu gibt es neben sehr komplizierten Methoden eine relativ einfache, die ich dir in diesem Beitrag zeigen möchte.
Was ist ein Ausreißer?
Diese Methode habe ich mir methodisch bei http://de.wikihow.com [1] abgeschaut. Für den Beitrag nehme ich allerdings ein eigenes Beispiel.
Zunächst heißt es auf der Site:
“Ein Ausreißer ist ein Messpunkt, der sich numerisch deutlich von den anderen Messwerten der Messreihe unterscheidet. Der Begriff wird hauptsächlich in der Statistik verwendet und kann auf Abweichungen in einer beobachteten Datenreihe hinweisen oder Fehler bei den Messungen offenbaren.”
Damit habe ich eine gute Basis, mein Beispiel zu untersuchen.
1. Die Messwerte
Bei einem Wasserversorger wird monatlich, bei großen städtischen Werken auch täglich, die sogenannte Netzabgabe gemessen und dokumentiert. Netzabgabe ist die Menge Wasser, die nach der Aufbereitung und abzüglich eines gewissen Eigenverbrauchs (z.B. für Spülungen) ins Wasserversorgungsnetz gepumpt wird und damit dem Endverbraucher zur Verfügung steht.
Das Beispiel zeigt die monatlichen Messwerte eines fiktiven Wasserwerkes.
2. Wie man einen möglichen Ausreißer erkennt
Dazu schaue ich mir die einzelnen Werte der Datenreihe an. Mir fällt auf, dass der Messwert des Monats August von den anderen Werten abweicht. Das könnte ein Ausreißer sein und darauf hindeuten, dass im August irgendwo im Versorgungsgebiet ein größerer Rohrbruch ein Thema war.
3. Die Datenpunkte vom niedrigsten zum höchsten Wert anordnen
Das habe ich getan. Der niedrigste Wert steht links, der höchste rechts.
4. Den Median des Datensatzes berechnen
Der Median ist derjenige Datenpunkt, der sich genau in der Mitte der sortierten Daten befindet. Bei einer geraden Anzahl von Messwerten muss der Mittelwert der beiden mittleren Werte gebildet werden, hier also der Mittelwert aus 4.550 und 4.651. Das ist 4.601.
Ich arbeite mit Excel und verwende somit die statistische Funktion MEDIAN.
Wie zu erwarten, ist das Ergebnis auch 4.601.
5. Berechnung des unteren Quartils
Das untere Quartil wird Q1 genannt und zeigt den Datenpunkt in der Messreihe, unter dem sich 25% der Messwerte befinden.
Excel hat auch hierfür wieder eine Funktion. Als Argumente sind lediglich die Matrix und eine 1, die das erste Quartil bezeichnet, einzugeben.
6. Berechnung des oberen Quartils
Das obere Quartil Q3 ist der Datenpunkt, über dem sich noch 25% der Messwerte befinden.
Ich nehme dazu wieder die gleiche Funktion, setze als Quartil aber eine 3, die das dritte Quartil bezeichnet, ein.
7. Berechnung der “Antennen” des Datensatzes
Zuerst wird die Differenz zwischen Q1 und Q3, der Quartilsabstand, berechnet.
Ich rechne also 4.726,5 – 4.475,5 und erhalte als Ergebnis = 251,0.
Der Quartilsabstand wird nun mit 1,5 multipliziert.
Ich rechne 251,0 * 1,5 und erhalte = 376,5.
Diese Zahl wird zu Q3 addiert und von Q1 subtrahiert.
Q3: 4.726,5 + 376,5 = 5.103,0
Q1: 4.475,5 – 376,5 = 4.099,0
Dami habe ich die “Antennen” des Datensatzes bestimmt.
Alle Werte die außerhalb dieser Grenzwerte liegen, wären sogenannte “milde” Ausreißer, also alle Werte
< 4.099,0 und
5.103,0.
Um in der Datenreihe diese Werte zu identifizieren, wende ich die Bedingte Formatierung an. Die Werte < 4.099 sollen gelb, die Werte > 5.103 rot gefärbt werden.
Werte < 4.099 sind nicht enthalten, wohl aber ein Wert > 5.103, nämlich 5.670, der Wert, auf den ich schon meinen Verdacht gelegt habe.
8. Berechnung der “extremen” Ausreißer
Dafür wird in gleicher Weise zu Abschn. 6 vorgegangen, nur dass der Quartilsabstand nicht mit 1,5, sondern mit 3,0 multipliziert wird.
Ich rechne 251,0 * 3 und erhalte = 753,0.
Dann berechne ich:
Q3: 4.726,5 + 753,0 = 5.479,5
Q1: 4.475,5 – 753,0 = 3.722,5.
Extreme Ausreißer sind wieder alle Werte, die außerhalb dieser Grenzen liegen.
Die Bedingte Formatierung zeigt es:
Werte < 3.722,5 sind nicht enthalten, der Wert 5.670 ist aber > 5.479,5 und damit ein extremer Ausreißer.
Den Ursachen für diese enorme Abweichung von allen übrigen Werten und vom Median sollte unbedingt nachgegangen werden
[1] http://de.wikihow.com/Ausrei%C3%9Fer-berechnen
Entdecke mehr von Clevercalcul
Subscribe to get the latest posts sent to your email.
Ihr Schreibstil ist fesselnd! Ich war vom ersten Absatz an gefesselt.
Oh, vielen Dank. Das hat noch niemand bisher geäußert.
Ihre Einblicke in dieses Thema sind unglaublich wertvoll. Danke für einen so gut geschriebenen Artikel.
Besten Dank für das positive Feedback.
Es freut mich immer, wenn ein Beitrag Jemanden genützt hat.