Ausreißer gehören zu den interessantesten und am häufigsten herausfordernden Themen in der Statistik.
Ausreißer sind Datenpunkte, die weit von den anderen Datenpunkten in einem Datensatz entfernt liegen.
Ausreißer können wesentliche Auswirkungen auf statistische Analysen haben.
Es gibt viele statistische Ansätze zum Erkennen von Ausreißern.
Ein Ansatz ist die Verwendung von Z-Scores bzw. Z-Werten. Dieser Beitrag beschäftigt sich mit dieser Methode.
Lade dir zuerst die Excel-Datei zum Beitrag herunter:
Table of Contents
1. Definition der Z-Scores
„Z-Scores, auch als Standard-Scores bezeichnet, messen den Abstand zwischen einem Datenpunkt und dem Mittelwert des Datensatzes in Bezug auf Standardabweichungen. Der resultierende Wert ist ein Hinweis darauf, wie viele Standardabweichungen ein Datenpunkt vom Mittelwert entfernt ist.“ [1]
„Z-Scores werden berechnet, indem der Mittelwert des Datensatzes von einem Datenpunkt subtrahiert und das Ergebnis durch die Standardabweichung des Datensatzes geteilt wird. Der resultierende Wert ist ein Maß dafür, wie viele Standardabweichungen ein Datenpunkt vom Mittelwert entfernt ist.“ [2]
2. Grundsätzliche Aussagen zu Z-Score-Ausreißern
Z-Scores drücken aus, wie viele Standardabweichungen ein Datenpunkt vom Mittelwert eines Datensatzes entfernt ist. Ein Z-Score von 3 bedeutet z.B., dass der Datenpunkt drei Standardabweichungen über dem Mittelwert liegt. Als Ausreißer wird in der Regel ein Z-Score von 2 oder mehr angesehen.
Der Vorteil der Verwendung von Z-Score zur Bestimmung von Ausreißern besteht darin, dass sie unabhängig von der Skala eines Datensatzes sind. Mit Z-Scores können Datenpunkte aus verschiedenen Datensätzen mit unterschiedlichen Messeinheiten verglichen werden.
Ausreißer, die mit Z-Scores erkannt wurden, können auch durch die Stichprobengröße des Datensatzes beeinflusst werden. Bei einer kleinen Stichprobengröße ist es einfacher, dass ein Datenpunkt ein Ausreißer wird. Bei einer großen Stichprobengröße ist es entsprechend schwieriger.
Eine Einschränkung der Z-Score-Ausreißer ist, dass sie die Verteilung der Daten nicht berücksichtigen. In Datensätzen mit verzerrten Verteilungen identifizieren Z-Score-Ausreißer möglicherweise nicht die extremsten Datenpunkte.
3. Berechnungsbeispiel für Z-Scores
Ein Wertebeispiel habe ich auf der Website von extendoffice.com [3] gefunden.
Folgend wird die Wertetabelle abgebildet:
4. Berechnung der Z-Scores
Die Tabelle weist Einzelwerte zwischen 55,87 und 90,79 aus, das ergibt eine Spanne von 34,92.
Der Mittelwert dieser Werte beträgt 76,34428571.
Die Standardabweichung beträgt 9,033272441.
Verwende die Funktion STABW.S(Bereich), wenn es sich bei Ihren Daten um eine Stichprobe einer größeren Grundgesamtheit handelt oder du die Grundgesamtheitsstandardabweichung basierend auf Ihrer Stichprobe schätzen möchtest.
Nun sollen die Z-Scores manuell berechnet werden.
Aktiviere Zelle B3 und schreibe die folgende Formel hinein:
=(A3-$C$18)/$C$19
Ziehe die Formel mit dem Ausfüllkästchen bis Zelle B16 hinunter.
Wie rechnet die Formel?
Zuerst wird der Mittelwert von den x-Werten subtrahiert. Dann wird das Zwischenergebnis durch die Standardabweichung dividiert.
Die Z-Scores können ebenso mit der Excel-Funktion STANDARDISIERUNG berechnet werden.
Aktiviere dazu Zelle C3 und schreibe die folgende Formel hinein:
=STANDARDISIERUNG(A3;$C$18;$C$19)
Ziehe die Formel mit dem Ausfüllkästchen bis Zelle C16 hinunter.
Die Funktion verwendet die gleichen Argumente, wie du sie bei der manuellen Berechnung eingesetzt hast.
Die Berechnungsergebnisse sind identisch mit denen aus der manuellen Berechnung.
Die Tabelle befindet sich im Arbeitsblatt „Berechnung Z-Scores“.
5. Identifizieren von Ausreißern
Zur Identifizierung von Ausreißern musst du zunächst einen Schwellenwert festlegen.
Der Schwellenwert ist eine positive Zahl. Das heißt, alle positiven und negativen Z-Scores, die außerhalb des Schwellenwerte liegen, bestimmen einen Ausreißer bei den x-Werten.
Wie kannst du die Ausreißer in deiner Tabelle auf einen Blick erkennen?
Verwende dazu z.B. die Bedingte Formatierung.
Markiere den Bereich B3:C16. Rufe im Menü Start/Formatvorlagen die Bedingte Formatierung auf. Gehe auf „Neue Regel“ und wähle nun „Formel zur Ermittlung der zu formatierenden Zellen verwenden“.
Gib die folgende Formel in die Regelbeschreibung ein:
=ABS(B3)>$C$21
Formatiere jetzt noch durch Schriftart oder Ausfüllfarben und bestätige mit OK.
Die Formel verwendet die Funktion ABS, um die Z-Scores einheitlich mit dem Schwellenwert vergleichen zu können.
Den Schwellenwert habe ich im Beispiel mit 2 definiert. Dies ist ein üblicher Wert.
Mittels der bedingten Formatierung wird nun der Z-Score zum x-Wert 55,87 als Ausreißer bestimmt. Er ist mit ABS(-2,266541372) größer als der Schwellenwert 2.
Legst du den Schwellenwert z.B. mit 1,5 fest, werden schon drei Ausreißer bestimmt.
Die Tabelle befindet sich im Arbeitsblatt „Bedingte Formatierung“.
Eine weitere Möglichkeit, Ausreißer zu zeigen, sind die Z-Score Diagramme.
Markiere dazu den Bereich C3:C16, rufe im Menü Einfügen/Diagramme das Liniendiagramm mit Datenpunkten auf.
Mit zwei Hilfsspalten habe ich den Schwellenwert positiv und negativ ins Diagramm eingefügt.
Es entsteht dieses Diagramm:
Es ist ganz klar zu sehen, dass der Z-Score zum x-Wert 14 größer als der Schwellenwert ist.
Das Diagramm befindet sich im Arbeitsblatt „Z-Score-Diagramm“.
6. Fazit
Warum ist das Finden von Ausreißern nun wichtig?
Weist ein Datensatz einige extreme Werte auf, die viel höher oder niedriger sind als die restlichen Datenpunkte, wird der Mittelwert stark von diesen Ausreißern beeinflusst. In diesem Fall ist es wichtig, diese Ausreißer zu identifizieren und zu entfernen, bevor statistische Analysen durchgeführt werden.
Quellen:
[3] https://de.extendoffice.com/documents/excel/7475-excel-z-score.html#example
Entdecke mehr von Clevercalcul
Subscribe to get the latest posts sent to your email.