Meine Top 5 Schwierigkeiten beim Statistik-Erstellen

Wie ich hier schon ein, zwei mal geschrieben habe, sind Statistiken ein ganz großes Hobby von mir. Dinge zählen sortieren, in eine Ordnung bringen, Rangfolgen erstellen, das ist, woran ich schon immer Spaß hatte. Bei den ganzen Statistiken die ich über die Jahre auf Papier geschmiert oder am Rechner getippt habe, gibt es allerdings ein paar Sachen, die mir immer wieder begegnen und über die man sich immer ein bisschen ärgert. Das sind natürlich alles Kleinigkeiten, die dem gesamten Spaß keinen Abbruch tun, trotzdem möchte ich fünf davon an dieser Stelle mal vorstellen.

1. Und dann steht es… unentschieden

Oft ist es ja so, das man mit der Statistik, irgendwelche Objekte, Länder, Städte, Personen oder sonst was irgendwie in eine Reihenfolge bringen will. Da denkt man sich dann ein mehr oder weniger ausgeklügeltes System aus und fängt dann an, die Daten einzutragen,… nur um festzustellen, dass das Ganze doch nicht so eindeutig war, wie man es sich gewünscht hatte und bei mehreren Objekten einfach das gleiche Endergebnis steht, womöglich noch auf den ersten Plätzen. Manchmal kann man das zwar einfach so stehen lassen, aber oft will man doch irgendeine Entscheidung (oder man braucht sogar eine). Dann muss man sich meistens die Sortierkriterien neu überlegen, zum Beispiel ein Tiebreakkriterium einführen. Die letzte Lösung ist dann meistens, einfach nach dem Alphabet zu gehen, was zwar nicht wirklich „fair“ ist, am Ende aber doch immer irgendeine Art von Ordnung schafft.

2. DDR, CSSR, UdSSR,…

Bei vielen Statistiken, die ich mache, spielen Länder eine wichtige Rolle, vor allem beim Sport. Und wenn man dann irgendwelche Ranglisten nach Land geordnet aufstellen will, laufen einem fast zwangsläufig die irgendwann Länder über den Weg, die es heute so nich mehr gibt: Sowjetunion, Tschechoslowakei, Jugoslawien und die DDR sind da die üblichen Verdächtigen. Dann muss man sich entscheiden: Führe ich Vorgänger- und Nachfolgestaaten als komplett getrennte Objekte, oder fasse ich Russland und Sowjetunion, die Tschechische Republik und die Tschechoslowakei, Serbien und Jugoslawien unter einem Punkt zusammen? Ich persönlich präferiere eigentlich die zweite Variante, aber natürlich ist das nicht immer fair: Beispielsweise wurde der Fußball-EM-Triiumph der Tschechoslowakei 1976 hauptsächlich von slowakischen Spielern erzielt und am zweiten Platz der Sowjetunion bei der EM 1988 waren hauptsächlich Ukrainer beteiligt. Also muss man sich eben jedes Mal fragen, was für die jeweilige Statistik die eleganteste Lösung ist.

3. Verlust der Neutralität (oder: der Lukas-Podolski-Effekt)

Eigentlich sollte jede Statistik aus einer komplett neutralen und unparteiischen Perspektive angegangen werden, damit man nicht irgendwie das Ergebnis verfälscht. Das versuche ich eigentlich auch immer, aber klappen tut es meistens nur am Anfang. Irgendwann ist einem dann doch irgendein Land/Mensch/Jahr/Ort/Fluss oder was auch immer sympathischer (oder auch unsympathischer) und man will das das dann in der Rangliste weiter nach oben (unten) kommt. Ein bisschen macht das zugegebenermaßen auch den Reiz aus aber irgendwann nervt es auch, weil man dann nur noch auf die Ergebnisse dieses einen Dings schaut.

Warum uch dieses Problem nach dem deutschen Fußball-Nationalspieler Lukas Podolski benannt habe? Nun, der ist so ein Fall, wo die Neutralität in die negative Richtung gekippt ist. Podolski ist nämlich in letzter Zeit auf der Liste der Nationalspieler mit den meisten Einsätzen für die DFB-Elf ziemlich weit nach oben gekommen (auf den dritten Paltz mittlerweile galub ich), wo er meines Erachtens irgendwie nicht hingehört. Es gibt Spieler (auch der aktuellen Generation), die einen Platz da oben viel mehr verdient hätten als der Kölner (gegen dan ich prinzipiell überhaupt nichts habe). Ich führe über die Nationalmannschaftseinsätze im Moment zwar nicht explizit Buch, aber trotzdem ärgere ich mich doch jedes Mal ein bisschen, wenn Podolski wieder einen Einsatz dazu bekommt.

4. Der systematische Fehler

Das ist ein verwandtes Problem zu Nummer 3. Nur liegt in diesem Fall der Verlust der Neutralität nicht an persönlicher Sympathie, sondern an irgendwas Konkretem. Irgendein Effekt verzerrt die Statistik so, dass das, was sie zeigen soll, an manchen Stellen nicht mehr gezeigt wird. Immer wenn man das Endergebnis anschaut, wird man daran erinnert, dass eigentlich dieser und jener Eintrag viel weiter oben oder unten sein müsste.

Ein Beispiel: Die Olympischen Sommerspiele 1896 fanden in Athen statt. Zu dieser Zeit war Olympia noch keine so große Geschichte und so waren 70% der Teilnehmer einfach Griechen. Das führte natürlich dazu, dass die Griechen im Medaillenspiegel ziemlich weit vorne lagen, weil in manchen Disziplinen einfach niemand anderes teilgenommen hatte. Heute noch resultiert ein ziemlich großer Anteil aller griechischen Olympiamedaillen genau von diesen Spielen und das schlägt sich natürlich auf Griechenlands Position im Ewigen Medaillenspiegel nieder, der ja so ein bisschen die sportliche Stärke eines Landes über die Jahre hinweg abbilden soll. Diese Position ist also allein aufgrund der Tatsache, dass man ganz am Anfang Gastgeber war, signifikant nach oben verschoben.

(Bei den anderen frühen Gastgebern gibt es den gleichen Effekt zwar auch, aber nicht so extrem, weil das dann meist Nationen waren, die bei Olympia allgemein recht erfolgreich sind und so der Anteil an der Gesamtzahl der Medaillen nicht so hoch ist)

5. Finde den Fehler!

Ich bin ein Mensch. Menschen passieren Fehler. Auch beim Statistik-Erstellen. Dessen bin ich mir bewusst und auch wenn ich versuche, die Fehlerrate möglichst klein zu halten, weiß ich, dass ich mich irgendwo doch wieder verzähle,… oder etwas vergesse,… oder mich  vertippe. Oft hat man keine Möglichkeit im Nachhinein die Fehler zu finden, aber manchmal findet man Endergebnisse, die eigentlich hätten rauskommen sollen. Dann heißt es vergleichen, Unstimmigkeiten nachgehen, nochmal nachzählen, bis alles passt. Das ist eine mühsame Arbeit, die keinen Spaß macht, aber man hat doch das Bedürfnis, dass am Ende alles übereinstimmt.

Das wars fürs Erste, das Ganze mag jetzt für jemanden, der für Statistiken nichts übrig hat, alles ziemlich seltsam klingen, aber seid unbesorgt: All diese „Probleme“ sind auch für mich nicht wirklich weltbewegend, sondern einfach Kleinigkeiten, die das Statistik-Erstellen so mit sich bringt 🙂

Ich wünsche allen Lesern ein gutes neues Jahr 2015 und hoffe, dass dieses Blog nächstes Jahr ein bisschen lebendiger wird.

Advertisements

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s