Ist die Relegation fair?

Posted Februar 23, 2008 by
Categories: Gästeliste, Statistik & Fussball

[Vorbemerkung: Die Autorin freut sich, Jan als ersten Gastblogger begrüssen zu dürfen, viel Vergnügen beim Lesen!]

Im kommenden Jahr wird es, wie schon zwischen 1982 und 1991, Relegationsspiele geben. Der geneigte Anhänger der, sagen wir einmal, SpVgg Greuther Fürth wird sich sicher fragen, ob dies gerecht ist, da dies die Chancen auf Aufstieg in die Bundesliga ab der nächsten Saison schmälern wird.

 

Bevor jetzt der Anhänger eines latent abstiegsgefährdeten Erstliga-Vereins aufschreit, versuchen wir mal, das ganze statistisch anzugehen. Was ist ein gutes Maß dafür, wie viele Vereine auf- und absteigen dürfen? Ein paar Vorschläge:

 

a) Der aufsteigende Verein sollte eine mindestens 50%-ige Chance haben, das erste Bundesligajahr zu überstehen.

b) Die Chance sollte so groß sein, dass nur 1 Aufsteiger im Mittel absteigt.

c) Der Verein sollte sich dauerhaft in der 1. Liga etablieren können.

d) Der Aufsteiger sollte stärker sein als ein Absteiger.

e) Der Aufsteiger sollte stärker sein als alle Absteiger.

f) Der Verein sollte finanziell zum Wohlergehen der 1. Liga beitragen.

 

Letzteres klingt abstrus? - In der Tat sind Varianten von a)-f) in verschiedenen Sportarten durchaus realisiert. Z.B. kann man eine höhere Liga nach einer bestimmten Zahl von Spielen teilen, und die unteren x Vereine mit den oberen y Vereine der nächstunteren Liga eine Teilrunde spielen lassen (eine Variante von d) und e)). Eine andere Variante von d) und e) sind Relegationsspiele, oder gar Relegationsturniere. f) ist eher in amerikanischen oder amerikanisch geprägten Ligen ein Thema. Diese Variante ist jedoch nicht weit entfernt von c) - eine hohe Finanzkraft kann durchaus ein Indiz für die Chance zur dauerhaften Etablierung sein. Gibt es ein anderes Maß dafür, ob sich ein Verein dauerhaft etablieren kann? Hier könnte uns die Statistik helfen. Jedoch - das wollen wir hier zunächst nicht betrachten. Aufgrund der relativ hohen Zahl der Auf- und Absteiger im Fußball setzen wir voraus, dass nicht c) die Voraussetzung für Aufstieg ist, sondern eine Variante von a) & b). Kurz gesagt: Ein Aufsteiger sollte momentan (und das ist der springende Punkt!) stark genug sein, um sich in der 1. Liga durchzusetzen. Und, das naheliegendste Maß für Durchsetzen ist - in unserer Betrachtung - Nicht-Abstieg.

 

Wenden wir uns wieder ein wenig der Statistik zu: Mit welcher Wahrscheinlichkeit sollte ein Aufsteiger die Klasse halten? Spontane Meinung bitte! 

Ich denke, 50% klingt zunächst fair. Das würde bedeuten, im Mittel ist die Hälfte der Aufsteiger gut genug, nicht abzusteigen. Einwände? Gut! Bevor wir weitere Betrachtungen starten, widmen wir uns doch - Daten. (NB: Es geht doch nichts über Daten!)

 

Welche Plätze in der 1. Liga erreichten die Aufsteiger in den zurückliegenden 10 Jahren? Die Verteilung ist im folgenden Bild dargestellt:

 

platzierungen-aufsteiger.png

 

Wir sehen, dass ein Aufsteiger im Durchschnitt zwischen Rang 13 und 14 erreicht. Die Streuung ist durchaus relativ breit. Und der Ausreißer nach oben ist auch noch knapp drin. Zurück zum Thema: Wie groß ist die Wahrscheinlichkeit, dass ein Aufsteiger die Klasse hält? Zählen wir die Platzierungen von 16-18 - es sind 11. Bei 30 Absteigern ergibt das eine Wahrscheinlichkeit von ca. 63%, nicht abzusteigen. Das sind deutlich mehr als 50%! In guter Näherung wollen wir sagen: Nur jeder dritte Aufsteiger steigt wieder ab - das heißt, im Mittel genau einer der Aufsteiger. Klingt das nicht fair? Das heißt, die Aufsteiger steigen mit deutlich mehr als 50%-iger Wahrscheinlichkeit nicht wieder ab und sind damit zu fast 2/3 reif für die 1. Liga.

 

Unser freundlicher Fan von Greuther Fürth wird sich jetzt, hoffentlich, ärgern: Die Aufsteiger können offensichtlich mehr als mithalten, und jetzt werden Relegationsspiele eingeführt? Und vielleicht fordern sie gar den 4. Aufsteiger. Es gibt, selbstverständlich, Argumente für die Gegenseite: 

 

1) Die Fluktuation zwischen 1. und 2. Liga sollte nicht zu hoch sein - Stichworte: Planbarkeit, Sicherheit.

2) Die Aufsteiger haben einen Aufstiegsbonus (Schwung aus der Vorsaison, etc.), und deshalb ist 50% etwas niedrig angesetzt.

3) Der beste Aufsteiger ist vielleicht gut genug für die 1. Liga, aber ist es deshalb auch der zweitbeste, oder gar der Drittplatzierte der 2. Liga?

 

Während die ersten beiden Punkte etwas schwer zu fassen sind - aber sicher Zustimmung finden, ich denke, wir können uns darauf einigen, dass ein Wert jenseits von 50% Klassenerhaltswahrscheinlichkeit durchaus sinnvoll ist - klingt Punkt 3 doch sehr naheliegend. Jeder dritte Aufsteiger steigt wieder ab, also lassen wir einfach nur die beiden hoch, die drinbleiben.

 

Hier unterbrechen wir einmal kurz. Klang das nicht alles zu sehr nach der Perspektive der 2. Liga? Warum fragen wir uns nicht, ob die Zahl von 3 Absteigern fair ist? Genug der Worte, lassen wir Daten sprechen, über die der Leser sich Gedanken machen kann - die Platzierungen der 1. Liga-Absteiger in der 2. Liga der letzten 10 Jahre:

 

platzierungen-absteiger.png

 

Um zu sehen, was man mit Statistik noch alles machen kann, gibt es - demnächst - einen 2. Teil 

Wann fällt es denn, das Tor?

Posted Februar 11, 2008 by
Categories: Statistik & Fussball

Jeder (regelmäßige Stadionbesucher) kennt das Problem: das Bier ist leer, man muss auf Toilette und in der Halbzeit ist es zu voll, aber man will das entscheidende Siegtor der eigenen Mannschaft natürlich nicht verpassen, auch wenn es in den moderneren Stadien praktischerweise auch an den Wurstständen Bildschirme gibt.

Wüsste man also, wann das nächste Tor wahrscheinlicherweise fallen würde, könnte man seine Bedürfnisse darauf einstellen und eben genau dann den Platz verlassen, wenn es höchst wahrscheinlich nicht fällt. Dass es dann erfahrungsgemäß natürlich doch dann fällt, muss ich nicht erwähnen.

Also habe ich mir mal angeguckt, wann es denn so fällt, das Tor. Berücksichtigt sind alle Tore der letzten 19 Spieltage in der 1.Fussballbundesliga. Erste Liga deshalb, weil ich den aktuellen Spieltag berücksichtigen wollte und in der zweiten noch ein Spiel fehlt (auch wenn dort natürlich die entscheidenden Tore meiner Mannschaft praktisch im Minutentakt fallen werden, ist ja klar).

Insgesamt sind also an den letzten 19 Spieltagen 489 Tore gefallen. Das heißt, im Durchschnitt fallen pro Spieltag 25.7 Tore bzw. pro Partie 2.85 Tore. Umgerechnet auf 93 Spielminuten, um auch die spätesten Tore in der Nachspielzeit zu berücksichtigen, sollten also in jeder Minute 5.258 Tore gefallen sein, wenn man animmt, dass die Wahrscheinlichkeit für ein Tor in jeder Spielminute gleich hoch ist.

In der Realität sieht das ganze dann so aus:

spielminute1.jpg

Die rote Linie zeigt den Durchschnittswert von 5.258 Toren an, die Punkte stehen für die tatsächlich gefallene Anzahl Tore in jeder Spielminute.

Man sieht deutlich, dass die Wahrscheinlichkeit für ein Tor in den ersten ~30 Spielminuten unter dem Durchschnitt liegt, allerdings ist dann das Bedürfnis für einen Besuch von Toilette/Bierbude wohl auch am geringsten.

Auf jeden Fall sollte man in der 36. Minute auf seinem Platz sein, schon 14 Tore sind zu diesem Zeitpunkt gefallen. Zum späteren Zeitpunkt empfehlenswert wären also die 58. Spielminute und die 71. Spielminute, allerdings sollte man sich auch dann etwas beeilen.

Erstaunlich finde ich, dass kurz vor Spielschluss bzw. auch kurz vor der Halbzeit gar nicht so viele Tore fallen, wie man (ich) das so denkt. Dazu die gleichen Tore nochmal unterteilt in 10minütige Pakete:

spielphase.jpg

Das Verhalten lässt sich schon relativ einfach durch ein Polynom 2.Grades beschreiben:

spielphasefit.jpg

Merke also: nicht alle Tore fallen in der letzten Minute, sondern die meisten in der 36.!

Torschusseffizienz und Exponentialfunktionen

Posted November 22, 2007 by
Categories: Statistik & Fussball

Ein weiterer Beitrag aus der Reihe “auch der Fussball folgt statistischen Gesetzen”, nach dem Einstieg mit der Gauß-Verteilung folgt nun die Exponentialfunktion.
Allgemein kann man jede Funktion der Form
\mathsf{y(x) = a^x}
als Exponentialfunktion bezeichnen, die spannendste und gebräuchlichste ist aber eine Funktion
\mathsf{y(x) = A \cdot e^{b \cdot x}}

Damit zum Fussball. Mit einem Spieltag mehr, d.h. jetzt den Spieltagen 1,2,3,4,5 und 13 der laufenden 2.Liga-Saison gucke ich mir jetzt das Verhältnis der geschossenen Tore zur Anzahl der Torschüsse (die Torschusseffizienz) jeder Mannschaft an jedem dieser Spieltage an - diese Daten sind mit einem roten Punkt im Plot gekennzeichnet, der Fehler ergibt sich als Wurzel aus der Anzahl der Einträge pro Bin (Bins sind die Abschnitte, in die die x-Achse unterteilt ist).

torfractionb.jpg

Grundsätzlich sieht man, guckt man nur auf die roten Punkte, schonmal, dass jede Mannschaft mindestens zwei Torschüsse braucht um ein Tor zu schiessen, denn sonst hätten wir auf der x-Achse Einträge jenseits von 0.5. Insgesamt bedeutet z.B. ein Wert von 0.1 auf der x-Achse, dass diese Mannschaft pro Torschuss 0.1 Tore geschossen hat, d.h. also 10 Versuche für ein Tor gebraucht hat.
Auch der große Anteil der Einträge bei 0 lässt sich erklären - schiesst eine Mannschaft keine Tore, ist natürlich auch das Verhältnis der geschossenen Tore zu den Torschüssen 0.

Insgesamt sieht man daran schon, dass die meisten Torschüsse “vergeblich” sind, nur die wenigsten Mannschaften haben eine hohe Torschusseffizienz. Trotzdem kann aber natürlich auch eine Mannschaft A mit einer Effizienz von 0.1 gegen eine Mannschaft B mit einer Effizienz von 0.2 (jeweils für ein einziges Spiel) gewinnen - die Mannschaft A muss nur mehr als doppelt so oft aufs Tor schiessen wie Mannschaft B.

Zurück zum Plot:
Um den Abfall der Einträge zu höheren Werten zu beschreiben bietet sich eben eine e-Funktion an, deren Fit, d.h. die bestmögliche Anpassung einer Funktion an die Daten, durch die schwarze Kurve dargestellt ist. Die zugehörige Formel (ohne Fehler auf die Fitparameter) ist ebenfalls angegeben.

Vergleicht man die schwarze Kurve mit den Datenpunkten, sieht man eine gute Übereinstimmung innerhalb der Fehler - ein Maß dafür ist das “Chi-Quadrat per Freiheitsgrad”, in der Box rechts als \mathsf{\chi^2 / ndof}. Liegt das Resultat im Bereich von 1, ist der Fit gelungen.

Zusätzlich kann man noch die Skala der y-Achse ändern, denn die Umkehrfunktion einer e-Funktion ist der logarithmus naturalis, in dieser Darstellung sollte der Zusammenhang also linear sein - und siehe da, logarithmiert man die y-Achse, sieht man deutlich, dass die Datenpunkte in etwa auf einer Linie liegen:

torfractionlog.jpg

Gauß und die Pässe - ein erster Versuch

Posted November 20, 2007 by
Categories: Statistik & Fussball

Wie wir alle wissen (spätestens jetzt) folgen nach dem zentralen Grenzwertsatz alle unkorrelierten Zufallsvariablen irgendwann einer Gauß-Verteilung. Wie sehr der Fussball also der Statistik bzw. dem Zufall unterliegt, wird sich zeigen, wenn man sich mal Fussballvariablen unter diesem Gesichtspunkt ansieht.

Und siehe da:
paesse
(Ich weiß, liebe Physiker, das Binning ist suboptimal…)

Man sieht die Anzahl der Pässe einer Mannschaft pro Spiel, das ganze für alle Mannschaften der 2.Liga an den Spieltagen 1,2,3,4 und 13 der aktuellen Saison 2007/2008.
Der eine Ausreißer nach rechts ist übrigens die Anzahl der Pässe des 1.FC Köln bei der Heimniederlage gegen Alemannia Aachen.

Trotz der relativ geringen Statistik von nur 90 Einträgen passt der Gauß-Fit schon ganz gut, mehr dann, wenn ich mehr Statistik habe.