Voor de 4e keer op rij heeft Nederland zich weten te kwalificeren voor een belangrijk eindtoernooi. Dat betekent dat voor de 4e keer op rij menig Nederlander zich met alle daarbij behorende voorpret verdiept in het invullen van poules.
Dat het voorspellen van voetbaluitslagen geen eenvoudige kwestie is, is voor iedereen die zelf wel eens aan een poule (of de toto) meedoet wel duidelijk. In tegenstelling tot in Amerika zeer populaire sporten als honkbal, basketbal en American Football, kenmerkt voetbal zich door zeer weinig doelpunten, weinig herhalingen van gelijksoortige momenten en veel factoren die een onvoorspelbare invloed op het verloop van een wedstrijd hebben (22 spelers, 3 (of meer) scheidsrechters, publiek, trainers, weersomstandigheden, etc.). Voor een WK geldt bovendien dat er van de landenteams weinig recente wedstrijdgegevens zijn. Onderlinge resultaten uit recente ontmoetingen zijn zeer zeldzaam. Om tot voorspellingen te komen moet men dus op een ander manier de krachten van verschillende landen met elkaar vergelijken.
Een eenvoudige manier om de meest waarschijnlijke uitslag van een voetbalwedstrijd te voorspellen maakt gebruik van de zogenaamde Poisson verdeling. Essentieel bij het gebruik van die verdeling zijn twee zogenaamde scoringsparameters: het gemiddelde (“verwachte”) aantal doelpunten dat land A scoort in een wedstrijd tegen land B, en het gemiddelde (“verwachte”) aantal doelpunten dat land B scoort in een wedstrijd tegen land A. Met die parameters is het mogelijk om de kans op een specifieke uitslag, zeg N – M, te berekenen aan de hand van de volgende formule:
waarbij mu en nu staan voor de Poisson scoringsparameters, e het grondtal van de natuurlijke logaritme is, en N! is de faculteit van N (N*(N-1)*…*1). De kans op verlies voor het eerste land wordt verkregen door alle kansen waarbij M > N te sommeren.
De grote vraag is nu hoe we de scoringsparameters goed kunnen schatten. In Groot (2008), werden deze parameters geschat aan de hand van het aantal gescoorde en geïncasseerde doelpunten van een land. In Groot en Van de Velden (2010) werd voorgesteld om de parameters te kiezen aan de hand van zogenaamde ELO ratings en de daarbij passende winstkansen. Een belangrijke tekortkoming van beide schattingsmethoden is dat deze gebaseerd zijn op interland uitslagen uit het (recente) verleden. Directe informatie over de individuele kwaliteiten van de selecties wordt niet meegenomen. Echter, dergelijke inschattingen zijn waarschijnlijk wel van belang. Immers, de uiteindelijke WK-selectie is in veel gevallen niet gelijk aan de elftallen die de interlands speelden. In het geval van Nederland is het wegvallen van Strootman een veelbesproken gebeurtenis en het recente uitvallen van bepalende spelers, zoals bijvoorbeeld, Falcao, Reus en Ribery, heeft zeer waarschijnlijk ook effect op de winstkansen van de betreffende landen.
Om inschattingen van de kwaliteiten van individuele spelers te verkrijgen kunnen we gebruik maken van het “EA Sports 2014 World Cup Brazil” spel. Dit populaire spel, beschikbaar voor de populairste spelcomputers, heeft voor alle WK-spelers inschattingen van de individuele capaciteiten. Bovendien, afhankelijk van de gekozen opstelling, kan per land de kracht van verdediging, middenveld en voorhoede bepaald worden. In <media 2097308 _blank>Tabel 1</media>, staan deze waarden voor alle deelnemende landen (waarbij we gebruik gemaakt hebben van de door EA Sports gebruikte standaard opstellingen). De waarden van deze aanval/midden/verdedigingsratings kunnen gebruikt worden om de parameters van het Poisson te bepalen. Een hele simpele manier om dit te doen is door voor iedere wedstrijd de verschillen in de EA-Sports aanval en verdedigingsratings (waarbij we voor zowel aanval als verdediging de helft van de middenveld rating optellen) van de twee landen te nemen en deze te herschalen naar plausibele waarden voor de parameters. Voor het herschalen delen we de verschillen eerst door 42 (het grootste verschil tussen twee landen: Spanje en Iran) en tellen hier 1 bij op zodat de verkregen waarden tussen 0 en 2 liggen. Aannemende dat het gemiddelde aantal doelpunten dat een sterk WK-land maakt tegen een zwak WK-land ongeveer 4 is, kwadrateren we de gestandaardiseerde waarden zodat, afhankelijk van de verschillen tussen de landen, de parameters in het Poisson model liggen tussen 0 en 4. Met de verkregen schattingen kunnen we voor alle WK-wedstrijden de meest waarschijnlijke uitslagen selecteren. Voor de poulefase staan alle uitslagen in <media 2097309 _blank>Tabel 2</media>.
Als men het hele schema op deze wijze doorrekent, zien we dat Nederland er tegen Brazilië uitvliegt en dat Spanje weer wereldkampioen wordt. Echter, gezien de steeds kleinere kwaliteitsverschillen zien we ook dat de verschillen tussen winst/verlieskansen steeds kleiner worden. De kans dat Brazilië Nederland verslaat is bijvoorbeeld minder dan een half en in de finale is de kans op winst voor Spanje slechts 0.39 terwijl de kans dat Duitsland die wedstrijd wint 0.32 is.
Referenties:
Groot, L. (2008), Poulen met EK koorts, Economisch Statistische Berichten, 93 (4536), 30 mei 2008, 346-8.
Groot, L. en M. van de velden (2010) De WK-poulewijzer, ESB, 95(4587), 362–364.
- CV
Michel van de Velden is universitair docent statistiek bij het Econometrisch Instituut. Zijn onderzoekinteresses gaan uit naar het ontwikkelen en verbeteren van visualisatie methoden voor multivariate data. Recente artikelen verschenen in Food Quality and Preference, Marketing Letters en Journal of Computational and Graphical Statistics.
Marius van Es is een derdejaars student Econometrie & Operationele Research. Als onderzoeksassistent van Michel van de Velden heeft hij meegeholpen aan deze publicatie. Van Es is gedurende het Centennialjaar voorzitter van de Lustrumcommissie van Erasmus School of Economics. In het academisch jaar 2014-2015 treedt Marius van Es op als president van de Financiële Studievereniging Rotterdam (FSR).