perjantai 15. joulukuuta 2017

DIY - xG-malli

xG-malleista on ollut paljon puhetta viime aikoina, ja esittelin edellisessä jutussani mallien peruslogiikan. Lupasin myös palata xG-malleihin tarkemmin, joten esittelen tässä jutussa yhden tavan rakentaa xG-malli. Sain käyttööni Stratabetin tilastoja, joiden perusteella rakensin oman xG-mallin. Ideana on näyttää miten mallin voi rakentaa, ei suinkaan pyrkiä tekemään tästä esimerkkimallista täydellistä.

xG-mallin tilastoaineisto


Malli on rakennettu käyttäen Stratabetin tilastoja Hollannin, Belgian, Norjan ja Ruotsin pääsarjoista sekä Uefan Eurooppa-liigasta. Aloitin mallin rakentamisen kasaamalla aineistot yhteen ja poistamalla siitä rangaistuspotkut, omat maalit ja vaaralliset tilanteet. Mutta hetkinen, aiemmassa jutussani juuri kirjoitin, että Stratabetin datassa on se etu perinteisiin laukausmalleihin verrattuna, että siinä huomioidaan myös vaaralliset tilanteet, joista ei tule laukausta. Noh, rakennan nyt puhtaasti laukauksiin perustuvaa xG-mallia, joten tästä syystä nuo vaaralliset tilanteet eivät tässä mallissa toimisi. Käytännössä tässä on tarkoitus näyttää, miten voidaan rakentaa malli, joka ennustaa / arvioi millä todennäköisyydellä tietystä osasta kenttää lauotaan (tai pusketaan) maali.

Otin aineistossa huomioon laukausten koordinaattien lisäksi:
  1. Puskut vs. muut
  2. Open play vs. vapaapotkut
Kyseessä on siis hyvin yksinkertaistettu malli. Halusin tässä kuitenkin nimenomaan tarkastella pelkkiä laukauksia, sillä niiden avulla saadaan kentän eri osa-alueille (bin) karkeat todennäköisyydet, joilla laukaus tai pusku menee maaliin. Aineistoksi muotoutui tässä tapauksessa hieman alle 30.000 laukausta tai puskua. Jaoin kentän oheisen kuvan mukaisesti 11 osa-alueeseen, eli biniin:


Usein näkee malleja, joissa koko maalivahdin alue maalin edessä on yhtä biniä. Itse jaoin sen tätä analyysiä varten kuitenkin kahteen osaan kohta nähtävistä syistä. Tässä xG-mallin versiossa binien sisällä voi olla melko isoakin vaihtelua todellisissa xG:ssä (esim. bineissä 2, 3, 4 ja 5 on iso ero siinä tuleeko laukaus binin ulkoreunalta vai sisäreunalta), mutta aineiston suhteellisen rajallisesta koosta johtuen en lähtenyt jakamaan alueita tämän tarkemmin. Nykyiselläänkin muutamaan biniin jäi vain parisataa laukausta, joten niiden osalta maalitodennäköisyydet eivät luultavasti ole kovin tarkkoja estimaatteja.


Vaikka biniin 0.5 jää nyt vain 250 laukausta, halusin erottaa sen omakseen, koska konversio-% verrattuna bin ykköseen on valtava, kuten alla olevasta taulukosta nähdään.


Aineiston rajallinen koko aiheuttaa muutamia hassuja tuloksia, kuten sen, että boxin ulkopuolelta puskut olisivat laukauksia todennäköisempiä maaleja. Tämä johtuu kuitenkin sattumasta, sillä aineistossa oli yhteensä vain 24 puskua boxin ulkopuolelta, mutta näistä 2 meni maaliin. Kaikissa muissa bineissä laukaukset olivat selkeästi puskuja todennäköisempiä menemään maaliin. Aivan maalinedustan (bin 0.5) konversiot ovat merkittävästi korkeammalla tasolla verrattuna muualta maalivahdin alueelta tuleviin laukauksiin ja puskuihin.






K


Kuvassa on esitetty visuaalisesti aineiston laukaukset sekä niiden xG:t perustuen edellä esitettyihin bineihin. Todellisuudessa xG ei tietenkään muutu kuten kuvassa, sillä nyt rakennettu malli yksinkertaistaa todellisuutta yhdistelemällä laukaukset alueiden sisällä. Laukausten maalinmenotodennäköisyydet ovat kuitenkin jo tälläkin analyysillä enemmän "siellä päin", ja mallin avulla saadaan enemmän informaatiota peleistä, kuin vaikkapa pelkästään joukkueiden laukausten määrää tarkastelemalla.

Case-esimerkki: AFC Eskilstuna - AIK 4.6.2017


Uudenkarheaa xG-malliamme voi nyt hyödyntää esimerkiksi tarkastelemalla yksittäisen ottelun laukauksia ja maaliodotuksia. Valikoin tarkasteluun Allsvenskanin ottelun Eskilstuna - AIK viime kesältä (4.6.2017).













































Kuvassa on esitetty Eskilstunan laukaukset ottelussa sekä niiden lopputulema (maali, ohi, torjunta, blokkaus). Pallon koko kuvastaa aiemmin rakentamamme BinxG-mallin antamaa todennäköisyyttä. Eskilstuna laukoi ottelussa 9 kertaa, joista yksi meni maalin.



AIK laukoi 12 kertaa ja onnistui maalinteossa 3 kertaa. xG-mallimme mukainen maaliodottama AIK:lla oli noin kaksinkertainen verrattuna Eskilstunan maaliodottamaan. Pelkästään laukausten tai maalia kohti suuntautuneiden laukausten määrää tarkasteltaessa ottelu vaikuttaisi suhteellisen tasaiselta (9 vs. 12). Kuvia katsomalla kuitenkin nähdään heti, että AIK:n paikat tulivat selvästi paremmista lokaatioista ja yksinkertaistettu mallimmekin poimi tämän informaation.

Ottelun loppulukemat olivat 1-3 ja BinxG:t 0.6-1.3. Stratabetin oman xG-tilastoinnin perusteella maaliodotukset olivat 0.75-2.12, eli ero rakentamaamme malliin oli melko suuri. Pääasiassa ero johtui Daniel Sundgrenin maalista, jolle mallimme antoi maaliodottamaa vain 0.13 kun taas Stratabet antoi 0.83.

Tämä maali osoittaa hyvin, miksi pelkkiin laukauslokaatioihin perustuvat xG-mallit ovat puutteellisia. Alla on kaksi heikkolaatuista still-kuvaa kyseisestä tilanteesta, toinen hieman ennen laukausta ja toinen laukauksen hetkellä:




Kuvien lähdet: Sporttube.com

Kuten nähdään, niin kyseessä ei ole ihan tyypillinen laukaus pilkun kohdalta. Sundgren saa pallon pystysyötön seurauksena linjan taakse ja kontrolloi taitavasti vaikeahkon pallon siirtäen sen tyhjiin maalivahdin ohi. Monissa xG-malleissa onkin yhtenä muuttujana se, minkälaisen syötön jälkeen tilanne tuli, ja tällaiset "after throughball" -tilanteet ovat yleensä kaikkein vaarallisimmasta päästä.

Mitä tästä opimme?


Rakensimme suoraviivaisen laukausten lokaatioihin perustuvan xG-mallin, joka kuvastaa laukausten ja puskujen keskimääräistä maaliinmenon todennäköisyyttä "suunnilleen" kyseisestä lokaatiosta. Kuten esimerkkimme osoitti, mallin tarkkuus on vielä tällaisenaan melkoisen heikko. Mallimme korrelaatio aineiston maalien kanssa on 0.33, kun taas Stratabetin xG:t korreloivat maalien kanssa selvästi vahvemmin (0.46). 

Miten mallia voitaisiin sitten kehittää? Ensinnäkin otoskokoa tulisi kasvattaa merkittävästi, sillä 30 000 laukausta ei vielä riittänyt kovinkaan luotettavaan jaotteluun. Toinen vaihtoehto olisi (myös perustuen isompaan aineistoon) tehdä toisenlainen malli, joka perustuu laukausten koordinaatteihin. Tällöin ei tarvitsisi jaotella laukauksia alueittain, vaan voisimme ennustaa yksittäisten laukausten todennäköisyyksiä mallinnuksen, ei luokittelun perusteella. Malliin voitaisiin myös lisätä minkälaisen syötön jälkeen tilanne tuli (keskitys, läpisyöttö, kulmapotku jne.). Stratabetin aineistossa on myös subjektiiviset havainnot laukauksen laadusta, maalin ja laukojan välissä olevien puolustajien määrä sekä arvio puolustuksen paineesta pallolliselle. Näiden muuttujien avulla päästäisiin jo huomattavasti paremmin todellisuutta vastaaviin lukemiin.

 

This article was written with the aid of StrataData, which is property of Stratagem Technologies. StrataData powers the StrataBet Sports Trading Platform, in addition to StrataBet Premium Recommendations.


torstai 14. joulukuuta 2017

Jalkapallotilastoista

Kirjoitin Byyri.comiin tekstin jalkapallotilastoista ja ajattelin, että laitan tänne blogin puolelle vähän muokatun version samasta jutusta. Tässä se siis on:

Jalkapallotilastot ja niiden kehitys 


Tilastojen hyödyntäminen ja niiden analysoiminen jalkapallossa on viime vuosina lisääntynyt ja herättänyt aiempaa laajempaa kiinnostusta. Silti edelleen jalkapallon julkiset tilastot erityisesti Suomessa koostuvat pääosin maaleista, kulmapotkuista, paitsioista, korteista, pallon hallinnasta, laukauksista ja muista niin sanotuista “perustilastoista”. Pelin syvällisempää analysointia varten nämä perustilastot tarjoavat hyvin rajalliset lähtökohdat ja sen vuoksi niiden rinnalla on alettu koota koko ajan kasvavaa määrää yksityiskohtaisempia ja monipuolisempia tilastoja. Voidaan sanoa, että jalkapallossakin on alettu hakea etua baseball-seura Oakland Athleticsin tapaan “money ball” -tyylisesti tilastoja tutkimalla. Tilastojen kysynnän lisääntyessä, sekä seurojen ja analyytikoiden kiinnostuksen herättyä, markkinoille on tullut useita dataa kerääviä ja myyviä yrityksiä, kuten Opta, InStat ja Stratabet. Tilastojen analysoinnin tekee kuitenkin haastavaksi se, että kaikilla näillä on omat tapansa kerätä dataa ja tilastoida tapahtumia. Esimerkiksi saman ottelun tilastoissa voi Stratabetin ja Optan keräämän aineiston perusteella olla merkittäviä eroja. Veikkausliigasta kunnollista dataa on saatavilla vain itse keräämällä tai käyttämällä InStatin tilastoja, jotka eivät valitettavasti ole kovinkaan laajalti raportoituja saatikka helposti saatavilla edes Veikkausliigan omilla sivuilla.

Yksi askel kohti kehittyneemmän tilastoinnin laajempaa hyväksyntää ja käyttöä tapahtui syksyllä 2017, kun Brittiläinen Sky Sports alkoi raportoimaan niin sanottuja “expected goals” -tilastoja lähetyksissään. Expected goals, tai tuttavallisemmin xG onkin tämän hetken puhutuimpia, mutta myös ristiriitaisimpia jalkapallon tilastoja. xG pyrkii mittaamaan maalipaikan tai laukauksen todennäköisyyttä mennä maaliin ja sen arvo vaihtelee nollan ja yhden välillä (0-100%). Hieman toisistaan poikkeavia xG-malleja on nykyään kymmenillä eri toimijoilla ja useat tahot raportoivat omat lukunsa julkisesti Twitterissä tai muissa medioissa. Yksittäisen ottelun xG:t voivat olla esimerkiksi 1,3 kotijoukkueelle ja 2,7 vierasjoukkueelle. Tällöin voidaan todeta, että ottelun päätyttyä 1-1 oli vierasjoukkue xG-mallin perusteella epäonnekas, kun se joutui tyytymään tasapeliin. Käytännössä xG toimii paremmin hieman pidemmällä otannalla, joten esimerkiksi viiden ottelun jälkeen voidaan jo kohtuullisella varmuudella löytää onnekkaimmat ja epäonnekkaimmat joukkueet.

Puhtaasti tilastoihin perustuvissa xG-malleissa on omat heikkoutensa, sillä todennäköisyydet perustuvat suureen määrään suunnilleen vastaavanlaisia maalipaikkoja. Malleissa on käytännössä jonkin verran eroavaisuuksia, mutta kaikissa on sama perusperiaate: xG-mallit pyrkivät antamaan laukauksille todennäköisyyden mennä maaliin perustuen sellaisiin aiempiin laukauksiin, jotka ovat lähteneet samasta, tai suunnilleen samasta kohdasta kentällä. Alla on esimerkkikuva xG-mallin pohjalla olevasta "kehikosta", jossa laukaukset on jaettu alueisiin (bineihin) ja sitten analysoitu millä todennäköisyydellä kultakin alueelta on tehty maali. Palaan tarkemmin xG-malleihin tulevissa kirjoituksissani.




Yleisesti xG-mallien ongelmana on se, että pelaajan asentoa, tasapainoa, lähellä olevien puolustajien määrää tai häirintää ei voida pelkillä laukaisutilastoilla huomioida riittävästi. xG-mallit eivät myöskään yleensä huomioi lainkaan tilanteita, joista ei tullut laukausta, vaikka itse tilanne olisi ollut erittäin vaarallinen muutoin. Puutteistaan ja rajallisuudestaan huolimatta xG-mallit ennustavat selvästi paremmin joukkueiden tulevaa menestystä kuin vaikkapa maaleihin tai laukauksiin perustuvat mallit. Toisin sanoen xG-mallit tuovat lisäarvoa verrattuna perinteisiin tilastoihin, vaikka ne eivät täydellisiä olekaan. Jotkut toimijat, kuten Stratabet, ovat myös tuoneet tilastoihinsa subjektiivisia muuttujia, kuten laukauksen laatu ja puolustuksen paineistus. Stratabet tilastoi myös vaaralliset paikat, joista ei tule laukauksia ("dangerous moments") sekä puolustajien määrän laukojan ja maalin välissä.


Mihin jalkapallossa tarvitaan tilastoja?



Tilastoista voivat hyötyä niin seurajohtajat, valmentajat kuin pelaajatkin. Lisäksi esimerkiksi vedonlyöjät ovat jo pidempään hyödyntäneet tilastoja pyrkiessään voittamaan vedonvälittäjät. Brentfordin ja Midtjyllandin omistaja Matthew Benham on tehnyt omaisuutensa vedonlyönnillä ja edelleen hänen yhtiönsä Smartodds tekee ja myy analyysejaan ja tilastojaan ammattimaisille vedonlyöjille. Myös Brightonin omistaja Tony Bloom on tehnyt omaisuutensa pokerilla ja vedonlyönnillä. Bloomilla on Benhamin tapaan oma tilastoja hyödyntävä vedonlyöntianalyysiyhtiö. Erityisesti Matthew Benham on tuonut tilastoihin perustuvan ajattelunsa myös käytäntöön omistamissaan seuroissa ja vieläpä erittäin menestyksekkäästi.

Tilastojen avulla voidaan saada parempi kuva joukkueiden todellisesta tasosta ja niiden menestyksen takana olevista tekijöistä, kuin pelkästään katsomalla sarjataulukkoa. Viisas johtoporras ei anna potkuja valmentajalleen, jonka joukkueella on ollut alkukaudesta heikko tuuri, mutta peliesitykset ovat olleet muuten kohtuullisia tai hyviä joukkueen odotettuun tasoon nähden. Tällaisessa tapauksessa potkut luultavasti näyttävät jälkikäteen hyvältä ratkaisulta, koska joukkueen pistetahti alkaa pidemmässä juoksussa vastaamaan sen peliesityksiä. Muutosta parempaan ei usein kuitenkaan selitä uusi valmentaja vaan niin sanottu “regression to the mean” eli alkukauden huonon tuurin normalisoituminen.

Tilastojen avulla joukkueen valmennus voi myös opettaa pelaajille, minkälaisia laukauksia se haluaa nähdä kentällä ja mihin tämä valmennuksen toive perustuu. Esimerkkinä on Suomessa paljon käytetty VPS:ää Petri Vuorisen ja Jani Sarajärven valmennuksessa. VPS pyrkii mieluummin jatkamaan pallonhallintaa, kuin laukomaan epätodennäköisistä paikoista. Toisin sanoen VPS pyrkii välttämään matalan xG:n laukauksia ja pyrkii laukomaan mieluummin vain parhaista maalintekosektoreista.

Analytiikan avulla voidaan myös tutkia tulevien vastustajien toiminta- ja rakentelumalleja syöttökarttojen ja niin sanottujen xG-ketjujen avulla. Niiden avulla voidaan visualisoida miten vastustajat rakentavat peliään ja kuka heidän pelaajistaan on avainasemassa vaarallisissa hyökkäyksissä? Lisäksi tilastojen ja analyysien perusteella voidaan löytää pelin osa-alueita, joilta löytyy hyödynnettäviä epätehokkuuksia. Alla on mainio lainaus Brentfordin Rasmus Ankersenin haastattelusta, jossa hän puhuu erikoistilanteista:

Brentford don't merely aim to run their club differently, but to also play the game differently. Ankersen is obsessed with "inefficiencies" in how football is played.

Perhaps the biggest is set pieces. "People in football tend to feel that a set-piece goal is not worth as much as a normal goal, which is obviously romance and bulls--t." Ankersen also laments that teams neglect set pieces in training, even though they account for one-third of all goals.

"Could you imagine a company that spends 10 percent of their time on where 35 percent of their revenue comes from? That's what happens in football."

There is, he believes, "big potential" for teams who focus on being more productive from set pieces. As such, Brentford have a set-pieces coach, a ball-striking coach and even used a throw-in coach last summer. Ankersen thinks that ultimately football might have as many special skills coaches as the NFL.


Pelaajien tilastot - voidaanko perinteisestä skouttauksesta luopua kokonaan?



Joukkuetason lisäksi tilastoja voidaan hyödyntää pelaajien merkitystä ja tasoa arvioitaessa. Yksi selkeä hyödyntämismahdollisuus näille uusille tilastoille onkin pelaajahankinnat. Parhaimmillaan joukkueet välttyvät tilastojen avulla ostamasta edelliskauden parasta maalintekijää, mikäli osoittautuu, että pelaajalla oli ollut poikkeuksellista tuuria. Hyödyntämällä xG:tä voidaan tutkia eroaako pelaajan maalimäärä ja odotettu maalimäärä toisistaan ja joukkue voi välttyä maksamasta ylihintaa pelaajasta, jonka onnistumiset ovat olleet enemmän onnen kuin taidon aikaansaannoksia. Tilastot yksin eivät ole avain onneen, mutta ne kertovat asioita, joita ihmissilmä ei välttämättä muuten pysty kunnolla huomioimaan.

Yleinen tapa tilastoja tarkastellessa on se, että pelaajien tilastot yhteismitallistetaan joko käyttämällä per 90 minuuttia tai per 100 possessions -tilastoja. Tavoitteena on pystyä vertailemaan pelaajia, jotka ovat pelanneet eri minuuttimäärät ja/tai pelaavat erilaiset pelitavat omaavissa joukkueissa. Mikäli kaksi pelaajaa ovat molemmat tehneet 10 maalia, mutta toinen on pelannut 30 peliä ja toinen 10 peliä, on aika selvää, että jälkimmäinen suoritus on kovempi. Useimmiten myös rangaistuspotkumaalit jätetään pois tarkastelusta, koska ne ovat suorituksina niin erilaisia kuin muut pelitilanteet ja lisäksi ne vääristävät pelaajien vertailua. Näiden “korjattujen” tilastojen avulla on helpompi vertailla pelaajien esityksiä riippumatta heidän peliminuuteistaan ja asemastaan joukkueen rangaistuspotkujen nokkimisjärjestyksessä.

Perinteisesti jalkapalloseurat ovat käyttäneet pelaajatarkkailijoita, kun ne metsästävät uusia Messejään. Vaikka tilastojen käyttö on yleistynyt huomattavasti, tilastot eivät missään tapauksessa korvaa tai poista pelien katsomisesta saatavan informaation arvoa. Tilastoista voidaan kuitenkin paremmin nähdä pidemmän aikavälin kehitystä sekä saada isompi otos pelaajan taidoista, kuin tarkkailemalla muutama peli katsomosta. Tilastoista on oikein käytettynä mahdollista saada monenlaista lisäarvoa ja uusia ajatuksia. Se, että tilastot eivät tee pelien ja pelaajien tarkkailusta turhaa, ei tarkoita sitä, että tilastot olisivat turhia. Parhaaseen lopputulokseen päästään kun yhdistetään tilastoista saatava informaatio näköhavaintoihin ja muihin pelaajan ominaisuuksien, myös henkisten, arviointiin.

Euroopan suurissa sarjoissa on havaittu nuorten pelaajien syöttötaidon (assists ja key passes) ennustavan erittäin hyvin heidän tulevaa menestystään hyökkäyspään pelaajina. Erilaisista tilastoaineistoista voidaan pyrkiä rakentamaan malleja, jotka ennustavat pelaajien kehitystä ja menestystä ja mahdollistavat aliarvostettujen pelaajien ostamisen seuroihin ennen kuin muut seurat ovat samoilla apajilla kilpailemassa näistä nuorista lahjakkuuksista. Tällainen toiminta vaatii rohkeutta ja uudenlaista ajattelua, mutta myös vahvaa analyysiosaamista onnistuakseen. Palkinto ennusteiden onnistumisesta voi olla taloudellisesti ja urheilullisesti erittäin merkittävä, joten tulevaisuudessa tulemme luultavasti näkemään enemmän seuroja, jotka luottavat tilastoihin perustuviin malleihin osana rekrytointiprosessejaan.