xG-malleista on ollut paljon puhetta viime aikoina, ja esittelin edellisessä jutussani mallien peruslogiikan. Lupasin myös palata xG-malleihin tarkemmin, joten esittelen tässä jutussa yhden tavan rakentaa xG-malli. Sain käyttööni Stratabetin tilastoja, joiden perusteella rakensin oman xG-mallin. Ideana on näyttää miten mallin voi rakentaa, ei suinkaan pyrkiä tekemään tästä esimerkkimallista täydellistä.
xG-mallin tilastoaineisto
Malli on rakennettu käyttäen Stratabetin tilastoja Hollannin, Belgian, Norjan ja Ruotsin pääsarjoista sekä Uefan Eurooppa-liigasta. Aloitin mallin rakentamisen kasaamalla aineistot yhteen ja poistamalla siitä rangaistuspotkut, omat maalit ja vaaralliset tilanteet. Mutta hetkinen, aiemmassa jutussani juuri kirjoitin, että Stratabetin datassa on se etu perinteisiin laukausmalleihin verrattuna, että siinä huomioidaan myös vaaralliset tilanteet, joista ei tule laukausta. Noh, rakennan nyt puhtaasti laukauksiin perustuvaa xG-mallia, joten tästä syystä nuo vaaralliset tilanteet eivät tässä mallissa toimisi. Käytännössä tässä on tarkoitus näyttää, miten voidaan rakentaa malli, joka ennustaa / arvioi millä todennäköisyydellä tietystä osasta kenttää lauotaan (tai pusketaan) maali.
Otin aineistossa huomioon laukausten koordinaattien lisäksi:
- Puskut vs. muut
- Open play vs. vapaapotkut
Kyseessä on siis hyvin yksinkertaistettu malli. Halusin tässä kuitenkin nimenomaan tarkastella pelkkiä laukauksia, sillä niiden avulla saadaan kentän eri osa-alueille (bin) karkeat todennäköisyydet, joilla laukaus tai pusku menee maaliin. Aineistoksi muotoutui tässä tapauksessa hieman alle 30.000 laukausta tai puskua. Jaoin kentän oheisen kuvan mukaisesti 11 osa-alueeseen, eli biniin:
Usein näkee malleja, joissa koko maalivahdin alue maalin edessä on yhtä biniä. Itse jaoin sen tätä analyysiä varten kuitenkin kahteen osaan kohta nähtävistä syistä. Tässä xG-mallin versiossa binien sisällä voi olla melko isoakin vaihtelua todellisissa xG:ssä (esim. bineissä 2, 3, 4 ja 5 on iso ero siinä tuleeko laukaus binin ulkoreunalta vai sisäreunalta), mutta aineiston suhteellisen rajallisesta koosta johtuen en lähtenyt jakamaan alueita tämän tarkemmin. Nykyiselläänkin muutamaan biniin jäi vain parisataa laukausta, joten niiden osalta maalitodennäköisyydet eivät luultavasti ole kovin tarkkoja estimaatteja.
Vaikka biniin 0.5 jää nyt vain 250 laukausta, halusin erottaa sen omakseen, koska konversio-% verrattuna bin ykköseen on valtava, kuten alla olevasta taulukosta nähdään.
Aineiston rajallinen koko aiheuttaa muutamia hassuja tuloksia, kuten sen, että boxin ulkopuolelta puskut olisivat laukauksia todennäköisempiä maaleja. Tämä johtuu kuitenkin sattumasta, sillä aineistossa oli yhteensä vain 24 puskua boxin ulkopuolelta, mutta näistä 2 meni maaliin. Kaikissa muissa bineissä laukaukset olivat selkeästi puskuja todennäköisempiä menemään maaliin. Aivan maalinedustan (bin 0.5) konversiot ovat merkittävästi korkeammalla tasolla verrattuna muualta maalivahdin alueelta tuleviin laukauksiin ja puskuihin.
K
Kuvassa on esitetty visuaalisesti aineiston laukaukset sekä niiden xG:t perustuen edellä esitettyihin bineihin. Todellisuudessa xG ei tietenkään muutu kuten kuvassa, sillä nyt rakennettu malli yksinkertaistaa todellisuutta yhdistelemällä laukaukset alueiden sisällä. Laukausten maalinmenotodennäköisyydet ovat kuitenkin jo tälläkin analyysillä enemmän "siellä päin", ja mallin avulla saadaan enemmän informaatiota peleistä, kuin vaikkapa pelkästään joukkueiden laukausten määrää tarkastelemalla.
Uudenkarheaa xG-malliamme voi nyt hyödyntää esimerkiksi tarkastelemalla yksittäisen ottelun laukauksia ja maaliodotuksia. Valikoin tarkasteluun Allsvenskanin ottelun Eskilstuna - AIK viime kesältä (4.6.2017).
Kuvassa on esitetty Eskilstunan laukaukset ottelussa sekä niiden lopputulema (maali, ohi, torjunta, blokkaus). Pallon koko kuvastaa aiemmin rakentamamme BinxG-mallin antamaa todennäköisyyttä. Eskilstuna laukoi ottelussa 9 kertaa, joista yksi meni maalin.
AIK laukoi 12 kertaa ja onnistui maalinteossa 3 kertaa. xG-mallimme mukainen maaliodottama AIK:lla oli noin kaksinkertainen verrattuna Eskilstunan maaliodottamaan. Pelkästään laukausten tai maalia kohti suuntautuneiden laukausten määrää tarkasteltaessa ottelu vaikuttaisi suhteellisen tasaiselta (9 vs. 12). Kuvia katsomalla kuitenkin nähdään heti, että AIK:n paikat tulivat selvästi paremmista lokaatioista ja yksinkertaistettu mallimmekin poimi tämän informaation.
Ottelun loppulukemat olivat 1-3 ja BinxG:t 0.6-1.3. Stratabetin oman xG-tilastoinnin perusteella maaliodotukset olivat 0.75-2.12, eli ero rakentamaamme malliin oli melko suuri. Pääasiassa ero johtui Daniel Sundgrenin maalista, jolle mallimme antoi maaliodottamaa vain 0.13 kun taas Stratabet antoi 0.83.
Tämä maali osoittaa hyvin, miksi pelkkiin laukauslokaatioihin perustuvat xG-mallit ovat puutteellisia. Alla on kaksi heikkolaatuista still-kuvaa kyseisestä tilanteesta, toinen hieman ennen laukausta ja toinen laukauksen hetkellä:
Kuvien lähdet: Sporttube.com
Kuten nähdään, niin kyseessä ei ole ihan tyypillinen laukaus pilkun kohdalta. Sundgren saa pallon pystysyötön seurauksena linjan taakse ja kontrolloi taitavasti vaikeahkon pallon siirtäen sen tyhjiin maalivahdin ohi. Monissa xG-malleissa onkin yhtenä muuttujana se, minkälaisen syötön jälkeen tilanne tuli, ja tällaiset "after throughball" -tilanteet ovat yleensä kaikkein vaarallisimmasta päästä.
Rakensimme suoraviivaisen laukausten lokaatioihin perustuvan xG-mallin, joka kuvastaa laukausten ja puskujen keskimääräistä maaliinmenon todennäköisyyttä "suunnilleen" kyseisestä lokaatiosta. Kuten esimerkkimme osoitti, mallin tarkkuus on vielä tällaisenaan melkoisen heikko. Mallimme korrelaatio aineiston maalien kanssa on 0.33, kun taas Stratabetin xG:t korreloivat maalien kanssa selvästi vahvemmin (0.46).
Miten mallia voitaisiin sitten kehittää? Ensinnäkin otoskokoa tulisi kasvattaa merkittävästi, sillä 30 000 laukausta ei vielä riittänyt kovinkaan luotettavaan jaotteluun. Toinen vaihtoehto olisi (myös perustuen isompaan aineistoon) tehdä toisenlainen malli, joka perustuu laukausten koordinaatteihin. Tällöin ei tarvitsisi jaotella laukauksia alueittain, vaan voisimme ennustaa yksittäisten laukausten todennäköisyyksiä mallinnuksen, ei luokittelun perusteella. Malliin voitaisiin myös lisätä minkälaisen syötön jälkeen tilanne tuli (keskitys, läpisyöttö, kulmapotku jne.). Stratabetin aineistossa on myös subjektiiviset havainnot laukauksen laadusta, maalin ja laukojan välissä olevien puolustajien määrä sekä arvio puolustuksen paineesta pallolliselle. Näiden muuttujien avulla päästäisiin jo huomattavasti paremmin todellisuutta vastaaviin lukemiin.
This article was written with the aid of StrataData, which is property of Stratagem Technologies. StrataData powers the StrataBet Sports Trading Platform, in addition to StrataBet Premium Recommendations.
K
Kuvassa on esitetty visuaalisesti aineiston laukaukset sekä niiden xG:t perustuen edellä esitettyihin bineihin. Todellisuudessa xG ei tietenkään muutu kuten kuvassa, sillä nyt rakennettu malli yksinkertaistaa todellisuutta yhdistelemällä laukaukset alueiden sisällä. Laukausten maalinmenotodennäköisyydet ovat kuitenkin jo tälläkin analyysillä enemmän "siellä päin", ja mallin avulla saadaan enemmän informaatiota peleistä, kuin vaikkapa pelkästään joukkueiden laukausten määrää tarkastelemalla.
Case-esimerkki: AFC Eskilstuna - AIK 4.6.2017
Uudenkarheaa xG-malliamme voi nyt hyödyntää esimerkiksi tarkastelemalla yksittäisen ottelun laukauksia ja maaliodotuksia. Valikoin tarkasteluun Allsvenskanin ottelun Eskilstuna - AIK viime kesältä (4.6.2017).
Kuvassa on esitetty Eskilstunan laukaukset ottelussa sekä niiden lopputulema (maali, ohi, torjunta, blokkaus). Pallon koko kuvastaa aiemmin rakentamamme BinxG-mallin antamaa todennäköisyyttä. Eskilstuna laukoi ottelussa 9 kertaa, joista yksi meni maalin.
AIK laukoi 12 kertaa ja onnistui maalinteossa 3 kertaa. xG-mallimme mukainen maaliodottama AIK:lla oli noin kaksinkertainen verrattuna Eskilstunan maaliodottamaan. Pelkästään laukausten tai maalia kohti suuntautuneiden laukausten määrää tarkasteltaessa ottelu vaikuttaisi suhteellisen tasaiselta (9 vs. 12). Kuvia katsomalla kuitenkin nähdään heti, että AIK:n paikat tulivat selvästi paremmista lokaatioista ja yksinkertaistettu mallimmekin poimi tämän informaation.
Ottelun loppulukemat olivat 1-3 ja BinxG:t 0.6-1.3. Stratabetin oman xG-tilastoinnin perusteella maaliodotukset olivat 0.75-2.12, eli ero rakentamaamme malliin oli melko suuri. Pääasiassa ero johtui Daniel Sundgrenin maalista, jolle mallimme antoi maaliodottamaa vain 0.13 kun taas Stratabet antoi 0.83.
Tämä maali osoittaa hyvin, miksi pelkkiin laukauslokaatioihin perustuvat xG-mallit ovat puutteellisia. Alla on kaksi heikkolaatuista still-kuvaa kyseisestä tilanteesta, toinen hieman ennen laukausta ja toinen laukauksen hetkellä:
Kuvien lähdet: Sporttube.com
Kuten nähdään, niin kyseessä ei ole ihan tyypillinen laukaus pilkun kohdalta. Sundgren saa pallon pystysyötön seurauksena linjan taakse ja kontrolloi taitavasti vaikeahkon pallon siirtäen sen tyhjiin maalivahdin ohi. Monissa xG-malleissa onkin yhtenä muuttujana se, minkälaisen syötön jälkeen tilanne tuli, ja tällaiset "after throughball" -tilanteet ovat yleensä kaikkein vaarallisimmasta päästä.
Mitä tästä opimme?
Rakensimme suoraviivaisen laukausten lokaatioihin perustuvan xG-mallin, joka kuvastaa laukausten ja puskujen keskimääräistä maaliinmenon todennäköisyyttä "suunnilleen" kyseisestä lokaatiosta. Kuten esimerkkimme osoitti, mallin tarkkuus on vielä tällaisenaan melkoisen heikko. Mallimme korrelaatio aineiston maalien kanssa on 0.33, kun taas Stratabetin xG:t korreloivat maalien kanssa selvästi vahvemmin (0.46).
Miten mallia voitaisiin sitten kehittää? Ensinnäkin otoskokoa tulisi kasvattaa merkittävästi, sillä 30 000 laukausta ei vielä riittänyt kovinkaan luotettavaan jaotteluun. Toinen vaihtoehto olisi (myös perustuen isompaan aineistoon) tehdä toisenlainen malli, joka perustuu laukausten koordinaatteihin. Tällöin ei tarvitsisi jaotella laukauksia alueittain, vaan voisimme ennustaa yksittäisten laukausten todennäköisyyksiä mallinnuksen, ei luokittelun perusteella. Malliin voitaisiin myös lisätä minkälaisen syötön jälkeen tilanne tuli (keskitys, läpisyöttö, kulmapotku jne.). Stratabetin aineistossa on myös subjektiiviset havainnot laukauksen laadusta, maalin ja laukojan välissä olevien puolustajien määrä sekä arvio puolustuksen paineesta pallolliselle. Näiden muuttujien avulla päästäisiin jo huomattavasti paremmin todellisuutta vastaaviin lukemiin.
This article was written with the aid of StrataData, which is property of Stratagem Technologies. StrataData powers the StrataBet Sports Trading Platform, in addition to StrataBet Premium Recommendations.