Att tippa fotbollsmatcher är svårt, det ligger i spelets natur att vara oberäkneligt. Hur många gånger har man inte bänkat sig och varit tvärsäker på att Spurs ska tvåla till Bournemouth bara för att smaka besvikelsens syra i en själadödande 0-0-match. Många faktorer spelar in i ett fotbollsresultat, varav att ha hemmaplan är en av de viktigaste. I den här artikeln skapar jag en modell för att förutspå fotbollsmatcher baserad på gjorda mot insläppta mål samt inbördes möten.
Utgångspunkt: En enkel modell baserad på måldata
Jag hämtar stark inspiration från Football-Datas artikel där författaren skapar en enkel modell baserad bara på målranking. Målrankningen räknas ut genom att ta de mål hemmalaget gjort på sina senaste sex och subtrahera med lagets insläppta mål minus samma procedur för bortalaget. På det här sättet får man en siffra, en rankning, som är positiv om hemmalaget har en bättre målrankning än bortalaget och negativ om tvärtom. Ett exempel baserat på matchen Tottenham-West Ham: Hemmalaget Tottenham har gjort 10 mål på sina senaste sex matcher och släppt in fem, de får då en målrankning på 5. West Ham å andra sidan har gjort 12 mål på sina senaste sex matcher och släppt in sex vilket ger dem en målrankning på 6. Vi tar då helt enkelt 5-6= -1 vilket blir den relativa målrankningen. Författaren räknade ut den relativa målrankningen för ungefär 14 000 matcher och körde sedan en linjär regression mellan den och resultatfördelningen vilket gav en modell med ett R2 på 0.86 vilket är bra (1 är ett perfekt samband). Modellen visade sig funger förvånansvärt i sin enkelhet och visade god lönsamhet i test.
Jag lägger till en parameter
I min modell har jag använt samma målrankning och lagt till komponenten inbördes möten. Alltså, för att ta exemplet med Tottenham-Westham med den relativa målrankningen på -1, skulle modellen ta denna siffra och lägga till en poängkomponent för inbördes möten: Ponera att Tottenham har vunnit 2 matcher och West Ham 1 match på de 3 senaste inbördes mötena skulle Tottenham få 2-1 = 1*2=> 2 extra poäng till den relatvia målrankningen vilket skulle ge en ny relativ rankning på 1, nu alltså till Tottenhams fördel. Jag kallar min nya relativa rankning för ”kraftrankning”
Jag undersökte 10738 matcher från ungefär 20 ligor för åren 2020-2022. Mitt urval var alltså inte lika stort som Football Datas men fullt tillräckligt. Datan jag tog fram från varje match var kraftrankningen och resultatet (hemmavinst, bortvinst eller oavgjort). Hur jag fick fram en kraftrankning för 10738 matcher får bli föremål för en senare artikel men det krävde en del programmering. I figur 1 har jag plottat kraftrankningen som ett histogram i Excel och den ser hyggligt normalfördelad ut.
Regression
Nästa steg var att köra en regression mellan kraftrankningen och varje möjlig matchutkomst. Detta kan man göra enkelt i Excel genom att markera två kolumner med data och sedan välja ”Scatter plot”. Jag började med kraftrankning mot hemmavinster, här fick jag en ganska fin och ordnad plot, jag körde en regression på den genom att lägga till en linjär trendlinje som gav ett R2 på starka 0.897, alltså en bättre modell än Football-Datas (0.86). För bortavinster fick jag ett R2 på betydligt svagare 0.727. För oavgjort fick jag ett väldigt dåligt R2 vilket än en gång påvisar hur svårt det är att förutspå kryss.
Tillämpning av modellen
Hursomhelst behöver vi ju inte prognosticera oavgjort när vi har två bra modeller för att prognosticera sannolikheten i procent för hemmavinst och bortavinst. Vi kan ju bara ta 100-minus dessa framräknade värden så får vi sannolikheten för kryss. Dessa två modeller är:
y (sannolikhet för hemmavinst) = 1.3631x + 43.81
y (sannolikhet för bortavinst )= -1.2393x + 34.388
Vi kan nu räkna ut sannolikheten, från tidigare exempel, för att Tottenham respektive West Ham ska vinna matchen: För Tottenham är den 1.3631* 1 + 43.81 = 45,17 %. För West Ham blir den -1.2393 * 1 + 34.388 = 33.15 % och för oavgjort blir den 100 – 45.17 – 33.15 = 21.68 % Tottenham blir alltså hemmafavoriter i detta exempel . Tillämpningen för denna modell kan vara att tippa stryktipset, vi skulle då jämföra svenska folkets tro på de olika utfallen mot vad vår modell kommer fram till, skiljer sig sannolikheten som vår modell ger mot vad svenska folket tror kan det vara så att de har fel.