Peut on quantifier le foot ?

Selon les acteurs du football, le football est un sport indécis où, sur une seule occurrence, tout le monde peut vaincre tout le monde ; l’histoire de la Coupe de France en fournit la preuve. C’est ce qui fait la beauté de ce sport. La question de la prévision d’un résultat mérite d’être posée : peut-on prédire le football de façon scientifique? En particulier, les méthodes prédictives récemment apparues peuvent-elles être appliquées ?

Le Machine Learning

L’idée-même d'intelligence artificielle (IA) semble naître en 1950 avec la communication d’Alan Turing (le père de la machine éponyme) intitulée « Computing Machinery and Intelligence ». Il s’agit de transmettre de l’intelligence aux ordinateurs. Son champ de recherche est étendu dans les années 50 par des personnalités comme John McCarthy, Marvin Minsky, ou encore Herbert Simon. L'apprentissage automatique statistique (Machine Learning) est donc une forme d'intelligence artificielle qui confère aux ordinateurs la capacité d’obtenir, par la mise en place d’algorithmes, une analyse prédictive à partir de données récoltées dans un but précis. Le machine learning permet ainsi d'analyser une situation actuelle grâce aux situations qui ont eu lieu dans le passé; par exemple, les techniques de machine learning sont utilisées pour déterminer les probabilités de diagnostic médical, définir la tendance des actions du CAC40,.... Finance, assurance, médecine, marketing entre autres sont des domaines où ces outils sont employés. Les points communs entre ces domaines sont, d’une part, les datas et, d’autre part, la volonté d'analyser une problématique. On peut donc imaginer que le football et le sport en général, très riches en données, peuvent bénéficier de l’apport du machine learning.

Les données

La collecte des données dans le football est fastidieuse ; en effet, il faut suivre chaque équipe, chaque joueur, chaque match, récolter les scores mais aussi des éléments plus qualitatifs comme l'état de forme des joueurs ou de l'entraineur… Cette récolte de données est très coûteuse pour un individu lambda, c'est pourquoi il est préférable de préconiser la récolte des cotes des différents bookmakers ; en effet, on peut supposer que ces cotes reflètent assez bien la tendance du moment. Plusieurs sites web proposent un historique de côtes. Malheureusement les cotes permettent de prédire uniquement 50% des résultats, ce qui n'est pas suffisant pour optimaliser le gain du joueur. L'idéal est de prédire au-delà de 60% de bons résultats. Comment ?

Identifier et Cibler

Le machine learning n'est pas utile dans le cadre des paris sportifs, si l'on parie sur le favori. Néanmoins, il fournit une information capitale qui est la probabilité pour chaque résultat. Ainsi, il est possible de déterminer la moyenne de gains pour chaque cote ; il suffit donc de miser sur la cote ayant une rentabilité positive. La rentabilité moyenne représente le gain moyen pour chaque événement, dans notre cas il s’agit de Victoire à domicile, match nul ou victoire à l’exterieur. Cette rentabilité moyenne s’exprime par la formule suivante : Cote de l’événement * Proba de l’événement *Investissement – Investissementet. Si la rentabilité calculée pour chaque événement est positive alors cela signifie qu’elle est statistiquement intéressante. Prenons un exemple : Crystal Palace Arsenal, la cote de Crystale Palace est de 4.5, sa probabilité de victoire est de 22.62% la rentabilité moyenne pour cette événement est de 1.80% elle est donc positive et donc statistiquement rentable

Cotes Anglaises / Cotes Françaises

Historiquement, les côtes anglaises sont plus élevées que les côtes françaises, cela est dû au fait qu’en Angleterre la concurrence entre bookmakers est plus féroce due à leurs nombres, en France pour pouvoir être reconnue officiellement il faut intégrer l’ARJEL qui est composé de 8 Bookmakers en ligne, en Angleterre nous pouvons en comptabilisé plus de 16 bookmakers en lignes. L'identification des paris à effectuer sur le marché anglais via l'étude des cotes représente un match sur quatre, alors qu'en France, il s'agit de cinq matchs sur cent. Les cotes Française inintéressantes? Avec seulement 5% de cotes intéressantes l’étude n’est pas concluante, en effet cela représente 5 paris par semaines soit 190 paris par an (38 semaines de foot), une convergence de la rentabilité moyenne calculée n’est donc pas assuré. Il est donc primordial d'intégrer de nouvelles informations dans la base de données. Par exemple, l’ajout des ratios de victoires, nuls ou défaites, du classement établi sur les 10 derniers matchs, ainsi que du nombre de buts inscrits et encaissés. J’ai donc testé cela sur une base de données de plus de 100 000 matches, et les résultats ont été très surprenants. En effet, s'il est vrai que l’apparition de cotes rentables passe de 1/4 à 1/2 pour le marché anglais et de 5/100 à 15/100 pour le marché français, la qualité des prédictions s'est détériorée. Le nombre de bons pronostics annoncé par l’algorithme coïncide à 95% avec les résultats observés. Il y a donc surestimation des pronostics, ainsi les rentabilités sont elles aussi surestimées. De plus, une autre étude basée sur l'ensemble des informations précédemment évoquées, à l'exception des côtes, voit chuter la prédiction globale de 50% à 45%. L’apport de ces informations est donc inutile au vue des résultats des deux études A priori, le marché français ne fournit donc pas assez d'éléments en libre-service pour identifier les paris rentables.

Les classements et le Budget

Le classement FIFA utilisé pour classer les pays est souvent décrié par les journalistes, la critique majeure étant qu'une victoire de la France face à une nation mineure d'Europe peut rapporter plus de points qu'une victoire face à une nation majeure d'Afrique ou d'Asie. Le classement ELO permet de classer les joueurs d'échec. Ce classement attribue des points en fonction de l’adversité. Gagner contre un joueur fort rapporte plus de points que gagner contre un joueur faible. De la même manière perdre contre un fort fait perdre plus de points que perdre contre un faible ; quant au match nul, il a un impact positif pour l'outsider et un impact négatif pour le favori. Le Budget est souvent avancé par les journalistes et les joueurs pour justifier la contreperformance ; en effet un budget élevé permet de recruter de joueurs de qualités mais aussi un nombre suffisant afin de pouvoir faire tourner l’effectif durant le match. Il m’est apparu donc intéressant d’ajouter le budget de chaque équipe dans l’étude. Le budget peut être récupérer sur plusieurs sites, personnellement j’ai puisé mes sources sur le site transfermarkt.fr En intégrant ce classement et le budget dans la base de données on observe les résultats suivants :
- 30% des côtes Françaises sont détectés comme rentable / 74% pour l’Angleterre
- Le nombre de résultats attendu coïncide à 100% avec les résultats observés c'est à dire qu'en moyenne (sur plus de 15 000 matchs) le nombre de bon pronos annoncé par l'algorithme s'est vérifié.

Conclusion

Le machine learning peut donc permettre de cibler les matchs sur lesquels parier, des études plus poussés peuvent être entrepris comme obtenir la feuille de match de chaque équipe et de connaitre les statistiques de chaque joueurs présent. Bien entendu cela demande beaucoup d’organisation afin de récolter ces données. L’étude peut être améliorée si l’on connait l’effectif de chaque équipe poste par poste, pour cela il faudrait une base de données Fifa/PES/FootBall Manager afin de connaitre la note de chaque joueur, ainsi que sa valeur. L’étude sur les paris sportifs est un premier pas afin de démontrer que le machine learning peut être bénéfique dans le monde du sport, en effet nous pouvons envisager de l’utiliser dans le but de cibler les joueurs prometteurs de demain ou de cibler le joueurs à fort potentiel de revente, bien entendu pour ce type d’études il faudrait des statistiques précise sur chaque joueurs que peuvent apporter le scoot des clubs qui visualisent beaucoup de matchs et fournissent des rapports détaillés pour chaque clubs. De plus le machine learning pourra aussi détruire de fausses idées reçus ; en effet combien de fois avons-nous entendu sur les plateaux télé que tel ou tel équipe à une dynamique positive et donc cela lui donne plus de chance pour la suite de la compétition, or l’étude qui a été mené montre que la dynamique est trompeuse. De plus le machine learning pourra permettre aux entraineurs d’identifier les spécificités nécessaires à développer pour chaque poste, de manière à améliorer le rendements des joueurs.

Mail : algopronosport@gmail.com
Facebook : APS
Twitter : APS