Statistiques et Formule 1, de la description à la prévision de séries temporelles

Nov 15, 2022 | Blog

Dans un monde dit « data driven » et « data informed», la science des données est aujourd’hui incontournable dans le quotidien des sportifs. Ceci n’excluant pas les écuries de Formule 1, le projet mis en place par SeeSports a pour but de prédire les points gagnés par chaque pilote lors des dernières courses de la saison afin de reconstruire les classements sur ces dernières.

Pour cela, nous avons analysé les données de la saison 2022 de Formule 1, disponibles en accès libre. Vingt-deux pilotes ont déjà pu rouler sur vingt circuits différents lors de cette saison. Ainsi, il reste 2 courses sur le mois de novembre pour clôturer la saison.

Afin d’avoir un échantillon statistique plus important dans un but de prévision, nous avons choisi de faire comme si la course du 30 octobre 2022 n’avait pas encore eu lieu, et que nous voulions également la prédire.

Lors du championnat, les données sur un pilote sont assez simples. Elles comprennent la date de la course, ainsi que les points cumulés au fur et à mesure de la saison. Nous avons également calculé l’écart de points entre chacune des courses, qui fera office de « cible » pour la prévision. Ainsi, nous avons pour chaque pilote, un tableau de données comme celui présenté ci-dessous (ici, le pilote George Russell) :

Afin de mieux observer et comprendre nos données, nous avons créé de nouvelles variables grâce à certaines données disponibles dans l’échantillon en accès libre.

Nous avons pu étudier l’évolution des pilotes au cours de la saison grâce au graphique ci-dessous, montrant le cumul des points du Top 10 actuel des pilotes. Ceci nous permet de voir que certains pilotes comme Verstappen ont une ascension très marquée, comparés à d’autres pilotes tels que Hamilton ou Pérez.

 

Figure 1: Evolution des points des pilotes du Top 10, saison 2022

 

De plus, on peut ainsi observer le temps d’arrêt au stand relatif par pilote au cours de la saison (Figure 2). Il apparaît que le pilote Sergio Pérez a le meilleur temps sur toute la saison (c.a.d. Perez et son écurie réalisent en moyenne les arrêts au stand les plus efficients), et que les autres pilotes ont donc des temps supérieurs à hauteur de 105 à 110% en moyenne par rapport à ce dernier.

Figure 2: Temps d’arrêt relatif (%) aux stands pour chacun des pilotes sur la saison 2022 (20 courses sur 23)

 

Par ailleurs, nous avons cherché à construire de nouvelles variables, telles que la proportion d’être à une certaine place lors des courses précédentes. On retrouve ces proportions pour le pilote George Russell, choisi aléatoirement, en Figure 3. On observe aisément qu’il n’a jamais terminé plus loin qu’en 7ème place. De plus, il se trouve finalement le plus souvent entre les places 3 et 7 puisque cette proportion augmente au cours de la saison (même s’il a pu effectuer quelques top 2).

 

Figure 3: Proportion des positions pour chaque pilote, regroupées en 4 classes.

 

Suite à cette analyse descriptive, nous avons choisi de faire la prévision sur l’écart de points entre chaque course, afin d’éliminer la tendance croissante évidente sur le nombre de points cumulés. Pour cela, nous avons mis en place des modèles de séries temporelles univariés sur chaque pilote, afin d’obtenir les prévisions sur les variations de points d’une course à l’autre tel que le montre le graphique de George Russel suivant :

 

Figure 4: Exemple représentatif de prévision des futures performances sur un pilote (ici George Russell).

 

Dans certains cas, il peut arriver qu’un pilote soit constant au cours de la saison et que la variabilité de ses résultats soit très faible. C’est par exemple le cas de Max Verstappen, pilote pour lequel nous avons volontairement choisi de ne pas nous intéresser compte tenu de cette faible variabilité des performances (Verstappen a remporté le maximum de points sur la majorité des courses).

Après reconstruction des points totaux et pour la dernière course du 20 novembre 2022, on retrouve le classement reconstruit suivant :

On observe sur le tableau du classement final que 2 coureurs (Valtteri Bottas et Daniel Ricciardo) ont un nombre de points prédits à la fin du championnat inférieur à ceux qu’il a déjà cumulé jusqu’au 30 octobre. Les 2 graphiques ci-dessus peuvent expliquer que la prévision montre parfois des écarts de points négatifs. En effet, cela est plus flagrant pour le pilote Bottas (voir Figure 5), pour lequel on s’aperçoit que la tendance sur les écarts de points au cours de la saison est négative. Cela signifie que le pilote a tendance à contre-performer de manière proportionnelle à l’avancée dans la saison. Pour le pilote Ricciardo, cette tendance est moins marquée et non significative (Figure 6). L’écart de points négatif doit donc être interpréter à la lumière de l’incertitude de notre modèle de prévision, et donc de son erreur propre (un modèle de prévision ou de prédiction n’est jamais tout à fait juste !).

 

Figure 5: Relation entre l’écart de points et l’avancée dans la saison (Valtteri Bottas)

 

Figure 6: Relation entre l’écart de points et l’avancée dans la saison (Daniel Ricciardo

En s’attardant sur le classement reconstruit final, on remarque qu’il n’est pas différent du classement actuel. Ce résultat est assez logiquement attendu compte tenu des points actuels, de la régularité des coureurs et des enjeux davantage portés sur la prochaine saison à ce stade. Des différences auraient néanmoins pu apparaitre notamment entre les places 2 & 3, et sur le milieu de tableau entre les places 7 à 12. Ce changement de classement aurait ainsi impliqué un changement dans le Top 10 des pilotes et probablement dans le classement des constructeurs.

Seule une analyse de séries temporelle a été effectuée ici, sans ajout de variables exogènes/prédictives. En effet, l’ajout de ces variables pourraient contribuer à une meilleure prévision. On fait référence, par exemple aux données mécaniques ou relatives aux caractéristiques intrinsèques des circuits qui pourraient être grandement informatives et utiles pour cette tâche de prévision. De plus, afin de discriminer la performance de chaque pilote, on note une taille d’échantillon relativement faible impactant l’apprentissage du modèle, en plus du manque de variables évoquées à l’instant.

De nouvelles approches en ce sens pourraient être proposées sur notre blog. Suivez-nous et stay tuned pour ne pas les manquer !

Coupe du monde de rugby : analyse des performances

Coupe du monde de rugby : analyse des performances

La Coupe du Monde en chiffres La coupe du monde de rugby 2023 s’est achevée par le sacre de l’Afrique du Sud. Après avoir fini 2e de son groupe, elle a remporté tous ses matchs de phase finale d’un point ! Il est désormais temps de faire un bilan sur cette édition....

La science des données au cœur de la mêlée

Aperçu des performances des équipes avant le dernier carré de la compétition   Une professionnalisation qui ne laisse plus de place au hasard ?  L’utilisation et l’analyse de la donnée dans le sport est devenue à ce jour incontournable. Exploitée comme une...