Aller au contenu

Performance & baseline

Objectif

Mesurer la qualité des prévisions du modèle et la situer par rapport à une baseline simple (persistance).

Questions auxquelles la page répond

  • Quelle est l’erreur moyenne globale (toutes stations, toutes heures) ?
  • Dans quels segments (heure, jour, station, cluster, zone) le modèle est-il le plus/moins performant ?
  • Quel est le gain vs baseline (lift) et comment évolue-t-il dans le temps ?

Métriques principales

  • MAE (Mean Absolute Error) — robustesse et lisibilité opérationnelle.
  • RMSE — pénalise davantage les gros écarts.
  • ME (biais) — moyenne des erreurs signée (sous/sur-prédiction).
  • Coverage prédictif — part d’horodatages pour lesquels une prédiction existe.
  • Lift vs baseline = (MAE_baseline − MAE_modèle) / MAE_baseline (positif = mieux que la persistance).
  • (optionnel, sur séries agrégées) — à manier avec prudence pour des données bornées/peu linéaires.

Résumé chiffré (fenêtre)

  • Horizon (min) : 60
  • Couverture prédictive : 75.46%
  • MAE — modèle : 2.983 · baseline : 3.309
  • RMSE — modèle : 4.487 · baseline : 5.544
  • Biais (ME) — modèle : -0.009 · baseline : 0.001
  • Lift vs baseline : 9.85%
  • Données : 584989 lignes · 1473 stations · 2025-09-08 01:00 CEST → 2025-09-18 00:45 CEST

Les séries temporelles sont agrégées sur l’axe décision T (local) pour les découpages heure/jour.
Les tracés observé vs prédit sont alignés sur l’axe cible T+h (colonne ts_target) pour éviter tout décalage visuel.


Découpages & comparaisons

  • Par station (top/bottom-10, distribution), par cluster (archétypes d’usage), par heure du jour, semaine/week-end, par arrondissement/quartier.
  • Chronologique : courbe MAE quotidienne/hebdomadaire, détection de dégradations.
  • Capacité : erreur normalisée par capacité estimée (si disponible) pour comparer des stations hétérogènes.

Visualisations

Lift quotidien

Lift quotidien

Distribution des résidus

Histogramme des résidus

MAE par heure (local)

MAE par heure

Observé vs prédit — exemples (4)

Station 13054 obs pred Station 13125 obs pred Station 7009 obs pred Station 8004 obs pred


Tables d’appui

  • Global : ../../assets/tables/model/performance/global_metrics.csv
  • Quotidien : ../../assets/tables/model/performance/daily_error.csv
  • Par heure : ../../assets/tables/model/performance/error_by_hour.csv · Par jour de semaine : ../../assets/tables/model/performance/error_by_dow.csv
  • Par station : ../../assets/tables/model/performance/error_by_station.csv
  • Par cluster : ../../assets/tables/model/performance/error_by_cluster.csv
  • Coverage : ../../assets/tables/model/performance/coverage.csv

Lecture & limites

  • La persistance (dernier état connu) est une baseline forte à court terme ; le lift est donc une mesure exigeante.
  • Les métriques agrégées peuvent masquer des comportements station-spécifiques (d’où l’analyse segmentée).