Modèle — Présentation générale¶
Cette section documente comment le modèle est entraîné, évalué et interprété. Elle se compose de trois pages complémentaires :
- Performance & baseline — qualité prédictive, comparaisons et lift vs persistance.
- Pipeline d’entraînement & features — données d’entrée, cibles, horizon, versions.
- Explicabilité & calibration — résidus, importance des variables, calibration & biais.
Cible & horizon (référence actuelle)
La cibley_true
est l’occupation (vélos disponibles) par station. L’horizon par défaut est 60 minutes avec un pas temporel de 15 minutes (4 pas).
Les évaluations sont time-aware (pas de fuite de données), avec découpes chronologiques et/ou validation à origine glissante.Jeux de données utilisés
-perf.parquet
: sériesy_true
et, si présent,y_pred
(modèle) ety_pred_baseline
(persistance).
-events.parquet
: états par station au pas de 15 minutes (supports features & diagnostics).
1) Performance & baseline (ce que vous trouverez dans performance.md
)¶
Objectif¶
Mesurer la qualité des prévisions du modèle et la situer par rapport à une baseline simple (persistance).
Questions auxquelles la page répond¶
- Quelle est l’erreur moyenne globale (toutes stations, toutes heures) ?
- Dans quels segments (heure, jour, station, cluster, zone) le modèle est-il le plus/moins performant ?
- Quel est le gain vs baseline (lift) et comment évolue-t-il dans le temps ?
Métriques principales¶
- MAE (Mean Absolute Error) — robustesse et lisibilité opérationnelle.
- RMSE — pénalise davantage les gros écarts.
- ME (biais) — moyenne des erreurs signée (sous/sur-prédiction).
- Coverage prédictif — part d’horodatages pour lesquels une prédiction existe.
- Lift vs baseline =
(MAE_baseline − MAE_modèle) / MAE_baseline
(positif = mieux que la persistance). - R² (optionnel, sur séries agrégées) — à manier avec prudence pour des données bornées/peu linéaires.
Découpages & comparaisons¶
- Par station (top/bottom-10, distribution), par cluster (archétypes d’usage), par heure du jour, semaine/week-end, par arrondissement/quartier.
- Chronologique : courbe MAE quotidienne/hebdomadaire, détection de dégradations.
- Capacité : erreur normalisée par capacité estimée (si disponible) pour comparer des stations hétérogènes.
Visualisations attendues¶
- Observé vs prédit (ex. séries 24 h / 7 j) sur échantillon de stations représentatives.
- Barres MAE/RMSE par segment, cartes d’erreur, sparklines du lift.
- Distribution des erreurs (histogramme/résidus).
Lecture & limites¶
- La persistance (dernier état connu) est une baseline forte à court terme ; le lift est donc une mesure exigeante.
- Les métriques agrégées peuvent masquer des comportements station-spécifiques (d’où l’analyse segmentée).
2) Pipeline d’entraînement & features (ce que vous trouverez dans pipeline.md
)¶
Objectif¶
Décrire précisément d’où viennent les données, comment on fabrique les features, comment on entraîne et versionne le modèle.
Données d’entrée¶
- Séries réseau : vélos/docks disponibles par station (
events.parquet
). - Calendrier : heure/minute, jour de semaine, jours fériés, vacances (si disponibles).
- Météo (optionnel) : température, pluie, vent (si intégrée et historisée).
- Géographie légère (optionnelle) : arrondissement/quartier, altitude, distance centre.
Construction des features (exemples typiques)¶
- Retards (lags) : valeurs H−15, −30, −45, −60… (pas d’info future).
- Fenêtres glissantes : moyennes/medians/écarts-types sur 1–6 h, indicateurs de volatilité.
- Saisonnalité : heure sin/cos, jour de semaine encodé, période scolaire.
- Interactions légères : lags × heure, météo × heure (si pertinent).
- Capacité & normalisation : ratios (
y/capacité
) lorsque la comparaison inter-stations est requise.
Entraînement & validation¶
- Découpes temporelles : train → val → test dans l’ordre du temps.
- Validation à origine glissante (rolling origin) pour évaluer la robustesse.
- Objectif : minimiser MAE (primat opérationnel), contrôle RMSE/biais.
- Anti-fuite : toutes les features utilisent exclusivement des informations ≤ t (aucun futur).
Artefacts & versioning¶
- Modèle sérialisé (ex.
joblib
) + signature des features attendues. - Version sémantique (ex.
vX.Y.Z
) liée au schéma de features & à l’horizon. - Journal de reproductibilité : seed, plage temporelle d’entraînement, métriques de val/test.
- Planification : ré-entraînement périodique (ex. quotidien/hebdo) ou à l’alerte monitoring.
Déploiement & prédiction¶
- Chargement depuis l’artefact, vérification du contrat de features (colonnes, types, ordre).
- Production de
y_pred
à chaque pas pour chaque station prévue, timestampée à t (et non t+h).
3) Explicabilité & calibration (ce que vous trouverez dans explainability.md
)¶
Objectif¶
Rendre les prévisions intelligibles (quelles variables comptent ? quand, où ?) et fiables (calibration, biais, incertitudes).
Résidus & diagnostic¶
- Résidus
y_true − y_pred
: distribution, QQ-plot, autocorrélation. - Hétéroscédasticité : variance des résidus vs niveau d’occupation.
- Outliers/épisodes : séquences d’erreurs anormalement longues (liées à ruptures d’ingestion, événements).
Importance & explications¶
- Permutation importance (globale) sur échantillon time-aware.
- Ablation par familles de features (lags, saisonnalité, météo) pour la valeur incrémentale.
- Profils moyens conditionnels (PDP/ICE) sur variables clés.
- Segments : importance et erreurs par cluster de stations (transparence sur où le modèle “comprend” mieux).
Calibration & biais¶
- Régression d’étalonnage
y_true = α + β·y_pred
: - β ≈ 1 & α ≈ 0 → bonne calibration moyenne.
- Pentes par segments (heure, cluster, capacité, zone) pour détecter des biais structurels.
- Erreur relative par niveau d’occupation (bas/moyen/haut) — utile pour l’opérationnel.
Incertitude (si activée)¶
- Intervalles par quantiles ou par jackknife/bootstrap.
- Coverage nominal vs empirique (ex. 80 % nominal ↔ ~80 % observé).
- Signalement des stations à forte incertitude (utile pour le monitoring).
Visualisations attendues¶
- Cartes du biais par station/zone, barres d’importance, PDP pour 2–3 features clés, courbes de calibration globales et par segments.
Lecture & limites¶
- L’explicabilité décrit des associations, pas des causalités.
- La calibration moyenne peut être bonne tout en étant mauvaise localement : d’où l’analyse par segments.
Valeur de la section “Modèle”¶
- Opérationnel : savoir quand/où la prévision est fiable, et de combien elle améliore la baseline.
- Ingénierie : pipeline clair, versionné, reproductible.
- Confiance : transparence sur pourquoi le modèle prédit ce qu’il prédit, et comment il se comporte selon les contextes.
Aller plus loin¶
- Page suivante : Performance & baseline
- Ou explorez : Pipeline d’entraînement & features • Explicabilité & calibration