
Accompagner France Télévisions dans la mise en place d’un référentiel utilisateur à l’occasion des Jeux Olympiques

France Télévisions est le groupe audiovisuel public français, éditeur des chaînes France 2, France 3, France 5, France info et France.tv, sa plateforme numérique. Il propose une offre de contenus riche, accessible à tous, et très suivie lors des grands temps forts sportifs.
Apache Spark, Terraform,
Composer, CI/CD, Python
Data Engineer
Le contexte de la création d'un référentiel de données pour les Jeux Olympiques
À l’approche des Jeux Olympiques, France Télévisions souhaite maximiser la visibilité de sa plateforme numérique et fidéliser ses utilisateurs au-delà de l’événement. Pour cela, il devient stratégique de mieux connaître son audience et de pouvoir activer des campagnes marketing personnalisées.
Thierry a été missionné pour intervenir sur le produit UCP (Use Case Personnalisation), dont l’objectif est de structurer et activer un référentiel utilisateur regroupant les comportements, habitudes et préférences des internautes. Ce socle permet à l’équipe marketing de segmenter la base, créer des populations cibles, et déclencher des campagnes sur mesure (notifications push, emails, etc.).
Déjà familier de l’univers France Télévisions pour y avoir travaillé auparavant, Thierry a été choisi pour ses compétences en développement Python, data engineering et bonnes pratiques de delivery logiciel. Il a intégré une équipe projet pluridisciplinaire (PO, data engineers, data analyst, data steward) dédiée à l’activation des données autour des JO.
Les enjeux et défis techniques pour livrer une solution fonctionnelle pour les JO
Le principal enjeu a été de livrer une solution pleinement fonctionnelle avant le lancement des JO, avec un niveau de qualité et de robustesse irréprochable. Il fallait partir d’un existant partiel, rationaliser les développements, et concevoir un référentiel centré sur la valeur métier, en lien direct avec les usages marketing.
Un autre défi technique a concerné les performances. En effet, certains traitements liés au référentiel prenaient plusieurs heures, à cause d’un partitionnement mal calibré. Thierry a restructuré l’ensemble pour réduire les temps de traitement de plusieurs heures à une trentaine de minutes.
Il a également mis en œuvre “la moulinette”, un système qui transforme des requêtes métier JSON (ex. “utilisateurs 28-35 ans ayant vu le Tournoi des 6 Nations”) en exports CSV destinés aux équipes marketing. Toute cette chaîne devait respecter les normes RGPD, intégrer les consentements et produire des données fiables et actionnables.
“Ce projet m’a permis de concilier mes deux casquettes : data engineer et développeur logiciel. Mettre en place une vraie culture produit dans une équipe data, c’est un vrai levier de montée en qualité.”
Les missions réalisées autour du référentiel utilisateur
Structuration des données et mise en production
- Création d’un référentiel utilisateur à partir de données comportementales
- Migration de l’outil de ciblage vers Google Dataproc (de 4h à 15min de traitement)
- Intégration des consentements RGPD
- Mise en place de l’architecture “médaillon” (raw, silver, gold)
- Migration des orchestrations vers Google Cloud Composer
Montée en qualité logicielle et industrialisation
- Mise en place de tests unitaires pour Apache Spark
- CI/CD avec Gitlab : linting, versioning sémantique, déploiement auto
- Création d’environnements de revue automatiques
- Documentation fonctionnelle et technique
- Structuration de l’équipe autour des pratiques Scrum, avec rituels et refinements quotidiens
Monitoring, FinOps et amélioration continue
- Mise en place de Google Monitoring & Alerting (alertes Slack via Cloud Functions)
- Optimisation des ressources cloud (FinOps)
- Migration des partitions en Liquid Clustering (temps de traitement divisé par 3)
- Proposition d’une architecture DDD pour structurer les scripts Spark (non retenue au profit de l’outil open source Kredo)