Comment mettre en place et fiabiliser un tracking data à fort volume ?

Refonte du système de tracking pour fiabiliser les datas et améliorer les performances

Le logotype de la société Radio France
Radio France

Radio France est un groupe audiovisuel public majeur en France, qui opère plusieurs marques radio (France Inter, France Info, France Culture, France Musique, FIP, etc.) ainsi que l’ensemble de leurs plateformes numériques.

Secteur d’activité
Médias
Type d’accompagnement
Développement web
Technologies
Python, Node.js, Kubernetes,
Kafka, RabbitMQ,
architecture microservices, data tracking, recommandation, recherche
Consultant
Fabrice Migeot de Baran

Développeur fullstack Senior

Partager ce témoignage :

Le contexte de la mission backend autour du tracking et de la valorisation des données

Après une première mission côté API, le consultant a rejoint l’équipe Data pour intervenir sur les systèmes liés à la collecte, au traitement et à l’exploitation des données utilisateurs. Cette équipe couvre plusieurs périmètres clés, notamment la recherche de contenus, la recommandation personnalisée et surtout le tracking des usages.

Le cœur du système reposait sur la capacité à collecter des volumes importants de données issues des interactions utilisateurs. Cela incluait les pages consultées, les contenus écoutés, les clics ou encore les logs de téléchargement des fichiers audio. Ces données étaient ensuite enrichies et consolidées afin d’alimenter différents usages internes, comme la recommandation de contenus, la reprise de lecture ou les outils de pilotage métier.

Ces données avaient également un rôle stratégique puisqu’elles servaient à mesurer les audiences. Ces mesures étaient utilisées à la fois pour orienter les contenus et pour alimenter les dispositifs publicitaires, avec un impact direct sur les revenus.

Les enjeux et défis techniques d’un système de tracking à fort volume

Le principal enjeu du projet était de garantir la fiabilité des données produites par le système. À mesure que les volumes augmentaient et que les sources de données se multipliaient, il devenait de plus en plus difficile de maîtriser précisément ce qui entrait et ce qui sortait du système.

Les données collectées dépendaient de nombreux paramètres, notamment le type d’événement (écoute audio, navigation web), le niveau de consentement utilisateur ou encore la source technique. Cette complexité rendait le système difficile à faire évoluer, avec un manque de visibilité sur la qualité des données produites.

En parallèle, les contraintes de performance étaient fortes. Le système devait absorber des millions de requêtes par jour, gérer des pics d’audience importants et garantir un traitement rapide des données. Les mécanismes de queueing via Kafka permettaient de lisser la charge, mais pouvaient entraîner des délais de traitement importants en cas de saturation.

Enfin, les évolutions réglementaires et les exigences liées à la mesure d’audience imposaient d’adapter régulièrement l’architecture, notamment pour se conformer à de nouveaux standards de certification.

“La difficulté, c’est qu’on a plein de paramètres différents en entrée. Et en sortie, il faut qu’on sache exactement quelle donnée on produit. Avant, on ne maîtrisait pas bien ça, et ça devenait compliqué de travailler avec. »

Fabrice
Développeur fullstack Senior
Le logo de la société Eleven Labs

Les missions réalisées sur le système de tracking data à fort volume

La mission s’est déroulé pendant presque 2 ans et a couvert les périmètres :

Les résultats sur la fiabilité des données et les performances du tracking

Fiabilisation du système de tracking

Les données produites sont désormais mieux maîtrisées, avec une meilleure visibilité sur les transformations appliquées.

Déploiements plus sereins

Les équipes ont gagné en confiance lors des mises en production, avec moins d’incertitudes sur le comportement du système.

Amélioration des performances globales

La charge serveur a été réduite et le système gère plus efficacement les volumes de données.

Réduction des temps de traitement en période de pic

Les données en file d’attente sont traitées plus rapidement, limitant les retards liés aux pics d’audience.