Construire une architecture data performante et évolutive en moins de 10 jours 

Cdiscount Advertising est la régie publicitaire de Cdiscount, le premier e-commerçant français.

L’objectif principal de cette régie est de fournir des solutions publicitaires efficaces et personnalisées pour les marques et les vendeurs présents sur la plateforme. Face à l’augmentation du volume de données et aux exigences de performance, l’enjeu était d’optimiser l’infrastructure tout en réduisant les coûts et la maintenance. 

image-logo-cdiscount-advertising

Optimisation et réduction des coûts

La collaboration entre Cdiscount Advertising et Thélio visait à réinternaliser les logs publicitaires de Cdiscount, en augmentant l’automatisation et en réduisant les coûts, tout en assurant une qualité de données optimale. 

L’objectif principal de ce projet était de mettre en place une solution qui permette de traiter des millions d’événements chaque jour, d’assurer une disponibilité constante des données pour les analystes, tout en minimisant la maintenance et les coûts associés. L’architecture devait également être évolutive pour s’adapter aux pics de trafic, comme ceux observés lors du Black Friday. 

Le choix des technologies

La solution repose sur une combinaison de Google Cloud Platform (GCP), Kafka pour les flux de messages et Spark pour le traitement des données.

GCP a été choisi pour sa scalabilité et sa fiabilité, permettant de gérer efficacement les volumes de données fluctuants, surtout lors des pics de trafic comme le Black Friday. Kafka, en tant que système de streaming distribué, assure la collecte et la transmission des logs en temps réel, tandis que Spark traite ces données de manière rapide et efficace. Cette architecture permet de gérer automatiquement les variations de trafic, de maintenir une haute qualité de données et de minimiser les interventions manuelles. De plus, BigQuery, le service de data warehouse de GCP, a été utilisé pour le stockage et l’analyse des données, offrant une interface simple et performante pour les analystes. 

Mise en œuvre et développement  

En moins de 10 jours, l’équipe a conçu et développé une architecture complète et fonctionnelle.

Cette rapidité a été rendue possible grâce à une collaboration étroite entre les équipes de Cdiscount Advertising et Thélio.

Les flux de données étaient gérés via Kafka, qui collectait les événements en temps réel. Ces données brutes étaient ensuite traitées par Spark, qui les transformait en informations structurées et analysables. Enfin, les données transformées étaient stockées dans BigQuery, où elles étaient disponibles pour une analyse rapide et détaillée. Des mécanismes de monitoring sophistiqués ont été intégrés pour surveiller la performance de l’ensemble du système, détecter rapidement les anomalies et garantir une intervention rapide en cas de besoin.

Cette architecture modulaire et scalable permet non seulement de répondre aux besoins actuels mais aussi d’évoluer facilement pour s’adapter à de futurs défis. 

Une solution stable et fiable 

La nouvelle infrastructure a fonctionné sans interruption significative pendant plus de sept mois.

Cette stabilité est cruciale pour garantir la continuité des opérations et la fiabilité des données utilisées par les analystes. En effet, grâce aux mécanismes de monitoring et d’alertes mis en place, toute anomalie ou dysfonctionnement est rapidement détecté et corrigé, minimisant ainsi les risques de perte de données ou de baisse de performance. 

Maintenance réduite et simplifiée 

L’une des grandes réussites de cette architecture est la réduction drastique des besoins en maintenance.

Les solutions traditionnelles impliquent souvent une maintenance régulière et complexe, mobilisant des ressources importantes. En revanche, l’architecture mise en place par Thélio et Cdiscount Advertising est conçue pour être quasiment autonome. Les processus automatisés de collecte, de traitement et de stockage des données permettent de minimiser les interventions humaines. De plus, en cas de problème, les systèmes de monitoring sophistiqués facilitent la détection rapide et la résolution des incidents. 

Maîtrise des coûts opérationnels 

La facture mensuelle pour le traitement de 100 millions d’événements par jour ne dépasse pas 1000 euros.

Cette performance est rendue possible grâce à l’utilisation efficace des services cloud et à l’optimisation des ressources. En utilisant des solutions comme Google Cloud Platform, Kafka, et Spark, l’équipe a pu mettre en place une infrastructure scalable qui s’ajuste en fonction du volume de données, évitant ainsi les surcoûts liés à un surdimensionnement permanent des ressources. 

Focus sur l’analyse et l’optimisation 

Avec une infrastructure stable et des coûts maîtrisés, l’équipe de Cdiscount Advertising peut désormais se concentrer pleinement sur l’analyse et l’optimisation des campagnes publicitaires.

Libérés des contraintes de maintenance et des préoccupations de stabilité, les analystes peuvent exploiter pleinement les données collectées pour améliorer les performances des campagnes. Cette capacité à se focaliser sur des tâches à haute valeur ajoutée permet à l’équipe de maximiser le retour sur investissement des campagnes publicitaires et d’offrir un meilleur service à leurs clients. 

Évolutivité et adaptabilité de l’architecture 

Un autre avantage majeur de cette nouvelle architecture est son évolutivité.

Conçue pour s’adapter aux fluctuations du trafic, notamment lors des périodes de forte activité comme le Black Friday, elle permet de gérer efficacement les pics de charge sans compromettre la performance ou la qualité des données. Cette adaptabilité assure que Cdiscount Advertising peut répondre rapidement aux besoins changeants du marché et des clients, tout en maintenant un haut niveau de service et d’efficacité. 

Vous souhaitez en savoir plus ?

Ou tout simplement échanger sur vos enjeux data ?