ARCHITECTURE

Mieux comprendre la Modern Data Stack

Marie de Vesvrotte
Responsable Marketing
31/10/2024
Sommaire

Qu’est-ce qu’une Modern Data Stack ?

Rassurez-vous, toute organisation qui prend au sérieux l’utilisation quotidienne des données, de l’analytique et de l’IA utilise une version de l’architecture de la Modern Data Stack ! 

Mais alors, que se cache-t-il derrière ce nouveau buzzword ? 

Pour faire simple, il s'agit d'une nouvelle approche, modulaire et cloud-native, permettant de collecter, stocker, transformer et analyser des données de manière fluide, à l’aide d’outils qui ont radicalement évolué ces dernières années. 

Pour autant, ce n’est pas seulement une nouvelle génération d'outils technologiques, mais un changement de paradigme dans la manière dont les entreprises exploitent leurs données. Les organisations passent d’une vision centrée sur la technique à une vision centrée sur le business.

L'idée clé de la Modern Data Stack est d'aligner les besoins des métiers avec les capacités de l'IT. Les outils ne sont plus conçus pour des usages isolés, mais pour être intégrés dans l'ensemble des processus métiers, permettant à plusieurs équipes de travailler sur les mêmes données avec des objectifs différents.

Aujourd'hui, un même outil peut être utilisé à la fois par les équipes financières, RH et opérationnelles, permettant une exploitation des données commune, sans recourir à des solutions exotiques spécifiques à chaque service. — Antoine Broudeur, Head of Consulting chez Limpida

La Modern Data Stack repose sur une architecture modulaire, où chaque composant joue un rôle bien défini : ingestion, stockage, transformation et visualisation des données. Vous pouvez ajouter ou remplacer des outils selon vos besoins, sans impacter l’ensemble du système ! 

Pourquoi est-elle moderne ? 

Une approche modulaire pour plus de flexibilité 

Loin des systèmes monolithiques et rigides du passé, la Modern Data Stack permet de construire une architecture agile. 

Chaque outil de la Modern Data Stack est conçu comme un module indépendant mais intégrable. Cela vous permet d'ajouter des solutions de manière progressive, composant par composant. Grâce à cette architecture décentralisée et modulaire, vous pouvez adopter une approche itérative vous permettant de débuter sur un premier périmètre, puis d’étendre progressivement ses capacités en fonction des besoins émergeants. 

Cette flexibilité permet non seulement de réduire les délais de mise en œuvre, mais aussi d’ajuster facilement les outils et technologies utilisés à chaque étape, en fonction des priorités métiers et des évolutions technologiques.

Cette modularité réduit les silos de données, un problème courant avec les stacks de données traditionnels.

Coût et scalabilité : le cloud change la donne 

Actuellement, la tendance est plus de stocker le maximum de données, et de réfléchir aux cas d’utilisation après. Vous me direz, hors de prix comme architecture ? Et bien non, grâce à la Modern Data Stack c’est possible. Cette architecture dissocie le stockage du calcul, permettant de transformer les données à la demande. 

Elle permet à chacun de s’affranchir des contraintes de hardware (matériel et infrastructures physiques) et de faire face à des volumes de données variables avec des coûts calculés selon l’usage.

Les services cloud permettent de redimensionner dynamiquement les ressources en fonction des besoins, évitant ainsi les dépenses excessives liées à la surcapacité ou aux infrastructures sous-exploitées. 

Avec la Modern Data Stack, le stockage des données est souvent centralisé dans des entrepôts cloud comme Snowflake, Google BigQuery ou Amazon Redshift, où elles peuvent être conservées en grande quantité sans encombre. Le calcul, lui, se fait à la demande, selon les requêtes et analyses effectuées par les utilisateurs. À savoir que les solutions basées sur le cloud computing suivent un modèle de paiement à l’utilisation. Cela permet de réduire significativement les coûts de démarrage des projets data puisqu’il n'est plus nécessaire de définir une capacité en amont du projet et de risquer un sur/sous dimensionnement.

Une architecture conçue pour les métiers

Les besoins en matière de self-service et d’autonomie des métiers ont été déterminants dans l’émergence des Modern Data Stack. Et c’est en particulier la dissociation de l’ingestion et du traitement des données qui a permis de remonter l’autonomie des métiers plus haut dans la chaîne de gestion des données. 

L'objectif est de donner aux utilisateurs métiers, tels que les analystes ou les responsables marketing, la capacité d'accéder directement aux données, de les manipuler et de créer leurs propres analyses, sans dépendre des équipes IT.

Concrètement, l’IT s’occupe de tout ce qui est "sous le capot", assurant que les données brutes soient accessibles dans l'entrepôt de données. Une fois cette infrastructure opérationnelle, les équipes métiers se chargent de la transformation et de la valorisation des données. 

Il n’est donc plus forcément nécessaire de maîtriser les langages de programmation complexes pour traiter et utiliser la donnée grâce à l’émergence d’outils low-code dans quasiment tous les domaines.

Le passage de l’ETL à l’ELT 

L’utilisation d’outils plus performants permet aussi de modifier le processus de transformation des données. 

Traditionnellement, c’est le processus ETL (Extract, Transform, Load) qui était utilisé. Cette approche, historiquement dictée par des contraintes de capacité de stockage et de performance, obligeait les entreprises à pré-traiter les données immédiatement après leur extraction, en ne conservant que celles jugées pertinentes. Cela impliquait des risques de perte d'information et nécessitait des infrastructures lourdes, coûteuses et rigides.

Avec l'émergence du Data Warehouse Cloud, le contexte a complètement  changé. Aujourd'hui, c’est le modèle ELT qui prévaut. Toutes les données sont chargées au sein de l’espace de stockage. Ce n'est qu'après le chargement des données que celles-ci sont transformées, selon les besoins spécifiques des utilisateurs métiers.  

Et c’est là l’une des principales différences entre une « Old Data Stack » et une « Modern Data Stack ». La MDS permet de passer d’une approche ETL à une approche ELT. 

Utilisateurs de la Modern Data Stack

Avant même de parler d’utilisateurs finaux, il est important de revenir sur un point : la Modern Data Stack s’adresse et est accessible à toutes les entreprises, qu’elles soient petites, moyennes ou grandes. 

Grâce à l’adoption de solutions cloud-native et d’outils prêts à l’emploi, il est aujourd’hui possible d’en profiter pour une dizaine d’euros par mois (pour les plus petits projets). 

Par ailleurs, le principe même de la Modern Data Stack est de rendre la donnée actionnable à tous les utilisateurs, qu’ils soient techniques ou non et quels que soient leurs besoins en données. 

Elle permet :

  1. Aux Data Scientist de réaliser de la science des données avancée sur des entrepôts de données dans le cloud, en déléguant les tâches de traitement des données tout en ayant la capacité d'opérationnaliser rapidement des projets de Data Science pour les utilisateurs métiers.
  2. Aux analystes et autres non-développeurs d'effectuer leurs propres transformations de données ainsi que des travaux avancés, tels que des analyses prédictives, sans avoir besoin d'une expertise technique poussée.
  3. Aux ingénieurs data de concevoir et gérer des pipelines de données automatisés, facilitant l'intégration, la transformation et la livraison des données aux différentes équipes de l'entreprise.
  4. Aux équipes métiers d'exploiter directement les données pour améliorer leurs processus décisionnels et piloter leurs performances. Avec moins de code spécifique (comme Python ou Spark), la Modern Data Stack permet d’effectuer la plupart des transformations de données en SQL, le langage de base de données le plus classique qui soit.   
  5. Aux responsables de la gouvernance des données de s'assurer de la qualité, de la sécurité et de la conformité des données grâce à des outils qui centralisent le suivi et les contrôles, garantissant que les données répondent aux normes de l'entreprise et aux exigences réglementaires.

La Modern Data Stack : la colonne vertébrale du Data Mesh  

Il est presque impossible de discuter d'architecture de données moderne sans mentionner le terme en vogue aujourd'hui : le data mesh

Qu'est-ce que le data mesh exactement ?

Le data mesh est une architecture de données distribuée intentionnellement conçue, sous gouvernance centralisée et standardisée pour l'interopérabilité, rendue possible par une infrastructure de données en libre-service partagée et harmonisée. J'espère qu'il est clair qu'il est bien loin d'un paysage de silos fragmentés de données inaccessibles.
Zhamak Dehghani, Consultante en Technologie Principale chez Thoughtworks et créatrice du terme data mesh

Cela offre une nouvelle dynamique où les équipes IT ne sont plus les seules à détenir la "source de vérité", mais où chaque département peut avoir un accès direct et flexible aux données, tout en respectant les standards globaux définis par la gouvernance centrale.

Cette approche met la responsabilité sur les métiers pour maintenir, utiliser et créer de la valeur à partir de leurs données. 

Une collaboration renforcée entre métier et IT 

Il ne s'agit pas uniquement de déployer une série d'outils technologiques pour créer une Modern Data Stack, mais de transformer en profondeur la manière dont les équipes interagissent avec les données. Cette transformation repose sur un changement culturel où l'IT devient non seulement un fournisseur de technologies, mais aussi un facilitateur de la création de valeur métier.

Historiquement, les solutions technologiques étaient souvent conçues pour répondre aux besoins spécifiques d’un métier, comme un outil EPM exclusivement utilisé par l’équipe finance. Ce cloisonnement limitait la collaboration inter-fonctionnelle et freinait l’exploitation des données à l’échelle de l’entreprise. Aujourd'hui, grâce à la Modern Data Stack, les outils sont plus transversaux et accessibles à diverses équipes métiers (finance, marketing, opérations, etc.). Cette architecture flexible et évolutive favorise une collaboration accrue, permettant à chaque métier d'exploiter des données centralisées, tout en restant agile et adapté à leurs besoins spécifiques.

Cependant, la tension traditionnelle entre la centralisation, souvent prônée par les équipes IT, et la volonté des métiers de décentraliser l’accès aux données, reste un obstacle fréquent dans la mise en place d'une Modern Data Stack. L'approche du data mesh, qui décentralise la gouvernance et la gestion des données, peut être une réponse intéressante, mais elle est complexe à mettre en œuvre. La clé du succès réside dans l’alignement des besoins métiers avec les capacités de gestion des données, en impliquant dès le départ les experts métiers pour qu’ils définissent clairement leurs besoins et usages des données.

Même si une entreprise parvient à regrouper toutes ses données en un seul endroit, leur combinaison et leur transformation en insights exploitables ne peuvent pas être entièrement automatisées — du moins, pas encore. C’est pourquoi l’IT doit non seulement fournir des solutions technologiques, mais aussi développer une stratégie d'architecture de données qui maximise l’efficacité de cette collaboration métier-IT pour produire de la valeur à chaque étape du processus.

FAQ

Les questions fréquentes

Qu'est-ce que la Modern Data Stack ? +

La Modern Data Stack désigne une nouvelle approche, modulaire et cloud-native, permettant de collecter, stocker, transformer et analyser des données de manière fluide, à l'aide d'outils qui ont radicalement évolué ces dernières années. Ce n'est pas seulement une nouvelle génération d'outils technologiques, mais un changement de paradigme.

  • Architecture modulaire où chaque composant joue un rôle bien défini.
  • Cloud-native, exploitant la puissance et la flexibilité des services cloud.
  • Centrée sur le business plutôt que sur la technique.
  • Permet de démocratiser l'accès aux données pour les métiers.
  • Aligne les capacités IT avec les besoins métiers.
  • Loin des systèmes monolithiques et rigides du passé.
D'où vient la Modern Data Stack ? +

L'origine de la Modern Data Stack est liée à l'émergence des solutions Cloud Data Warehouse, qui permettent de combiner les avantages du Data Lake et du Data Warehouse tant en termes d'architecture que d'usages.

  • Émergence des entrepôts cloud (Snowflake, BigQuery, Redshift) à partir des années 2010.
  • Dissociation du stockage et du calcul pour optimiser les coûts.
  • Passage du modèle ETL au modèle ELT avec les capacités du cloud.
  • Apparition d'outils spécialisés pour chaque brique (Fivetran, DBT, Looker).
  • Démocratisation de l'analyse de données au-delà du cercle IT.
  • Réponse aux limites des architectures monolithiques traditionnelles.
En quoi la Modern Data Stack est-elle modulaire ? +

La Modern Data Stack repose sur une architecture modulaire où chaque composant joue un rôle bien défini. Chaque outil est conçu comme un module indépendant mais intégrable, ce qui ouvre une flexibilité que les architectures traditionnelles n'offrent pas.

  • Permet d'ajouter ou remplacer des outils selon les besoins sans impacter l'ensemble.
  • Adoption progressive composant par composant possible.
  • Approche itérative : démarrer sur un périmètre puis étendre.
  • Réduit les délais de mise en œuvre par rapport aux solutions intégrées.
  • Évite les silos de données en favorisant les échanges entre briques.
  • Permet de tester un outil et de le remplacer s'il ne convient pas.
Pourquoi la Modern Data Stack est-elle cloud-native ? +

La Modern Data Stack tire pleinement parti des services cloud pour répondre à des volumes variables avec des coûts maîtrisés. Cette architecture dissocie le stockage du calcul, permettant de transformer les données à la demande.

  • Affranchissement des contraintes hardware et infrastructures physiques.
  • Coûts calculés selon l'usage réel (pay-as-you-go).
  • Redimensionnement dynamique des ressources selon les besoins.
  • Évite les dépenses excessives liées à la surcapacité ou aux infrastructures sous-exploitées.
  • Permet de gérer des volumes de données variables sans contrainte.
  • Facilite l'accès aux dernières innovations technologiques.
Quelle est la différence entre ETL et ELT dans la Modern Data Stack ? +

Traditionnellement, l'approche ETL (Extract, Transform, Load) était utilisée, où l'ingestion et la transformation des données étaient couplées. Dans la Modern Data Stack, on passe à une approche ELT (Extract, Load, Transform).

  • ELT dissocie l'ingestion et la transformation, qui peuvent être réalisées à des moments différents.
  • Permet aux métiers d'être plus autonomes dans la valorisation des données.
  • Les profils techniques se chargent de l'architecture et de l'ingestion.
  • Les métiers se concentrent sur la transformation pour leurs propres usages.
  • Outil de référence pour la transformation : DBT (Data Build Tool) en SQL.
  • Permet de stocker les données brutes pour assurer traçabilité et flexibilité.
Quels sont les avantages de la Modern Data Stack par rapport à une stack traditionnelle ? +

La Modern Data Stack offre des avantages significatifs par rapport à une approche traditionnelle. Ces bénéfices se mesurent autant sur le plan technique qu'organisationnel et culturel.

  • Flexibilité : possibilité de choisir et remplacer des outils individuels.
  • Coûts maîtrisés grâce au modèle pay-as-you-go.
  • Rapidité de déploiement réduite par rapport aux systèmes monolithiques.
  • Collaboration améliorée entre équipes techniques et métiers.
  • Gestion de la sécurité simplifiée par les fournisseurs cloud.
  • Évolutivité native sans refonte d'infrastructure.
  • Démocratisation de l'usage de la donnée auprès des équipes métiers.
Quelle est la différence entre Modern Data Stack et Modern Data Platform ? +

Bien que souvent confondus, Modern Data Stack et Modern Data Platform désignent deux approches différentes. La distinction est importante pour bien orienter ses choix technologiques.

  • Modern Data Stack : ensemble de plusieurs outils spécialisés intégrés pour chaque étape du cycle de vie.
  • Modern Data Platform : solution unifiée tout-en-un qui gère l'ensemble du cycle au sein d'une seule plateforme.
  • La MDS offre plus de flexibilité avec le choix et le remplacement d'outils individuels.
  • La MDP offre une solution plus simple et intégrée, réduisant la gestion d'outils multiples.
  • MDS adaptée aux organisations souhaitant maîtriser chaque brique.
  • MDP adaptée aux organisations cherchant la simplicité et un fournisseur unique.
Quel rôle joue SQL dans la Modern Data Stack ? +

Avec moins de code spécifique (comme Python ou Spark), la Modern Data Stack permet d'effectuer la plupart des transformations de données en SQL, le langage de base de données le plus classique. C'est un choix structurant qui démocratise l'accès aux traitements data.

  • SQL est largement maîtrisé par les analystes et les utilisateurs avancés.
  • Réduit la dépendance aux profils techniques rares.
  • Permet aux métiers d'écrire eux-mêmes leurs transformations.
  • Outils comme DBT industrialisent les transformations SQL avec tests et documentation.
  • Facilite la collaboration entre équipes techniques et métiers.
  • Permet une montée en compétence progressive des équipes.