ARCHITECTURE
15/7/2024
Data WarehousePhoto de Marie de Vesvrotte
Marie de Vesvrotte
Responsable Marketing

Data Warehouse : utilité et fonctionnement

Il faudra attendre les années 1980 pour voir émerger le premier Data Warehouse, développé par Paul Murphy et Barry Devlin. 

Utilisé dans un premier temps pour historiser les données produites par les applications, les Data Warehouse sont les premières plateformes utilisées pour collecter et analyser des données issues de sources hétérogènes. 

Qu’est-ce qu’un Data Warehouse ? 

Un Data Warehouse, ou entrepôt de données, est un système de gestion des données conçu pour centraliser, stocker et gérer des données provenant de sources hétérogènes afin d’en dégager des informations exploitables à des fins d'analyse. 

Cette plateforme utilise plusieurs technologies et composants permettant de consolider et d’exploiter des données historiques et actuelles pour effectuer des requêtes complexes et générer des rapports décisionnels.

Comment fonctionne un Data Warehouse ? 

Un Data Warehouse agit comme un répertoire centralisé pour les données provenant de multiples sources, telles que les systèmes transactionnels et autres bases de données relationnelles.

Imaginez une immense bibliothèque centrale qui sert toute une ville. Cette bibliothèque centralise et organise des livres provenant de nombreuses petites bibliothèques locales, chacune spécialisée dans un domaine différent, comme la science, la littérature, l'histoire, etc.  

Bibliothèque data warehouse

  1. Sources de données : les petites bibliothèques locales représentent les diverses sources de données dans une organisation, comme les bases de données transactionnelles, les systèmes ERP, les fichiers CSV, etc.
  2. Processus ETL (Extraction, Transformation, Chargement) : les livres de chaque petite bibliothèque sont collectés, parfois nettoyés et reformatés (par exemple, réparer des pages déchirées, relier des livres endommagés), puis transportés vers la bibliothèque centrale.
  3. Data Warehouse : la bibliothèque centrale représente le Data Warehouse. Ici, les livres (données) sont classés, indexés et organisés de manière à ce que toute la collection soit facilement accessible et utilisable.
  4. Transformation des données : avant de placer les livres sur les étagères, ils passent par une section de catalogage où ils sont classifiés et indexés (similaire à la transformation des données pour garantir qu'elles sont cohérentes et bien organisées).
  5. Outils de BI et SQL Clients : les bibliothécaires et les utilisateurs (analystes de données et décideurs) peuvent rapidement trouver et accéder aux livres dont ils ont besoin grâce à un catalogue bien organisé (outils de BI, clients SQL, tableurs).
  6. Analyses et rapports : en centralisant tous les livres en un seul endroit, les chercheurs peuvent obtenir une vue d'ensemble des connaissances disponibles, comparer différentes sources d'information et effectuer des recherches approfondies (analyses de données et rapports).
  7. Data Mining : les chercheurs peuvent également utiliser des techniques avancées pour explorer des sujets spécifiques, trouver des liens entre différents domaines de connaissance et découvrir de nouvelles idées (data mining).

Conception d’un entrepôt de données : exemples d’architecture

Les architectures courantes d’un Data Warehouse incluent plusieurs modèles et composants essentiels, qui permettent une gestion efficace des données de l’acquisition à l’analyse.

Simple

  • Description : une architecture directe où les données sont extraites, transformées, et chargées (ETL) directement dans le Data Warehouse sans intermédiaire. 
  • Fonctionnement : les données brutes sont chargées directement après transformation. Il n’y a pas de zone de transit ou d’autres composants intermédiaires. Les utilisateurs peuvent accéder aux données transformées dans le Data Warehouse. 
  • Avantages : facilité de gestion et d'accès, structure simple et directe.

Simple avec une zone de transfert

  • Description : intégration d’une étape intermédiaire avant l’entrée des données dans le Data Warehouse. 
  • Fonctionnement : les données opérationnelles passent par une zone de transfert intermédiaire pour être nettoyées et traitées, avant d’entrer dans le Data Warehouse, simplifiant ainsi leur préparation. 
  • Avantages : affinement de la qualité des données, facilité de traitement et de transformation des données avant leur intégration.

Modèle en étoile

  • Description : l'insertion de Data Mart entre le référentiel central et les utilisateurs finaux permet de personnaliser le Data Warehouse afin de répondre aux besoins spécifiques de divers secteurs d'activité.
  • Fonctionnement : les tables de faits centralisent les mesures quantitatives tandis que les tables de dimensions périphériques fournissent le contexte descriptif. Les données prêtes à l’emploi sont déplacées vers le Data Mart approprié. 
  • Avantages : performance élevée des requêtes, simplicité de la structure pour les utilisateurs finaux, flexibilité dans la segmentation des données par département ou par fonction.

Bacs à sable (sandboxes)

  • Description : environnement isolé pour les tests et le développement.
  • Fonctionnement : les utilisateurs peuvent charger et manipuler des données dans un environnement sécurisé sans affecter les opérations en cours du Data Warehouse principal. 
  • Avantages : flexibilité pour l'innovation, tests de nouvelles approches analytiques sans perturber les opérations en cours, environnement sécurisé pour les essais et les développements.

Voici ci-après un modèle d’architecture Data Warehouse : 

datawarehouse

Les 3 types de Data Warehouse 

Les Data Warehouses peuvent être classifiés en trois types principaux selon leur fonction et leur niveau de détail : l'Operational Data Store (ODS), l'Enterprise Data Warehouse (EDW) et le Data Mart. Chacun de ces types sert des objectifs spécifiques et est utilisé dans des contextes différents.

  • L'Enterprise Data Warehouse, ou EDW, est un entrepôt de données à l'échelle de l'entreprise. Il est conçu pour stocker de grandes quantités de données provenant de toute l'organisation et offrir une vue globale et intégrée des données.
  • L'Operational Data Store, ou ODS, est un type de Data Warehouse qui sert principalement de répertoire intermédiaire pour les données opérationnelles courantes. Il est conçu pour stocker des données temporaires et les rendre rapidement accessibles pour des opérations courantes.
  • Le Data Mart est un sous-ensemble du Data Warehouse, spécialisé pour répondre aux besoins spécifiques d'un département ou d'une unité fonctionnelle de l'entreprise. Il est généralement plus petit et plus ciblé qu'un EDW. 

Pourquoi recourir à un Data Warehouse ?

Recourir à un Data Warehouse apporte une multitude d'avantages qui peuvent transformer la manière dont une entreprise gère, analyse et utilise ses données pour atteindre ses objectifs stratégiques.

  • Consolidation des données : un Data Warehouse centralise les données provenant de différentes sources, offrant une vue unique et cohérente des informations de l'entreprise. Cela élimine la fragmentation des données et les silos d'information, facilitant ainsi une gestion plus efficace des données.
  • Amélioration de la qualité des données : les processus ETL permettent de nettoyer, transformer et valider les données avant leur chargement, garantissant ainsi leur qualité et leur fiabilité. La standardisation des données provenant de différentes sources améliore leur cohérence, rendant les analyses plus précises et fiables.
  • Optimisation des performances des requêtes : les Data Warehouses sont conçus pour exécuter rapidement des requêtes complexes sur de grands volumes de données. Cette optimisation permet d'accélérer les temps de réponse des analyses et des rapports, améliorant ainsi l'efficacité opérationnelle et la satisfaction des utilisateurs.
  • Scalabilité et flexibilité : les Data Warehouses sont conçus pour gérer de grandes quantités de données et s'adapter facilement à la croissance des besoins de l'entreprise. Cette scalabilité permet d'ajouter de nouvelles sources de données et d'étendre l'infrastructure sans perturber les opérations en cours.
  • Sécurité et conformité : un Data Warehouse permet de mettre en place des contrôles d'accès stricts et des mesures de sécurité avancées pour protéger les données sensibles. Il aide également à respecter les réglementations de conformité en matière de gestion et de protection des données, telles que le GDPR et le HIPAA.
  • Réduction des coûts : en centralisant et en rationalisant la gestion des données, un Data Warehouse peut réduire les coûts liés à la duplication des efforts et aux erreurs de données. L'amélioration de l'efficacité opérationnelle et la prise de décisions plus rapides et mieux informées contribuent à un meilleur retour sur investissement.
  • Facilitation de l'innovation : un Data Warehouse offre une base solide et flexible pour les projets analytiques, permettant de tester de nouvelles hypothèses et approches sans perturber les systèmes opérationnels. 
Rond violet avec fleche vers le haut