DATA QUALITY

Comment garantir l’intégrité des données ?

Marie de Vesvrotte
Responsable Marketing
26/9/2024
Sommaire

La capacité d'une organisation à maintenir la fiabilité des données tout au long de leur cycle de vie est devenu un élément fondamental de la gouvernance des données.

Le respect de l'intégrité des données repose sur des mécanismes bien établis dans les processus métiers, techniques et organisationnels. Chaque organisation, quelle que soit son industrie, doit s'assurer que ses données sont protégées contre toute altération, qu'elle soit volontaire ou accidentelle. 

Qu’est-ce que l’intégrité des données ? 

L'intégrité des données désigne l'état d'exactitude, de fiabilité et de cohérence des données au fil du temps et à travers leurs différentes utilisations. Cela signifie qu'une donnée ne doit pas être altérée de manière imprévue ou intentionnelle, qu'elle soit en cours de traitement, de transfert ou de stockage. 

La moindre altération pourrait affecter des processus décisionnels et avoir des conséquences potentiellement graves, tant au niveau financier que réglementaire.

L'intégrité des données n'est pas simplement une question de protection contre les attaques extérieures ou les erreurs humaines, elle consiste également à s'assurer que les données répondent aux critères de qualité définis lors de leur création et de leur collecte. Par conséquent, des systèmes et des processus doivent être mis en place pour s'assurer que les données restent fidèles à leur état d'origine et ne subissent aucune modification imprévue.

Types d’intégrité des données 

On distingue généralement deux grands types d'intégrité : l'intégrité physique et l'intégrité logique. Chacune joue un rôle différent, mais complémentaire, dans la protection des informations.

  • L'intégrité physique concerne la protection des données contre les dommages matériels. Cela inclut les pannes de matériel, les catastrophes naturelles, et toute altération physique des systèmes de stockage. Les sauvegardes régulières et redondantes, ainsi que la géo-réplication, sont des moyens de protéger les données contre ce type de risque.
  • L'intégrité logique, quant à elle, se concentre sur la cohérence des données au sein des systèmes de gestion de bases de données (SGBD). Elle repose sur des règles et des contraintes, telles que les clés primaires et les contraintes de domaine, pour garantir que seules des données valides et cohérentes sont insérées dans la base.

Dans cette catégorie, on distingue :

  • L'intégrité référentielle, qui assure la cohérence des relations entre les différentes tables d'une base de données. Si une relation existe entre deux ensembles de données, celle-ci doit être maintenue en toute circonstance. 
  • L'intégrité d'entité, qui garantit l'unicité de chaque enregistrement dans une base de données, souvent à l'aide de clés primaires. Cela signifie que chaque ligne peut être identifiée de manière distincte assurant qu'aucune duplication accidentelle ne se produise.
  • L'intégrité de domaine, qui valide que les valeurs saisies appartiennent à un ensemble de données prédéfini et acceptable. Par exemple, des dates dans un format correct ou des valeurs numériques dans des plages acceptables.
  • L'intégrité définie par l'utilisateur, qui inclut des règles spécifiques à chaque entreprise ou application. Cela peut être par exemple des règles métier imposant qu’un champ « statut » ne prenne que certaines valeurs prédéfinies.

Qu’est-ce qu’un défaut d’intégrité des données ?  

Un défaut d’intégrité survient lorsqu'une donnée est altérée ou détruite, volontairement ou accidentellement. Cela peut arriver à différents moments du cycle de vie des données, et les conséquences varient selon le contexte. Dans certains cas, comme un document conservé en archivage légal, l’impact peut être minime. Cependant, dans d’autres cas, un défaut d’intégrité peut avoir des conséquences graves sur l’activité de l’entreprise.

Causes courantes d’altération des données :

  • Fraudes internes : des employés malveillants peuvent manipuler ou modifier des données à leur avantage.
  • Cyberattaques : les attaques externes, comme le piratage ou les ransomwares, peuvent corrompre ou détruire des informations sensibles.
  • Défaillances techniques : un bug dans une application ou un système de gestion des bases de données peut accidentellement supprimer ou altérer des données.
  • Erreurs humaines : la saisie incorrecte, la mauvaise manipulation des données, ou l'utilisation incorrecte d'outils de gestion peuvent provoquer des erreurs.
  • Pannes matérielles : un disque dur défaillant ou une catastrophe naturelle peuvent entraîner une perte de données.
  • Erreurs lors des transferts d’informations : des données peuvent être corrompues lors de leur transmission d’un système à un autre, en particulier si les protocoles de sécurité ne sont pas bien configurés.

Conséquences d’un défaut d’intégrité des données :

  • Prise de décisions erronées : si les données sur lesquelles s’appuient les décisions stratégiques sont corrompues, cela peut entraîner des choix inadaptés et nuire à l'entreprise.
  • Perte de productivité : les employés passent du temps à identifier les erreurs, à les corriger, et à restaurer des données, ce qui ralentit les opérations.
  • Sanctions légales : dans les secteurs hautement régulés, comme la santé ou la finance, un défaut d'intégrité peut entraîner des amendes et des sanctions pour non-conformité.
  • Déficit d’image de marque : si des données inexactes sont partagées avec des clients ou des partenaires, cela peut nuire à la réputation de l'entreprise, entraînant une perte de confiance.

Comment assurer l’intégrité des données ?

Maintenir l'intégrité des données nécessite la mise en place de plusieurs stratégies complémentaires, couvrant à la fois des aspects technologiques et organisationnels. Parmi les principales méthodes pour garantir cette intégrité, on peut citer :

  • Fiabiliser la collecte des données : les données doivent être vérifiées dès leur collecte. Des contrôles stricts doivent être mis en place pour valider la conformité des informations saisies par rapport aux formats et règles définies dans le dictionnaire de données.
  • Contrôler les permissions et les droits d’accès : seuls les utilisateurs autorisés doivent avoir la possibilité de modifier ou de supprimer des données sensibles. Cela limite le risque de modification accidentelle ou malveillante.
  • Centraliser et garantir l’unicité des bases de données : il est essentiel de garantir que toutes les données utilisées par l’organisation proviennent d'une source unique et fiable, afin d’éviter la duplication et la désynchronisation.
  • Surveiller toutes les modifications : il est primordial de disposer d'un historique complet et non falsifiable de toutes les modifications apportées aux données. Cela permet de retracer les altérations et de les corriger rapidement en cas d'erreur.
  • Sauvegarder régulièrement les données : des sauvegardes périodiques, avec un plan de récupération en cas de sinistre, garantissent que les données peuvent être restaurées en cas de perte ou de corruption pour minimiser les impacts. 
  • Réaliser des audits réguliers : des audit trails doivent être effectués périodiquement pour vérifier l'intégrité des données, en identifiant d'éventuelles anomalies dans les processus de modification, suppression ou transfert des données.
  • Former le personnel : les employés doivent être formés aux bonnes pratiques de gestion des données. Ils doivent comprendre les risques liés aux erreurs humaines et l'importance de l'intégrité des données pour le bon fonctionnement de l’entreprise. De même, les partenaires et fournisseurs doivent respecter les mêmes normes et suivre des procédures rigoureuses.

Zoom sur KNIME pour gérer l'intégrité des données

Grâce à ses multiples nœuds prédéfinis, il est possible de configurer des contrôles rigoureux tout au long du processus de gestion des données. Voici quelques exemples concrets de l'utilisation de KNIME pour assurer l'intégrité des données, avec des nœuds spécifiques :

Validation des données à l’entrée

Lors de l'intégration de données dans un système, il est essentiel de vérifier que les informations respectent certaines règles de format, de domaine ou de cohérence. KNIME propose plusieurs nœuds pour automatiser cette validation.

  • Nœud "String Manipulation" : ce nœud peut être utilisé pour vérifier que les champs texte, comme les adresses e-mail ou les numéros de téléphone, respectent un format particulier. Par exemple, il peut valider que les numéros de téléphone suivent un format prédéfini avec un nombre exact de chiffres ou un préfixe spécifique.
  • Nœud "Date&Time to String" et "String to Date&Time" : ces nœuds permettent de s'assurer que les données temporelles (dates et heures) respectent un format ISO ou tout autre format de date spécifique. Ils peuvent également être utilisés pour convertir des données de type texte en format date, et ainsi vérifier que le contenu est conforme.
  • Nœud "Rule Engine" : ce nœud est idéal pour appliquer des règles métiers personnalisées. Par exemple, vous pouvez configurer des règles qui imposent qu'un champ "Statut" ne prenne que des valeurs comme "Actif" ou "Inactif". Si une autre valeur est détectée, le nœud peut soit la corriger, soit générer une alerte.

Détection des valeurs aberrantes  

Les valeurs aberrantes peuvent indiquer des erreurs de saisie ou des anomalies dans les données, compromettant ainsi l'intégrité. KNIME propose des nœuds qui permettent de détecter automatiquement ces anomalies.

  • Nœud "Outlier Detection" : ce nœud est spécialement conçu pour détecter les valeurs aberrantes dans des ensembles de données. Par exemple, dans une base de données de transactions financières, il peut détecter des montants qui sont très éloignés des valeurs historiques ou de la distribution attendue.
  • Nœud "Numeric Outliers" : ce nœud permet de repérer les données numériques qui sont hors des plages définies. Par exemple, si des valeurs de stock doivent être comprises entre 0 et 100, le nœud peut automatiquement signaler toute valeur en dehors de cette plage.

Contrôles de cohérence entre plusieurs bases de données

Dans un environnement avec plusieurs sources de données, il est important de garantir la cohérence des informations entre ces différentes bases. KNIME permet de comparer facilement les données de plusieurs sources et d'identifier les incohérences.

  • Nœud "Joiner" : ce nœud permet de comparer les enregistrements de deux ensembles de données différents (par exemple, des données sources et des données cibles après un processus ETL) et de détecter les différences. Il est souvent utilisé pour valider que les données sont correctement migrées ou synchronisées entre deux systèmes.
  • Nœud "Table Difference Checker" : ce nœud compare deux tables et identifie les différences au niveau des enregistrements. Cela permet de s'assurer que les données d'une base sont bien répliquées dans une autre base sans modification non autorisée.

Audit et suivi des modifications

Il est essentiel de suivre les modifications apportées aux données pour garantir qu'elles n'ont pas été altérées de manière non autorisée. KNIME permet d'automatiser ce suivi à l'aide de nœuds de traçabilité.

  • Nœud "RowID" : ce nœud permet d'assigner ou de réinitialiser un identifiant unique à chaque enregistrement, facilitant ainsi le suivi des modifications sur les lignes de données. En combinant cela avec d'autres nœuds d’audit, vous pouvez créer un historique des modifications.
  • Nœud "Data Validator" : ce nœud permet de valider les modifications des données par rapport à un ensemble de règles. Par exemple, si un processus modifie les données, ce nœud vérifiera que les modifications respectent les contraintes et générera un rapport de validation.
  • Nœud "Column Appender" : ce nœud permet d’ajouter des colonnes supplémentaires aux tables pour inclure des informations sur les modifications, telles que la date, l’utilisateur ayant effectué la modification, ou le type de changement (création, mise à jour, suppression).

Automatisation des processus de nettoyage des données

KNIME propose plusieurs nœuds qui permettent d'automatiser les processus de nettoyage, minimisant ainsi le risque d'erreurs humaines.

  • Nœud "Missing Value" : ce nœud est utilisé pour gérer les valeurs manquantes. Par exemple, il peut être configuré pour remplacer les valeurs manquantes par une valeur par défaut, ou encore pour supprimer les enregistrements incomplets.
  • Nœud "String Replace" : ce nœud permet de remplacer des chaînes de texte incorrectes par des valeurs correctes de manière automatique, utile pour corriger des erreurs de typographie ou des saisies erronées dans des champs texte.
  • Nœud "Duplicate Row Filter" : ce nœud détecte et supprime les doublons dans les ensembles de données, garantissant ainsi que chaque enregistrement est unique, conformément à l'intégrité d’entité.
FAQ

Les questions fréquentes

Qu'est-ce que l'intégrité des données ? +

L'intégrité des données désigne l'état d'exactitude, de fiabilité et de cohérence des données au fil du temps et à travers leurs différentes utilisations. Cela signifie qu'une donnée ne doit pas être altérée de manière imprévue ou intentionnelle, qu'elle soit en cours de traitement, de transfert ou de stockage.

  • Garantit l'exhaustivité, la précision, l'exactitude et la validité tout au long du cycle de vie.
  • Protège contre les altérations volontaires (attaques, fraudes) et accidentelles (bugs, erreurs humaines).
  • Constitue un pilier essentiel de la gouvernance des données.
  • Conditionne la fiabilité des processus décisionnels et la confiance dans les analyses.
  • Norme de référence : ISO/IEC 27000:2018 définit l'intégrité comme "la propriété d'exactitude et de complétude".
Quelle est la différence entre intégrité physique et intégrité logique ? +

On distingue généralement deux grands types d'intégrité, complémentaires dans la protection des informations. Chacune répond à des risques différents et nécessite des dispositifs spécifiques.

  • Intégrité physique : protection des données contre les dommages matériels (pannes hardware, catastrophes naturelles, altération des systèmes de stockage).
  • Intégrité logique : cohérence des données au sein des systèmes de gestion de bases de données et entre les applications.
  • L'intégrité physique repose sur les sauvegardes régulières, la redondance et la géo-réplication.
  • L'intégrité logique repose sur les contrôles de validation, les contraintes et les règles métier.
  • Les deux doivent être pensées ensemble pour une protection complète.
Pourquoi l'intégrité des données est-elle critique ? +

La moindre altération de la donnée peut affecter des processus décisionnels et avoir des conséquences potentiellement graves, tant au niveau financier que réglementaire. L'intégrité ne se limite pas à la protection contre les attaques : elle conditionne la valeur même de la donnée.

  • Garantit la fiabilité des décisions business prises sur la base des données.
  • Évite les conséquences financières des erreurs (mauvaises facturations, fraudes non détectées).
  • Sécurise la conformité réglementaire (RGPD, sectorielles, normes ISO).
  • Renforce la confiance des collaborateurs et des clients dans les chiffres.
  • Protège la réputation de l'organisation face aux audits et aux contrôles externes.
  • Conditionne la qualité des projets d'analyse, de BI et d'IA.
Quels mécanismes garantir l'intégrité des données ? +

Le respect de l'intégrité des données repose sur des mécanismes bien établis dans les processus métiers, techniques et organisationnels. Une approche structurée combine plusieurs leviers complémentaires.

  • Contrôles d'accès et gestion des droits (RBAC) pour limiter qui peut modifier les données.
  • Validation à la saisie : contraintes de format, de plage de valeurs, règles métier.
  • Chiffrement des données en transit et au repos pour prévenir les altérations.
  • Audit trails : journalisation des modifications pour assurer la traçabilité.
  • Sauvegardes régulières et redondantes avec géo-réplication.
  • Tests d'intégrité automatisés pour détecter les écarts rapidement.
  • Politiques de gouvernance documentées et appliquées par les équipes.
Quel rôle pour les audits dans l'intégrité des données ? +

Les audits jouent un rôle clé pour vérifier que les mécanismes de protection fonctionnent réellement. Ils permettent de détecter les anomalies avant qu'elles ne se transforment en incidents majeurs.

  • Audit trails : journalisation systématique des modifications, suppressions et transferts.
  • Audits réguliers : contrôles périodiques pour identifier les anomalies dans les processus.
  • Tests d'intégrité techniques : vérification automatisée de la cohérence des données.
  • Audits de conformité : alignement avec les exigences réglementaires (RGPD, normes ISO).
  • Revue des accès : contrôle régulier des habilitations et de leur actualisation.
  • Reporting auprès du COMEX et des comités de gouvernance.
Quel est le rôle du Data Owner dans l'intégrité des données ? +

Le Data Owner est responsable d'un ensemble précis de données et garantit leur intégrité et leur fiabilité. Il s'assure également que ces données sont disponibles et correctement sécurisées pour répondre aux besoins des utilisateurs.

  • Définit les règles d'usage et les niveaux d'intégrité attendus sur son domaine.
  • Arbitre les conflits et valide les évolutions des données critiques.
  • Travaille avec les Data Stewards pour appliquer les règles au quotidien.
  • Collabore avec les Data Custodians pour les aspects techniques et sécuritaires.
  • Rend compte à la gouvernance globale sur l'état d'intégrité de son périmètre.
  • Sert d'interlocuteur de référence pour les utilisateurs et les auditeurs.
Quelle est la différence entre intégrité et qualité des données ? +

Ces deux notions sont liées mais ne se recouvrent pas totalement. L'intégrité est une dimension de la qualité, mais la qualité va au-delà. Comprendre la distinction permet de bâtir un dispositif complet de gouvernance.

  • Intégrité : exactitude et complétude des données, absence d'altération non autorisée.
  • Qualité : englobe l'intégrité mais aussi la pertinence, la fraîcheur, l'accessibilité et l'utilisabilité.
  • Une donnée peut être intègre (non altérée) mais obsolète, donc de mauvaise qualité.
  • Une donnée peut être de qualité (récente, complète) mais avoir été altérée, donc sans intégrité.
  • L'intégrité est un prérequis technique, la qualité est l'aboutissement métier.
Comment lier intégrité des données et conformité réglementaire ? +

L'intégrité des données est l'un des fondements de la conformité dans la plupart des cadres réglementaires modernes. Démontrer la maîtrise de l'intégrité est souvent un prérequis lors des audits et des contrôles externes.

  • RGPD : exige des mesures techniques garantissant l'intégrité des données personnelles.
  • Normes sectorielles : Solvabilité II en assurance, BCBS 239 en banque, HIPAA en santé.
  • ISO 27001 : intègre l'intégrité dans les trois piliers de la sécurité (confidentialité, intégrité, disponibilité).
  • Capacité à prouver à des tiers que les données n'ont pas été altérées.
  • Documentation des processus de contrôle et des audits réalisés.
  • Traçabilité complète des modifications via des audit trails conservés selon les durées légales.