
La qualité des données est l'un des sujets les plus consensuels en entreprise. Personne ne défend une donnée fausse, personne ne plaide pour des doublons, personne ne réclame des champs vides. Et pourtant, dans la plupart des organisations, le constat reste le même : les fichiers clients contiennent des adresses obsolètes, les rapports financiers font l'objet de débats interminables sur les chiffres, et les projets d'IA buttent sur des jeux d'entraînement qu'il faut nettoyer six mois avant de pouvoir commencer.
Le décalage entre le consensus et la réalité a une explication. La qualité des données n'est pas un problème technique, c'est un problème d'organisation. Tant qu'elle est traitée comme une affaire de tuyauterie informatique, elle reste dans un angle mort : les métiers attendent que l'IT corrige, l'IT attend que les métiers définissent les règles, et la donnée continue de se dégrader. Spoiler : c'est ce qui se passe dans la majorité des entreprises qui n'ont pas structuré leur démarche.
Cet article propose de poser les fondamentaux : ce qu'on entend par qualité des données, pourquoi le sujet a changé de nature avec l'IA générative, qui doit faire quoi, et comment piloter une démarche qui tient dans le temps sans tomber dans la bureaucratie. L'objectif n'est pas de produire un score parfait sur tout le patrimoine de données. C'est d'avoir une qualité suffisante là où ça compte vraiment, et de savoir où on en est.
La qualité des données désigne la capacité d'un jeu de données à remplir son usage prévu. Une donnée n'est jamais "de qualité" dans l'absolu : elle l'est par rapport à un cas d'usage. Une base prospects qui contient 5 % d'adresses obsolètes peut être très bien pour une analyse statistique générale, et catastrophique pour une campagne d'emailing.
C'est cette logique d'usage qui rend le sujet glissant. Avant de mesurer la qualité, il faut savoir à quoi la donnée sert. Sans ça, on produit des indicateurs qui n'engagent personne.
Pour structurer la mesure, le secteur s'est progressivement aligné sur six critères d'évaluation. Aucun n'est suffisant seul, mais leur combinaison donne une image fidèle de l'état réel du patrimoine.
Certains référentiels en ajoutent (intégrité, accessibilité, traçabilité). Pour piloter, ces six suffisent dans la grande majorité des cas. Le piège n'est pas d'avoir trop peu de critères, c'est d'en avoir trop sans les rendre exploitables.
.jpg)
Le constat est partagé : la mauvaise qualité des données coûte cher. Le problème, c'est que ce coût est diffus, rarement consolidé, et presque jamais attribué à sa cause. Une campagne marketing qui sous-performe est imputée au message ou au ciblage. Une facture mal envoyée est traitée comme un cas isolé. Un projet d'IA qui n'aboutit pas est mis sur le compte du fournisseur.
La somme de ces incidents non rattachés est ce qui compose le coût réel de la non-qualité. Quatre grandes catégories d'impacts permettent de structurer le sujet.
C'est l'impact le plus direct et celui qui parle le plus facilement à un comité de direction. Une base clients avec 8 % d'adresses postales obsolètes, c'est 8 % d'envois physiques qui partent à la poubelle. Un fichier prospects avec 12 % de doublons, c'est 12 % du budget d'une campagne LinkedIn dépensé pour rien.
Au-delà des actions externes, le coût caché est interne. Les équipes passent un temps considérable à ressaisir, recouper, vérifier ce que les systèmes auraient dû fournir directement. Dans les directions financières, il n'est pas rare qu'un analyste passe la moitié de son temps à reconstituer des informations à partir d'extracts Excel parce que les sources ne sont pas fiables.
L'impact financier inclut aussi les pénalités opérationnelles : factures rejetées par un client, livraisons mal adressées, remboursements pour erreur de prix, retards de clôture comptable. Pris isolément, chacun est mineur. Cumulés sur une année, ils représentent souvent plusieurs points de marge.
Le deuxième impact est plus insidieux parce qu'il ne se voit pas dans les comptes. Il se voit dans les comités de pilotage qui démarrent par dix minutes de débat sur "lequel des chiffres est le bon".
Quand les décideurs ne font plus confiance aux tableaux de bord, ils retournent à leurs propres fichiers Excel. Et là, la dynamique de gouvernance s'effondre. Chaque direction reconstruit ses indicateurs avec sa propre logique, ses propres règles, ses propres exceptions. Les outils officiels deviennent des couches de vernis sur des pratiques parallèles. Plus personne ne sait quel chiffre est utilisé en COMEX.
La perte de confiance a un effet retard. Les équipes data continuent de produire des rapports, mais ces rapports ne servent plus à décider, ils servent à formaliser des décisions déjà prises ailleurs. Le projet BI initial avait pour ambition de piloter la performance, il finit par documenter le passé. À ce stade, la cause racine n'est presque jamais l'outil. C'est la qualité des données qui l'alimente.
Le troisième impact a changé de nature depuis cinq ans. Avant, la conformité était un sujet de filière dédiée (DPO, Compliance, Audit) qui s'occupait de cas spécifiques. Aujourd'hui, elle infuse l'ensemble des processus.
Le RGPD impose une traçabilité du consentement, une exactitude des données personnelles, et un droit à la rectification qui suppose de pouvoir identifier précisément les enregistrements concernés. Une organisation qui ne maîtrise pas son patrimoine de données expose son entreprise à des sanctions, mais surtout à une incapacité opérationnelle à répondre à une demande d'exercice de droit en temps voulu.
Le reporting ESG (CSRD pour les grandes entreprises européennes) ajoute une dimension nouvelle : il faut désormais publier des données extra-financières auditées. Ces données sont souvent éparpillées dans des fichiers RH, environnementaux, achats, sans gouvernance équivalente à celle des données financières. Les directions financières découvrent qu'elles vont devoir certifier des données qu'elles n'ont jamais consolidées de manière fiable.
Les audits financiers traditionnels exigent eux aussi un niveau de traçabilité croissant. Un commissaire aux comptes ne se contente plus du chiffre, il demande à reconstituer le chemin de la donnée, du système source au tableau de synthèse. Une chaîne mal documentée devient un point d'audit.
C'est l'impact le plus récent, et probablement le plus structurant pour les années à venir. Pendant longtemps, on a pu se permettre une qualité approximative parce que les usages restaient humains : un analyste qui voit une donnée aberrante la corrige instinctivement, un commercial qui reconnaît un doublon dans son CRM regroupe les fiches.
Un modèle d'IA ne fait pas ça. Un LLM nourri avec une base de connaissances qui contient 10 % d'informations erronées va générer des réponses erronées avec exactement la même assurance que des réponses correctes. Un modèle de machine learning entraîné sur des données biaisées va reproduire et amplifier ces biais à grande échelle.
L'effet est mécanique : l'IA industrialise l'usage de la donnée. Là où un humain corrigeait à la marge, l'IA exécute à grande échelle. La conséquence est que les défauts de qualité qui passaient inaperçus deviennent visibles, parce qu'ils se manifestent à la fréquence d'utilisation du modèle.
Pour les projets d'IA générative en particulier, la qualité des sources documentaires est devenue le facteur numéro un de réussite. Une base d'articles internes obsolète, des procédures qui se contredisent, des documents non datés : tout cela alimente un assistant IA qui hallucine sans le savoir. Le sujet n'est plus "comment entraîner mieux le modèle", c'est "comment garantir que ce qu'on lui donne à manger est propre".
👉 À lire aussi : L'IA générative et ses impacts sur la gouvernance des données
Avant de proposer des solutions, il faut identifier les causes. Une démarche qualité qui ne traite que les symptômes (le doublon, l'adresse fausse, le champ vide) finit par tourner en boucle : on nettoie, ça recommence, on renettoie. Cinq grandes causes structurent les défauts récurrents.
Ces cinq causes se renforcent mutuellement. Une organisation qui n'a pas de Data Owner identifié n'a généralement pas non plus de règles métier documentées, ni de processus de remontée d'anomalies. C'est pourquoi attaquer le sujet par les outils, sans traiter l'organisation, donne rarement des résultats durables. La fiabilisation des processus de collecte à la source reste, dans la quasi-totalité des cas, le levier qui produit le plus d'impact à moindre coût.
C'est le point qui fait dérailler la plupart des démarches qualité. Un projet qui commence par "on lance un outil de data quality" sans avoir défini qui est responsable de quoi va produire des indicateurs que personne ne consulte. La répartition des rôles n'est pas un sujet RH, c'est le cœur du dispositif.
Cinq familles d'acteurs interviennent sur la qualité des données. Chacune joue un rôle distinct, et aucune ne peut être remplacée par une autre.
Le Data Owner est responsable d'un domaine de données du point de vue métier. Il est généralement positionné à un niveau de direction (Directeur Commercial pour les données clients, Directeur Financier pour les données comptables, DRH pour les données collaborateurs). Son rôle n'est pas de manipuler la donnée, c'est de décider de ce qu'on en fait.
Concrètement, le Data Owner :
Le Data Owner est souvent désigné mais peu impliqué. Une démarche qualité qui ne place pas le Data Owner au cœur du dispositif tourne sur elle-même.
Le Data Steward est le bras armé du Data Owner. C'est lui qui traduit les exigences métiers en règles concrètes, surveille les indicateurs, anime la remédiation. Il est positionné dans la direction métier (et non dans l'IT), avec une expertise data forte.
Ses missions :
Le Data Steward est le poste le plus structurant et le plus souvent absent. Dans les organisations qui n'en ont pas, le rôle est implicitement porté par un analyste data, qui n'a ni le mandat ni le temps pour le faire correctement.
Le CDO (Chief Data Officer) porte la vision globale de la qualité au niveau de l'entreprise. Il définit les standards transverses, les arbitrages budgétaires, l'articulation avec la stratégie data. Le Data Quality Manager, quand il existe, est son relais opérationnel sur le sujet qualité spécifiquement.
Le CDO ne gère pas la qualité d'un domaine particulier : c'est le travail des Data Owners et Data Stewards. Son rôle est de garantir que la démarche existe, qu'elle est cohérente entre les domaines, et qu'elle remonte les bons sujets au COMEX. Sans ce niveau, les initiatives qualité restent locales, déconnectées de la stratégie, et finissent par manquer de moyens.
Le Data Quality Manager, plus rare, est un profil dédié à 100 % au sujet qualité. Il anime le réseau des Data Stewards, mutualise les outils, capitalise sur les pratiques. Dans les organisations matures, c'est lui qui fait la différence entre une démarche qui tient cinq ans et une démarche qui s'épuise au bout de dix-huit mois.
Les équipes métiers qui saisissent ou produisent la donnée sont la première ligne de défense. Un commercial qui saisit correctement une fiche client, un agent qui complète bien un formulaire, un acheteur qui qualifie ses fournisseurs : c'est là que se joue 80 % de la qualité.
Le piège classique consiste à voir ces équipes comme un problème ("ils saisissent n'importe comment") plutôt que comme un levier ("on ne leur a pas donné les bons outils, les bonnes règles, le bon retour"). La qualité ne progresse durablement que quand les producteurs comprennent l'impact de leur saisie sur les usages en aval. C'est un travail d'acculturation, pas de discipline.
Les bons dispositifs combinent trois éléments :
Aucun de ces trois éléments ne fonctionne seul. Un outil qui contrôle sans expliquer génère de la frustration, une visibilité sans retour reste théorique, un retour sans outil de prévention répète les mêmes corrections en boucle. C'est la combinaison qui produit l'effet, pas chaque dispositif pris isolément.
L'IT et les équipes de Data Engineering portent la dimension technique : intégration des flux, transformations, qualité des pipelines, traçabilité. Dans certaines organisations, on parle de Data Custodian pour désigner les équipes qui maintiennent techniquement les données.
Leur responsabilité est forte mais bornée. Ils garantissent que la donnée n'est pas dégradée pendant son transit dans les systèmes, mais ils ne sont ni responsables de la donnée saisie en amont, ni de la définition des règles métier en aval. C'est précisément cette articulation qui pose problème dans les organisations qui font porter à l'IT l'ensemble du sujet qualité.
Les missions clés :
L'IT n'est jamais ce qui fait dérailler une démarche qualité, mais c'est ce qui la rend industrialisable. Sans pipelines fiables, les contrôles métier les mieux définis restent du papier. Le rôle de l'IT est de transformer les règles en automatismes, pas de définir les règles.
👉 À lire aussi : Data Owner, Data Steward, Data Custodian : qui fait quoi ?
La théorie est posée, reste à passer à l'exécution. La méthode qui fonctionne tient en quatre étapes, dans cet ordre. Sauter une étape, c'est garantir l'échec à 18 mois.
L'audit n'est pas un préliminaire optionnel, c'est le socle. Tant qu'on n'a pas mesuré, on ne sait pas où agir, et on confond effets de manche et résultats.
L'audit qualité couvre trois dimensions :
Le livrable de l'audit n'est pas un score, c'est une carte chiffrée des zones critiques avec leur niveau de défaut. Cette carte permet de prioriser les chantiers : on ne traite jamais tout en même temps.
👉 À lire aussi : Audit qualité des données : méthode et indicateurs clés
Une fois l'audit posé, vient la phase de définition. C'est elle qui transforme un constat en démarche pilotable. Trois éléments à produire pour chaque domaine prioritaire :
Ces trois livrables sont indissociables. Des règles sans seuils restent qualitatives, des seuils sans responsables restent inactifs, des responsables sans règles formalisées sont placés en situation d'arbitrer dans le vide. C'est l'étape la plus politique du dispositif, et celle qu'on a le plus tendance à survoler pour passer à l'outillage.
Le déploiement combine deux logiques complémentaires : la prévention (contrôler à la saisie pour éviter les défauts) et la correction (remédier sur le stock existant).
Côté prévention, on industrialise les contrôles à la saisie : validation de format, alerte sur doublons potentiels, complétude obligatoire des champs critiques, cohérence entre champs. Le bon réflexe est de contrôler le plus en amont possible (idéalement dans l'interface de saisie), pas de laisser passer pour corriger plus tard. Les dispositifs qui permettent de maintenir la qualité sur la durée combinent contrôles automatisés, règles de gestion et zones d'arbitrage manuel.
Côté correction, on priorise par impact business. Un défaut qui touche 30 % d'une base mais sans usage critique passe après un défaut qui touche 2 % d'une base utilisée pour un reporting réglementaire. La priorisation se fait sur une matrice impact × effort, validée par le Data Owner du domaine.
Le déploiement inclut aussi la mise en place d'une boucle de retour métier : quand un défaut est détecté en aval, l'information remonte au producteur, qui peut corriger à la source. C'est ce qui distingue une démarche qui s'améliore d'une démarche qui ressasse les mêmes problèmes. Sur le stock existant, les opérations de nettoyage, normalisation et enrichissement doivent toujours s'accompagner d'une action préventive en amont, sinon le travail est à refaire au trimestre suivant.
La qualité des données n'est pas un projet, c'est un processus. Une démarche qui se termine à la fin du déploiement va se dégrader en six à douze mois, parce que les usages évoluent, les systèmes changent, les équipes tournent.
Le suivi repose sur trois rituels :
Le suivi ne sert pas qu'à contrôler. Il sert à apprendre. Une dérive sur un indicateur n'est pas un échec, c'est un signal. La maturité d'une organisation se mesure à sa capacité à interpréter ces signaux et à ajuster ses règles en conséquence.
.jpg)
Mesurer la qualité, c'est répondre à six questions simples. Chaque question correspond à un critère, et chaque critère se traduit en un indicateur précis. L'objectif n'est pas de produire un score unique global (qui ne dit rien d'actionnable), mais un tableau de bord par domaine qui éclaire les décisions.
Les seuils donnés ici sont des ordres de grandeur, à ajuster selon la criticité de l'usage. Une base utilisée pour un reporting réglementaire ne tolère pas les mêmes seuils qu'une base utilisée pour une analyse statistique générale.
Trois conseils pour ne pas tomber dans les pièges classiques :
Ces trois principes éliminent l'essentiel des dérives observées en entreprise : tableaux de bord agrégés qui n'engagent personne, indicateurs déconnectés des enjeux, dispositifs figés alors que les usages ont évolué. Un bon KPI qualité est un KPI qu'un Data Owner consulte chaque mois et sur lequel il agit.
👉 À lire aussi : Audit de qualité des données : 5 KPI à suivre absolument
Le marché des outils est saturé. Cataloguer la donnée, profiler, détecter les anomalies, nettoyer, monitorer : pour chaque fonction, une dizaine de solutions, des modules open source aux suites enterprise. Le piège est de choisir l'outil avant d'avoir défini la démarche. Voici les grandes familles à connaître, sans les nommer une par une (le paysage évolue trop vite pour que ce soit utile).
Les catalogues centralisent la documentation du patrimoine : quelles données existent, où elles sont stockées, qui en est responsable, comment elles sont définies. Le glossaire métier est la couche fonctionnelle : les définitions, les règles, les acronymes, les indicateurs.
Le catalogue n'est utile que s'il est alimenté et consulté. Une organisation qui déploie un outil sans nommer de Data Stewards en charge de l'alimentation se retrouve avec un référentiel vide six mois plus tard. Le critère de choix principal n'est pas la richesse fonctionnelle, c'est l'adoption.
👉 À lire aussi : Évaluation des 12 Data Catalogues de référence
Le profilage est l'action de scanner un jeu de données pour en extraire automatiquement des statistiques : volume, distribution, valeurs nulles, formats, doublons potentiels, valeurs aberrantes. C'est la première brique technique d'un audit qualité.
Les outils modernes vont plus loin en détectant automatiquement les anomalies : valeur soudainement en dehors de la fourchette habituelle, volume d'enregistrements anormal, format qui change. C'est utile en surveillance continue, à condition d'avoir défini ce qu'est une anomalie acceptable et ce qui doit alerter.
Les plateformes dédiées combinent plusieurs fonctions : profilage, règles de contrôle, monitoring, gestion des anomalies, workflows de remédiation. Elles sont la colonne vertébrale technique d'une démarche qualité industrialisée. Le panorama des outils de qualité des données éclaire les grandes familles et leur articulation avec les briques ETL et SGBD.
Leur valeur réside dans l'industrialisation des contrôles à l'échelle du patrimoine. Leur limite, c'est qu'elles ne dispensent pas de la couche métier (règles, seuils, responsabilités). Une plateforme paramétrée par défaut produit des indicateurs sans relief, qui n'engagent personne.
Le nettoyage couvre les opérations de correction : déduplication, normalisation des formats, complétion via sources externes, harmonisation des référentiels. Les outils vont du tableur enrichi à des plateformes spécialisées.
Le nettoyage est utile en one-shot pour traiter un stock existant. Il ne remplace jamais la prévention à la saisie. Une organisation qui se contente de nettoyer périodiquement sans corriger les causes va passer son temps à refaire le même travail. La règle est simple : pour chaque chantier de nettoyage, on identifie la cause racine et on met en place une mesure préventive.
.jpg)
À ce stade, le cadre est posé. Reste à éviter les pièges classiques qui font dérailler les démarches, même bien intentionnées. Cinq erreurs reviennent dans la majorité des projets qui ne tiennent pas dans le temps.
Ces cinq erreurs ont un point commun : elles découlent d'une vision projet du sujet, alors que la qualité des données est une démarche continue. Les organisations qui les évitent partagent toutes le même réflexe : elles acceptent d'avancer petit, sur peu de domaines, avec une appropriation métier réelle. Les démarches qui durent sont celles qui résistent à la tentation de l'ambition affichée.