La qualité des données représente pour beaucoup d’organisations un défi de taille. Elle est considérée par les bureaux d’analystes Gartner et Butler Group comme un point critique pour le succès des initiatives SOA, la mise en place de systèmes de Business Intelligence, de Customer-Relationship Management, entre autres. Mais surtout, comme l’a souligné le premier deliverable consacré à cette thématique (« Data Quality : Best Practices »), la qualité de l’information est stratégique car elle désigne l’adéquation relative des données aux objectifs qui leur ont été assignés. De fait, au sein des administrations, des données inadéquates ou non pertinentes peuvent entraîner des effets extrêmement négatifs sur les plans financiers ou « business ». Ces effets peuvent toucher le traitement des dossiers des citoyens, les décisions stratégiques du management, les initiatives de données entre administrations, ou encore la construction de sources authentiques, pour ne citer que quelques exemples.
Comme l’a montré l’étude « Data quality : Best practices », il est primordial d’agir, de manière continue, à la source des concepts et flux d’information alimentant un système d’information. En effet, si l’on se contente de corriger les données inadéquates, sans traiter les causes, on se trouve face à un travail aussi inutile qu’infini. Un système d’information est un fleuve et un travail exclusif de correction des valeurs inadéquates n’endigue pas l’arrivée régulière de nouvelles données non pertinentes. Toutefois, en complément de cette approche, il peut être crucial de disposer d’outils intervenant au sein des bases de données pour deux raisons. D’une part, il faut pouvoir traiter le passé : données inadéquates (doubles, incohérences) déjà incluses dans les bases de données. D’autre part, le traitement à la source ne garantit pas dans l’absolu l’absence de saisie de valeurs inadéquates (émergence de doubles suite à des erreurs orthographiques, par exemple).
Dans ce contexte, un marché d’outils dédiés à l’analyse et à l’amélioration de la qualité des bases de données s’est fortement développé depuis plusieurs années. Il a d’ailleurs été reconnu comme un marché à part entière par Gartner, qui lui a consacré un premier « Magic Quadrant » en avril 2006. Ce rapport détaille l’offre actuelle en la matière : « profiling » (audit formel d’une base de données), « standardisation » des données et « matching » (détection de doublons et d’incohérences au sein d’une ou plusieurs sources). Sur la base d’un case study relatif à une base de données administrative « grandeur nature », il montre les avantages des « data quality tools » par rapport à un développement « in house » : qu’il s’agisse du temps de développement, de la richesse algorithmique (quantité de règles réutilisables) ou encore, du recours à des bases de connaissances multilingues régulièrement mises à jour (concernant les adresses, par exemple). En conclusion, ces outils, qui offrent également un traitement plus souple et rapide en cas de « change request », paraissent indispensables pour toute organisation au sein de laquelle la qualité de l’information est considérée comme un facteur crucial.