L’informatisation de notre société et la dématérialisation de l'information qui accompagne son développement actuel ont entraîné la gestion de quantités de données sous forme numérique. Ces informations, issues d’applications diverses, sont souvent hétérogènes dans leur format, de sorte que leurs échanges posent des problèmes importants pouvant profondément modifier la qualité des données.
Le problème est connu depuis de nombreuses années. Cependant, l’interconnexion des réseaux et des applications gérant des données similaires et devant de plus en plus interagir le rendent davantage stratégique aujourd’hui que par le passé. Cette situation rend ainsi problématique la multiplicité des solutions apportées et des formats utilisés et constitue un frein à un traitement optimal des données tout au long de la chaîne de traitement informationnel (stockage, indexation, recherche), tel que l’identification d’un travailleur présent dans une déclaration par comparaison avec les données situées dans d’autres bases de données de la sécurité sociale.
Le problème est aussi bien technique que conceptuel. Il faut bien entendu tenir compte des formats de codage disponibles et de leur support, tant au niveau du software que du hardware. Par ailleurs, beaucoup de formats disposent de nombreuses variantes nationales, généralement incompatibles sans conversion de l’information. Certains formats étant moins riches que d’autres, il est parfois nécessaire d’appauvrir l’information, par exemple en supprimant les caractères accentués et spéciaux. Cependant, les approches généralement locales du problème et de sa résolution ont entraîné, au sein des applications, l’apparition de nombreux formats et processus de conversions différents sans que les contraintes techniques ne le justifient à chaque fois.
A certains de ces problèmes, Unicode peut apporter des réponses mais il ne constitue en rien la solution parfaite et unique. Cependant, la richesse relative de l’information qu’il permet, sa compatibilité avec d’autres normes plus anciennes et largement répandues, ainsi que sa souplesse dans certaines manipulations de chaîne en font une évolution inévitable qu’il est nécessaire d’appréhender.
Afin de résoudre ces difficultés, il convient d’adopter une approche plus globale du traitement de l’information en définissant une politique de codage (afin d’en éviter la multiplicité et par là les conversions nécessaires) et une politique de conversion (pour gérer la qualité de l’information de manière cohérente) appliquées à l’ensemble des données.
Par ailleurs, dans le cadre de la préservation à long terme de l’information numérique, l’adoption de formats standards et ouverts, ainsi qu’une rationalisation de leur nombre est généralement considéré comme un pré requis. Outre cela, préserver la qualité de l’information, y compris en choisissant des formats permettant une compatibilité ascendante comme Unicode, permet d’en faciliter la conservation et la compréhension pour les futurs utilisateurs, tout en appréhendant mieux les changements technologiques.
Languages: | Français |
Author: | Arnaud Hulstaert |
Category: | Deliverable |
Date: | 2008/06 |
Keywords: | Data quality, Database Management |
Download: | Download |