Le classement en niveaux de sensibilité des données est le pivot sur lequel repose l’ensemble du système de sécurité des données ultérieur. L’objectif d’un système de classement de données est donc d’identifier clairement les informations qui doivent être protégées pour des raisons de sécurité et de fournir des directives adéquates en matière de classement afin que les informations qui n’ont pas besoin d’une telle protection ne soient pas inutilement classées par un système hiérarchique du secret. Une fois les données correctement classées une étiquette de confidentialité peut leur être apposée.
Dans un précédent article nous avons vu des techniques permettant de protéger des objets de données sensibles, notamment grâce à un étiquetage permettant de décider si ces objets peuvent être transmis ou pas d’un système informatique à un autre. Comme nous l’avons noté, il existe deux manières principales d’assigner une étiquette de confidentialité à un objet :
- Évaluer le contenu même de l’objet de données afin de déterminer les attributs de confidentialité.
- Baser les propriétés de confidentialité sur l’origine de l’information présente dans l’objet de données.
Malheureusement ce type de solutions ne répond pas à la question de savoir si les objets ont été étiquetés correctement ou pas, par l’utilisateur ou par le service ayant initié le transfert1,2.
Afin de mitiger les risques, une technique fréquente est de scanner les données transférées pour la présence de certains mots-clés considérés comme pouvant indiquer du contenu classifié selon des niveaux de confidentialité (p. ex., niveaux de classification, lieux, nom de projets, acronymes de projets, termes techniques, etc.). Une telle technique impose la mise à jour fréquente de la liste des mots-clés et le résultat dépend fortement de la qualité de la liste. C’est un travail laborieux et d’autant plus difficile dans un contexte où sont interconnectés plusieurs systèmes informatiques d’organisations différentes, voire de pays différents.
Alors, est-il possible d’évaluer de manière automatique la présence de données classifiées au sein d’autres données échangées entre deux systèmes informatiques, afin de s’assurer que la politique de sécurité appliquée aux données n’est pas violée ?
Détection simple
Les systèmes de prévention de perte ou fuite de données (« Data leakage prevention (DLP) » ou « Data loss prevention (DLP) ») analysent les flux de données et appliquent des politiques afin de préserver les données sensibles en cours d’utilisation (actions sur les terminaux), en mouvement (trafic réseau), et au repos (stockage de données). En 2015 plus d’une douzaine d’entreprises promouvaient déjà leurs solutions techniques. En 2023, Chugh et al. [1] en répertoriaient plus d’une trentaine. La sélection n’est pas chose facile car, comme le faisaient remarquer Gugelmann et al. [2], les entreprises concernées sont assez réluctantes pour divulguer des informations sur le fonctionnement de leurs produits. Par ailleurs les modèles de menaces ne sont pas toujours clairement définis et varient d’un vendeur à l’autre.
Néanmoins, on peut citer plusieurs méthodes d’analyse des données [3] fréquemment utilisées dont :
- Règles d’expressions régulières : celles-ci supposent des scenarios basés sur des environnements très contrôlés (règles pour détecter des destinataires de courriels erronés ou non nécessaires, règles pour reconnaître des numéros de cartes de crédit, des numéros de passeport, etc.).
- Détection d’empreintes : il s’agit de la recherche de correspondances exactes entre les éléments d’une base de données à inspecter et des éléments fournis pour l’analyse (mots-clés, numéros d’identification spécifiques, etc.).
- Correspondance de fichiers : comparaison des valeurs de hachage cryptographique des fichiers analysés avec une liste donnée.
- Analyse statistique : voir ci-dessous.
Analyses statistiques
L’analyse se révèle plus complexe lorsque l’on considère des documents entiers et non plus certains éléments. Dès 2008, Kassidy-Clark [4] suggérait l’idée d’utiliser des techniques d’apprentissage automatique afin d’automatiser le processus d’assignation de protection appropriée aux données en fonction de leur sensibilité, afin notamment de s’affranchir des limites de la classification manuelle en terme de vitesse et de cohérence. En 2010, dans une approche plus pratique, Brown et al. [5] évaluaient l’efficacité des techniques de traitement du langage naturel statistique et d’apprentissage automatique pour attribuer automatiquement une classification de confidentialité à un document non structuré. En utilisant une approche traditionnelle d’apprentissage automatique les auteurs pouvaient obtenir une précision de classification de 80%.
Kongsgård et al. [6] ont proposé un cadre permettant de sécuriser et d’automatiser l’étiquetage des données afin d’offrir un équilibre entre justesse des étiquettes de confidentialité et flexibilité du système. L’idée est de déduire un grand nombre d’attributs3 à partir de l’objet lui-même, des circonstances de l’étiquetage, du sujet pour qui l’objet est étiqueté ainsi que de l’environnent dont est issu l’objet. Ces attributs sont ensuite utilisés pour déterminer l’étiquette de confidentialité à appliquer en fonction d’une politique donnée. Ce cadre peut aussi être utilisé pour suggérer à un utilisateur quelles étiquettes appliquer.
En 2017 des chercheurs de l’Agence des communications et de l’information de l’OTAN ont proposé un processus automatisé pouvant offrir une aide importante à l’examen manuel des documents [7]. Il consiste à fournir un pré-étiquetage automatisé des documents, accompagné d’une évaluation des niveaux de confiance concernant les étiquettes identifiées avant contrôle manuel par un opérateur. Après évaluation de différents outils disponibles dans le domaine public, les auteurs concluent que même si les résultats de la classification automatique ne sont pas suffisamment précis (bien en dessous de 100% d’exactitude) pour les documents de l’OTAN, leur utilisation apporte un soutien non négligeable au personnel concerné.
La même année, Alzhrani et al. [8] utilisent les câbles diplomatiques disponibles sur WikiLeaks afin de construire des algorithmes de classification automatique et de détecter des comportements malveillants d’employés. La classification est effectuée au niveau des paragraphes de chaque document. En effet, les auteurs font remarquer que quelques caractéristiques peu fréquentes peuvent impacter la classification d’un document entier vers un plus haut niveau de classification et qu’il est erroné de supposer que toutes les portions d’un même document appartiennent au même niveau de sécurité.
Enfin, Frayling et al. [9] affirment que la classification automatique de textes en fonction de leur sensibilité est difficile. En effet la sensibilité est souvent due à une bonne connaissance contextuelle qui doit être déduite du texte. Ils donnent l’exemple du simple nom d’une entité qui, en lui-même, n’est peut-être pas sensible, mais le devient lorsque le rôle de l’entité est connu (p. ex., « Marc Dubois » et « espion »). Un expert humain peut déduire les sensibilités latentes grâce à ses connaissances du domaine dont il est question, mais les classificateurs textuels automatiques (entrainés ou pas sur des données contextualisées) ont d’importantes limites.
Malgré des progrès significatifs, les méthodes statistiques permettant de déterminer de manière automatique le niveau de sensibilité d’un objet de données, ne sont pas encore suffisamment fiables, mais cela n’empêche pas leur utilisation sous forme de recommandation. C’est par exemple ce que propose l’une des sociétés importantes du domaine.
Exemple d’application pratique
Récemment achetée par Airbus4, la société allemande Infodas est accréditée par l’Union Européenne, le Gouvernement allemand, et l’OTAN au niveau « secret. » Sa famille de dispositifs de sécurité matériels appelée « Secure Domain Transition (SDoT) » permet de connecter des systèmes de différents niveaux de classification. Seules les données autorisées à quitter un domaine de niveau de classification élevé peuvent le faire. Les produits SDoT utilisent des filtres (p. ex. expression régulières) pour les données structurées ou des étiquettes de confidentialité qui sont liées cryptographiquement à n’importe quel objet de données.
En particulier l’appareil d’étiquetage « SDoT Labelling Service5 » prend en charge la classification des données sensibles et la vérification des étiquettes (de type XML liées cryptographiquement aux objets protégés). Le service d’étiquetage, disponible sous forme de machine virtuelle ou sous forme d’appareil, permet l’étiquetage des données, compatible avec les accords de normalisation STANAG 4774 et 4778 de l’OTAN (voir article précédent) et peut être intégré aux applications standards de bureautique. L’étiquetage, qui peut être appliqué à tous les documents textuels ainsi qu’aux documents papier numérisés, n’est pas automatique mais des suggestions sont faites à un opérateur qui prend la décision finale.
Conclusions
La protection de données dont le niveau de sensibilité est bien défini, est un problème relativement bien compris pour lequel des techniques standardisées offrent des solutions efficaces. En revanche, malgré des progrès importants pour prévenir les fuites de données, l’évaluation automatique du niveau de sensibilité explicite ou latente des données, reste encore limitée. La recherche scientifique est peu développée et la plupart des outils proposent des mécanismes fondés sur des règles d’expressions régulières. Certains ajoutent des méthodes statistiques – apprentissage automatique, voire « d’intelligence artificielle » – afin de faciliter la tâche du personnel en charge de la classification, mais l’exercice reste en grande partie manuel.
Références bibliographiques
[1] R. Chugh et A. Bales, « Market guide for data loss prevention », Gartner, G00776480, sept. 2023.
[2] D. Gugelmann, P. Studerus, V. Lenders, et B. Ager, « Can content-based data loss prevention solutions prevent data leakage in Web traffic? », 2015.
[3] R. Mogull, « Understanding and selecting a data loss prevention solution », SANS Institute, 2007.
[4] K. P. Clark, « Automated security classification », Vrije Universiteit, Amsterdam, 2008.
[5] J. D. Brown et D. Charlebois, « Security Classification Using Automated Learning (SCALE): Optimizing Statistical Natural Language Processing Techniques to Assign Security Labels to Unstructured Text », Defence R&D Canada, Technical Memorandum TM 2010-215, déc. 2010.
[6] K. W. Kongsgård, N. A. Nordbotten, et S. Fauskanger, « Policy-based labelling: A flexible framework for trusted data labelling », in 2015 International Conference on Military Communications and Information Systems (ICMCIS), Cracow, Poland: IEEE, mai 2015, p. 1‑10. doi: 10.1109/ICMCIS.2015.7158708
[7] M. Richter et K. Wrona, « Devil in the details: Assessing automated confidentiality classifiers in context of NATO documents », in Proceedings of the First Italian Conference on Cybersecurity (ITASEC17), Venice, Italy, janv. 2017.
[8] K. Alzhrani, E. M. Rudd, C. E. Chow, et T. E. Boult, « Automated U.S. diplomatic cables security classification: Topic model pruning vs. classification based on clusters », 7 mars 2017, arXiv: arXiv:1703.02248. Consulté le: 2 août 2024. [En ligne]. Disponible sur: http://arxiv.org/abs/1703.02248
[9] E. Frayling, C. Macdonald, G. McDonald, et I. Ounis, « Using entities in knowledge graph hierarchies to classify sensitive information », in Experimental IR
Meets Multilinguality, Multimodality, and Interaction, A. Barrón-Cedeño, G. Da San Martino, M. Degli Esposti, F. Sebastiani, C. Macdonald, G. Pasi, A. Hanbury, M. Potthast, G. Faggioli, et N. Ferro, Éd., in Lecture Notes in Computer Science, vol. 13390. Bologna, Italy: Springer International Publishing, sept. 2022, p. 125‑132. doi: 10.1007/978-3-031-13643-6_10
Notes
1 C’est particulièrement le cas si des plateformes courantes (p. ex. Windows) sont utilisées fréquemment.
2 Le volume des objets à étiqueter pouvant être important (p. ex., données de capteurs), et le format de ceux-ci pouvant être incompatible avec un contrôle humain, il n’est pas réaliste d’espérer que chaque étiquetage puisse faire l’objet d’une vérification par un utilisateur.
3 Dans leur système, des modules de collection d’attributs ont accès en lecture seule à l’objet ainsi qu’aux attributs déjà renvoyés par d’autres modules. Ces modules peuvent contrôler le contenu pour certains mots-clés, fournir des attributs sur le sujet demandant accès, etc.
4 https://www.airbus.com/en/newsroom/press-releases/2024-03-airbus-to-acquire-infodas-and-strengthen-its-cybersecurity
5 https://www.infodas.com/en/products/sdot_cross_domain_solutions/labelling-service-data-classification/
Ce post est une contribution individuelle de Fabien A. P. Petitcolas, spécialisé en sécurité informatique chez Smals Research. Cet article est écrit en son nom propre et n’impacte en rien le point de vue de Smals.
Leave a Reply