Opsporing en labeling van gevoelige gegevens

Version française

De classificering in gevoeligheidsniveaus van gegevens is de hoeksteen waarop het hele latere gegevensbeveiligingssysteem rust. Het doel van een classificeringssysteem voor gegevens is dan ook om duidelijk vast te stellen welke informatie om veiligheidsredenen moet worden beschermd en om passende classificeringsrichtlijnen op te stellen, zodat informatie die deze bescherming niet nodig heeft niet onnodig wordt geclassificeerd door een hiërarchisch systeem van geheimhouding. Zodra de gegevens correct geclassificeerd zijn kan een vertrouwelijkheidslabel aangebracht worden.

In een vorig artikel zagen we de technieken waarmee gevoelige data-objects beschermd kunnen worden, namelijk dankzij labeling waarmee beslist kan worden of deze objects al dan niet van het ene informaticasysteem naar het andere kunnen overgemaakt worden. Zoals we al opmerkten bestaan er twee belangrijke manieren om een vertrouwelijkheidslabel toe te kennen aan een object.

  • De inhoud van het data-object zelf evalueren om de vertrouwelijkheidsattributen te bepalen.
  • De vertrouwelijkheidskenmerken baseren op de oorsprong van de informatie in het data-object.

Spijtig genoeg geeft dit type oplossingen geen antwoord op de vraag of de objecten al dan niet correct gelabeld zijn, door de gebruiker of door de dienst die de overdracht heeft geïnitieerd1,2.

Om de risico’s te beperken, is een veelgebruikte techniek om de overgedragen gegevens te scannen op de aanwezigheid van bepaalde trefwoorden die geacht worden inhoud aan te duiden die geclassificeerd is volgens vertrouwelijkheidsniveaus (bv. classificatieniveaus, locaties, projectnamen, projectafkortingen, technische termen, enz.). Een dergelijke techniek vereist het regelmatig bijwerken van de trefwoordenlijst en het resultaat is sterk afhankelijk van de kwaliteit van die lijst. Dit is arbeidsintensief werk, en des te moeilijker in een context waarin meerdere IT-systemen van verschillende organisaties of zelfs verschillende landen met elkaar verbonden zijn.

Is het dus mogelijk om automatisch de aanwezigheid van geclassificeerde gegevens te evalueren binnen andere gegevens die worden uitgewisseld tussen twee IT-systemen, om ervoor te zorgen dat het beveiligingsbeleid dat wordt toegepast op de gegevens niet wordt geschonden?

Eenvoudige opsporing

Systemen om gegevensverlies of lekken te voorkomen (“Data leakage prevention (DLP)” of “Data loss prevention (DLP)”) analyseren de gegevensstromen en passen de policy’s toe om de gevoelige gegevens tijdens het gebruik (handelingen op terminals), in beweging (netwerkverkeer), en in rust (gegevensopslag) te vrijwaren. In 2015 promootten al meer dan een dozijn ondernemingen hun technische oplossingen. In 2023 toonden Chugh et al. [1] er al een dertigtal. De selectie was niet gemakkelijk omdat, zoals Gygelmann et al. [2] opmerkten, de betrokken ondernemingen terughoudend zijn om informatie te verspreiden over de werking van hun producten. De dreigingsmodellen zijn overigens niet altijd duidelijk omlijnd en variëren van de ene verkoper tot de andere.

We kunnen echter meerdere methodes voor gegevensanalyse [3] aanhalen die vaak gebruikt worden:

  • Regels voor reguliere expressie: scenario’s die gebaseerd zijn op sterk gecontroleerde omgevingen (regels om onjuiste of onnodige e-mailontvangers te detecteren, regels om creditcardnummers, paspoortnummers, etc. te herkennen).
  • Fingerprint detection: een zoekopdracht naar exacte overeenkomsten tussen elementen in een database die moet worden geïnspecteerd en elementen die zijn verstrekt voor analyse (trefwoorden, specifieke identificatienummers, enz.).
  • Matching van bestanden: vergelijking van de cryptografische hashwaarden van de geanalyseerde bestanden met een bepaalde lijst.
  • Statistische analyse: zie hieronder.

Statistische analyses

De analyse blijkt complexer te zijn wanneer we volledige documenten overwegen en niet langer bepaalde elementen. Al in 2008 opperde Kassidy-Clark [4] het idee om technieken voor machinaal leren te gebruiken om het proces van het toewijzen van de juiste bescherming aan gegevens op basis van hun gevoeligheid te automatiseren, met name om af te stappen van de beperkingen van handmatige classificatie op het gebied van snelheid en consistentie. In 2010 evalueerden Brown et al., met een meer praktische aanpak, [5] de effectiviteit van statistische natuurlijke taalverwerking en machinelearning-technieken voor het automatisch toekennen van een vertrouwelijkheidsclassificatie aan een ongestructureerd document. Met behulp van een traditionele machinelearning-benadering waren de auteurs in staat om een classificatienauwkeurigheid van 80% te bereiken.

Kongsgård et al. [6] hebben een kader voorgesteld om het labelen van gegevens te beveiligen en te automatiseren om een balans te vinden tussen de nauwkeurigheid van vertrouwelijkheidslabels en de flexibiliteit van het systeem. Het idee is om een groot aantal attributen3 af te leiden uit het object zelf, de omstandigheden van de labeling, het subject voor wie het object gelabeld is en de omgeving waaruit het object afkomstig is. Deze attributen worden vervolgens gebruikt om te bepalen welk vertrouwelijkheidslabel moet worden toegepast volgens een bepaald beleid. Dit kader kan ook worden gebruikt om aan een gebruiker voor te stellen welke labels toe te passen.

In 2017 stelden onderzoekers van het NAVO Communications and Information Agency een geautomatiseerd proces voor dat een aanzienlijke ondersteuning zou kunnen bieden voor het handmatig beoordelen van documenten [7]. Het bestaat uit een geautomatiseerde pre-labeling van documenten, met een evaluatie van de betrouwbaarheidsniveaus van de geïdentificeerde labels vóór een handmatige controle door een operator. Na evaluatie van verschillende tools die in het publieke domein beschikbaar zijn, concluderen de auteurs dat zelfs als de resultaten van automatische classificatie niet voldoende accuraat zijn (ver onder 100% accuraatheid) voor NATO-documenten het gebruik ervan een aanzienlijke ondersteuning biedt aan het betrokken personeel.

In hetzelfde jaar gebruikten, Alzhrani et al. [8] diplomatieke kabels die beschikbaar zijn op WikiLeaks om de automatische classificatiealgoritmes aan te maken en kwaadwillige gedragingen van werknemers op te sporen. Classificatie wordt uitgevoerd op paragraafniveau van elk document. In feite wijzen de auteurs erop dat een paar weinig voorkomende kenmerken een invloed kunnen hebben op de classificatie van een volledig document naar een hoger classificatieniveau, en dat het verkeerd is om aan te nemen dat alle delen van hetzelfde document tot hetzelfde beveiligingsniveau behoren.

Tot slot bevestigen Frayling et al. [9] dat het automatisch classificeren van teksten op basis van hun gevoeligheid moeilijk is. Gevoeligheid is vaak het gevolg van een goede contextuele kennis die uit de tekst moet worden afgeleid. Ze geven het voorbeeld van de eenvoudige naam van een entiteit die op zichzelf misschien niet gevoelig is, maar dat wel wordt als de rol van de entiteit bekend is (bv. “Jan Peeters” en “spion”). Een menselijke expert kan latente gevoeligheden afleiden op basis van zijn kennis van het domein in kwestie, maar automatische tekstclassificeerders (al dan niet getraind op gecontextualiseerde gegevens) hebben aanzienlijke beperkingen.

Ondanks aanzienlijke vooruitgang zijn statistische methoden voor het automatisch bepalen van het gevoeligheidsniveau van een data-object nog niet voldoende betrouwbaar, maar dit belet niet dat ze kunnen worden gebruikt in de vorm van aanbevelingen. Dit is bijvoorbeeld wat een van de toonaangevende bedrijven op dit gebied voorstelt.

Voorbeeld van praktische toepassing

Het Duitse bedrijf Infodas is onlangs overgenomen door Airbus4 en is geaccrediteerd door de Europese Unie, de Duitse overheid en de NAVO wat betreft “secrecy”. De familie hardwarebeveiligingsapparaten ervan, genaamd Secure Domain Transition (SDoT), maakt het mogelijk om systemen met verschillende classificatieniveaus met elkaar te verbinden. Alleen gegevens die een domein met een hoog classificeringsniveau mogen verlaten, kunnen dat doen. SDoT-producten gebruiken filters (bv. reguliere expressies) voor gestructureerde gegevens of vertrouwelijkheidslabels die cryptografisch gekoppeld zijn aan elk data-object.

De SDoT Labelling Service5 ondersteunt met name de classificatie van gevoelige gegevens en de verificatie van labels (XML-tags die cryptografisch zijn gekoppeld aan beschermde objecten). De labeling-service, beschikbaar als virtuele machine of als appliance, maakt het mogelijk om gegevens te labelen, is compatibel met de NAVO-standaardisatieovereenkomsten STANAG 4774 en 4778 (zie vorig artikel) en kan worden geïntegreerd in standaard kantoorautomatiseringstoepassingen. Het labelen, dat kan worden toegepast op alle tekstdocumenten en gescande papieren documenten, gebeurt niet automatisch, maar er worden suggesties gedaan aan een operator die de uiteindelijke beslissing neemt.

Conclusies

Het beschermen van gegevens met een goed omlijnd gevoeligheidsniveau is een relatief goed begrepen probleem waarvoor gestandaardiseerde technieken effectieve oplossingen bieden. Ondanks de aanzienlijke vooruitgang in het voorkomen van datalekken, is de automatische evaluatie van de expliciete of latente gevoeligheid van gegevens nog steeds beperkt. Wetenschappelijk onderzoek is onderontwikkeld en de meeste tools bieden mechanismen op basis van reguliere expressieregels. Sommige voegen statistische methoden toe – machine learning of zelfs “artificiële intelligentie” – om de taak van de medewerkers die verantwoordelijk zijn voor de classificatie te vergemakkelijken, maar de oefening blijft grotendeels handmatig.

Bibliografische referenties

[1]   R. Chugh en A. Bales, ‘Market guide for data loss prevention’, Gartner, G00776480, sep. 2023.

[2]   D. Gugelmann, P. Studerus, V. Lenders, en B. Ager, ‘Can content-based data loss prevention solutions prevent data leakage in Web traffic?’, 2015.

[3]   R. Mogull, ‘Understanding and selecting a data loss prevention solution’, SANS Institute, 2007.

[4]   K. P. Clark, ‘Automated security classification’, Vrije Universiteit, Amsterdam, 2008.

[5]   J. D. Brown en D. Charlebois, ‘Security Classification Using Automated Learning (SCALE): Optimizing Statistical Natural Language Processing Techniques to Assign Security Labels to Unstructured Text’, Defence R&D Canada, Technical Memorandum TM 2010-215, dec. 2010.

[6]   K. W. Kongsgård, N. A. Nordbotten, en S. Fauskanger, ‘Policy-based labelling: A flexible framework for trusted data labelling’, in 2015 International Conference on Military Communications and Information Systems (ICMCIS), Cracow, Poland: IEEE, mei 2015, pp. 1-10. doi: 10.1109/ICMCIS.2015.7158708

[7]   M. Richter en K. Wrona, ‘Devil in the details: Assessing automated confidentiality classifiers in context of NATO documents’, in Proceedings of the First Italian Conference on Cybersecurity (ITASEC17), Venice, Italy, jan. 2017.

[8]   K. Alzhrani, E. M. Rudd, C. E. Chow, en T. E. Boult, ‘Automated U.S. diplomatic cables security classification: Topic model pruning vs. classification based on clusters’, 7 maart 2017, arXiv: arXiv:1703.02248. Geraadpleegd: 2 augustus 2024. [Online]. Beschikbaar op: http://arxiv.org/abs/1703.02248

[9]   E. Frayling, C. Macdonald, G. McDonald, en I. Ounis, ‘Using entities in knowledge graph hierarchies to classify sensitive information’, in Experimental IR Meets Multilinguality, Multimodality, and Interaction, A. Barrón-Cedeño, G. Da San Martino, M. Degli Esposti, F. Sebastiani, C. Macdonald, G. Pasi, A. Hanbury, M. Potthast, G. Faggioli, en N. Ferro, Red., in Lecture Notes in Computer Science, vol. 13390. Bologna, Italy: Springer International Publishing, sep. 2022, pp. 125-132. doi: 10.1007/978-3-031-13643-6_10

 Noten

1   Dat is in het bijzonder het geval wanneer de huidige platformen (bv. Windows) frequent gebruikt worden.

2   Aangezien de hoeveelheid te labelen objecten groot kan zijn (bijv. sensorgegevens) en het formaat van deze objecten incompatibel kan zijn met menselijke controle, is het onrealistisch om te verwachten dat elk label door een gebruiker kan worden gecontroleerd.

3 In hun systeem hebben modules voor attributenverzameling toegang in read-only-modus tot het object en tot attributen die al door andere modules zijn teruggestuurd. Deze modules kunnen de inhoud controleren voor bepaalde sleutelwoorden, attributen verstrekken over het onderwerp dat om toegang vraagt, enz.

4   https://www.airbus.com/en/newsroom/press-releases/2024-03-airbus-to-acquire-infodas-and-strengthen-its-cybersecurity

5   https://www.infodas.com/en/products/sdot_cross_domain_solutions/labelling-service-data-classification/


Dit is een ingezonden bijdrage van Fabien A. P. Petitcolas, IT-beveiligingsspecialist bij Smals Research. Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals.

Leave a Reply

Your email address will not be published. Required fields are marked *