Détecter la fraude ; minimiser l’impact qu’aura une modification d’un package Java ou le changement de configuration d’un serveur ; optimiser la charge d’un cluster ; faire une suggestion intelligente d’achat à un client… toutes ces actions, a priori très différentes les unes des autres, ont un point commun : les méthodes de graph analytics, ou social network analytics excellent à les résoudre de façon efficace et aisément modélisable.
Nous pouvons voir le monde dans lequel nous vivons comme étant constitué d'entités (des personnes, des entreprises, des objets, des concepts, des documents…), mais surtout des relations entre ces entités : deux personnes sont amies ; une personne travaille pour une entreprise ; une entreprise sous-traite à une autre entreprise ; un document réfère un autre document. Beaucoup de techniques d’analyse ou de gestion de données placent les entités au centre, et se servent de moyens détournés pour représenter les relations (comme par exemple des attributs ou des join tables pour les bases de données relationnelles).
Les techniques de graph analytics ou social network analytics, placent les relations au centre de la réflexion et ouvrent de ce fait une voie pour toute une nouvelle gamme d’analyses ou de gestion des données.
Dans une première partie, nous commencerons la présentation par voir ce qu’un graphe (ou un réseau), constitué de nœuds (représentant les entités) et d’arcs (représentant les relations) peut modéliser, au travers de quelques exemples concrets.
Nous verrons ensuite comment un réseau peut être caractérisé, au travers de différentes métriques, issues tant du monde mathématique que de la sociologie ou des médias sociaux.
Nous présenterons par la suite les techniques et outils permettant de visualiser un réseau, tant pour le présenter que pour en affiner sa compréhension.
La seconde partie de la session sera consacrée d’abord aux techniques de manipulation de réseau utilisées par les data scientists, soit dans les environnements traditionnels de R ou Python, soit dans le monde Big Data avec Hadoop.
Pour finir, les bases de données orientées graphes, permettant d’interroger un réseau au moyen de requêtes, seront présentées, en détaillant leurs avantages et inconvénients par rapport aux bases de données relationnelles.
Tout au long de la présentation, des exemples concrets, tant dans le secteur de la lutte contre la fraude sociale que dans d’autres domaines (ICT, analyse historique…), seront donnés pour illustrer les différents concepts. Des outils, pour la plupart Open Source ou gratuits, seront présentés.
Fraude opsporen, de impact voorspellen van wijzigingen in java-packages of serverconfiguraties, de belasting van een cluster optimaliseren, een intelligente aankoopsuggestie doen bij een potentiële klant, ... al deze acties lijken op het eerste zicht erg verschillend van elkaar, maar hebben één punt gemeen: ze kunnen heel goed ondersteund worden met graph analytics of social network analytics.
We kunnen de wereld waarin we leven zien als bestaande uit entiteiten (van personen, ondernemingen, objecten, concepten, documenten, …), en – belangrijker en talrijker – uit relaties tussen deze entiteiten: twee personen zijn vrienden, een persoon werkt voor een onderneming, een onderneming besteedt uit aan een andere onderneming, een document verwijst naar een ander document. Veel analysetechnieken en oplossingen voor gegevensbeheer plaatsen evenwel de entiteiten centraal en gebruiken omwegen om de relaties voor te stellen (zoals attributen of join tables bij relationele databanksystemen).
De graph analytics technieken, of social network analytics, plaatsen de relaties centraal en bieden zo een volledig nieuw gamma van analysemogelijkheden en gegevensbeheer.
In een eerste deel van de sessie belichten we eerst het voorstellingsvermogen van grafen, netwerken bestaande uit knopen (entiteiten ) en bogen (relaties), aan de hand van concrete voorbeelden.
Vervolgens bespreken we hoe een netwerk kan gekenmerkt worden met behulp van verschillende metrieken, afkomstig uit de wiskundige en sociologische wereld, meer recent ook uit de sfeer van de sociale media.
We stellen ook technieken en tools voor waarmee een netwerk kan gevisualiseerd worden, en tonen hoe dit ons inzicht in het voorgestelde verbetert.
Het tweede deel van de sessie zal gewijd worden aan de technieken voor netwerkmanipulatie zoals gebruikt door data scientists hetzij in de traditionele omgevingen van R of Phyton, hetzij in de wereld van Big Data met Hadoop.
Tot slot zullen de graph databases voorgesteld worden, die toelaten om netwerken te onderzoeken: criteria op te leggen en te filteren aan de hand van queries. De voor-en nadelen ten opzichte van relationele databanken worden gedetailleerd besproken.
De presentatie is doorspekt met concrete voorbeelden uit verschillende domeinen: zowel de strijd tegen de sociale fraude als ICT-beheer, historische analyse, e.a. komen aan bod om de verschillende concepten te illustreren. Er is ook aandacht voor tools, de meeste Open Source of gratis.