Data quality en geografische gegevens
Geografische gegevens gebruiken stelt ons in staat om de analyse van gegevenskwaliteit te verbeteren. Een voorbeeld met BeSt Address Continue reading
Consultant Recherche chez Smals depuis mai 2013. Vandy était auparavant Professeur Assistant à l'ULB, où il enseignait les langages de programmation. Il a obtenu une thèse de doctorat dans la même institution en 2007. Depuis quelques années, il s'est spécialisé dans les techniques de Data Science, incluant le "(social) network analytics", le "data quality", le "GIS analytics", le "machine learning", en particulier dans le domaine de la détection de la fraude.
Interests: Network analytics, Graph Databases, GIS (spatial) Analytics, Fraud Detection, Data visualisation, Data Sciences, Data quality, Email reliability, Social Media.
Email: vandy.bertenblah [at] blah blahsmals.be
Twitter: @VandyBERTEN
Graphlytic est une plateforme offrant une interface graphique conviviale connectée à une base
de données orientée graphes (comme Neo4j ou Memgraph). Elle permet de rechercher des
données (attributs des nœuds ou relations), grâce à des recherches « full text », de les explorer,
en navigant de nœud en nœud, ou en exécutant des requêtes, en Cypher ou Gremlin.
Languages: | Français |
Author: | Vandy Berten |
Category: | Quick Review |
Date: | 2023/12 |
License: | Commercial |
Download: | Download |
Comment placer une adresse sur une carte grâce au géocodage ?
Le géocodage est l'opération qui permet, à partir d'une adresse postale, de la standardiser et d'en obtenir les coordonnées géographiques. Nous verrons que cette opération, que nous réalisons inconsciemment tous les jours dans notre GPS ou en cherchant une adresse sur Google Maps ou autre outil cartographique, nécessite en fait une machinerie complexe. Pour en exploiter les capacités au maximum, une certaine compréhension sera nécessaire.
Durant ce webinaire, essentiellement pratique, nous répondrons à un certain nombre de questions. Qu’est-ce que le géocodage ? À quoi sert-il ? Comment s’en servir et quels sont les outils permettant de le faire ? Quels sont les avantages et inconvénients des différentes solutions, qu’elles soient commerciales ou open source, on-premise, authentiques, et comment peut-on comparer deux outils ? Nous comparerons plusieurs solutions disponibles sur le marché (commerciales ou libres), ainsi que plusieurs améliorations de solutions existantes, dont NominatimWrapper, un outil développé par Smals Research, qui est basé sur le projet collaboratif open-source OpenStreetMap.
Ce webinaire fait suite au webinaire "GIS Analytics : Quel potentiel pour les données géographiques ?" du 5 mai 2022. Il n'est cependant pas un prérequis. Aucun prérequis n'est par ailleurs nécessaire pour suivre le webinaire.
Languages: | English |
Author: | Vandy BERTEN |
Category: | Presentation |
Date: | 2023/09 |
Keywords: | geocoding |
Download: | Download |
Toutes les institutions possèdent, parfois sans réellement le savoir, des informations géographiques : adresses de citoyens, institutions, localisation d’un chantier, nom de villes/communes ou code postal… Par ailleurs, une mine d’information est disponible en ligne, souvent en open source, permettant d’obtenir les contours d’entités administratives, d’obtenir la localisation de commerces ou administrations.
Il est dès lors souvent utile de pouvoir manipuler des objets géographiques : un point (localisation d'un chantier, d'une observation, d'un incident...), une ligne (un itinéraire, une route...) ou un polygone (frontière d'une commune, contour d'un chantier ou d'un bâtiment). En dehors de simples points (couples de coordonnées), les bases de données classiques comme PostgreSQL ou Oracle ne permettent pas de représenter et de manipuler ces objets efficacement.
Dans ce webinaire, nous examinerons comment PostGIS, une extension de PostgreSQL, permet de gérer des objets spatiaux (ou géographiques) et d’étendre largement les possibilités d’analyse, de croisement, d’enrichissement ou de représentation des données.
Nous y verrons les concepts de jointure spatiale (jointure de tables sur base d’informations géographiques), d'agrégation, d’indexation ou encore de chargement de données. Ces concepts, très puissants, sont fondamentaux pour la manipulation de données géographiques.
Languages: | English |
Author: | Vandy Berten |
Category: | Presentation |
Date: | 2022/09 |
Download: | Download |
Languages: | Français |
Author: | Vandy BERTEN |
Category: | Presentation |
Date: | 2022/05 |
Download: | Download |
PostGIS – contraction de « PostgreSQL » et « Geographical Information System » – est une extension de PostgreSQL qui ajoute, d’une part, des nouveaux types de données spatiales (point, lignes, polygones...), d’autre part une série de nouvelles opérations (spatiales) sur ces objets : comparaison, agrégation, combinaison, mesure ou gestion de « projection ».
PostGIS - een samentrekking van "PostgreSQL" en "Geographical Information System" - is een uitbreiding van PostgreSQL die enerzijds nieuwe soorten ruimtelijke gegevens toevoegt (punten, lijnen, polygonen, enz.), en anderzijds een reeks nieuwe (ruimtelijke) bewerkingen op deze objecten: vergelijking, aggregatie, combinatie, meting of "projectie" beheer.
Languages: | Français |
Author: | Vandy BERTEN |
Category: | Quick Review |
Date: | 2022/01 |
Platforms: | Windows, Linux, Mac OS X |
License: | GNU General Public License |
Download: | Download |
Présentation donnée lors du webinaire "Webscraping - by Smals Research" du 30/06/2020.
Le Web scraping/crawling/harvesting est un technique d’extraction de contenu sur des sites web, au moyen de scripts/programmes, dans le but de son utilisation dans un autre contexte. L’utilisation de web scraping est très large, avec relativement peu de contraintes.
Dans sa présentation, Vandy Berten (Smals Research) présente plusieurs aspects techniques du web scraping, montre au travers d’un exemple concret comment les données collectées pourront être exploitées, et aborde également sommairement les contraintes non techniques (légales et éthiques).
Languages: | Français |
Author: | Vandy Berten |
Category: | Presentation |
Date: | 2020/06 |
License: | Freeware |
Download: | Download |
Scrapy est un framework écrit en (et pour) Python permettant de faire du web-crawling (ou web-scraping), c’est-à-dire de l’extraction automatique de contenu à partir de pages web. Une grande partie du travail du web-crawling est gérée automatiquement par le framework. Pour des cas simples mais réalistes, le code (Python) à écrire peut se limiter à quelques lignes de code. Nous recommandons cet outil.
Scrapy is een framework geschreven in (en voor) Python dat het mogelijk maakt om web-crawling (of web-scraping) toe te passen, d.w.z. het automatisch extraheren van inhoud van webpagina's. Een grote deel van het web-crawling werk wordt automatisch beheerd door het framework. Voor eenvoudige maar realistische cases kan de te schrijven code (Python) worden beperkt tot een paar regels code. Wij bevelen deze tool aan.
Languages: | Français |
Author: | Vandy Berten |
Category: | Quick Review |
Date: | 2019/07 |
License: | Freeware |
Download: | Download |
Jupyter Notebook, projet Open Source issu de IPython, est une application web destiné à offrir un environnement interactif dans plusieurs dizaines de langages de programmation (dont, à l’origine, Julia, Python et R, d’où le nom JuPyteR), particulièrement adapté à l’analyse de données (data science).
Contrairement à la programmation traditionnelle (séquentielle), où on exécute un programme en démarrant toujours du même point d’entrée, puis en suivant le flux d’exécution défini par le programme, un « notebook » est un ensemble de blocs de code que l’on peut exécuter dans l’ordre désiré. L’ensemble de ces blocs partageront un contexte (appelé « kernel »), qui contiendra toutes les données.
Languages: | Français |
Author: | Vandy Berten |
Category: | Quick Review |
Date: | 2018/11 |
License: | Open Source |
Download: | Download |
Slides presented at Devoxx 2017.
Graphs are everywhere: When it comes to representing relationships between entities, there is no better mathematical model so far. Classical “SQL” databases perform very poorly in modeling complex relationships, both in terms of response time and in writing (queries) time. Graph database have been designed to tackle those limitations and excel in many domains, such as fraud detection, recommendation systems, social networks, MDM… After having introduced the basic concepts of graph databases, this presentation shares our experience in fraud detection in the Belgian social security sector, using graph databases.
Video of the presentation: https://www.youtube.com/watch?v=5u4hyNOh0Tc
Languages: | English |
Author: | Vandy Berten |
Category: | Presentation |
Date: | 2017/11 |
Download: | Download |
iGraph est une librairie de manipulation de graphes (ou réseaux), structures de données permettant de représenter des relations entre des entités. Elle est écrite en C, et disponible pour C/C++, Python, R et Mathematica. iGraph est très populaire dans la communauté scientifique et des datascientists, et dispose d’un grand nombre de fonctionnalités.
Languages: | Français |
Author: | Vandy Berten |
Category: | Quick Review |
Date: | 2017/07 |
Platforms: | Windows, Linux, Mac OS X |
License: | GNU General Public License |
Download: | Download |
Détecter la fraude ; minimiser l’impact qu’aura une modification d’un package Java ou le changement de configuration d’un serveur ; optimiser la charge d’un cluster ; faire une suggestion intelligente d’achat à un client… toutes ces actions, a priori très différentes les unes des autres, ont un point commun : les méthodes de graph analytics, ou social network analytics excellent à les résoudre de façon efficace et aisément modélisable.
Nous pouvons voir le monde dans lequel nous vivons comme étant constitué d'entités (des personnes, des entreprises, des objets, des concepts, des documents…), mais surtout des relations entre ces entités : deux personnes sont amies ; une personne travaille pour une entreprise ; une entreprise sous-traite à une autre entreprise ; un document réfère un autre document. Beaucoup de techniques d’analyse ou de gestion de données placent les entités au centre, et se servent de moyens détournés pour représenter les relations (comme par exemple des attributs ou des join tables pour les bases de données relationnelles).
Les techniques de graph analytics ou social network analytics, placent les relations au centre de la réflexion et ouvrent de ce fait une voie pour toute une nouvelle gamme d’analyses ou de gestion des données.
Dans une première partie, nous commencerons la présentation par voir ce qu’un graphe (ou un réseau), constitué de nœuds (représentant les entités) et d’arcs (représentant les relations) peut modéliser, au travers de quelques exemples concrets.
Nous verrons ensuite comment un réseau peut être caractérisé, au travers de différentes métriques, issues tant du monde mathématique que de la sociologie ou des médias sociaux.
Nous présenterons par la suite les techniques et outils permettant de visualiser un réseau, tant pour le présenter que pour en affiner sa compréhension.
La seconde partie de la session sera consacrée d’abord aux techniques de manipulation de réseau utilisées par les data scientists, soit dans les environnements traditionnels de R ou Python, soit dans le monde Big Data avec Hadoop.
Pour finir, les bases de données orientées graphes, permettant d’interroger un réseau au moyen de requêtes, seront présentées, en détaillant leurs avantages et inconvénients par rapport aux bases de données relationnelles.
Tout au long de la présentation, des exemples concrets, tant dans le secteur de la lutte contre la fraude sociale que dans d’autres domaines (ICT, analyse historique…), seront donnés pour illustrer les différents concepts. Des outils, pour la plupart Open Source ou gratuits, seront présentés.
Languages: | Français |
Author: | Vandy Berten |
Category: | Presentation |
Date: | 2017/06 |
Download: | Download |
Neo4J est un système de gestion de base de données orienté « graphe ». Dans un tel système, les données sont composées d’une part de nœuds (ou entités), d’autre part de relations entre deux nœuds. Les nœuds et relations peuvent avoir des labels (Person, Company…), et des propriétés (name: « MyName », price: 1.20…).
Languages: | Français |
Author: | Vandy Berten |
Category: | Quick Review |
Date: | 2016/09 |
Platforms: | Windows, Linux, Mac OS X |
License: | GNU General Public License |
Download: | Download |
Qlik Sense est une version allégée et gratuite de l’outil Qlik View, permettant de faire de l’exploration visuelle de données, sans avoir besoin de connaissances techniques poussées, mais uniquement avec une bonne connaissance des données.
Languages: | Français |
Author: | Vandy Berten |
Category: | Quick Review |
Date: | 2015/10 |
Platforms: | Windows |
License: | Freeware |
Download: | Download |
Toutes les sociétés et institutions publiques manipulent aujourd'hui des quantités considérables de données. Leur quantité et leur variabilité sont telles qu’on ne peut plus raisonnablement se contenter de les importer dans Excel pour en réaliser ensuite quelques graphiques. Leur diversité fait qu’on ne sait souvent pas à l’avance ce que l’on cherche, comment sont liées les données ou quel type de visualisation est le plus adéquat. Leur complexité implique qu’il faut posséder des connaissances métier très pointues et que l’exploration des données doit pouvoir se faire interactivement, sans connaissances IT avancées.
Le cerveau humain, s'il est « alimenté » correctement, a des capacités cognitives extraordinaires, qui sont loin d'être égalées par les plus puissants des ordinateurs. L'intuition, la capacité à remarquer des choses sans les regarder, à établir le lien entre ce que l'on observe et un phénomène vaguement similaire aperçu dans un autre contexte, font de notre cerveau un allié des machines, complémentaire et sans égal ; on peut le mettre à profit en utilisant au mieux les techniques modernes de visualisation de données.
Par ailleurs, communiquer des informations efficacement, de façon à transmettre un message précis, requiert un certain savoir-faire. En comprenant mieux le type de données auquel on a affaire, en maîtrisant plus précisément la façon dont le cerveau analyse ce qu'il voit, en pouvant mesurer objectivement la qualité d'un graphique, on sera capable d'élaborer une visualisation la plus performante possible. On comprendra également qu'un graphique peut suggérer exactement le contraire de ce que les données signifient réellement, ce qui permettra de mieux s'armer contre toute tentative de manipulation.
Durant l'exposé, nous commencerons par présenter des notions fondamentales : qu'est-ce qu'une mesure ? Qu’est-ce qu’une dimension ? En quoi une température est-elle fondamentalement différente d'une durée ? Pourquoi un graphique en barres offre-t-il une perception plus précise qu'un graphique circulaire ? Nous étudierons ensuite différents types de graphiques, tant classiques (histogrammes, graphiques circulaires, graphiques en ligne...) que moins classiques (Sankey, Chord, Parallel Coordinates, Small Multiples...), pour en comprendre les avantages et inconvénients, voir quand ils sont adaptés ou non. On s'intéressera ensuite au cas particulier des données géographiques et des difficultés liées au géocodage, pour ensuite s'intéresser au domaine relativement récent du « Visual Analytics ».
Languages: | Français |
Author: | Vandy Berten |
Category: | Presentation |
Date: | 2015/10 |
Download: | Download |
Annexe au blog http://www.smalsresearch.be/comparer-des-geocodeurs/
Nécessite Qlik Sense : http://www.qlik.com/products/qlik-sense/desktop
Placer le fichier dans C:Users<USER NAME>DocumentsQlikSenseApps
Languages: | English |
Author: | Vandy Berten |
Category: | Annexe |
Date: | 2015/06 |
Platforms: | Windows |
Download: | Download |
Ce document décrit de quelle façon deux médias sociaux (Facebook et Twitter) pourraient servir d’alternative à une adresse e-mail comme canal de communication entre les autorités et les citoyens. Nous décrivons pour ces deux outils comment il est possible d’envoyer de façon automatisée un message privé à un utilisateur qui s’est au préalable authentifié et a lié de façon sécurisée son compte Facebook ou Twitter à une « e-box ».
Dans le cas de Facebook, nous utilisons une « application Facebook », permettant d’envoyer des notifications à l’utilisateur. Dans le cas de Twitter, nous utilisons une « application Twitter », permettant d’envoyer, au nom d’un compte officiel, un « direct message » à un citoyen.
Quelques détails techniques seront donnés, mais pas suffisamment pour pouvoir réaliser l’ensemble d’une telle application, dont nous
avons développé un prototype fonctionnel. Il sera nécessaire de consulter la documentation technique spécifique au réseau social visé, afin de développer une application complète.
Après une introduction à portée générale, nous rentrerons, tant pour Facebook que pour Twitter, dans un niveau de détails s’adressant à des développeurs ou des lecteurs à profil technique.
Annexes: | |
Languages: | Français |
Author: | Vandy Berten |
Category: | Research Note |
Date: | 2014/11 |
Keywords: | Social Media, Facebook |
Download: | Download |
Le présent document a pour but de sensibiliser le lecteur à la quantité considérable d’information que l’on peut trouver à son propos sur les réseaux sociaux, en particulier sur Facebook. Nous verrons que ce qu’on peut trouver va bien au-delà de ce que les utilisateurs indiquent de leur plein gré.
Des techniques de network analytics permettront de déduire beaucoup de choses à propos d’une « cible », telles que les différents groupes sociaux auxquels elle appartient ou le degré de proximité avec ses amis.
Des méthodes d’inférence peuvent se baser sur les informations publiées par ses amis pour identifier parmi les groupes sociaux ceux correspondant au travail, au parcours scolaire, à la famille, aux loisirs…
En utilisant des outils de web crawling, il sera possible de reconstituer une grande partie du réseau d’amis de quelqu’un, même s’il a choisi de ne pas publier sa liste d’amis ou de masquer ses photos.
Nous verrons par ailleurs que le même genre de technique permettra de comprendre les relations entre les différents membres d’un groupe ou les fans d’une page Facebook.
Annexes: | |
Languages: | Français |
Author: | Vandy Berten |
Category: | Research Note |
Date: | 2014/11 |
Keywords: | Social Media, Facebook, Privacy |
Download: | Download |
Le présent document peut être vu comme un catalogue d’informations diverses collectées durant notre étude sur les médias sociaux : outils, définitions, articles de presse ou scientifique, réflexion… Il n’a pas vocation à être lu d’un bout à l’autre de façon linéaire, ni à être diffusé largement. Il s’agit parfois plus de notes rapides qu’une analyse détaillées.
La première partie reprend un certain nombre de définitions et de statistiques à propos de l’utilisation de médias sociaux en Belgique ou dans le monde. Nous y incluons également un rapide survol des institutions présentes sur les médias sociaux.
La deuxième partie introduit diverses lectures et références utiles à toute organisation voulant débuter dans les médias sociaux. Nous présenterons ensuite dans la troisième partie une série d’outils de gestion quotidienne, puis nous intéresserons à des techniques permettant de comprendre un réseau ou de suivre ce qui se dit sur les médias sociaux.
Dans une dernière partie, nous reprendrons divers articles collectés à propos de sujets très vastes : détection de fraude, gestion des catastrophes, lutte contre le terrorisme…
Ce rapport est un support pour les slides ayant servi à la session d’information « Social Media & eGovernment » des 21 et 23 octobre 2014 (http://www.smalsresearch.be/publications/document/?docid=119).
Annexes: | |
Languages: | Français |
Author: | Vandy Berten |
Category: | Research Note |
Date: | 2014/11 |
Keywords: | Social Media |
Download: | Download |
Dans la société de communication dans laquelle nous vivons aujourd’hui, les médias sociaux sont devenus incontournables. Le citoyen qui autrefois s’exprimait en famille ou entre amis le fait maintenant sur Twitter ou Facebook. Une mine d’or pour les organismes qui veulent savoir ce que la population pense et dit à leur propos, qui veulent détecter au plus tôt un mouvement de grogne, une rumeur naissante ou une menace, de façon à pouvoir réagir rapidement de façon appropriée.
Durant la session, nous nous intéresserons à trois cas très concrets, basés sur nos clients ou d’autres institutions, à la suite de nombreux contacts que nous avons eus durant notre étude. Nous commencerons par voir ce que la page Facebook d’un organisme, où les citoyens postent des messages et/ou les commentent, peut nous apprendre. Quels sont les sujets de discussion ? Peut-on identifier des moments de tension ? Les citoyens sont-ils critiques ? Qui sont les citoyens qui s’expriment ?
Dans un second temps, nous nous concentrerons sur Twitter et verrons comment on peut identifier les « hot topics », en général mais aussi sur des sujets particuliers, par exemple à propos d’un organisme ou d’un projet. Comment peut-on collecter l’information et la traiter ? Peut-on identifier des pics de discussion ? De quoi parle-t-on ?
Notre troisième partie sera consacrée au « network analytics », c’est-à-dire l’étude des réseaux (un réseau d’amis Facebook, la structure des réactions sur une page Facebook, les « followers » sur Twitter…). Nous verrons qu’à partir d’un ensemble d’informations publiques, il est possible de reconstituer une grande quantité d’information qui semblait cachée. Nous partirons d’un compte Facebook qui semble bien protégé, et verrons qu’énormément d’information peut malgré tout être extraite.
Durant l’exposé, nous présenterons quelques outils, mais nous nous focaliserons sur les différentes techniques utilisées par ces outils, et les illustrerons abondamment.
Annexes: | |
Languages: | Français |
Author: | Vandy Berten |
Category: | Presentation |
Date: | 2014/10 |
Keywords: | Social Media |
Download: | Download |
Gephi est un outil de visualisation, de manipulation et d’analyse de toutes sortes de graphes ou réseaux. Il s’agit d’un outil puissant, facile à maîtriser, utilisant un format d’entrée pouvant être produit sans difficulté. Il sera précieux pour toute personne voulant analyser une structure complexe d’entités reliées entre elles (réseau social, lien entre des pages web, réseau informatique, organigramme, dépendance entre des concepts…). Il produit par ailleurs des graphiques esthétiques et largement paramétrables, dans divers formats.
Gephi is een tool om allerlei grafieken en netwerken te visualiseren, te bewerken en te gebruiken. Deze krachtige en gebruiksvriendelijke tool gebruikt een inputformaat dat zonder problemen geproduceerd kan worden. Gephi is nuttig voor iedereen die een complexe structuur van onderling verbonden entiteiten wilt analyseren (sociaal netwerk, verband tussen webpagina’s, informaticanetwerk, organigram, afhankelijkheid tussen concepten...). Bovendien genereert de tool mooie, erg configureerbare grafieken in verschillende formaten.
Languages: | Français |
Author: | Vandy Berten |
Category: | Quick Review |
Date: | 2014/10 |
Platforms: | Windows, Linux, Mac OS X |
License: | GNU General Public License |
Download: | Download |
Avec la dématérialisation de l’information et la mise en place croissante de synergies entre administrations, employeurs, entreprises et citoyens, la qualité des adresses e-mail devient stratégique. En effet, une bonne gestion de celles-ci peut, dans le cadre de l’egovernment, contribuer à l’amélioration des services rendus et à la réduction des coûts.
C’est le cas par exemple lorsque les adresses e-mail sont utilisées en vue de l’envoi de notifications, dans le cadre des recommandés électroniques. Si les adresses e-mail sont incorrectes, les notifications des envois recommandés doivent s’effectuer par voie postale. Dans certains cas, les coûts cumulés sur 5 ans peuvent atteindre plusieurs millions d’euros. À ces éléments s’ajoutent les gains indirects associés : respect de la législation, service rendu au citoyen et crédibilité…
Dans de nombreux pays, (Danemark, Suède, Norvège, Canada, …), le recours à l’adresse e-mail se généralise au sein de l’egovernment. En 2012, le ROI sur 15 ans d’une telle approche est estimé en Norvège à environ 250 millions d’euros. Les adresses e-mail se caractérisent toutefois par un cumul d’incertitudes : volatilité des usages, dynamique des noms de domaines, syntaxes non standards… En vue d’en assurer la maîtrise, le document présente :
- Les éléments syntaxiques, de validation (tests d’existence) et de « data matching »;
- Un ensemble de bonnes pratiques et une organisation en vue de maintenir la qualité d’une vaste source d’adresses e-mail dans le temps.
Cette étude repose sur plus de dix ans d’expérience au sein de la « Data Quality Cell » de la section « recherche » de Smals, sur un ensemble de tests pratiques et sur un prototype concret et original
Annexes: | |
Languages: | Français |
Author: | Vandy Berten, Isabelle Boydens |
Category: | Deliverable |
Date: | 2013/12 |
Download: | Download |
Avec la dématérialisation de l’information et la mise en place croissante de synergies entre administrations, employeurs, entreprises et citoyens, la qualité des adresses e-mail devient stratégique. En effet, une bonne gestion de celles-ci peut, dans le cadre de l’egovernment, contribuer à l’amélioration des services rendus et à la réduction des coûts.
C’est le cas lorsque les adresses e-mail sont utilisées en vue de l’envoi de notifications, même après authentification, dans le cadre des recommandés électroniques, par exemple. Si les adresses e-mail sont incorrectes, les notifications des envois recommandés doivent s’effectuer par voie postale, après traitement éventuel des cas erronés. Cela peut accroître les coûts cumulés sur 5 ans de plusieurs millions d’euros, selon la taille de la base de données. À ces éléments s’ajoutent les gains indirects associés (qui sont mentionnés également dans le secteur privé et « marketing ») : respect de la législation, service rendu au citoyen et crédibilité dans les campagnes de communication.
Dans de nombreux pays, (Danemark, Suède, Norvège, Canada, …), le recours à l’adresse e-mail authentifiée dans le cadre des échanges entre administrations et citoyens se généralise au sein de l’egovernment. En 2012, le ROI sur 15 ans d’une telle approche est estimé en Norvège à environ 250 millions d’euros. Largement utilisées de nos jours et pour un certain temps encore, les adresses e-mail se caractérisent toutefois par un cumul d’incertitudes : qu’il s’agisse de la volatilité des usages, de la dynamique des noms de domaines ou de la présence de syntaxes non standards.
En vue d’en assurer la maîtrise, l’exposé présentera :
Annexes: | |
Languages: | Français |
Author: | Vandy Berten, Isabelle Boydens |
Category: | Presentation |
Date: | 2013/11 |
Download: | Download |
OpenRefine est une très bonne alternative gratuite aux outils professionnels d’analyse de qualité de données, souvent hors de prix pour des petites organisations.
Il est par ailleurs beaucoup plus simple à utiliser, et permet une prise en main rapide, même sans connaissances poussées en informatique.
OpenRefine is een zeer goed gratis alternatief voor de professionele tools voor kwaliteitsanalyse van gegevens die vaak te duur zijn voor kleine organisaties.
De tool is overigens veel gemakkelijker in gebruik, en men krijgt hem vlug onder de knie, zelfs zonder doorgedreven informaticakennis.
Languages: | Français |
Author: | Vandy Berten |
Category: | Quick Review |
Date: | 2013/10 |
Platforms: | Windows, Linux, Mac OS X |
License: | Licence BSD |
Keywords: | Data quality |
Download: | Download |
Geografische gegevens gebruiken stelt ons in staat om de analyse van gegevenskwaliteit te verbeteren. Een voorbeeld met BeSt Address Continue reading →
Utiliser des données géographiques permet d’améliorer l’analyse de la qualité des données. Un exemple avec BeSt Address Continue reading →
Vaak denken we dat we om een gebouw te lokaliseren (in België, maar onze buren ervaren een zeer gelijkaardige situatie) we een adres nodig hebben dat bestaat uit een straatnaam (die eindigt in het Nederlands met ‘…straat’, ‘…laan’, ‘…steenweg’, of die in het Frans begint met ‘Rue…’, ‘Avenue…’, ‘Chaussée…’, of een gelijkaardige prefix/suffix) Continue reading →
On pense souvent que pour localiser un bâtiment (en Belgique, mais la situation de nos voisins est très similaire), on a besoin d’une adresse, composée d’un nom de rue (qui commence en français par “Rue …”, “Avenue …”, “Chaussée …”, ou qui termine en néerlandais par “…straat”, “… laan”, “… steenweg”, ou un préfixe/suffixe similaire). Il faut ensuite un numéro, pair d’un côté de la rue, impair de l’autre. Si on construit un bâtiment entre le “10” et le “12”, on le numérotera “10A”, et si le 10 est un immeuble avec plusieurs appartements, on les distinguera par “10 boite 1”, “10 boite 2”, etc (ou 10/1, 10/2…). Continue reading →
Geocodering is de bewerking waarbij een tekstueel postadres (‘Fonsnyln 20, 1060 Brussel’) omgevormd wordt tot een in componenten opgesplitste en gestandaardiseerde versie, gelinkt aan een geografische locatie Continue reading →
Le géocodage est l’opération qui permet de transformer une adresse postale textuelle (“av. Fonsny 20, 1060 Bruxelles”) en une version décomposée et standardisée, associée à une localisation géographique Continue reading →
Sinds 2017 vestigen we op deze pagina’s de aandacht op het gebruik van Graph Databases (hier, hier en hier). Gartner voorspelt dat in 2025 de graph-technologieën zullen worden gebruikt in 80% van de innovaties in het gebied van data en analytics, tegenover 10% in 2021, waardoor snelle besluitvorming in een organisatie mogelijk wordt. Continue reading →
Depuis 2017, nous mettons en avant dans ces pages (ici, là, ou encore ici) l’utilisation de bases de données orientées graphes (ou Graph Databases). Gartner prédit que d’ici 2025, les technologies graphes seront utilisées dans 80 % des innovations en données et analytique, contre 10 % en 2021, facilitant la prise de décision rapide au travers d’une organisation. Continue reading →
Om een adres te kunnen plaatsen op een kaart, om een reisweg uit te stippelen of om alle winkels in een bepaalde wijk te bepalen, moet er eerst een belangrijke stap genomen worden: geocodering. Deze handeling houdt in dat een postadres zoals “Av. Fonsny 20, 1060 Bruxelles” enerzijds “gestandaardiseerd” kan worden (bordeaux gedeelte van onderstaande afbeelding), en anderzijds dat deze geografische coördinaten toegewezen krijgt (“location” in de afbeelding). Continue reading →
Pour être capable de positionner une adresse sur une carte, pour calculer un itinéraire ou pour identifier l’ensemble des commerces dans un quartier donné, il est nécessaire de passer par une étape fondamentale : le géocodage. Cette opération consiste, à partir d’une adresse postale, comme “Av. Fonsny 20, 1060 Bruxelles”, d’une part à la “standardiser” (partie bordeaux de l’image ci-dessous), d’autre part à lui assigner des coordonnées géographiques (“location” dans l’image). Continue reading →