Documents
SDV (Synthetic Data Vault)is een populaire open source library voor het genereren van een nieuwe synthetische dataset naar het model van een zelf opgegeven dataset. Ze is gemakkelijk te integreren in een data processing workflow op basis van Python. De library is nog in alfa-status en actief in ontwikkeling, Ze is gratis en vrij beschikbaar onder MIT licensie.
SDV (Synthetic Data Vault) est une bibliothèque open source populaire permettant de générer un nouvel ensemble de données synthétiques modélisé sur un ensemble de données spécifié. Il s'intègre facilement dans un flux de traitement de données basé sur Python. La bibliothèque est toujours en version alpha et en développement actif. Elle est gratuite et librement disponible sous licence MIT.
Languages: | Nederlands |
Author: | [authors]Joachim Ganseman[/authors] |
Category: | Quick Review |
Date: | 2022/03 |
Platforms: | Windows, Linux, Mac OS X |
License: | Open Source |
Keywords: | Artificial Intelligence, Synthetic Data, NLP, Privacy, anonimisatie |
Download: | Download |
Slides van de webinar voor Devoxx op 12/10/2022
Using ‘real’ data may be tempting, yet under the GDPR it’s not a good idea when dealing with personal information. Unfortunately, testing or debugging software may be harder without having full access to all underlying data. A synthetic dataset can be a good solution: generating fictitious replacement data, that mimics the structure and distribution of the original data. Joachim Ganseman from Smals Research talks about how synthetic data can be generated, and especially about the practical concerns and limitations. How do we deal with rarely occurring values, correlations or dependencies? What about the balance between maximum privacy protection vs. retaining enough functional usability? Can we do reliable analytics on a synthetic dataset? He will share some practical examples using open source software in Python.
Video recording published on YouTube
Languages: | English |
Author: | [authors]Joachim Ganseman[/authors] |
Category: | Presentation |
Date: | 2022/10 |
License: | CC Attribution-NonCommercial-ShareAlike |
Keywords: | syn |
Download: | Download |
Slides van de webinar voor Smals Academy op 01/12/2022 (texte français : voir ci-dessous)
Nous présenterons les domaines d'application possibles pour le gouvernement. Nous verrons ainsi qu'il n'existe pas de solution miracle et qu'il s'agit souvent de poser diverses conditions préalables supplémentaires, selon le type de données que nous traitons et l'usage que nous voulons en faire.
Languages: | English |
Author: | [authors]Joachim Ganseman[/authors] |
Category: | Presentation |
Date: | 2022/12 |
Platforms: | Windows |
License: | CC Attribution-NonCommercial-ShareAlike |
Keywords: | Synthetic Data, Artificial Intelligence, Analytics |
Download: | Download |