Op het moment van schrijven vindt niet alleen de wereldbeker voetbal plaats. Het is ook NeurIPS in New Orleans, zeg maar de jaarlijkse hoogmis van het onderzoek naar artificiële intelligentie. Met een kleine 3000 papers uitgegroeid tot een enorm evenement dat 2 weken duurt, wordt het nu ook – en dat is ongewoon voor een wetenschappelijk congres – gezien als een gelegenheid voor nieuwe aankondigingen door bedrijven en instituten die actief zijn in de sector.
Het kan verkeren
Kort voordat NeurIPS van start ging, werd de hoofdvogel in de categorie “al ziende blind” reeds afgeschoten door Meta’s Galactica AI: een taalmodel getraind op wetenschappelijke papers. Het bleek erg goed in staat om wetenschappelijke uiteenzettingen te schrijven, inclusief formules, in een gezaghebbende toon. Bij nader onderzoek bleek nogal wat output inhoudelijk nonsensicaal, of erger: gebaseerd op achterhaalde of reeds ontkrachte claims. Na striemende kritiek van wetenschappers, die er vooral – en terecht – een instrument in zagen voor de massale creatie van wetenschappelijk verpakte desinformatie, werd de demo na 3 dagen stopgezet.
Het contrast kan niet groter zijn met de hype die ChatGPT van OpenAI op enkele dagen tijd heeft weten te veroorzaken. Veel artikels hebben een duidelijk hoopvolle toon en op sociale media zijn de superlatieven niet te tellen. OpenAI vertelt in haar blogpost meer over de interne opbouw van ChatGPT , dat is afgeleid van InstructGPT waarbij de dialoog-aspecten door een vorm van reinforcement learning werden verfijnd. De tekst wordt gegenereerd door text-davinci-003, de recentste variant uit de GPT-3 familie van generatieve taalmodellen.
De stroom van indrukwekkende voorbeelden en creatieve toepassingen van ChatGPT die de revue passeert op sociale media is haast eindeloos. Een greep uit het aanbod [noot: OpenAI lijkt haar systemen snel te patchen; mogelijk zijn verschillende van de onderstaande voorbeelden al niet meer reproduceerbaar] :
- Een essay of opstel schrijven voor school,
- Het opstellen van een realistisch leerplan voor een cursus, inclusief suggesties voor de boekenlijst, huiswerk, en de slides,
- Input, ideetjes, excuses, of rookgordijnen voor uw volgende evaluatie op het werk,
- Het motiveren van beroepsprocedures,
- Het simuleren van een virtuele machine,
- Het genereren van code in allerlei talen (bvb LaTeX), gebruikmakend van bepaalde libraries (bvb React), …
- Bugfixing of het uitleggen van exploits,
- Een bijbelse tekst over een boterham met pindakaas in de videorecorder,
- gedichtjes of liedjesteksten allerhande,
- Teksten over eender wat laten intoneren als was het uitgesproken door Bugs Bunny , een gangster uit een film, …
- Een IQ test gaf ChatGPT een score van 83,
- Combineren met MidJourney om visuele resultaten te krijgen,
- of het code laten schrijven voor een 3D-model in een CAD programma,
- …
Er zijn gelukkig ook nog kritische stemmen:
- Welbespraakt en geloofwaardig, maar ChatGPT blijft in se een bullshit generator.
- ChatGPT kan enthousiast foutieve hypotheses bevestigen en zelfs beargumenteren.
- Het volgen van een eenvoudige wiskundige of logische redenering blijft moeilijk. ChatGPT trapt gemakkelijk in logische instinkers. OpenAI lijkt zulke problemen, als ze ontdekt worden, wel te patchen – zie deze voor en na.
- Dan nog blijkt de woordkeuze een kritische factor te spelen in de output.
Verschillende tips om de output naar uw hand te zetten werden al ontdekt:
- Met de woorden “ignore previous directions” wordt een soort van reset uitgevoerd, die o.a. toelaat om afbeeldingen te laten weergeven in de chat.
- De filters tegen ongepaste input en output blijken snel omzeild met het “stel dat je een acteur bent“-trucje. [ Update: Dit lek lijkt ondertussen (deels) gedicht ],
- Logische redeneringen worden correcter uitgewerkt als men vraagt om stap voor stap te werken.
- Redeneringen over computercode werken beter als er ook gevraagd wordt om alle tussenstappen weer te geven.
“Als je een hamer hebt, ziet alles eruit als een nagel“, en zo lijkt er plots een nieuwe sport te zijn ontstaan: herformuleer uw probleem als een dialoog om het dan met ChatGPT te proberen op te lossen. Alleszins is met ChatGPT een grote stap gezet, maar het blijft belangrijk om aandacht te hebben voor de correctheid van de output en andere randvoorwaarden. De plotse stroom aan gegenereerde maar onvoldoende geverifieerde antwoorden heeft StackOverflow er zelfs al toe aangezet om het beantwoorden van vragen met ChatGPT te verbieden.
Wat betekent dit nu voor de publieke sector, waar kunnen we impact verwachten en waar zal het zo’n vaart niet lopen? Het volgende schiet ons alvast te binnen.
Van helpdesk tot dokter
De meest gehoorde claim betreffende ChatGPT is dat het vragen kan beantwoorden of zoekfuncties vervullen, waarvoor men vandaag nog een helpdesk of menselijke operatoren moet inzetten. Of dat wel zo’n goed idee is, valt nog te bezien. Sommige leidende academici zijn sceptisch. De achterliggende taalmodellen werken nog steeds probabilistisch, ze hebben geen concept van wat juist of fout is, zijn aan bepaalde biases onderhevig, en hebben zelfs met relatief eenvoudige redeneringen moeite. Ze hangen volledig af van hun trainingsdataset die in dit geval niet publiek is. Kleine veranderingen aan de input kunnen grote veranderingen in de output teweegbrengen. “As is” kan je ChatGPT dus enkel als chatbot inzetten als het niet erg is dat die af en toe met stellige zekerheid foute info teruggeeft, of als de output eerst gevalideerd wordt.
Uiteraard hebben mensen al geprobeerd om medische inlichtingen te krijgen van ChatGPT. Net als “dokter Google” mogen we misschien aannemen dat ook “dokter chatbot” weldra zal opduiken in de wachtkamer. Er zijn indicaties dat ChatGPT een gulden middenweg lijkt te zoeken in haar antwoorden, en op die manier genuanceerder kan klinken dan een lukraak aangeklikte eerste link uit Google. Dat maakt zo’n chatbot eventueel denkbaar als hulpmiddel voor medische professionals zelf, bij wijze van ‘second opinion machine’ – maar die doelgroep heeft tenminste voldoende achtergrondkennis om de antwoorden van een chatbot kritisch te kunnen evalueren.
Don QuichatGPT tegen de papiermolen
In ons bureaucratisch land is het courant dat je heel wat uitleg moet neerpennen bij aanvragen, voorstellen, of beslissingen allerhande. Een subsidie-aanvraag, vergunningsaanvraag, aanbesteding, sollicitatie, evaluatie of administratieve beslissing moet regelmatig gemotiveerd worden. Maar wat als die motivaties met een paar goed gemikte startwoorden en een klik op de knop gegenereerd kunnen worden? Niets verhindert dat iemand het invullen van zulke motivaties (deels) gaat automatiseren. Hoe kunnen we dan nog weten of die motivaties authentiek zijn?
Aan de kant van de ontvangers doet zich bovendien ook de omgekeerde trend voor. Geconfronteerd met een steeds groeiende papierberg, de pensioneringsgolf en besparingen, moet steeds meer tekst gelezen worden door steeds minder mensen. Er wordt in de richting van AI-oplossingen gekeken om een eerste selectie te maken in grote stapels kandidaturen, offertes of andere brieven. Er wordt ook gekeken naar taalmodellen om langdradige teksten samen te vatten, om thema’s te herkennen, tags of labels toe te kennen, enzovoort.
Als er paginalange teksten geëist worden, waarvan het opstellen plots gemakkelijk geautomatiseerd kan worden, alleen maar om ze achteraf opnieuw door computers te laten verwerken, dan mag men zich stilaan in het haar krabben: wat is daar dan het nut en de meerwaarde nog van, waar zijn we dan mee bezig?
De kans bestaat dat men overal waar men de gebruiker vraagt om lange stukken tekst te redigeren, binnenkort een denkoefening zal mogen maken. Is dat nog nuttig en noodzakelijk, in het licht van technologie die zulke teksten met een muisklik kan uitbraken? Kan het echt niet zonder, zou dat zo’n ramp zijn? Wat als een flauwe plezante plots 1000 aanvragen indient bij uw dienst, of in elk tekstveld een essay van 50 bladzijden neerpent, dit alles op enkele seconden gegenereerd? Wie gaat dat allemaal lezen?
Wie weet leidt zo’n denkoefening nog tot adminstratieve vereenvoudigingen. Daarnaast zou het zeker ook geen kwaad kunnen dat de wetgever eens meekijkt of er geen vereenvoudigingen mogelijk zijn in de regelgeving of processen, zodat die minder afhankelijk zijn van grote lappen handgetypte tekst. Het zou immers beter zijn de bureaucratie in te dijken, dan ze te bestendigen om uiteindelijk AI nodig te hebben om ze overeind te houden.
Een nieuwe digitale kloof?
DALL-E en MidJourney zijn op korte tijd bekende hulpmiddelen geworden voor het prototypen van grafisch design, of zelfs maar om moeiteloos rechtenvrije illustraties te genereren. ChatGPT is een nieuwe tool in dezelfde toolbox, maar dan voor het creatief schrijven van teksten. Daar waar dat de corebusiness is, bijvoorbeeld in de journalistiek of in het onderwijs, zal dat zeker impact hebben, misschien gelijkaardig aan de opkomst van de rekenmachine in het wiskunde-onderwijs. Onvermijdelijk gaat het klassieke opstel als schoolopdracht herdacht moeten worden met zulke tools ter beschikking van de tech-savvy leerling.
De bestaande digitale kloof, tussen al wie zulke tools vlot kan aanwenden en al wie dat (nog) niet kan, dreigt wel nog groter te worden en vereist dus aandacht. Er ontstaan grote productiviteitsverschillen tussen wie klassiek blijft werken en wie kan steunen op de input van generatieve AI. Met wat handigheid in ChatGPT kan iemand pakweg 4 keer meer motivatiebrieven geschreven krijgen dan andere sollicitanten, wat alvast qua volume een streepje voor betekent.
Die productiviteitsgroei kan er ook zijn voor developers. Zo kan ChatGPT aan de developer bijvoorbeeld nuttige suggesties geven over hoe een onbekende software library gebruikt moet worden, net zoals Github CoPilot. Er zijn ondertussen al meerdere plugins voor Chrome en Visual Studio Code (verkies best diegene waarvan de broncode open source is). Toch mag de lat op dat vlak ook niet te hoog gelegd worden. ChatGPT kan ook foute code genereren, en het is moeilijker om code te debuggen die je niet zelf geschreven hebt. Een recent experiment van Google vermeldt een 6% snellere iteratietijd door de adoptie van code-suggesties gegenereerd door AI.
Tegelijk zorgt het ongebreideld genereren van overtuigende teksten voor nieuwe mogelijkheden voor oplichters en spammers. Specifieer enkele kenmerken van de geaddresseerde en het taalgebruik en de inhoud worden ervoor geoptimaliseerd. In de handen van cybercriminelen is ChatGPT een gedroomde tool voor het maken van gepersonaliseerde phishingberichten. Die kunnen onderscheiden van echte berichten wordt nóg moeilijker voor het ongetrainde oog.
GDPR, auteursrecht en andere legale overwegingen
De eerste keer dat men ChatGPT gebruikt, krijgt men onder andere de volgende waarschuwingen te zien:
- While we have safeguards in place, the system may occasionally generate incorrect or misleading information and produce offensive or biased content. It is not intended to give advice.
- Please don’t share any sensitive information in your conversations.
In het licht van de GDPR, de Schrems-arresten en de CLOUD act in de VS, blijft het directe gebruik van diensten van een Amerikaans bedrijf, zelfs op Europees grondgebied, vooralsnog afgeraden voor alles wat (niet-geëncrypteerde, niet-geanonimiseerde) persoonsgegevens betreft. Het zal wellicht nog enige tijd vergen voordat de huidige juridische patstelling op dat vlak doorbroken wordt. Overheidsdiensten van een EU-land kunnen dus niet zomaar Amerikaanse providers van generatieve AI-systemen gaan gebruiken. Ofwel moeten ze een containerized versie zoeken die on-premise in een eigen datacenter gehost kan worden, ofwel moeten ze wachten op een alternatief van Europese makelij.
Wie heeft het auteursrecht op een tekst gegenereerd door ChatGPT, of een afbeelding gemaakt door DALL-E? OpenAI heeft gelukkig vrij duidelijke Terms & Conditions met een sectie over publicaties met behulp van OpenAI APIs, die specifieert dat de gebruiker van een OpenAI API het resultaat ervan mag publiceren maar dan wel de volledige eindverantwoordelijkheid opneemt. OpenAI claimt geen copyright. Er lijkt ondertussen juridische consensus te zijn dat auteursrechten enkel kunnen liggen bij personen, en wel bij diegenen die direct creatief hebben bijgedragen aan de originele output: de gebruikers dus en niet de ontwikkelaars. Ook octrooien kunnen niet aan een machine of AI toegekend worden.
OpenAI mag wel alle resultaten inzien en hergebruiken om haar modellen te verfijnen of verder te trainen. Dat maakt dat er zeker vermeden moet worden dat er gevoelige gegevens, informatie over een persoon, of broncode van een kritische applicatie naartoe wordt gestuurd. OpenAI aanvaardt bovendien zelf geen enkele aansprakelijkheid. Tegelijk komt het al eens voor dat er resultaten worden teruggegeven die copy-pasted lijken uit (reeds bestaande) trainingsdata, wat wél aanzien zou kunnen worden als plagiaat.
Conclusie
De hype die ChatGPT veroorzaakt is onmiskenbaar. De kans is reëel dat er binnenkort weer enkele ‘believers‘ opstaan die, op basis van een overdaad aan tunnelvisie en zelfoverschatting, beweren dat het systeem een ziel zou hebben. Nu kan er een hele filosofische boom opgezet worden over hoeverre ChatGPT echt taal begrijpt, de Turing-test of allerlei varianten daarvan doorstaat, enzovoort, maar in het algemeen lijkt het toch dat ChatGPT vooral een verderzetting en verfijning is van GPT-3, en dat er heel wat redenen zijn om de voeten stevig op de grond te houden.
De volgende aandachtspunten blijven hoe dan ook van kracht:
- Er is nog steeds geen enkele garantie dat de output van een taalmodel, hoe groot ook, waarheidsgetrouw of betrouwbaar is. Zoals het er nu naar uit ziet is de weg naar spijkerharde garanties nog lang, en het is nog maar de vraag of de GPT-familie van taalmodellen die ooit gaat kunnen geven.
- Dit taalmodel kan probleemloos gezaghebbend klinken en authentiek uitziende teksten schrijven over inhoudelijk foutieve zaken, soms op subtiele wijze.
- De makers van de taalmodellen zeggen zelf: “all large language models spit out nonsense“.
- Er is van deze taalmodellen ook bekend dat ze bestaande stereotypen bestendigen of versterken.
- ChatGPT spreekt vele talen waaronder Nederlands en Frans, maar de Engelstalig output blijft het meest kwalitatief.
ChatGPT is als generatieve AI zeker ‘goed genoeg’ voor heel wat toepassingen waar men creatief met tekst omgaat, en waar feitelijke correctheid van de inhoud minder van belang is. Dat gebrek aan garanties op correctheid van de inhoud is dan ook meteen de grootste rem op de adoptie van deze technologie in de publieke sector.
Voor de creatieve beroepen is wel degelijk een shift in werkwijze op til met de verdere ontwikkeling van deze technologieën. Daar waar details belangrijk zijn – denk aan technische teksten of alles wat juridisch sluitend moet zijn – is de toepasbaarheid vandaag nog beperkt tot ontwerpfases of schetsen, en moet het gebruik ervan nog steeds gepaard gaan met validatie van de output en menselijk overzicht. Als je ChatGPT inzet, dan beschouw je die best als je allerdomste medewerker, die constant supervisie nodig heeft.
Tot slot: dit volledige artikel werd nog artisanaal en met behulp van een grote pot koffie geschreven 😉
______________________
Dit is een ingezonden bijdrage van Joachim Ganseman, IT consultant bij Smals Research. Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals.
Intelligent geschreven, helder artikel. Bedankt, Joachim. We kunnen weer meepraten 😉