De wetten van de Onwaarschijnlijkheid

In vele toepassingen van data science is men op zoek naar “onverwachte patronen”, die kunnen wijzen op één of ander fenomeen. Om dit op een oordeelkundige manier te interpreteren kan men zich best beroepen op formele statistische methoden, zo deze van toepassing zijn. Gezond verstand (hopelijk) en intuïtie (onvermijdelijk) spelen ook vaak  een belangrijke rol in de manier waarop wij conclusies trekken uit data. Toch kan deze intuïtie ons al eens  op een verkeerd been zetten. In deze blog bekijken we een aantal fenomenen die intuïtief als zeer onwaarschijnlijk overkomen terwijl ze eigenlijk toch frequent voorkomen en worden logische verklaringen gegeven waarom dit zo is. Laten we beginnen met een kleine anecdote …

Gelukkige verjaardag !

balloons-41362_1280Enkele jaren geleden, op de dag van mijn verjaardag, trof ik aan de deur van mijn bureau een ballon en snoepgoed aan. We deelden dat bureau toen met vier en er lagen eigenlijk twee sets ballonnen en snoep. Omdat ik echter grote twijfels had of ik zelf wel op de verjaardagskalender stond en bovendien de verjaardagen van mijn nieuwe collega’s niet kende leek een klein onderzoek aangewezen. Dit bracht aan het licht dat 3 van de 4 bureaugenoten op dezelfde dag verjaren.

Hoe zeldzaam is dát ?

 

calendar-999172_1280Wel, een kleine berekening levert dat de kans dat dit zich voordoet ongeveer 1 op 20000 bedraagt. Inderdaad niet heel waarschijnlijk, maar dan ook weer niet zó onwaarschijnlijk dat het verantwoord zou zijn er een enorme inzet op te vergokken. Dit voorbeeld is een meer ingewikkelde versie  van de verjaardagenparadox waar de paradox zich voordoet omdat we de neiging hebben te vergeten dat het samenvallen van verjaardagen waarschijnlijker wordt door het feit dat dit zich niet noodzakelijk op een vaste kalenderdag moet voordoen maar dat er eigenlijk 365 (of zo) dagen zijn waarop dit kan gebeuren.

Het Onwaarschijnlijkheidsbeginsel als raamwerk

David Hand, op wiens werk deze blog in grote mate gebaseerd is  bedacht een raamwerk, gebaseerd op 5 grote principes die toelaten onwaarschijnlijke fenomenen te verklaren op een informele maar toch systematische manier. Deze principes zijn geïllustreerd en toegelicht in een prachtig boek en een aantal lezingen die de emeritus Professor gaf, onder meer ter gelegenheid van de 180ste verjaardag van de eerbiedwaardige Royal Society of Statistics. Ik verwijs graag naar de inhoud van deze documenten maar probeer tegelijk de link te leggen met een aantal nieuwe voorbeelden.

De Onvermijdelijkheidswet

Dit principe zegt dat met zekerheid minstens één van alle mogelijke uitkomsten van een toevalsexperiment zich zal voordoen.

Zo bijvoorbeeld zal de waarde van het Google aandeel share-price-1013627_1280aan het einde van volgende beursdag gestegen zijn of niet gestegen zijn ten opzichte van het huidig niveau. Eén van beide scenarios moet zich voordoen.

Dit simpel principe kan aanleiding geven tot fascinerende constructies. Zo bijvoorbeeld kan een zelfverklaarde beursgoeroe aan een groep van 64 beleggers vertellen dat hij een stijging verwacht en aan een andere groep van 64 dat hij geen stijging verwacht. Eén van beide uitkomsten zal zich voordoen en dit betekent dat hij zeker een groep van 64 personen blij zal maken. Als hij deze werkwijze blijft herhalen, in nog 6 opeenvolgende stappen, zal hij voor één belegger op 7 opeenvolgende keren perfect de beweging van de beurs voorspeld hebben…. en grof geld kunnen vragen voor verder beleggersadvies aan deze persoon.

Een andere spectaculaire toepassing van het principe is het idee dat je met zekerheid de hoofdprijs van een loterij kan winnen mits je alle biljetten verwerft (indien de trekking gebaseerd is op het geheel van de verkochte biljetten). Dit idee klinkt gekker dan het is en is zelfs al een paar keer in de praktijk gebracht door verenigingen die geld ophaalden van investeerders om op grote schaal biljetten te verwerven, zie bijvoorbeeld het verhaal van de Virginia State Lottery jackpot in 1992. Uiteraard is een dergelijke onderneming vaak een logistieke krachttoer en niet zonder risico.

De Wet van de werkelijk grote aantallen en het Tweeling drama

Indien een experiment vaak genoeg herhaald wordt kan men verwachten dat  een onwaarschijnlijke uitkomst zich toch zal voordoen, ook al is de kans op succes in één experiment nog zo klein.

De kans dat je in een reeks van 10 worpen met een eerlijke dobbelsteen systematisch een “3” bekomt is kleiner dan 1 in 10 miljoen, maar als het aantal worpen onbeperkt is en je dus lang genoeg wacht zal het fenomeen van 10 of meer opeenvolgende “3”-en  zich zeker voordoen. Zo bijvoorbeeld volstonden 7617266 worpen in een simulatie experiment met de computer (dus zonder risico op fysieke letsels).

twintragedy

 

Ook is de kans dat je morgen zelf getuige zal zijn van een auto ongeval gelukkig bijzonder klein, maar is de kans dat iemand die je kent dit overkomt al groter, en als je kijkt naar een langere periode, bijvoorbeeld het hele volgende jaar, nog véél groter.

David Hand illustreert het principe aan de hand van the Twin tragedy (zie figuur).

 

De Wet van Selectie

Deze is in zekere zin verwant met de vorige maar dan vanuit een ander standpunt. Ná de feiten heeft de mens de neiging te focussen op een beperkt aantal toevalligheden terwijl het grote geheel verwaarloosd wordt. Concreet betekent dit dat men een aantal overeenkomsten selecteert en niet stil staat bij het quasi oneindige universum van eigenschappen die niet overeenkomen. Hand illustreert dit met de overeenkomsten tussen twee voormalige presidenten van de Verenigde Staten: Abraham Lincoln en John F. Kennedy.

Beide werden vermoord. op een vrijdag. Telkens door een nekschot, van in de rug, én in het bijzijn van hun echtgenote. Lincoln in Ford’s Theatre en Kennedy in een wagen van het gelijknamige merk. Beiden hadden tijdens hun presidentschap een zoon verloren. Lincoln had een persoonlijke secretaris die John heette en Kennedy had er één die Lincoln heette. Er liggen 100 jaar tussen het aanvangsjaar van hun respectievelijke ambten, beiden hadden ze een opvolger genaamd Johnson en deze hadden ook 100 jaar verschil tussen hun geboortejaar en hadden beiden 4 kinderen.

En zo kunnen we doorgaan met het opsporen van gelijkenissen terwijl we met een wijde boog om de verschillen lopen  zo bijvoorbeeld is JFK geboren in Massachussets en Lincoln in Kentucky.

 De wet van de Hefboom

Zegt dat kleine wijzigingen de waarschijnlijkheid zó kunnen opdrijven dat onwaarschijnlijke gebeurtenissen redelijkerwijze kunnen verwacht worden.

lightning-583713_1280

Zo is de kans dat je door de bliksem getroffen wordt praktisch nul als je bij onweer kan schuilen in een modern gebouw met de gebruikelijke beveiligingen,
maar loop je een veel groter risico als je bewust op zoek gaat naar het open veld of schuilt onder een boom

 

Zo’n 10 jaar geleden waren sommige analysten er vrij gerust in dat extreme financiële verliezen, zoals diegene die eind 2008 een aantal grote banken hebben doen omvallen, zich slechts zeer uitzonderlijk zouden voordoen. Zó uitzonderlijk, dat ze in de praktijk uitgesloten  zijn. Men sprak van een six-sigma event, omdat de verschuiving correspondeert met maar liefst 6 standaardafwijkingen onder een normale verdeling, wat zich minder vaak dan 1 in 100 miljoen keer voordoet (grofweg één keer om de 300000 jaar). De keuze van een normaal model voor een financieel proces was allicht ingegeven door het feit dat dit nu eenmaal een bekende verdeling is die vaak optreedt in natuurlijke processen, maar deze is natuurlijk niet noodzakelijk geldig in de econometrie. Het aanvaarden van meer realistische verdelingen, die erg lijken op de normale, maar de extreme gebeurtenissen beter modelleren heeft als gevolg dat de kans op zo’n “six-sigma-event” plots veel groter wordt.

De wet van Bijna Hetzelfde

Hoeveel mensen hebben een nacht doorgebracht in hetzelfde hotel als Elvis Presley (maar niet op hetzelfde moment) ? Dit principe is eigenlijk ook verbonden met reeds gegeven voorbeelden, waar we hebben opgemerkt dat we de neiging hebben de overeenkomsten te selecteren en in de verf te zetten en die aspecten te verwaarlozen die verschillend zijn (maar die wel maken dat er enorm veel manieren zijn om een buitengewone gebeurtenis te creëren).

Tot besluit

Waarschijnlijk komen spontaan nog voorbeelden bij u op. Het is een leuke oefening om te toetsen of hier één of meerdere van bovengenoemde wetten aan het werk is.

 

Leave a Reply

Your email address will not be published. Required fields are marked *