De kunst van statistiek (David Spiegelhalter)
Van The art of Statistics, van David Spiegelhalter, las ik al enige tijd geleden de samenvatting.
Statistiek is een onderdeel van de wiskunde, dat gericht is op de levenscyclus van gegevens. De methode die de schrijver uitlegt kent vijf stadia en kan met het acroniem PPDAC worden samengevat: Problem, Plan, Data, Analysis en Conclusion. Het werk van de statisticus is om een probleem te identificeren, een plan ontwerpen om het op te lossen, gegevens verzamelen, analyseren en interpreteren, alvorens tot een conclusie te kunnen komen.
De auteur geeft aan in het geval van seriemoordenaar Shipman, dat door statistiek te gebruiken de moorden veel eerder opgelost zouden kunnen worden.
Data-verzameling voor statistiek is niet eenvoudig, omdat de mens subjectief te werk gaat. Andersom kan data zo gemanipuleerd worden dat statistiek misbruikt kan worden.
Bij een interview of survey met enkel antwoorden als excellent, very good, good, fair en Ok, is het moeilijk om echte objectieve klantfeedback te krijgen.
Presentatie van gegeven bepaald hoe het wordt geïnterpreteerd. Via inter-oculaire analyse kan met een oogopslag gezien worden wat het beeld is, maar de presentatie en interpretatie is niet altijd zo recht-toe-recht-aan. Via framing kan elke gewenst effect bewerkstelligd worden.
Data in de academische wereld wordt vaak gemasseerd om tot de gewenste conclusie te komen.
Positive bias betekent dat studenten of lezers enkel de onderzoeken te zien krijgen die een hypothese ondersteund, niet die deze tegenspreekt.
De media houdt van storytelling waarmee accuraatheid in het gedrang komt.
Gerapporteerde gemiddelden kunnen misleidend zijn, wanneer niet duidelijk is wat de verzamelingen zijn, bv de mens heeft gemiddeld een testikel of heeft gemiddeld 1,999 benen.
Het mantra van de statisticus is: correlatie levert geen oorzaak (correlation does not imply causation), maar dat cliché ten spijt betekent niet dat het niet iedereen hiervan bewust is en dat deze misvatting uit de wereld is. In tegenstelling.
Kansberekening wordt vaak nog verkeerd begrepen. Hoe groot is de kans op twee keer hoofd wanneer je een munt twee keer opgooit, blijkt toch nog vaak foutief beantwoord te worden. Maar de iets moeilijkere vragen geven nog meer verscheidenheid in antwoorden van het algemene publiek.
B.v een ziekte diagnose is 90% accurraat. Wat wanneer een patiënt een redelijk zeldzame ziekte gediagnosticeerd heeft, wat is dan de kans dat ze echt de ziekte heeft? Normaal denk je 90% kans, maar de verzameling van mensen die deze ziekte NIET heeft is veel groter. Hierdoor zijn de false positives gegeven de groep die de ziekte niet heeft groter dan de true positives binnen de kleinere groep die de ziekte wel heeft.
Juist met dit onderdeel van Bayesiaanse statistiek heb ik zelf nog wel moeite... En dit is ook voor de belegger essentiële kost.
Dan is er de gamblers' fallacy: wanneer er tien keer munt is gevallen, denkt men dat de kans op kop toeneemt. Beleggers "weten" wel beter.
--
Reacties