Er is een relatie tussen lengte en kaalheid; hoe langer een persoon is, hoe groter de kans dat deze kaal is.
Data science is een onderdeel van de AI-wereld die een grote verandering gaat brengen in de analyse-wereld. Waar data is, is analyse mogelijk, en in de digitale wereld is er steeds meer data. Komt er dan ook steeds meer onderzoek? En anders dan voorheen. Het is duidelijk dat er veel nieuwe mogelijkheden komen die er vroeger niet waren. Maar data is er al een tijd. Dat het zo lang geduurd heeft dat de analyse een versnelling richting data (science) heeft gemaakt komt denk ik omdat men zich moest aanpassen aan de nieuwe werkelijkheid waarin programmeertalen een nieuwe rol spelen.
Zo ben ik zelf enige tijd geleden ook begonnen. En dan kom je overal opeens data tegen, zoals deze tabel van inwoners van de VS. Wist jij dat, vroeg ik diegene die me deze data overdroeg? Dat Californië de grootste staat qua inwoners is, gevolgd door Texas, en met deze aantallen [uit 2014 overigens]?
- 4 CA California 38,802.500
- 43 TX Texas 26,956.958
- 9 FL Florida 19,893.297
- 32 NY New York 19,746.227
- 13 IL Illinois 12,880.580
- 38 PA Pennsylvania 12,787.209
- ...
- 7 DE Delaware 935.614
- 41 SD South Dakota 853.175
- 34 ND North Dakota 739.482
- 1 AK Alaska 736.732
- 8 DC D.o.Columbia 658.893
- 45 VT Vermont 626.562
- 50 WY Wyoming 584.153
Weer wat geleerd, denk ik dan. Maar ik merk ook hoe leuk Data Science - waar dit natuurlijk nog geen echte variant van is - kan zijn.
Wat ik zelf al heel snel gemerkt heb is, organisatie. Alles begint bij organiseren. In die zin is data science niets anders dan elke ander vorm van kennis en theorie, je moet het goed organiseren.
"The forrest for the trees," is een toepasselijke uitspraak van iemand die ik volg in de investeringswereld. Door de bomen het bos (nog) zien...
De / een volgende stap in het project is om de GDP-data erbij te halen en deze te combineren. Dat levert het volgende beeld op:
state NomGDP population GDP/cap %of Nat
0 California 3641643 CA 38802500 0.093851 14.11%
1 Texas 2402137 TX 26956958 0.089110 9.37%
2 New York 2048403 NY 19746227 0.103736 7.86%
3 Florida 1439065 FL 19893297 0.072339 5.77%
...
46 South Dakota 68782 SD 853175 0.080619 0.26%
47 Montana 67072 MT 1023579 0.065527 0.26%
48 Alaska 65699 AK 736732 0.089176 0.25%
49 Wyoming 49081 WY 584153 0.084021 0.18%
50 Vermont 40831 VT 626562 0.065167 0.16%
New York "wint" met een lager aantal inwoners duidelijk van Florida, qua GDP, en aan de onderkant hetzelfde voor Vermont die verlies van Wyoming.
... Terug naar het voorbeeld van kaalheid. Mannen zijn zowel vaker langer dan vrouwen als vaker kaal. Het is dus de taak van de data wetenschapper om relaties te vinden in de data. [dit voorbeeld komt uit het boek...]
Een derde stap zou kunnen zijn om de bevolkingsdichtheid per staat in het verhaal te betrekken, dat zijn gegevens zoals deze:
state den/mi2 d/km2pop land/mi2 land/km2
44 Idaho 24 9.2 1964726 82643 214045
45 New Mexico 17 6.7 2114371 121298 314161
46 South Dakota 12 4.7 919318 75811 196350
47 North Dakota 11 4.4 783926 69001 178711
48 Montana 7.8 3 1132812 145546 376962
49 Wyoming 6 2.3 584057 97093 251470
50 Alaska 1.3 0.5 733406 570641 1477953
en dan kijken hoe de onderlinge afhankelijkheden liggen...
--
Reacties