Entree in de wereld van Data Science

Er is een relatie tussen lengte en kaalheid; hoe langer een persoon is, hoe groter de kans dat deze kaal is.

Data science is een onderdeel van de AI-wereld die een grote verandering gaat brengen in de analyse-wereld. Waar data is, is analyse mogelijk, en in de digitale wereld is er steeds meer data. Komt er dan ook steeds meer onderzoek? En anders dan voorheen. Het is duidelijk dat er veel nieuwe mogelijkheden komen die er vroeger niet waren. Maar data is er al een tijd. Dat het zo lang geduurd heeft dat de analyse een versnelling richting data (science) heeft gemaakt komt denk ik omdat men zich moest aanpassen aan de nieuwe werkelijkheid waarin programmeertalen een nieuwe rol spelen.

Zo ben ik zelf enige tijd geleden ook begonnen. En dan kom je overal opeens data tegen, zoals deze tabel van inwoners van de VS. Wist jij dat, vroeg ik diegene die me deze data overdroeg? Dat Californië de grootste staat qua inwoners is, gevolgd door Texas, en met deze aantallen [uit 2014 overigens]?

  • 4 CA California 38,802.500
  • 43 TX Texas         26,956.958
  • 9 FL Florida         19,893.297
  • 32 NY New York 19,746.227
  • 13 IL Illinois         12,880.580
  • 38 PA Pennsylvania 12,787.209
  • ...
  • 7 DE Delaware 935.614
  • 41 SD South Dakota 853.175
  • 34 ND North Dakota 739.482
  • 1 AK Alaska 736.732
  • 8 DC D.o.Columbia 658.893
  • 45 VT Vermont 626.562
  • 50 WY Wyoming 584.153

Weer wat geleerd, denk ik dan. Maar ik merk ook hoe leuk Data Science - waar dit natuurlijk nog geen echte variant van is - kan zijn.

Wat ik zelf al heel snel gemerkt heb is, organisatie. Alles begint bij organiseren. In die zin is data science niets anders dan elke ander vorm van kennis en theorie, je moet het goed organiseren.

"The forrest for the trees," is een toepasselijke uitspraak van iemand die ik volg in de investeringswereld. Door de bomen het bos (nog) zien...

De / een volgende stap in het project is om de GDP-data erbij te halen en deze te combineren. Dat levert het volgende beeld op:

        state NomGDP population  GDP/cap %of Nat 
0 California 3641643 CA 38802500 0.093851 14.11%
1 Texas 2402137 TX 26956958 0.089110 9.37%
2 New York 2048403 NY 19746227 0.103736 7.86%
3 Florida 1439065 FL 19893297 0.072339 5.77%
...
46 South Dakota 68782 SD 853175 0.080619 0.26%
47 Montana 67072 MT 1023579 0.065527 0.26%
48 Alaska 65699 AK 736732 0.089176 0.25%
49 Wyoming 49081 WY 584153 0.084021 0.18%
50 Vermont 40831 VT 626562 0.065167 0.16%

New York "wint" met een lager aantal inwoners duidelijk van Florida, qua GDP, en aan de onderkant hetzelfde voor Vermont die verlies van Wyoming.

... Terug naar het voorbeeld van kaalheid. Mannen zijn zowel vaker langer dan vrouwen als vaker kaal. Het is dus de taak van de data wetenschapper om relaties te vinden in de data. [dit voorbeeld komt uit het boek...]

Een derde stap zou kunnen zijn om de bevolkingsdichtheid per staat in het verhaal te betrekken, dat zijn gegevens zoals deze:

state             den/mi2  d/km2pop         land/mi2     land/km2
44 Idaho         24     9.2 1964726     82643     214045
45 New Mexico 17     6.7 2114371     121298    314161
46 South Dakota 12     4.7 919318     75811     196350
47 North Dakota 11     4.4 783926     69001     178711
48 Montana         7.8        3         1132812     145546    376962
49 Wyoming 6     2.3 584057     97093     251470
50 Alaska         1.3     0.5 733406     570641    1477953
 
en dan kijken hoe de onderlinge afhankelijkheden liggen...


--

Reacties

Populaire posts van deze blog

Typisch Spaans: Balay

Economie - Teveel wiskunde, te weinig geschiedenis?

Begraven of cremeren?