Spelen met Ngrams (2)
Met het bereik van Ngram = 2 beginnen woordcombinaties zichtbaar te woorden, maar twee (2) is meestal niet voldoende. Het voldoet om namen te vinden, maar in het geval van New en York zijn er meer mogelijkheden. bij Drie (3) vind je een nieuw onderscheid: - in / naar New York - Hotel New York. Deze laatste in Rotterdam bijvoorbeeld. Hier komt ook het onderscheid naar voren tussen verschillende Ai modellen. Inhoudelijk gestuurde modellen, zoals Machine Learning zullen het type van het woord gebruiken en weten dat hotel een zelfstandig naam woord is, en "in" of "naar" een voorzetsel. Daarmee kan je al taalbegrip afleiden. Bij grote Deep Learning modellen (), is dat niet nodig, want die bepalen zelf hoe ze leren, en hebben zoiets archaïsch als een zelfstandig naamwoord of lidwoord niet nodig. Mill kan molen betekenen, maar ook een naam zijn, ook dat is te vinden met Ngrams. John Stuart Mill, bijvoorbeeld. Hiervoor is N = 3 nodig. Een gewone inventarisatie van woordfre...