NLP & Mentale gezondheid

Hier staat NLP niet voor Neuro Linguistisch Programmeren, en het zou me niets verbazen wanneer die term, met het hedendaagse AI in ongebruik zou raken.

Wat kan NLP - Natural Language Processing, dus - betekenen in de wereld van de geestelijke gezondheidszorg? Een specifieke Youtube video gaat hier op in, en ik heb hier wat kreten genoteerd voor een beter begrip en voor referentie om zaken na te zoeken of verder uit te diepen na het betoog (dat in conceptversie is toegevoegd). Het onderwerp richt zich hier op twee aandoeningen waarvan schizofrenie een belangrijke daarvan is.  Daar gaat het om het vinden van Hallucinaties en waanbeelden, waar taal dus een rol speelt. Maar hoe kan je "voorspellen" of een patiĆ«nt inderdaad aan de ziekte lijdt? Termen die daarin voorkomen zijn, o.a:

  • - semantische dichtheid
  • - symptomen (en het subjectieve karakter hiervan)
  • - NAPLS, NA Prodome Longitudinal Study 
  • - semantieke rijkheid = # component vectors / # words
  • - cosine similarity
  • - Overfitting

Een van de basictechnieken om dit model te ontwikkelen was de toepassing van een embeddingsmodel, zoals Word2Vec, een AI model om van woorden in zinnen een vector toe te kennen in een universum en aan de hand van die verschillende vectoren te kunnen zien hoe woorden semantisch van elkaar verschillen of overeenkomen.

De essentie van NLP en AI van dit niveau (machine learning) is dat er een binair-universum wordt opgebouwd en dat bij elke verzameling wordt gekeken of een uitspraak bij de ene dan wel de andere code (schyzofreen, niet-schyzofreen) hoort, op basis van een statistische grens. Dat geeft steeds vier uitkomsten van voorspellingen: een juist waarde die juist voorspeld is, een onjuiste waarde die juist voorspeld is, en twee tegenovergestelde uitkomsten. En door die juiste en onjuist voorspellingen samen te voegen kan men nagaan hoe goed een model werkt. Zijn er teveel fouten aan beide kanten, dus dat iets voorspeld is als ziekte dan wel dat iets dan niet voorspeld is als ziekte, maar wel een ziektegeval zou moeten zijn, dan is het model niet bruikbaar. 

De Video - transscript

Waarom taal. Waarom ga je niet gewoon door en eh, weet je, geef ons je samenvatting van natuurlijke taalverwerking in de neuropsychiatrie ...  over natuurlijke taalverwerking in je psychiatrie ... deze eerste vraag van: waarom taal, waarom geven we zoveel om taal? In de neuropsychiatrie stel je voor dat je ergens in je lichaam pijn hebt, laten we zeggen in je maag en je vertelt gewoon iemand dat je maagpijn hebt, dit lijkt misschien heel voor de hand liggend, maar als je denkt aan het netwerk, het neurale netwerk, is het niet zo voor de hand liggend wat er gebeurt. De misselijkheidscepters of de pijnreceptoren in je maag worden geactiveerd en de pijnboodschap gaat van de waarschuwingsreceptoren naar de dorsale hoorn en van daaruit naar de hersenstam en van daaruit naar de thalamus en oudere gerelateerde corticale gebieden. En van daaruit naar hun taalnetwerk in de hersenen, dus je kunt beargumenteren dat in principe het taalnetwerk in de hersenen indirect toegang heeft tot wat er in je maag gebeurt en op dezelfde manier naar elk ander orgaan in je lichaam.

En dan wat een andere belangrijke opmerking over taal is dat ja de directe boodschap is ik heb buikpijn maar waar we vooral in geĆÆnteresseerd zijn is alle informatie die verder gaat dan de directe boodschap het gebruik van een bepaald woord woordvolgorde en zelfs de akoestische kenmerken van taal die je niet weet kan wat informatie onthullen over wat er gaande is. In je gedachten over innerlijk lichaam, soms zijn de gevoelens erg vaag. Nog steeds, je hebt misschien ergens pijn die nog steeds op een niveau van ongemak is niet gelokaliseerd toch voel je je gewoon niet zo goed maar de woorden zullen die informatie gewoon weggeven. En dus kunnen we zeggen dat alledaagse taal informatie bevat over de functionele status ... Maar dit soort signalen die verborgen zijn in taal zijn erg rijk in diagnostische waarde, maar ze zijn vaak te subtiel om te worden gewaardeerd. Om deze reden gebruiken we de natuurlijke taalverwerking om ... verschillende toepassingen ervan in twee verschillende soorten aandoeningen. Een ​​van hen is meer toegepast en dan is de andere op een meer theoretisch niveau dus in een ideale setting gebeurt dit nog niet in de praktijk van de geneeskunde of neuropsychiatrie, maar in een ideale setting willen we dat een patiĆ«nt naar ons toe komt en gewoon praat, eh, het kan gerelateerd zijn aan hun hoofdklacht of andere onderwerpen en dan voeren we hun taal in een neuraal netwerk en dan gebruiken we het neurale netwerk voor verschillende taken en uiteindelijk wordt de uitkomst aan de arts gegeven om de diagnose te stellen. 

Vandaag ga ik het hebben over twee toepassingen, een bij schizofrenie en dan nog een bij neurodegeneratieve stoornissen. Schizofrenie [als eerste]. Wat is schizofrenie? Het is een stoornis, het wordt een ernstige psychische stoornis genoemd en patiĆ«nten interpreteren de realiteit op een abnormale manier. PatiĆ«nten kunnen hallucinaties hebben, ze kunnen dingen horen die er niet zijn, ze kunnen dingen zien die er niet zijn, ze kunnen valse overtuigingen hebben over wat er gebeurt, ze kunnen paranoĆÆde gedachten hebben, extreem ongeorganiseerde gedachten en gedragingen die meestal zo verzwakkend zijn dat patiĆ«nten helemaal geen functies hebben. Maar ƩƩn probleem is dat veel van deze symptomen die ik net beschreef, als je kijkt naar de psychiatrische leerboeken, zijn ze hier erg subjectief. Want, wat is de grens tussen normaal en abnormaal gedrag, dus als kliniek, maar we kunnen veel missen en veel van de evaluaties zijn gebaseerd op subjectieve evaluatie van 0 tot 10, waarbij 10 het ergst is, hoe erg is de ernst van de stemmen die je hoort, het is een erg subjectief deel van het geduld en een ander deel van de en dit natuurlijk. Deze subjectieve aard van de beoordeling maakt de beoordelingen kwetsbaar voor veel vooroordelen en inconsistenties tussen de clinici, dus we hopen hulpmiddelen van NLP te gebruiken om onze beoordelingen te verbeteren en de objectiviteit van onze evaluaties te verbeteren.

Laten we het hebben over een specifiek voorbeeld van semantische dichtheid, hier heb ik twee voorbeelden patiĆ«nten met schizofrenie, vooral aan het begin, omdat ze aan het einde tegen het einde niet zo veel praten maar aan het begin van de ziekte praten ze misschien veel, dus je zou een uur met een patiĆ«nt in de kliniek zitten, de patiĆ«nt praat met je en dan aan het einde als je een notitie wilt schrijven over wat er is gebeurd, weet je gewoon niet waar je over moet schrijven, omdat er geen logica was. Er was niets coherents in hun taal, dus hier hebben we twee voorbeelden, een van ze is van ik ga het hebben over waar deze gegevens vandaan komen. Een zin is, 

  • ik denk dat ik sterke gevoelens voor politiek heb [en dan de andere is]
  •  dus je kunt niet,... je kunt niet,.. nou ja, eigenlijk ben ik bijzonder, niemand zal me niet uittesten. 

ik dit zijn echte zinnen van de deelnemers aan het onderzoek waar ik het over ga hebben. De eerste is een redelijke zin is logisch de tweede niet zo veel meer woorden dan de eerste maar niet noodzakelijkerwijs meer informatie geven dus we wilden zien of we NLP-methoden konden gebruiken om de semantische dichtheid van taal te meten. We kregen gegevens van Naples North American prodrome longitudinale studie.Dat is een studie die...  volgt individuen voornamelijk adolescenten tieners die eerstegraads familieleden met schizofrenie hebben. Dus de cohort die we bestuderen had nog geen schizofrenie maar ze hadden de genetische risicofactor met een hoog risico op het ontwikkelen van psychose of schizofrenie. ...

Dus onze eerste aanpak om de taal objectiever te maken was om methoden te gebruiken. Op dat moment begon deze studie begon in 2014. Op dat moment werd word2vec vrij belangrijk en die tool is nu veel veranderd... Laten we kijken naar deze zin: we hadden geluk om haar te vinden.

Laten we ons concentreren op het woord "were lucky" in het Engels. Lucky is een zeer kwalitatieve term en we willen het omzetten in een vector. We keken naar alle aangrenzende woorden van het woord lucky en je kunt beslissen over de lengte van het venster hoeveel woorden je wilt opnemen en dan op basis daarvan dus we zien gewoon okĆ©, het woord lucky wat zijn de woorden die samen voorkomen met het woord lucky en we gebruiken een corpus bij het Corpus we gebruikten de New York Times het had ongeveer 43 miljoen zinnen...  en dit hielp ons om dit soort ruimte te creĆ«ren het is erg klein maar elk klein puntje is een woord en woorden die dichter bij elkaar staan, betekenen dat ze de neiging hebben om samen te verschijnen met een grotere waarschijnlijkheid en woorden die ver weg staan ​​de neiging hebben om samen te verschijnen is minder waarschijnlijk. ...En hier is dit gewoon een driedimensionale weergave van  ik geloof dat dat een twee-dimensionale ruimte was, dus dit is gewoon een weergave in 3D. Van die ruimte zal in principe elk stipje zijn coƶrdinaten langs alle dimensies hebben en het woord "lucky" zou zoiets zijn als een vector.

En nu weten we dat een vector kan worden toegewezen aan elk van de woorden in die zin en dan kunnen we heel gemakkelijk deze vectoren toevoegen om de zinsvector te krijgen, dus hier gebruikte een methode die we vector uitpakken noemden, wat betekent dat er andere manieren zijn om bij de zin Vector te komen andere vectoren kunnen worden opgeteld om de vector van deze zin te krijgen of is dit de enige manier door deze zwarte vectoren de enige manier om bij deze zin Vector te komen als je het breekt zijn er andere manieren om het te krijgen en als je denkt aan de zeer dimensionale ruimte weet je dat er veel beperkingen zullen zijn, dus niet elke sommatie zou mogelijk zijn voor dit specifieke geval dat we net kregen toen we het braken naar andere mogelijke sommaties noemen we ze component Vector. Component vectoren omdat we dit type analyse deden op alle zinnen die door de deelnemers werden verstrekt, vonden we een correlatie tussen wat we dachten als clinici als semantisch rijke zinnen en het aantal component vectoren dat erin ging, dus we definiĆ«ren semantische dichtheid als het aantal component vectoren de rode over het aantal woorden de zwarte en voor dit specifieke geval kregen we

is wat we kregen we deden dit type correlatie niet alleen onder de clinici, maar uh we kregen veel

deelnemers van Amazon (mechanical) Turk en we vroegen hen om gewoon te oordelen geef ons hun subjectieve beoordeling van semantische dichtheid en grote correlatie en vonden zeer hoge correlatie tussen wat dit algoritme uren gaf en het subjectieve oordeel van Amazon derde deelnemers dus voor deze zin die we eerder zagen  -  ik denk dat ik wel sterke gevoelens heb voor politiek. Met betrekking tot de semantische dichtheid van de ene voor de andere zin [...] kregen we een semantische dichtheid van 0,93.

Of voor deze: "Soms word ik nerveus en maak ik me zorgen over de tijd en ik kan niet kijk op de klok" kregen we de semantische dichtheid van 0,62.

Als je naar de zin kijkt zie je dat - ik word nerveus - en - ik maak me zorgen - zijn vrijwel hetzelfde zeggen dus de deelnemer gebruikte meer woorden zonder noodzakelijkerwijs meer informatie over te brengen dus om die reden daalde de semantische dichtheid naar 0,62. En dan voor deze zin die we eerder zagen [...] kregen we de semantische dichtheid van 0.14.


Dus we stelden de vraag okĆ© na twee jaar weten we dat rijke persoon uiteindelijk bekeerde tot psychose tot schizofrenie en we kregen hun taal van twee jaar eerder kunnen we deze maat eh op tijd nul gebruiken om te voorspellen wie na twee jaar psychose zal ontwikkelen. En het antwoord was dat met 80 nauwkeurigheid we dat konden doen hier is het resultaat van de logistieke regressie die we kregen en je ziet enkele van de valse en positieve gevallen [zie systematisch fout]. En de algehele nauwkeurigheid was 80 procent we herhaalden de analyse deze keer schudden we alle woorden in de tekst omdat we wilden zien gaat het om andere woorden of gaat het om de betekenis de woordvolgorde doet er ook toe wanneer we alle woorden door elkaar haalden (shuffle) binnen de tekst die door een individu werd aangeleverd zagen we het effect niet meer. Dus voor de geshuffelde-tekst was de semantische dichtheid niet langer in staat om conversie naar psychose te voorspellen. 

Dus het eerste deel van het gesprek over schizofrenie ging over het objectiever maken van de kwalitatieve metingen zoals semantische dichtheid. Het tweede deel van schizofrenie gaat over het ontdekken van symptomen die gemakkelijk over het hoofd worden gezien. Ik weet niet hoe bekend je bent met psychoanalyse, maar tijdens de opleiding psychiatrie leerden we niet alleen luisteren naar wat de patiƫnten direct zeggen, maar ook tussen de regels door lezen. En dit is erg subjectief en onder clinici zijn er veel meningsverschillen over wat de patiƫnt werkelijk bedoelde en er is veel overinterpretatie van wat de patiƫnt werkelijk zei. Maar zijn er manieren om verder te gaan dan objectieve manieren om verder te gaan dan wat een individu direct zegt eerder hadden we het over deze gemakkelijke relatief gemakkelijke methode om zinnen om te zetten in een vector. Een vector die alle bordvectoren samenvat die in een zin voorkomen hier hebben we alle woorden in het Engels geƫvalueerd die de hoogste gelijkenis hadden met de zin vector wanneer je woorden of zinnen omzet in een vector kun je allerlei berekeningen doen om de gelijkenis tussen twee concepten te meten. Je kunt gemakkelijk de cosinus van gelijkenis meten tussen de twee vectoren. Dat is een vrij standaardmethode.

[...] De woorden die het meest representatief zijn voor patiĆ«nten die overgaan op psychose in tegenstelling tot een basislijn wat zijn die woorden voordat we bij wat die woorden zijn wat was onze basislijn we hadden iets nodig om te vergelijken. De converters de individuen overgegaan op schizofrenie om die reden gebruiken we de taal van Reddit gebruikers.

[ wanneer je die twee woord dimensies met elkaar vergelijkt...] welke zijn dan de woorden die mensen gebruiken die lantent schyzofreen zijn dan zijn dat woorden die audio-gericht zijn, dus woorden die iets met het gehoor doen. [samengevat] ... het is een gedachte of een stem die uit hun hoofd komt en soms ... verwart een patiƫnt zijn eigen stem met zijn gedachte ... hij zei dat ik iets zou horen dat "klinkt als een vliegtuigmotor" of .. het klinkt als een kleine vlam of een cel een digitale motor. Hier zie je een soort bizarre associatie tussen een vlam en een digitale motor...

[...] Dus stelden we de vraag: kunnen we de conversie naar psychose voorspellen met behulp van de stem Vector. Hier waren we in staat om psychose te voorspellen met behulp van deze Vector... met een nauwkeurigheid van 0.93 procent dus in principe met deze twee variabelen waren we in staat om twee kwalitatieve evaluatie objectief te maken en met behulp van die objectieve metingen om psychose te voorspellen...

Q&A

De eerste vraag is van Magdalena - hoe zijn dit soort analyses hoe houden dit soort analyses rekening met inherente verschillen in de structuur van taal eh in de gebruikte New York Times corpora geschreven taal versus onderzoeksgegevens [als] spraak. Een voorbeeld zou verschillende onderwerpen kunnen zijn eh of co-occurrences frequenties grammatica meer eh colliqiaal taalgebruik?

Een heel goede vraag. Ja eerst dat is eh zeg dat we we gebruiken New York tijd we begonnen met het gebruiken van New York Times omdat het de grootste beschikbare corpus was [van] geschreven talen. Ze zijn groot er zijn wat getranscribeerde gesproken talen recent hebben we die gebruikt zoals switchboard of de Santa Barbara maar zoals deze waar we het over hadden 48 miljoen zinnen dus vermenigvuldigd met 10 misschien omdat misschien elke zin heeft ongeveer 10 woorden uh dus het is een erg grote corpus als je het vergelijkt met switchboard het heeft maar tweeĆ«nhalf miljoen woorden, geen zinnen. Dus we begonnen met New York Times gewoon omdat het veel groter was dan elke andere getranscribeerde taal maar we hebben de resultaten gerepliceerd met behulp van Reddit het is meer casual conversatie en verrassend genoeg is er veel correlatie in termen van woordfrequentie syntaxis frequentie er is veel correlatie tussen de twee en we hebben exact dezelfde resultaten gerepliceerd met behulp van Reddit wat meer casual is recent voor een andere niet deze vergelijk ik New York Times en switchboard. Nogmaals we kregen dezelfde resultaten dus het is interessant. Ik bedoel veel hiervan zijn nieuw toch dus het is een erg goede vraag die je opwierp veel van deze dingen zijn nieuw we moeten ze gewoon testen maar voor ons geval ze hebben geen significante verandering in het resultaat aangebracht en dan kijken deze analyses alleen naar de semantische dichtheid voor elke zin of andere samengestelde metingen werden berekend voor volledige patiĆ«ntuitingen uh ik weet niet of dat als er is of er andere voorbeelden zijn van waar ze het specifiek over hebben korte antwoorden ja we zaten net in die specifieke analyse we waren geĆÆnteresseerd in semantische dichtheid omdat het een van de belangrijkste indicatoren is van mentale gezondheid of psychische stoornis dus we waren geĆÆnteresseerd in het hebben van een objectieve meting daarvan als er specifieke voorbeelden zijn waar je aan denkt laat het me weten okĆ© en dan  dit is van Jin Wu hoi toen je zei dat je psychose kon voorspellen met een nauwkeurigheid van 86 bedoel je de echte positieve snelheid van de voorspellingen van je algoritme dus niet alleen dat dus nauwkeurigheid zou zijn echt positief en uh ook dus als je kijkt als je hier kijkt dus we hebben vier vierkante res dus nauwkeurigheid zou de som zijn van dit vierkant en dit vierkant gedeeld door alle vier de vierkanten dus de andere die je zei zou gevoeligheid zijn maar nauwkeurigheid houdt rekening met beide vierkanten okĆ© en dan uh Ishita ik wil zeggen dat ik zie je vraag maar ik ga je vraag bewaren voor het einde omdat ik het gevoel heb dat we daar nog veel langer over kunnen praten dit is van Thomas Choi zou je project de mogelijkheid hebben om op verschillende ziekten te worden toegepast goede vraag misschien voor het eerste deel semantische dichtheid ja want dat is iets dat we zien bij andere aandoeningen zoals neurodegeneratieve aandoeningen Alzheimer zien we ook zoals mensen praten veel maar ze slaan niet veel op ja ik geloof voor auditieve hallucinatie het tweede deel zal zijn dat stemmen meet ik denk dat dat een beetje specifieker is voor schizofrenie of een andere aandoening zoals drugsmisbruik omdat mensen daar ook auditieve hallucinaties mee kunnen hebben dus je zou specifiek moeten zijn voor syndromen die dat type hebben symptoom okĆ© en toen iemand wilde vragen of je alsjeblieft nog een keer kon uitleggen wat de definitie is van de semantische dichtheid.

OkĆ© hier dus we zeiden dat elk woord ƩƩn vector heeft in een stel je voor dat het een 200-dimensionale ruimte is en we voegen deze vectoren gewoon toe om de zinvector te krijgen dit denk aan het woord het getal acht wat zijn de manieren waarop we aan dit getal kunnen komen we kunnen niet zeggen dat het ƩƩn plus ƩƩn plus zes is of we kunnen zeggen dat het vijf plus drie is dus er zijn verschillende manieren om aan  dat getal te komen er zijn verschillende manieren om vectoren toe te voegen dus we vroegen uh als we zinvector opbreken net zoals hoe we a in zijn componenten hebben opgedeeld uh hoeveel componentvectoren we krijgen nogmaals omdat het een zeer dimensionale ruimte is kunnen we geen mogelijke sommatie van vectoren hebben dus er is enige beperking en we zullen een beperkt aantal beperkte mogelijkheden hebben om vectoren aan elkaar toe te voegen zinnen die betekenisvol voor ons zijn logisch zouden ze het exacte aantal zinvectoren hebben als component

vectoren en ze zullen een perfecte semantische dichtheid van ƩƩn hebben, maar zinnen die veel herhaling of overlapping hebben, wat betekent dat je niet zoveel componentvectoren nodig hebt om hun

werkelijke zinsvector te vormen, dus je hebt er misschien maar twee en dan krijg je een semantische dichtheid van 0,5.

= OkƩ en dan doen we nog een vraag voordat we verder gaan, dit is van Christopher uh is er een manier om de vraag met de stem te stellen, zo niet uit mijn ervaring is er weinig probleem met discrepantie in de clinicus in de clinicus die psychose oppikt maar heb je overwogen uh het nut van het algoritme voor het helpen van niet-getrainde zoals EMS of maatschappelijk werkers.

Dit is iets dat gedaan moet worden uh dus we zitten nog maar op het niveau van onderzoek dit  hopelijk kunnen we deze bevindingen op grotere schaal repliceren en dan is het het doel is om apps te hebben die zoals jij je patiĆ«nten je mobiele telefoon geeft, gewoon de stem opnemen, het transcriberen en het algoritme wordt uitgevoerd en geeft je een waarschijnlijkheid van of de mogelijkheid van het ontwikkelen van psychose. Dus dit is het ideaal, maar we ben nog niet op dat punt gekomen. Maar je hebt helemaal gelijk EMS ik bedoel dat zal fantastisch zijn uh zoals ook bij je degeneratieve aandoeningen vraag je patiĆ«nten om te praten en dan krijg je aan het einde een soort kansverdeling van alle mogelijke aandoeningen dus dat is het doel we zijn er nog niet.

= okƩ perfect en iedereen die ik ken er zijn meer vragen maar die bewaren we voor het einde omdat ik er zeker van wil zijn dat we ook door het volgende gedeelte komen dus Nadine waarom gaan we niet terug naar jou en gaan we verder.

Deel twee -  Neurodegeneratieve stoornis [IN CONCEPT uitgewerkt]

Klinkt geweldig. Het tweede deel van het krijt is meer Neurodegeneratieve stoornis theoretisch de andere was erg het werd toegepast een toegepaste methode om het begin van schizofrenie te voorspellen deze is meer theoretisch het gaat over neurodegeneratieve stoornis wat wat zijn ze zijn een groep progressieve neurologische ziekten die ervoor zorgen dat de hersencellen afsterven en de hersenen kleiner worden als gevolg daarvan afhankelijk van waar in de hersenen we verlies van hersencellen hebben en welke eiwitten welke pathologie is erbij betrokken we hebben verschillende soorten neurodegeneratieve aandoeningen een daarvan zou de ziekte van Alzheimer kunnen zijn het
zou kunnen zijn voor ondertemporale dementie dit schilderij is trouwens van mijn vriend voor een evenement om patiƫnten met neurodegeneratieve aandoeningen te eren had ze dit heel groot schilderij dus er zit een verhaal achter elk van hen maar we kunnen er later over praten maar de ziekte waar we ons op gaan richten is primaire progressieve vergelijking het is een soort neurodegeneratieve aandoening maar het is uniek eraan is dat het specifiek gericht is op het taalnetwerk in de hersenen dus
patiƫnten komen naar ons toe en ze functioneren heel goed ze gaan werken ze doen alles maar er zijn er een paar er is iets mis met hun taal er zijn verschillende dingen die fout kunnen gaan misschien hebben ze geen toegang tot bepaalde woorden

[de afbeelding gaat in op (verhoudingen van):

  • inhoudswoorden tov totaal aantal woorden
  • de ratio van werkwoorden tot zelfstandige naamwoorden
  • zware inhoudswoorden tot alle werkwoorden
  • deelwoorden (gerundium) tov alle werkwoorden]

of misschien is hun syntaxis helemaal niet zo ingewikkeld. We gaan het hebben over een subtype dat niet-vloeiend wordt genoemd uh en deze individuen hebben een neurodegeneratief proces gaande in dit deel van hun hersenen linker frontale insuline of frontale voornamelijk wanneer ze verlies van hersencellen hebben. In dit gebied wordt hun taal moeitevol. Ze zullen lange pauzes hebben en het tempo zou langzamer zijn...

[de studie gaat in op (zware) werkwoorden en zelfstandige naamwoorden en inhoudswoorden versus lichtere woorden.] 

Als experiment vroegen we gezonde individuen een pciknickfoto te beschrijven, en hier zochten ze naar (woord)frequentieverschillen en ze gebruikten wederom het corpus van de NYTimes om eenvoudige tellingen van woorden te krijgen. Wat zijn de meest voorkomende zelfstandige naamwoord die Engelstaligen gebruiken? Dat zijn woorden als:

  • jaar, persoon, dag, huis, tijd 

deze zijn heel gebruikelijk de meest voorkomende woorden en dan in de New York Times was een van de minst voorkomende zelfstandige naamwoorden. ... en ik wist niet eens wat het was maar blijkbaar is het een eiwit in het celmembraan dus hij deze heeft waarschijnlijk een logfrequentie van ik weet het niet wilde je een schatting geven van wat deze getallen betekenen dus hoe zit het met werkfrequentie er is veel aan de hand en vanaf de 19e eeuw is dit een onderwerp geweest van experimenten volgens psycholinguĆÆstische literatuur of minder frequente woorden zoals Vigilant ze zijn moeilijker te verwerken ze zijn moeilijker het duurt langer om ze te lezen het duurt langer om ze te verwerken in de hersengebieden die actief zijn zijn meer wanneer je het vergelijkt met woorden zoals denken of versnelling die we vaak gebruiken. Vanuit het perspectief van Informatie Theorie:

  • minder frequente woorden herbergen meer informatie

Dus als je bijvoorbeeld deze drie woorden vergelijkt: ding, bouwen en zandkasteel. Deze zijn heel verschillend in termen van woordfrequentie en ze zijn heel verschillend in termen van de hoeveelheid informatie die ze geven je ding geeft je niet veel informatie maar zandkasteel geeft je een heel precies idee over waar ik het over heb. Dus we vroegen me hij gaf commentaar op al die kenmerken waar we het over hadden is dat patiĆ«nten met nfvppa gebruiken woorden met een lagere frequentie en dit was precies het geval toen we hun wet vergeleken met de woordfrequentie de gemiddelde woordfrequentie die patiĆ«nten met nfppa gebruikten was veel lager en gezonde controles toen ze werden gevraagd om slechts ƩƩn of twee zinnen te produceren werd dit nog extremer. Dus het alternatieve standpunt was dat okĆ© patiĆ«nten met niet-vloeiende afasie niet kunnen praten om welke reden dan ook die we niet kennen hun zinnen zijn erg kort dus misschien houden ze zich gewoon aan woorden die erg informatief zijn ten koste van het laten vallen van minder informatieve woorden zoals  er is niet veel informatie in de wereld maar er zit veel informatie in het woord zandkasteel. 

[...dat patiĆ«nten eigenlijk hoe meer problemen een patiĆ«nt heeft met de syntaxis van hun zinnen ... zouden ze woorden met een lagere frequentie gebruiken, dus het lijkt erop dat ze echt proberen om hun kernstructuur te compenseren door meer informatieve woorden te gebruiken dus dan is de vraag of we deze hypothese kunnen testen:  is er een manier om informatie te meten als er een manier is om daadwerkelijk de hoeveelheid informatie in elke zin te meten en deze te vergelijken met een gezonde controle-groep dan kunnen we deze hypothese testen. En het antwoord is ja door natuurlijke taalverwerking hebben we nu methoden gekregen die de hoeveelheid informatie in elke zin kunnen meten dit programma meet verrassing en dit werd ontwikkeld door James Michael van en het meet Surprisal / verrassing. En wat is verrassing? Verrassing meet de waarschijnlijkheid dat een woord in een zin voorkomt bijvoorbeeld als ik zeg dat het meisje een maakt dus er zijn veel woorden die ik hier kan gebruiken maar sommige zullen meer informatie bevatten en het is net als een schuifraam eerst zullen we dit woord maskeren en proberen dit te voorspellen en dan maskeren we dit voor het tweede woord en proberen we

dat te creƫren en dan door het gemiddelde van de waarschijnlijkheid te krijgen van elk krijgen we de verrassing van de hele zin en we verwachten dat wanneer we een taalmodel gebruiken om de berekening voor ons te doen dus dit is mijn laatste dia gewoon om ervoor te zorgen dat we genoeg tijd hebben om de vragen te beantwoorden maar nu is de vraag wat verwachten we om het voorstel te laten correct we verwachten dat deze zin de zin is van gezonde individuen en patiƫnten met nfpp om dezelfde hoeveelheid informatie te hebben en fupa-patiƫnten hebben moeite met het verwerken van syntaxis maar ze krijgen meer woorden met inhoud om dit te compenseren en het antwoord is dit is eigenlijk wat er gebeurt elk klein puntje is een is de verrassing of de hoeveelheid informatie de hele zin dit is van gezonde controles en dit is van nfepa-patiƫnten en ze zijn dit ding er is geen verschil tussen de hoeveelheid informatie die we produceren maar NFPA-patiƫnten proberen in te halen door een andere strategie te gebruiken dus dit tweede deel was een meer theoretische toepassing van gewoon het testen van een theorie achter een belangrijke afasiestoornis en testen of dit voorstel nu correct is of niet, het heeft zeker enkele toepassingen, want tot nu toe hebben we niet-vloeiende patiƫnten behandeld, misschien op een verkeerde manier, door te proberen het gebruik van werkwoorden te vergroten, omdat we dachten dat dat een pathologie was, maar dat was niet de pathologie die eigenlijk hun manier was om de werkelijke fysiologie te compenseren, dus het heeft wel enige uh toepassings.

Conclusie, dus zoals we spraken, wordt taal herhaald met lagen over lagen van informatie over een paar over de mentale gezondheid van een individu en deze informatie gaat vaak verder dan de directe boodschap van het individu, we kunnen natuurlijke language meetverwerkingsmethoden om deze subtiele kenmerken te extraheren en we kunnen ook NLP gebruiken om enkele theorieƫn te testen...

Q&A [...]

= Eerste vraag aangezien de modellen niet 100% nauwkeurig zijn zijn zijn er patronen van kenmerken tussen degenen die onnauwkeurig zijn gecategoriseerd door het algoritme een voorbeeld is zoals deelnemers die onnauwkeurig zijn gelabeld, zijn over het algemeen ouder of zoiets.

Heel goede vraag uh dus uh we proberen dus het is moeilijk als we de analyse daadwerkelijk hebben gedaan om te zien wat er misgaat of waarom het het berekent uh er zijn weet je kleine dingen belangrijk uh helaas uh we willen dat het heel robuust is de methoden maar het zijn kleine veranderingen zoals de manier waarop we transcriberen dingen zouden ertoe doen zoals doe je als een patiĆ«nt zegt Ah ik weet niet of je het zet uh doe je het of niet doe je transcribeer het of niet dat ertoe doet er zijn kleine beslissingen die het verschil maken idealiter zouden al deze moeten worden verantwoord of leeftijd we hebben controle voor leeftijd gedaan dus dat zou geen probleem moeten zijn uh en ik heb het niet genoemd tijdens de lezing alle getallen die ik gaf uh in deze presentatie waren na kruisvalidatie dus we hadden een set van 80 we kregen het algoritme gewoon aan de praat en toen op een testset van 20 nog eens 20 van de individuen hebben we het opnieuw getest dus om weet je weet gewoon zeker dat we niet overfitten uh maar er zijn zoveel variabelen we hebben zoveel mogelijk gecontroleerd maar veel van hen konden er gewoon niet achter komen wat ze we hebben het verkeerd begrepen

= okƩ en uh volgende vraag is van Seth uh weet je of er een vergelijkbare verschuiving is naar Grotere dichtheid van informatie bij kinderen met taalstoornissen ... weet je of er een vergelijkbare verschuiving is naar Grotere dichtheid van informatie bij kinderen met taalstoornissen um.

Het antwoord nee we hebben dat niet getest maarvan het in hun bereik dat we hebben getest zagen we niet en er was een grote variabiliteit we haddenindividuen zo jong als ik geloof 11 jaar oud entot 30.dus in dat bereik toen we een vergelijking er was geen verschil dus leeftijd was geen factor maar natuurlijk zijn dingen in de ontwikkeling heel anders en dit is een heel ander gebied hoe we

um zoals taalverwerving we hebben dat niet getest maar in een bereik in het brede bereik van leeftijd dat we hebben getest was er geen verschil inin hun taal of hoe ze zich gedragen gevaren van de taal

= okƩ en dit is van Neo is semantische dichtheid een vaardigheid die kan worden verbeterd als de persoon geen acuut geval is verbeterd.

Bedoel je zoals ze worden hoger ja dit is wat we verwachten ja goed punt want uh vooral in het begin als we hebben zoals eerste keer psychoseer zou zijn zoals acute uh fase alles gaat mis heel ernstig uh auditieve gastland en dan na de acute fase worden dingen tijdelijk beter totdat Helaas krijgen ze nog een pauze dus ja we verwachten dat ze na de acutefase een beteresemantische dichtheid hebben bijna dicht bij normaal maar dan weet je het is als een ziekte als die dus het gaat op en neer op en neer maar uiteindelijk gaat het omlaagdus 10 jaar na het begin zullen ze een lagere semantische dichtheid hebben, ongeacht de acute fase, ja.

= [de dia's beschikbaar zullen zijn na de presentatie] 

= okƩ, dus je hebt dit soort van beantwoord toen we het hadden overweet je het gebruik van uh NLP in de echte wereld om te detecterenweet je in een app waar iemand in de app zou spreken en het zou een weet je een waarschijnlijkheid van dat geven maarzijn er andere soorten echte wereld use cases voorhet onderzoek dat je nu doet hoe kunnen we dit nu nemen en toepassen, dus dit veld is erg nieuw, erg jong.

Het is nog maar het begin, ik bedoel, er zijn niet zo heel veel uh studies met behulp van taalmodellendus het is erg nieuw en uh clinici zijn over het algemeen erg voorzichtig. Het is alsof de gelijkenis ervan zou zijn zoals het vinden van een medicijn of een medicijn dat wordt gebruikt voor een kleine populatie dat is geweldig, heel veelbelovend, maar om te verwijzen naar een medicijn dat moet worden toegediend op Grote schaal heb je verschillende fasen en het moet worden goedgekeurd door de FDA en dan controleren grootschalige studies de bijwerkingen en nadat het alle deze stappen heeft doorlopen, wordt het vrijgegeven, zelfs daarna zullen er problemen zijn, uh dus ja, dus hier moeten we ook heel voorzichtig zijn, zoals als het programma moet worden getest op grotere monsters steeds meer repliceren, want het is vreselijk om iemand te misleiden met schizofrenie niet zozeer het missen ervan, maar het verkeerd labelen ervan zou een probleem zijn, uh dus uh er is een lange weg van eerste veelbelovende resultaten tot echte toepassingen en nogmaals, clinici zijn over het algemeen voorzichtig om goede redenen, uh maar het is geweldig dat je weet dat we in ieder geval in eerste instantie goede resultaten hebben, uh we zijn optimistisch, het zou niet zo lang moeten duren, maar dingen moeten absoluut worden gerepliceerd en perfect worden getest ... (https://www.youtube.com/watch?v=icnYR2TN1fg).

-- volgende keer, follow-up?

https://www.youtube.com/watch?v=QdlUxDAfoq8 (zie wordcloud)


Reacties

Populaire posts van deze blog

Typisch Spaans: Balay

Het grootste bordeel van Europa

Homerus (Illias) versus Vergilius (Aeneis)