Deepseek als paard van Troye?

Actueler dan Deepseek, kan het bijna niet. Er volgen vele speculaties over deze Chinese AI-agent, een soort van David en Goliath verhaal, lijkt het.

Zelf kreeg ik geen reactie om mijn vragen

Ik stelde de app - die ik downloadde op mijn mobiel, wat ik bij de andere AI-agent niet heb gedaan, drie vragen, waar ik na een minuut stilte geen antwoord op kreeg. Nou zijn er ook grenzen bij de "gewone" AI's maar dit soort vragen zijn toch weinig exorbitant of extreem. Als ik nu had gevraag wie een betere leider was: Hitler of Mao, dan zou ik me voor kunnen stellen dat ik geen antwoord zou krijgen.

AI-agents, hebben onze input nodig. Dat vergeten we misschien. Maar zonder onze input blijft elke AI-app doods. Sterker nog, ze hebben onze input nodig om die door te verkopen en om te zien wat er leeft in de samenleving. Maar goed dit is een ander thema.

Die miljardinvesteringen (bij Meta, MS en dergelijke) vond ik zelf ook wel een beetje een signaal dat AI op zijn top is, maar ik ben ook geen echte expert. Maar wat moeten we met dit. Is Deepseek de nieuwe Bitcoin? Waar moeten we het mee vergelijken?

En wat zegt Deepseek over AI in het algemeen? Zelf weet ik het niet dus volg ik maar een beetje wat anderen zeggen.

Hier eerst een mening

[zonder AI* zou ik dit stuk niet vertaald kunnen hebben, in ieder geval niet zo snel]

"Het beste model voor kunstmatige intelligentie op de markt is Chinees, goedkoop, gratis en open source. Dat lijkt goed nieuws voor de consument, maar de fabrikant van Nvidia-chipaandelen lijdt de grootste daling in de geschiedenis van de aandelenmarkt, met [tevens] grote "happen" uit Google, Amazon, en Microsoft; dat Meta de staat van noodgeval en de technologische investeerder Marc Andreessen verklaart dat we een Spoetnik-moment beleven. ...

... Vorig jaar publiceerde grote financiële instellingen zoals Goldman Sachs, Sequoia Capital, Moody's of Barclays, rapporten waarin de winstgevendheid van de faraonische infrastructuur investeringen betwijfeld werden waar AI-bedrijven om vroegen en dat ze de beloften niet zouden waarmaken.

.... DeepSeek heeft hen het bewijs geleverd dat het trainen van goede modellen geen 100.000 Nvidia H100s-kaarten of een faraonische architectuur vereist, die zich voortdurend uitbreidt. Met veel kan er meer gedaan worden minder. De wet van Kaplan, die zegt dat het onvermijdelijk is om het model te schalen, niet waar is.

Ten tweede, wist minstens één van de “magnifieke zeven” dat dit zou gebeuren. In een intern document dat twee jaar geleden uitlekte, waarschuwde een Google-ingenieur dat open source op het punt stond hen rechts in te halen. “De modellen van Open source zijn sneller, aanpasbaarder, privater en, relatief gesproken, capabeler.” Zijn advies was om te leren samenwerken met mensen buiten Google. Demis Hassabis, hoofd AI bij het bedrijf, zei dat het document authentiek was en [maar] dat hij was er niet mee eens was...

Grote modellen zoals ChatGPT of Claude wordt doorgaans getraind via een grootschalig begeleid leerproces, waarna de training wordt verfijnd met behulp van ondersteund versterkend leren, om de resultaten af te stemmen op de cultuur en de gewenste waarden. Het verschil tussen begeleid (supervised learning) en versterkend leren (reinformcement learning) is dat de eerste met data leert die vooraf door mensen gelabeld zijn, met een bekende correcte respons voor elk trainingsvoorbeeld. Deze manier van ‘studeren’ vereist voorbereiding van datasets, een taak waarbij veel tijd investering nodig is. Het vereist ook heel veel energie om elke keer al die “herinneringen” te verwerken. Versterkend leren, gebruikt echter inhoud die niet noodzakelijkerwijs is getagd, en werkt met een proces van vallen en opstaan; of straf en beloning. Er wordt vaak gezegd dat het net alsof is, dat je studeert met studieboeken en een docent die jouw resultaten corrigeert; en de andere is alsof je alleen op straat opgaat en leert fietsen. Je leert door vallen en opstaan...

Volgens het begeleidend wetenschappelijke artikel heeft DeepSeek

het proces omgedraaid.

Ze beginnen met een kleine begeleide trainingsbasis, zodat het model een minimum aan grammatica en structuur leert en zo communicatie- en leesbaarheidsproblemen vermijdt; maar het grootste deel van de training is reinforcement learning, met ongelabelde databases. Dit verlaagt niet alleen de kosten voor het voorbereiden van de gegevens, maar de computerinspanning, omdat u die datasets niet enorme hoeveelheden data in uw geheugen hoeft te laden. Het heeft ook verschillende snelkoppelingen uitgevonden, zoals het verlagen van de resolutie van trainingsgegevens naar 8 bits, in plaats van de traditionele 32 of 16 bits om tegemoet te komen aan de beperkingen van de oudere chips. DeepSeek zegt dat het getraind met 5,6 miljoen dollar en 2.048 Nvidia H800-chips voor twee maanden. De H800 is een kleinere versie kracht van Nvidia's H100s-chip. Het is ontworpen om op de Chinese markt te verkopen in overeenstemming met de nieuwe Amerikaanse exportwetten.

Het is mogelijk dat de beperkingen die de regering-Biden vorig jaar heeft opgelegd, in het verleden verbood Nvidia zijn chips te verkopen A100 of H100 voor Chinese bedrijven, ongeacht of ze Chinese ontwikkelaars gedwongen om vindingrijker dan hun collega's in Californië. Zijn recente immigratiebeleid zou ook een bijdrage kunnen hebben geleverd. De Aziatische diaspora heeft een belangrijke rol gespeeld in de ontwikkeling van technologieën in Silicon Valley. Breng al die hersenen terug moet de lokale cultuur ten goede zijn gekomen.

Is niet enkel zo dat een klein beleggingsfonds niet alleen de Amerikaanse hegemonie breekt, maar ook Alibaba, Biren Technology, MetaX of Huawei? Dat zou betekenen dat er niet gewacht hoeft te worden op nieuwe leveringen van Nvidia, wat haar waardering zou rechtvaardigen. Maar chips die voor andere dingen bestemd waren, kunnen worden gerecycled voor AI zaken. Dat generatieve AI niet te duur is en ingewikkeld voor dat ze het meer dan vijf maken bedrijven. Dat er een Europese AI ontwikkeld kan worden in de universiteit. Het is ook mogelijk dat er is veel meer geld uitgegeven aan en toegang gegeven is tot hypermoderne chips. Alexander Wang, een centrale acteur wiens bedrijfslabels bases van gegevens voor begeleid leren, zegt dat "DeepSeek meer dan 50.000 H100s heeft, maar hij zegt dat niet voor de “Amerikaanse controles”. Wat duidelijk is, is dat ze veel geïnvesteerd moeten hebben in onderzoek dan ze zeggen, en experimenteren met verschillende formules voordat ze de juiste vonden. Zo is de wetenschappelijke ontwikkeling. En het is onmiskenbaar dat ze het gedaan hebben op de schouders van de voormalige generatie. Bovendien heeft Sam Altman van OpenAI gesuggereerd dat de Chinezen de resultaten hebben gebruikt die door ChatGPT-4 zijn gegenereerd om uw model te trainen, in plaats van vanaf nul te beginnen met originele gegevens. Dit zou hen begeleid leren hebben gered, maar het zou een schending zijn van de gebruiksvoorwaarden van OpenAI, en een moment van perfect leedvermaak voor alle kunstenaars, journalisten, filmmakers, muzikanten, academici en gebruikers wiens werk is verteerd zonder toestemming voor het bestaan van ChatGPT.

En als laatste: Is het een veilige applicatie of een paard van Troje? Zal het Volksbevrijdingsleger het Westen domineren? "Als dat zo was, zouden ze ontdekt worden. “heel snel”, vertelt expert Mikko Hipponen mij. DeepSeek-V3 kan door elke gebruiker worden geïnstalleerd en verwijderd om te zien wat deze heeft, en in een maand hebben ze niets relevants gevonden.

Bovendien zijn de trainingsgegevens en -methodologie niet gedeeld. Dat betekent dat het niet opnieuw opgebouwd kan worden vanaf nul, wat hem diskwalificeert als werkelijk open [source], maar we weten ook niet in hoeverre het geïndoctrineerd is met Chinese overheidspropaganda. Op dit punt weten we dat [deepseek] niet wil praten over Tiananmen [en bovenstaande vragen]. U zult zich op uw gemak voelen bij een ChatGPT die weigert over seks te praten, de Grok twijfelt aan verkiezingen 2020 en Instagram laat je zeggen dat als je homo bent je een ziekte hebt. Maar de meeste Gebruikers zullen DeepSeek niet op servers installeren, maar zullen het gebruiken als een applicatie op hun mobiel, waardoor dezelfde relatie van toezicht en afhankelijkheid ontstaat als een Instagram- of TikTok-account. In de algemene voorwaarden staat dat de gegevens van gebruikers, inclusief gesprekken en de antwoorden worden opgeslagen op servers in China en gebruikt voor doeleinden reclames, inclusief trainingen van nieuwe modellen. In die zin is DeepSeek niet beter of slechter dan ChatGPT, Claude, of Grok." (Marta Peirano, https://elpais.com/opinion/2025-01-30/deepseek-el-modelo-chino-de-ia-que-llego-para-corregir-el-mercado.html)

Het laatste woord...

Maar hier zal het laatste woord nog niet over zijn gezegd. Heeft Deepseek de gebruikersvoorwaarden van ChatGPT geschonen, zijn Nvidia Chips via Singapore verkocht aan het bedrijf, wat weer een andere bron meent te weten?

De waarheid rolt hier rustig achter aan. Het zijn dit keer de consumenten die niet aan het korste eind lijken te trekken. Maar het verhaal is nog niet uit...

* - Google Translate. Maar dat gaat ook nog niet foutloos. Ik merk bij meerdere vertalingen dat Engels- Nederlands het minste problemen oplevert. Spaans-Nederlands is al moeilijker. [Deze tekst is ~~nog niet~~ inmiddels gecorrigeerd]

--
2024/07/chip-wars-chris-miller

Zoeken in deze blog

Management, Cultuur & Verandering