Een mannequin met kunstmatige intelligentie (AI) heeft woorden als ‘wieg’ en ‘bal’ leren herkennen door met de hoofdcamera opnames van een klein deel van het leven van één child te bestuderen.
De resultaten suggereren dat AI ons kan helpen begrijpen hoe mensen leren, zegt Wai Eager Vong, co-auteur van het onderzoek en onderzoeker op het gebied van AI aan de New York College. Dit was voorheen onduidelijk, omdat andere modellen voor het leren van talen, zoals ChatGPT, leren op miljarden datapunten, wat niet vergelijkbaar is met de ervaringen van een child in de echte wereld, zegt Vong. “We krijgen geen web als we geboren worden.”
De auteurs hopen dat het onderzoek, gerapporteerd in Wetenschap op 1 februari1, zal een bijdrage leveren aan al lang bestaande debatten over de manier waarop kinderen taal leren. De AI leerde alleen door associaties op te bouwen tussen de beelden en woorden die ze samen zagen; het was niet geprogrammeerd met enige andere voorkennis over taal. Dat daagt sommige cognitiefwetenschappelijke theorieën uit dat child’s, om betekenis aan woorden te kunnen hechten, enige aangeboren kennis nodig hebben over hoe taal werkt, zegt Vong.
Het onderzoek is “een fascinerende benadering” om de vroege taalverwerving bij kinderen te begrijpen, zegt Heather Bortfeld, cognitief wetenschapper aan de Universiteit van Californië, Merced.
Babyperspectief
Vong en zijn collega’s gebruikten 61 uur aan opnames van een digital camera gemonteerd op een helm gedragen door een jongetje genaamd Sam, om ervaringen te verzamelen vanuit het perspectief van het sort. Sam, die in de buurt van Adelaide in Australië woont, droeg de digital camera twee keer per week ongeveer een uur (ongeveer 1% van zijn wakkere uren), vanaf de leeftijd van zes maanden tot ongeveer twee jaar.
De onderzoekers trainden hun neurale netwerk – een AI geïnspireerd door de structuur van de hersenen – op frames uit de video en woorden die tegen Sam werden gesproken, getranscribeerd uit de opname. Het mannequin werd blootgesteld aan 250.000 woorden en bijbehorende beelden, vastgelegd tijdens activiteiten als spelen, lezen en eten. Het mannequin gebruikte een techniek genaamd contrastief leren om te leren welke afbeeldingen en tekst vaak samengaan en welke niet, om informatie op te bouwen die kan worden gebruikt om te voorspellen naar welke afbeeldingen bepaalde woorden, zoals ‘bal’ en ‘kom’, verwijzen.
Om de AI te testen, vroegen de onderzoekers het mannequin om een woord te matchen met een van de vier kandidaat-afbeeldingen, een take a look at die ook wordt gebruikt om de taalvaardigheid van kinderen te evalueren. In 62% van de gevallen werd het object met succes geclassificeerd – veel beter dan de 25% die bij toeval werd verwacht, en vergelijkbaar met een vergelijkbaar AI-model dat was getraind op 400 miljoen beeld-tekstparen van buiten deze dataset.
Voor sommige woorden, zoals ‘appel’ en ‘hond’, kon het mannequin voorheen onzichtbare voorbeelden right identificeren – iets wat mensen over het algemeen relatief gemakkelijk vinden. Gemiddeld gebeurde dit 35% van de tijd met succes. De AI was beter in het identificeren van objecten buiten hun context wanneer deze vaak voorkwamen in de trainingsgegevens. Het was ook het beste in het identificeren van objecten die weinig van uiterlijk verschillen, zegt Vong. Woorden die naar allerlei verschillende voorwerpen kunnen verwijzen, zoals ‘speelgoed’, waren moeilijker te leren.
Reduce over leren
De afhankelijkheid van de studie van gegevens van één enkel sort zou vragen kunnen oproepen over de generaliseerbaarheid van de bevindingen, omdat de ervaringen en omgevingen van kinderen sterk variëren, zegt Bortfeld. Maar de oefening onthulde dat er in de vroegste dagen van het sort veel kan worden geleerd door alleen maar associaties te vormen tussen verschillende sensorische bronnen, voegt ze eraan toe. De bevindingen dagen ook wetenschappers uit – zoals de Amerikaanse taalkundige Noam Chomsky – die beweren dat taal te advanced is en de invoer van informatie te schaars is om taalverwerving te laten plaatsvinden through algemene leerprocessen. “Dit behoren tot de sterkste gegevens die ik heb gezien en die aantonen dat dergelijke ‘speciale’ mechanismen niet nodig zijn”, zegt Bortfeld.
DeepMind AI leert eenvoudige natuurkunde als een child
Het leren van talen in de echte wereld is veel rijker en gevarieerder dan de AI heeft ervaren. De onderzoekers zeggen dat de AI, omdat hij zich beperkt tot het trainen van stilstaande beelden en geschreven tekst, geen interacties kan ervaren die inherent zijn aan het leven van een echte child. De AI had bijvoorbeeld moeite met het leren van het woord ‘hand’, dat meestal al vroeg in het leven van een child wordt geleerd, zegt Vong. “Child’s hebben hun eigen handen, ze hebben er veel ervaring mee. Dat is absoluut een ontbrekend onderdeel van ons mannequin.”
“Het potentieel voor verdere verfijningen om het mannequin beter af te stemmen op de complexiteit van het menselijk leren is enorm, en biedt opwindende mogelijkheden voor vooruitgang in de cognitieve wetenschappen”, zegt Anirudh Goyal, een machine learning-wetenschapper aan de Universiteit van Montreal, Canada.