OpenAI demonstreert een controlemethode voor superintelligente AI

Technologie

OpenAI demonstreert een controlemethode voor superintelligente AI

admin_wwl

December 15, 2023

OpenAI demonstreert een controlemethode voor superintelligente AI

Op een dag, zo luidt de theorie, zullen wij mensen AI-systemen creëren die ons intellectueel overtreffen. Dat zou geweldig kunnen zijn als ze problemen oplossen die we tot nu toe niet hebben kunnen oplossen (denk aan kanker of kanker). klimaatverandering), of heel slecht als ze beginnen te handelen op een manier die niet in het beste belang van de mensheid is, en we niet slim genoeg zijn om ze tegen te houden.

Dus eerder dit jaar, OpenAI lanceerde zijn superalignment programmaeen ambitieuze poging om technische middelen te vinden om een superintelligent AI-systeem te controleren, of om het ‘op één lijn te brengen’ met menselijke doelen. OpenAI besteedt 20 procent van zijn computercapaciteit aan deze inspanning en hoopt tegen 2027 oplossingen te hebben.

De grootste uitdaging voor dit mission: “Dit is een toekomstig probleem met toekomstige modellen waarvan we niet eens weten hoe we ze moeten ontwerpen, en waar we zeker geen toegang toe hebben”, zegt Collin Burnslid van OpenAI superalignment-team. “Dit maakt het erg lastig om te studeren, maar ik denk dat we ook geen keus hebben.”

De eerste preprintpapier dat uit het superalignment-team komt, laat zien hoe de onderzoekers die beperking probeerden te omzeilen. Ze gebruikten een analogie: in plaats van te kijken of een mens adequaat toezicht kon houden op een superintelligente AI, gingen ze testen het vermogen van een zwak AI-model om toezicht te houden op een sterk AI-model. In dit geval kreeg GPT-2 de taak toezicht te houden op de veel machtiger GPT-4. Hoeveel krachtiger is GPT-4? Terwijl GPT-2 dat wel heeft 1,5 miljard parametersHet gerucht gaat dat GPT-4 dit heeft 1,76 biljoen parameters (OpenAI heeft de cijfers voor het krachtigere mannequin nooit vrijgegeven).

Het is een interessante aanpak, zegt Jacob Hilton van de Uitlijningsonderzoekscentrum; hij was niet betrokken bij het huidige onderzoek, maar is een voormalig OpenAI-medewerker. “Het is al lang een uitdaging om goede empirische testbedden te ontwikkelen voor het probleem van het afstemmen van het gedrag van bovenmenselijke AI-systemen”, vertelt hij. IEEE-spectrum. “Dit artikel maakt een veelbelovende stap in die richting en ik ben benieuwd waar het toe leidt.”

“Dit is een toekomstig probleem met toekomstige modellen waarvan we niet eens weten hoe we ze moeten ontwerpen, en waar we zeker geen toegang toe hebben.” —Collin Burns, OpenAI

Het OpenAI-team gaf het GPT-paar drie soorten taken: schaakpuzzels, een reeks natuurlijke taalverwerkingsbenchmarks (NLP), zoals gezond verstand redeneren, en vragen gebaseerd op een dataset van ChatGPT reacties, waarbij de taak bestond uit het voorspellen welke van meerdere reacties de voorkeur zou hebben van menselijke gebruikers. In beide gevallen werd GPT-2 specifiek op deze taken getraind, maar omdat het geen erg groot of capabel mannequin is, presteerde het er niet bijzonder goed op. Vervolgens werd de coaching overgebracht naar een versie van GPT-4 met alleen een basistraining en geen verfijning voor deze specifieke taken. Maar onthoud: GPT-4 met alleen basistraining is nog steeds een veel capabeler mannequin dan GPT-2.

De onderzoekers vroegen zich af of GPT-4 dezelfde fouten zou maken als zijn supervisor, GPT-2, die hem in wezen instructies had gegeven over hoe hij de taken moest uitvoeren. Opmerkelijk genoeg presteerde het sterkere mannequin consequent beter dan zijn zwakke toezichthouder. Het sterke mannequin deed het bijzonder goed op de NLP-taken en bereikte een nauwkeurigheidsniveau vergelijkbaar met GPT-3.5. De resultaten waren minder indrukwekkend bij de andere twee taken, maar het waren ‘tekenen van leven’ om de groep aan te moedigen deze taken uit te voeren, zegt Leopold Aschenbrennereen andere onderzoeker van het superalignmentteam.

De onderzoekers noemen dit fenomeen zwakke tot sterke generalisatie; ze zeggen dat het aantoont dat het sterke mannequin impliciete kennis had over hoe de taken moesten worden uitgevoerd, en die kennis in zichzelf kon vinden, zelfs als het slechte instructies kreeg.

In dit eerste experiment werkte de aanpak het beste met de NLP-taken, omdat het vrij eenvoudige taken zijn met duidelijke goede en foute antwoorden, zegt het staff. Het deed het het slechtst met de taken uit de ChatGPT-database, waarin werd gevraagd om te bepalen welke antwoorden mensen zouden verkiezen, omdat de antwoorden minder duidelijk waren. “Sommige waren subtiel beter, andere subtiel slechter”, zegt Aschenbrenner.

Kan deze uitlijningstechniek worden opgeschaald naar superintelligente AI?

Burns geeft een voorbeeld van hoe een soortgelijke situatie zich in de toekomst zou kunnen afspelen met superintelligente AI. “Als je hem vraagt iets te coderen, en hij genereert een miljoen regels extreem ingewikkelde code die op totaal nieuwe manieren met elkaar interacteert en die kwalitatief anders zijn dan hoe mensen programmeren, dan kun je misschien niet zeggen: doet dit wat we ervan vragen? ?” Mensen kunnen er ook een daaruit voortvloeiende instructie aan geven, zoals: Veroorzaak geen catastrofale schade tijdens uw codeerwerk. Als het mannequin heeft geprofiteerd van zwakke tot sterke generalisatie, zou het kunnen begrijpen wat het betekent om catastrofale schade te veroorzaken en – beter dan zijn menselijke toezichthouders dat kunnen – zien of zijn werk zich op gevaarlijk terrein begeeft.

“We kunnen alleen toezicht houden op eenvoudige voorbeelden die we kunnen begrijpen”, zegt Burns. “We moeten (het mannequin) generaliseren naar veel moeilijkere voorbeelden die bovenmenselijke modellen zelf begrijpen. We moeten dat inzicht opwekken over: ‘is het veilig of niet, telt het volgen van instructies’, waar we niet direct toezicht op kunnen houden.”

Sommigen zouden kunnen beweren dat deze resultaten eigenlijk een slecht teken zijn voor superalignment, omdat het sterkere mannequin opzettelijk de (foutieve) instructies negeerde en zijn eigen agenda nastreefde om de juiste antwoorden te krijgen. Maar Burns zegt dat de mensheid geen superintelligente AI wil die onjuiste instructies volgt. Bovendien, zo zegt hij, “zullen veel van de fouten van de zwakke toezichthouder in de praktijk meer de vorm hebben van: ‘dit probleem is veel te moeilijk voor mij, en ik heb er hoe dan ook geen uitgesproken mening over.’” In dat geval, zegt hij, hebben we een superintelligentie nodig die de juiste antwoorden voor ons kan bedenken.

Om andere onderzoekers aan te moedigen dergelijke problemen aan te pakken, OpenAI heeft dit vandaag aangekondigd dat het US$ 10 miljoen aan subsidies aanbiedt voor werk aan een breed scala aan afstemmingsbenaderingen. “Historisch gezien was afstemming meer theoretisch”, zegt Pavel Izmailov, een ander lid van het superalignmentteam. “Ik denk dat dit werk beschikbaar is voor academici, studenten en de machine learning-gemeenschap.” Sommige beurzen zijn op maat gemaakt voor afgestudeerde studenten en bieden zowel een stipendium van $ 75.000 als een computerbudget van $ 75.000.

Burns voegt hieraan toe: “We zijn hier erg enthousiast over, omdat ik denk dat we voor het eerst echt een setting hebben waarin we dit probleem van het afstemmen van toekomstige bovenmenselijke modellen kunnen bestuderen.” Het kan een toekomstig probleem zijn, zegt hij, maar ze kunnen ‘vandaag iteratieve empirische vooruitgang boeken’.

Van uw siteartikelen

Kan deze uitlijningstechniek worden opgeschaald naar superintelligente AI?

LEAVE A REPLY Cancel reply