AI beveiligen: navigeren door het complexe landschap van modellen, finetuning en RAG

Gezondheid

AI beveiligen: navigeren door het complexe landschap van modellen, finetuning en RAG

admin_wwl

December 19, 2023

AI beveiligen: navigeren door het complexe landschap van modellen, finetuning en RAG

Bijna van de ene op de andere dag is kunstmatige intelligentie (AI) voor de meeste organisaties een prioriteit geworden. Een zorgwekkende pattern is het toenemende gebruik van AI door tegenstanders om kwaadaardige activiteiten uit te voeren. Geavanceerde actoren maken gebruik van AI om aanvallen te automatiseren, inbreukstrategieën te optimaliseren en zelfs legitiem gebruikersgedrag na te bootsen, waardoor de complexiteit en omvang van bedreigingen escaleert. Deze weblog bespreekt hoe aanvallers AI-systemen kunnen manipuleren en compromitteren, waarbij potentiële kwetsbaarheden en de implicaties van dergelijke aanvallen op AI-implementaties worden benadrukt.

Door invoergegevens of het trainingsproces zelf te manipuleren, kunnen tegenstanders het gedrag van een mannequin op subtiele wijze veranderen, wat leidt tot uitkomsten zoals vertekende resultaten, verkeerde classificaties of zelfs gecontroleerde reacties die hun snode doeleinden dienen. Dit kind aanval brengt de integriteit, het vertrouwen en de betrouwbaarheid van AI-gestuurde systemen in gevaar en creëert aanzienlijke risico’s voor de applicaties en gebruikers die erop vertrouwen. Het onderstreept de dringende behoefte aan robuuste beveiligingsmaatregelen en goede monitoring bij het ontwikkelen, verfijnen en inzetten van AI-modellen. Hoewel de nood dringend is, geloven wij dat er reden is voor hoop.

Het grootschalige gebruik van AI komt in een vroeg stadium, en de mogelijkheid om passende beveiligingsmaatregelen te overwegen in een dergelijke fundamentele staat van een transformationele technologie is opwindend. Deze paradigmaverschuiving vereist een proactieve aanpak van cyberbeveiligingsmaatregelen, waarbij het begrijpen en tegengaan van door AI aangedreven bedreigingen essentiële componenten van onze defensiestrategieën worden.

AI/Machine Studying (ML) is niet nieuw. Veel organisaties, waaronder Cisco, implementeren al geruime tijd AI/ML-modellen en zijn al tientallen jaren onderwerp van onderzoek en ontwikkeling. Deze variëren van eenvoudige beslissingsbomen tot complexe neurale netwerken. De opkomst van geavanceerde modellen, zoals Generative Pre-trained Transformer 4 (GPT-4), markeert echter een nieuw tijdperk in het AI-landschap. Deze geavanceerde modellen, met een ongekend niveau van verfijning en mogelijkheden, zorgen voor een revolutie in de manier waarop we omgaan met technologie en informatie verwerken. Op transformatoren gebaseerde modellen laten bijvoorbeeld opmerkelijke capaciteiten zien op het gebied van het begrijpen en genereren van natuurlijke taal, waardoor nieuwe grenzen worden geopend in veel sectoren, van netwerken tot de geneeskunde, en het potentieel van AI-gestuurde toepassingen aanzienlijk wordt vergroot. Deze voeden veel moderne technologieën en diensten, waardoor de beveiliging ervan een topprioriteit wordt.

Om een AI-model helemaal opnieuw op te bouwen, moet je beginnen met onbewerkte algoritmen en het mannequin geleidelijk trainen met behulp van een grote dataset. Dit proces omvat het definiëren van de architectuur, het selecteren van algoritmen en het iteratief trainen van het mannequin om te leren van de verstrekte gegevens. In het geval van grote taalmodellen (LLM’s) zijn aanzienlijke rekenbronnen nodig om grote datasets te verwerken en complexe algoritmen uit te voeren. Een substantiële en various dataset is bijvoorbeeld cruciaal voor het effectief trainen van het mannequin. Het vereist ook een diepgaand begrip van machine learning-algoritmen, datawetenschap en het specifieke probleemdomein. Het helemaal opnieuw opbouwen van een AI-model is vaak tijdrovend en vereist uitgebreide ontwikkelings- en trainingsperioden (met title LLM’s).

Verfijnde modellen zijn vooraf getrainde modellen die zijn aangepast aan specifieke taken of datasets. Door dit verfijningsproces worden de parameters van het mannequin aangepast zodat ze beter aansluiten op de behoeften van een taak, waardoor de nauwkeurigheid en efficiëntie worden verbeterd. Bij het verfijnen wordt gebruik gemaakt van de kennis die het mannequin heeft verworven op foundation van een eerdere, doorgaans grote en algemene dataset, en wordt deze aangepast aan een meer gerichte taak. De rekenkracht kan kleiner zijn dan die van het start af aan, maar is nog steeds van groot belang voor het trainingsproces. Voor het verfijnen zijn doorgaans minder gegevens nodig dan bij het helemaal opnieuw bouwen, omdat het mannequin al algemene kenmerken heeft geleerd.

Ophalen van Augmented Era (RAG) combineert de kracht van taalmodellen met het ophalen van externe kennis. Het stelt AI-modellen in staat informatie uit externe bronnen te halen, waardoor de kwaliteit en relevantie van hun output wordt verbeterd. Met deze implementatie kunt u informatie ophalen uit een database of kennisbank (vaak vectordatabases of datastores genoemd) om de reacties ervan te vergroten, waardoor het bijzonder effectief wordt voor taken die actuele informatie of uitgebreide context vereisen. Web als bij het afstemmen vertrouwt RAG op vooraf getrainde modellen.

Tremendous-tuning en RAG zijn weliswaar krachtig, maar kunnen ook unieke beveiligingsuitdagingen met zich meebrengen.

AI/ML-operaties en beveiliging

AI/ML Ops omvat de gehele levenscyclus van een mannequin, van ontwikkeling tot implementatie en doorlopend onderhoud. Het is een iteratief proces waarbij modellen worden ontworpen en getraind, modellen in productieomgevingen worden geïntegreerd, de prestaties en beveiliging van modellen voortdurend worden beoordeeld, problemen worden aangepakt door modellen bij te werken en ervoor wordt gezorgd dat modellen reële belastingen aankunnen.

Het inzetten van AI/ML en het verfijnen van modellen brengt unieke uitdagingen met zich mee. Modellen kunnen in de loop van de tijd verslechteren als invoergegevens veranderen (dwz modeldrift). Modellen moeten de grotere lasten efficiënt verwerken en tegelijkertijd de kwaliteit, veiligheid en privateness garanderen.

Beveiliging in AI moet een holistische benadering zijn, waarbij de gegevensintegriteit wordt beschermd, de betrouwbaarheid van modellen wordt gewaarborgd en bescherming wordt geboden tegen kwaadwillig gebruik. De bedreigingen variëren van datavergiftiging, beveiliging van de AI-toeleveringsketen, snelle injectie tot het stelen van modellen, waardoor robuuste beveiligingsmaatregelen essentieel zijn. Het Open Worldwide Software Safety Challenge (OWASP) heeft uitstekend werk geleverd bij het beschrijven van de prime 10 bedreigingen tegen Giant Language Mannequin (LLM)-applicaties.

MITRE heeft ook een kennisbank gecreëerd van tactieken en technieken van tegenstanders tegen AI-systemen, de zogenaamde MIJTER ATLAS (Adversarieel dreigingslandschap voor kunstmatige-intelligentiesystemen). MITRE ATLAS is gebaseerd op aanvallen uit de echte wereld en proof-of-concept-exploitatie door AI-rode groups en beveiligingsteams. Technieken verwijzen naar de methoden die door tegenstanders worden gebruikt om tactische doelstellingen te bereiken. Het zijn de acties die worden ondernomen om een specifiek doel te bereiken. Een tegenstander kan bijvoorbeeld initiële toegang verkrijgen door het uitvoeren van een snelle injectie-aanval of door zich te richten op de toeleveringsketen van AI-systemen. Bovendien kunnen technieken de resultaten of voordelen aangeven die de tegenstander door zijn acties heeft behaald.

Wat zijn de beste manieren om deze bedreigingen te monitoren en ertegen te beschermen? Wat zijn de instruments die de beveiligingsteams van de toekomst nodig zullen hebben om infrastructuur en AI-implementaties te beveiligen?

Groot-Brittannië en de VS hebben zich ontwikkeld richtlijnen voor het creëren van veilige AI-systemen die tot doel hebben alle ontwikkelaars van AI-systemen te helpen bij het maken van weloverwogen keuzes op het gebied van cyberbeveiliging gedurende de gehele ontwikkelingslevenscyclus. Het richtsnoer onderstreept hoe belangrijk het is om op de hoogte te zijn van de AI-gerelateerde belongings van uw organisatie, zoals modellen, gegevens (inclusief gebruikersfeedback), aanwijzingen, gerelateerde bibliotheken, documentatie, logboeken en evaluaties (inclusief particulars over mogelijk onveilige functies en foutmodi). , waarbij de waarde ervan als substantiële investering en hun potentiële kwetsbaarheid voor aanvallers worden erkend. Het adviseert om AI-gerelateerde logs als vertrouwelijk te behandelen, de bescherming ervan te garanderen en de vertrouwelijkheid, integriteit en beschikbaarheid ervan te beheren.

Het doc benadrukt ook de noodzaak van effectieve processen en hulpmiddelen voor het volgen, authenticeren, versiebeheer en beveiligen van deze activa, samen met de mogelijkheid om ze in een veilige staat te herstellen als ze worden aangetast.

Onderscheid maken tussen kwetsbaarheden in de AI-beveiliging, uitbuiting en bugs

Met zoveel technologische vooruitgang moeten we duidelijk zijn over de manier waarop we over beveiliging en AI praten. Het is essentieel dat we onderscheid maken tussen beveiligingsproblemen, de exploitatie van die kwetsbaarheden en simpelweg functionele bugs in AI-implementaties.

Kwetsbaarheden in de beveiliging zijn zwakke punten die kunnen worden uitgebuit om schade te veroorzaken, zoals ongeoorloofde gegevenstoegang of modelmanipulatie.
Uitbuiting is het gebruik van een kwetsbaarheid om schade aan te richten.
Functionele bugs verwijzen naar problemen in het mannequin die de prestaties of nauwkeurigheid ervan beïnvloeden, maar vormen niet noodzakelijkerwijs een directe bedreiging voor de veiligheid. Bugs kunnen variëren van kleine problemen, zoals verkeerd gespelde woorden in een door AI gegenereerde afbeelding, tot ernstige problemen, zoals gegevensverlies. Niet alle bugs zijn echter exploiteerbare kwetsbaarheden.
Bias in AI-modellen verwijst naar de systematische en oneerlijke discriminatie in de output van het mannequin. Deze vertekening komt vaak voort uit scheve, onvolledige of bevooroordeelde gegevens die tijdens het trainingsproces worden gebruikt, of uit een gebrekkig modelontwerp.

Het begrijpen van het verschil is cruciaal voor effectief risicobeheer, risicobeperkingsstrategieën en, belangrijker nog, wie in een organisatie zich op welke problemen moet concentreren.

Forensisch onderzoek en herstel van gecompromitteerde AI-implementaties

Het uitvoeren van forensisch onderzoek op een gecompromitteerd AI-model of gerelateerde implementaties impliceert een systematische aanpak om te begrijpen hoe het compromis heeft plaatsgevonden en om toekomstige gebeurtenissen te voorkomen. Beschikken organisaties over de juiste instruments om forensisch onderzoek in AI-modellen uit te voeren? De instruments die nodig zijn voor AI-forensisch onderzoek zijn gespecialiseerd en moeten omgaan met grote datasets, complexe algoritmen en soms ondoorzichtige besluitvormingsprocessen. Naarmate de AI-technologie vordert, is er een groeiende behoefte aan meer geavanceerde instruments en experience op het gebied van AI-forensisch onderzoek.

Bij herstel kan het nodig zijn het mannequin helemaal opnieuw te trainen, wat kostbaar kan zijn. Het vereist niet alleen computerbronnen, maar ook toegang tot kwaliteitsgegevens. Het ontwikkelen van strategieën voor efficiënt en effectief herstel, inclusief gedeeltelijke herscholing of gerichte updates van het mannequin, kan van cruciaal belang zijn bij het beheersen van deze kosten en het verminderen van risico’s.

Het aanpakken van een beveiligingsprobleem in een AI-model kan een complicated proces zijn, afhankelijk van de aard van de kwetsbaarheid en de manier waarop deze het mannequin beïnvloedt. Het mannequin helemaal opnieuw trainen is één optie, maar dit is niet altijd noodzakelijk of de meest efficiënte aanpak. De eerste stap is het grondig begrijpen van de kwetsbaarheid. Is het een probleem van gegevensvergiftiging, een probleem met de architectuur van het mannequin of een kwetsbaarheid voor vijandige aanvallen? De saneringsstrategie zal sterk afhankelijk zijn van deze beoordeling.

Als het probleem verband houdt met de gegevens die worden gebruikt om het mannequin te trainen (bijvoorbeeld vergiftigde gegevens), is het van essentieel belang om de gegevensset op te schonen om eventuele kwaadaardige of corrupte invoer te verwijderen. Dit kan gepaard gaan met het opnieuw valideren van de gegevensbronnen en het implementeren van robuustere gegevensverificatieprocessen.

Soms kan het beveiligingslek worden verholpen door de hyperparameters aan te passen of het mannequin te verfijnen met een veiligere of robuustere dataset. Deze aanpak vergt minder middelen dan volledige herscholing en kan voor bepaalde soorten problemen effectief zijn. In sommige gevallen, vooral als er architectonische bugs zijn, kan het nodig zijn de architectuur van het mannequin bij te werken of te wijzigen. Hierbij kan het gaan om het toevoegen van lagen, het wijzigen van activeringsfuncties, enz. Omscholing vanaf nul wordt vaak gezien als een laatste redmiddel vanwege de benodigde middelen en tijd. Als de fundamentele integriteit van het mannequin echter in gevaar komt, of als incrementele oplossingen niet effectief zijn, kan het volledig opnieuw trainen van het mannequin de enige optie zijn.

Naast het mannequin zelf kan het implementeren van robuuste beveiligingsprotocollen in de omgeving waarin het mannequin actief is, de risico’s beperken. Dit omvat het beveiligen van API’s, vectordatabases en het naleven van finest practices op het gebied van cyberbeveiliging.

Toekomstige developments

Het vakgebied AI-beveiliging evolueert snel. Toekomstige developments kunnen geautomatiseerde beveiligingsprotocollen en geavanceerde detectiesystemen voor modelmanipulatie omvatten die speciaal zijn ontworpen voor de huidige AI-implementaties. We zullen AI-modellen nodig hebben om AI-implementaties te monitoren.

AI-modellen kunnen worden getraind om ongebruikelijke patronen of gedragingen te detecteren die kunnen wijzen op een veiligheidsbedreiging of een compromis in een ander AI-systeem. AI kan worden gebruikt om de prestaties en outputs van een ander AI-systeem voortdurend te monitoren en te auditen, om ervoor te zorgen dat deze zich aan de verwachte patronen houden en eventuele afwijkingen te signaleren. Door de tactieken en strategieën te begrijpen die door aanvallers worden gebruikt, kan AI effectievere verdedigingsmechanismen ontwikkelen en implementeren tegen aanvallen zoals vijandige voorbeelden of gegevensvergiftiging. AI-modellen kunnen leren van pogingen tot aanvallen of inbreuken en kunnen hun verdedigingsstrategieën in de loop van de tijd aanpassen om veerkrachtiger te worden tegen toekomstige bedreigingen.

Nu ontwikkelaars, onderzoekers, beveiligingsprofessionals en toezichthouders zich richten op AI, is het essentieel dat we onze taxonomie voor kwetsbaarheden, exploits en “slechts” bugs ontwikkelen. Door hier duidelijk over te zijn, kunnen groups deze complexe, snel veranderende ruimte beter begrijpen en doorbreken.

Cisco is op een langetermijnreis bezig om veiligheid en vertrouwen voor de toekomst op te bouwen. Lees meer op onze Vertrouwenscentrum.

Wij horen graag wat u ervan vindt. Stel een vraag, reageer hieronder en blijf verbonden met Cisco Safety op sociale media!

Cisco Safety sociale kanalen

Instagram
Fb
Twitteren
LinkedIn

Deel:

AI/ML-operaties en beveiliging

Onderscheid maken tussen kwetsbaarheden in de AI-beveiliging, uitbuiting en bugs

Forensisch onderzoek en herstel van gecompromitteerde AI-implementaties

Toekomstige developments

LEAVE A REPLY Cancel reply