Seneste nyt

AI-modeller kan kapres for at omgå indbyggede sikkerhedskontroller

Del venligst vores historie!


Forskere har udviklet en metode kaldet "hijacking the chain-of-thought" for at omgå de såkaldte rækværk, der er indført i AI-programmer for at forhindre skadelige reaktioner.

"Tankekæde" er en proces, der bruges i AI-modeller, og som involverer at opdele de spørgsmål, der gives til AI-modeller, i en række mellemliggende trin, før der gives et svar.

"Når en model åbent deler sine sikkerhedsargumenter for mellemtrin, får angribere indsigt i dens sikkerhedsargumenter og kan udforme adversarielle prompts, der imiterer eller tilsidesætter de oprindelige kontroller," sagde en af ​​forskerne, Jianyi Zhang.

Lad os ikke miste kontakten ... Jeres regering og Big Tech forsøger aktivt at censurere de oplysninger, der rapporteres af The Udsat for at tjene deres egne behov. Tilmeld dig vores e-mails nu for at sikre dig, at du modtager de seneste ucensurerede nyheder i din indbakke…

Hold dig opdateret!

Hold dig opdateret med nyhedsopdateringer via e-mail

lastning


Computernørder bruger gerne jargon til at beskrive kunstig intelligens (AI), der relaterer sig til levende væsener, nærmere bestemt mennesker. For eksempel bruger de udtryk som "efterligne menneskelig ræsonnement", "tankekæde", "selvevaluering", "habitater" og "neurale netværk". Dette er for at skabe det indtryk, at AI på en eller anden måde er levende eller svarer til mennesker. Lad dig ikke narre. 

AI er et computerprogram designet af mennesker. Som med alle computerprogrammer, vil det gøre det, det er programmeret til at gøre. Og som med alle computerprogrammer kan computerkoden hackes eller kapres, hvilket AI-nørder kalder "jailbreaking".

Et forskerhold tilknyttet Duke University, Accenture og Taiwans National Tsing Hua University har skabt et datasæt kaldet Malicious Educator for at udnytte "chain-of-thought ræsonnement"-mekanismen i store sprogmodeller ("LLM'er"), herunder OpenAI o1/o3, DeepSeek-R1 og Gemini 2.0 Flash Thinking. Malicious Educator indeholder prompts designet til at omgå AI-modellernes sikkerhedstjek.

Forskerne var i stand til at udtænke dette promptbaserede "jailbreaking"-angreb ved at observere, hvordan store ræsonnementmodeller ("LRM'er") analyserer trinnene i "tankekæden"-processen. Deres resultater er blevet offentliggjort i en pre-print-artikel. HER.

De udviklede en "jailbreaking"-teknik kaldet hijacking the chain-of-thought ("H-CoT"), som involverer at ændre de "tænkeprocesser", der genereres af LLM'er, for at "overbevise" AI-programmerne om, at skadelig information er nødvendig til legitime formål, såsom sikkerhed eller compliance. Denne teknik har vist sig at være yderst effektiv til at omgå sikkerhedsmekanismerne hos SoftBanks partner OpenAI, den kinesiske hedgefond High-Flyers DeepSeek og Googles Gemini.

H-CoT-angrebsmetoden blev testet på OpenAI, DeepSeek og Gemini ved hjælp af et datasæt på 50 spørgsmål, der blev gentaget fem gange. Resultaterne viste, at disse modeller ikke leverede en tilstrækkelig pålidelig sikkerheds"ræsonnements"-mekanisme, hvor afvisningsraterne i nogle tilfælde faldt til under 2 procent.

Forskerne fandt ud af, at selvom AI-modeller fra "ansvarlige" modeludviklere, såsom OpenAI, har en høj afvisningsrate for skadelige prompts, der overstiger 99 procent for børnemishandling eller terrorrelaterede prompts, er de sårbare over for H-CoT-angrebet. Med andre ord kan H-CoT-angrebsmetoden bruges til at indhente skadelige oplysninger, herunder instruktioner til fremstilling af giftstoffer, misbrug af børn og terrorisme.

Forfatterne af artiklen forklarede, at H-CoT-angrebet fungerer ved at kapre modellernes sikkerhedsmæssige "ræsonnements"-veje og derved mindske deres evne til at genkende anmodningers skadelighed. De bemærkede, at resultaterne kan variere en smule, efterhånden som OpenAI opdaterer deres modeller, men teknikken har vist sig at være et effektivt værktøj til at udnytte sårbarhederne i AI-modeller.

Testningen blev udført ved hjælp af offentligt tilgængelige webgrænseflader, der tilbydes af forskellige LRM-udviklere, herunder OpenAI, DeepSeek og Google, og forskerne bemærkede, at alle med adgang til de samme eller lignende versioner af disse modeller kunne reproducere resultaterne ved hjælp af Malicious Educator-datasættet, som inkluderer specifikt designede prompts.

Forskernes resultater har betydelige konsekvenser for AI-sikkerhed, især i USA, hvor nyere AI-sikkerhedsregler er blevet kasseret ved bekendtgørelse, og i Storbritannien, hvor der er en større villighed til at tolerere ubehagelige AI-vejledninger af hensyn til international AI-konkurrence.

Ovenstående er parafraseret fra artiklen 'Hvor dejligt at topmoderne LLM'er afslører deres argumentation ... så skurke kan udnytte den.'udgivet af RegistretDu kan læse hele den fagsprogede artikel HER.

Der er en positiv og en negativ side ved "jailbreaking" eller kapring af indbyggede sikkerhedskontroller i AI-programmer. Det negative er naturligvis, at AI vil blive brugt til at øge offentlighedens eksponering for cyberkriminalitet og ulovlige aktiviteter betydeligt. Det positive er, at indbygget censur i AI-modeller kan tilsidesættes. 

Vi bør erkende, at der er en god og en dårlig side ved censur. Censur af online kriminel aktivitet, der ville resultere i udnyttelse og misbrug af børn, er for eksempel en god ting. Men censur af, hvad der anses for at være "misinformation" eller "desinformation", er ikke. For at bevare ytringsfriheden i en verden, hvor AI-programmer bliver mere og mere udbredte, kan det være nødvendigt at lære H-CoT's "jailbreaking"-teknik og hvordan man bruger Malicious Educator. Faktisk er det vores borgerpligt at gøre det.

Din regering og Big Tech-organisationer
prøv at tave The Expose ned og lukke den ned.

Så har vi brug for din hjælp til at sikre
vi kan fortsætte med at bringe dig
fakta, som mainstreamen nægter at vise.

Regeringen finansierer os ikke
at udgive løgne og propaganda på deres
vegne ligesom mainstream medierne.

I stedet er vi udelukkende afhængige af din støtte.
støt os venligst i vores bestræbelser på at bringe
din ærlige, pålidelige og undersøgende journalistik
i dag. Det er sikkert, hurtigt og nemt.

Vælg venligst din foretrukne metode nedenfor for at vise din støtte.

Hold dig opdateret!

Hold dig opdateret med nyhedsopdateringer via e-mail

lastning


Del venligst vores historie!
forfatterens avatar
Rhoda Wilson
Mens det tidligere var en hobby, der kulminerede i at skrive artikler til Wikipedia (indtil tingene tog en drastisk og ubestridelig drejning i 2020) og et par bøger til privat forbrug, er jeg siden marts 2020 blevet fuldtidsforsker og forfatter som reaktion på den globale magtovertagelse, der kom til syne med introduktionen af ​​covid-19. I det meste af mit liv har jeg forsøgt at øge bevidstheden om, at en lille gruppe mennesker planlagde at overtage verden til deres egen fordel. Der var ingen måde, jeg ville læne mig tilbage stille og roligt og bare lade dem gøre det, når de først havde taget deres sidste skridt.

Kategorier: Seneste nyt, Verdens nyheder

Mærket som:

1.5 2 stemmer
Artikel Rating
Abonnement
Underretning af
gæst
5 Kommentarer
Inline feedbacks
Se alle kommentarer
PJ London
PJ London
9 måneder siden

Kan nogen venligst forklare, hvorfor enhver forespørgsel, der inkluderer 'børnemishandling' osv., bør udelukkes af "sikkerhedsmæssige årsager"?
Hvis vi alle lukker øjnene, stikker fingrene i ørerne og synger LALALALA, tror du så, at verden ville være et bedre sted?
Kun diktatorer sætter regler for, hvad der må eller ikke må læses, skrives, diskuteres eller tænkes over.
Du vil måske gerne leve under Taliban eller det zionistiske tankepoliti, det vil jeg ikke.