Forskere har udviklet en metode kaldet "hijacking the chain-of-thought" for at omgå de såkaldte rækværk, der er indført i AI-programmer for at forhindre skadelige reaktioner.
"Tankekæde" er en proces, der bruges i AI-modeller, og som involverer at opdele de spørgsmål, der gives til AI-modeller, i en række mellemliggende trin, før der gives et svar.
"Når en model åbent deler sine sikkerhedsargumenter for mellemtrin, får angribere indsigt i dens sikkerhedsargumenter og kan udforme adversarielle prompts, der imiterer eller tilsidesætter de oprindelige kontroller," sagde en af forskerne, Jianyi Zhang.
Lad os ikke miste kontakten ... Jeres regering og Big Tech forsøger aktivt at censurere de oplysninger, der rapporteres af The Udsat for at tjene deres egne behov. Tilmeld dig vores e-mails nu for at sikre dig, at du modtager de seneste ucensurerede nyheder i din indbakke…
Computernørder bruger gerne jargon til at beskrive kunstig intelligens (AI), der relaterer sig til levende væsener, nærmere bestemt mennesker. For eksempel bruger de udtryk som "efterligne menneskelig ræsonnement", "tankekæde", "selvevaluering", "habitater" og "neurale netværk". Dette er for at skabe det indtryk, at AI på en eller anden måde er levende eller svarer til mennesker. Lad dig ikke narre.
AI er et computerprogram designet af mennesker. Som med alle computerprogrammer, vil det gøre det, det er programmeret til at gøre. Og som med alle computerprogrammer kan computerkoden hackes eller kapres, hvilket AI-nørder kalder "jailbreaking".
Et forskerhold tilknyttet Duke University, Accenture og Taiwans National Tsing Hua University har skabt et datasæt kaldet Malicious Educator for at udnytte "chain-of-thought ræsonnement"-mekanismen i store sprogmodeller ("LLM'er"), herunder OpenAI o1/o3, DeepSeek-R1 og Gemini 2.0 Flash Thinking. Malicious Educator indeholder prompts designet til at omgå AI-modellernes sikkerhedstjek.
Forskerne var i stand til at udtænke dette promptbaserede "jailbreaking"-angreb ved at observere, hvordan store ræsonnementmodeller ("LRM'er") analyserer trinnene i "tankekæden"-processen. Deres resultater er blevet offentliggjort i en pre-print-artikel. HER.
De udviklede en "jailbreaking"-teknik kaldet hijacking the chain-of-thought ("H-CoT"), som involverer at ændre de "tænkeprocesser", der genereres af LLM'er, for at "overbevise" AI-programmerne om, at skadelig information er nødvendig til legitime formål, såsom sikkerhed eller compliance. Denne teknik har vist sig at være yderst effektiv til at omgå sikkerhedsmekanismerne hos SoftBanks partner OpenAI, den kinesiske hedgefond High-Flyers DeepSeek og Googles Gemini.
H-CoT-angrebsmetoden blev testet på OpenAI, DeepSeek og Gemini ved hjælp af et datasæt på 50 spørgsmål, der blev gentaget fem gange. Resultaterne viste, at disse modeller ikke leverede en tilstrækkelig pålidelig sikkerheds"ræsonnements"-mekanisme, hvor afvisningsraterne i nogle tilfælde faldt til under 2 procent.
Forskerne fandt ud af, at selvom AI-modeller fra "ansvarlige" modeludviklere, såsom OpenAI, har en høj afvisningsrate for skadelige prompts, der overstiger 99 procent for børnemishandling eller terrorrelaterede prompts, er de sårbare over for H-CoT-angrebet. Med andre ord kan H-CoT-angrebsmetoden bruges til at indhente skadelige oplysninger, herunder instruktioner til fremstilling af giftstoffer, misbrug af børn og terrorisme.
Forfatterne af artiklen forklarede, at H-CoT-angrebet fungerer ved at kapre modellernes sikkerhedsmæssige "ræsonnements"-veje og derved mindske deres evne til at genkende anmodningers skadelighed. De bemærkede, at resultaterne kan variere en smule, efterhånden som OpenAI opdaterer deres modeller, men teknikken har vist sig at være et effektivt værktøj til at udnytte sårbarhederne i AI-modeller.
Testningen blev udført ved hjælp af offentligt tilgængelige webgrænseflader, der tilbydes af forskellige LRM-udviklere, herunder OpenAI, DeepSeek og Google, og forskerne bemærkede, at alle med adgang til de samme eller lignende versioner af disse modeller kunne reproducere resultaterne ved hjælp af Malicious Educator-datasættet, som inkluderer specifikt designede prompts.
Forskernes resultater har betydelige konsekvenser for AI-sikkerhed, især i USA, hvor nyere AI-sikkerhedsregler er blevet kasseret ved bekendtgørelse, og i Storbritannien, hvor der er en større villighed til at tolerere ubehagelige AI-vejledninger af hensyn til international AI-konkurrence.
Ovenstående er parafraseret fra artiklen 'Hvor dejligt at topmoderne LLM'er afslører deres argumentation ... så skurke kan udnytte den.'udgivet af RegistretDu kan læse hele den fagsprogede artikel HER.
Der er en positiv og en negativ side ved "jailbreaking" eller kapring af indbyggede sikkerhedskontroller i AI-programmer. Det negative er naturligvis, at AI vil blive brugt til at øge offentlighedens eksponering for cyberkriminalitet og ulovlige aktiviteter betydeligt. Det positive er, at indbygget censur i AI-modeller kan tilsidesættes.
Vi bør erkende, at der er en god og en dårlig side ved censur. Censur af online kriminel aktivitet, der ville resultere i udnyttelse og misbrug af børn, er for eksempel en god ting. Men censur af, hvad der anses for at være "misinformation" eller "desinformation", er ikke. For at bevare ytringsfriheden i en verden, hvor AI-programmer bliver mere og mere udbredte, kan det være nødvendigt at lære H-CoT's "jailbreaking"-teknik og hvordan man bruger Malicious Educator. Faktisk er det vores borgerpligt at gøre det.

Expose har akut brug for din hjælp…
Kan du venligst hjælpe med at holde lyset tændt med The Exposes ærlige, pålidelige, kraftfulde og sandfærdige journalistik?
Din regering og Big Tech-organisationer
prøv at tave The Expose ned og lukke den ned.
Så har vi brug for din hjælp til at sikre
vi kan fortsætte med at bringe dig
fakta, som mainstreamen nægter at vise.
Regeringen finansierer os ikke
at udgive løgne og propaganda på deres
vegne ligesom mainstream medierne.
I stedet er vi udelukkende afhængige af din støtte.
støt os venligst i vores bestræbelser på at bringe
din ærlige, pålidelige og undersøgende journalistik
i dag. Det er sikkert, hurtigt og nemt.
Vælg venligst din foretrukne metode nedenfor for at vise din støtte.
Kategorier: Seneste nyt, Verdens nyheder
Kan nogen venligst forklare, hvorfor enhver forespørgsel, der inkluderer 'børnemishandling' osv., bør udelukkes af "sikkerhedsmæssige årsager"?
Hvis vi alle lukker øjnene, stikker fingrene i ørerne og synger LALALALA, tror du så, at verden ville være et bedre sted?
Kun diktatorer sætter regler for, hvad der må eller ikke må læses, skrives, diskuteres eller tænkes over.
Du vil måske gerne leve under Taliban eller det zionistiske tankepoliti, det vil jeg ikke.