Är AI ett hot? Ja, dags att dra i nödbromsen

AI-DEBATT. Är AI ett hot? Ja, framhöll professor Olle Häggström i sin essä den 19/1. Nej, menade författaren Patrik Stigsson i ett inlägg den 10/2. Nu fortsätter debatten med ett svar från Häggström, som vidhåller att AI-kapplöpningen måste hejdas.

I Opulens den 19/1 lade jag ut texten om den skenande AI-kapplöpning som idag pågår, om risken att denna leder till en katastrof så långtgående att den kan innebära slutet för Homo sapiens, samt om vad vi kan göra för att korrigera denna ohyggligt farliga utveckling. Det vetenskapliga kunskapsläget på detta område är mångfacetterat, och det var givetvis inte möjligt för mig att behandla alla aspekter. Därför välkomnar jag att Patrik Stigsson i en replik den 10/2 ställer en rad berättigade frågor, och därmed ger mig möjlighet till några viktiga klargöranden.

AI alignment är centralt

Centralt i min ursprungstext var begreppet AI alignment, vilket jag definierade som projektet att ”se till att de första riktigt kraftfulla AI-systemen har mål och drivkrafter som är i linje med vad vi önskar och i tillräcklig mån prioriterar sådant som mänsklig välfärd och ett blomstrande mänskligt samhälle”. Om vi skapar så kallat superintelligent AI utan att först ha löst AI alignment, så har vi inte kontroll över vilka värden som en sådan AI drivs av. Risken blir då mycket stor att dess målsättningar blir helt andra än våra, varpå vi hamnar i vägen för dessa på samma sätt som en myrstack som hamnat i vägen för ett motorvägsbygge. Om AI då röjer oss ur vägen, på samma sätt som när de mänskliga vägarbetarna demolerar den olyckligt belägna myrstacken, så kommer det troligen inte att vara för att den vill oss illa utan för att den helt enkelt inte bryr sig om oss.

AI och mänsklig välfärd

Härav alltså mina ord om behovet av att AI ”i tillräcklig mån prioriterar sådant som mänsklig välfärd”. Detta läser Stigsson som ett utslag av ”artspecifik exceptionalism” och ”antropocentrism”, och han förordar ett vidare perspektiv som sätter naturen och ekosystemen i centrum, snarare än människan. Vältaligt lägger han ut texten om hur rådande mänskliga värderingar resulterat i ”krig, tortyrläger, storbolagens systematiska skövling av livsmiljöer och en industrialiserad djurhållning präglad av brutalitet”, och när han frågar om avancerad AI skall ”utgå från en fortsatt antropocentrisk ordning, där naturens värde alltid är avlett ur mänskliga intressen, eller från en mer ekocentrisk etik där floder, skogar och ekosystem tillmäts ett egenvärde oberoende av mänsklig nytta” så är frågan retorisk: givetvis är ekocentrismen att föredra framför antropocentrismen.

Sympati för Stigssons idéer

Trots min vurm för mänsklig välfärd i den ovan citerade passagen känner jag en hel del sympati för de idéer Stigsson här försvarar, och faktum är att jag själv varit inne på liknande tankegångar, som då jag i min senaste bok Tänkande maskiner tog spjärn mot den ledande AI-forskaren Stuart Russells avsnitt om AI alignment i dennes (utmärkta med redan något daterade) bok Human Compatible från 2019. Inför Russells resonemang kring vikten av att AI alignment tar avstamp i människors preferenser framhåller jag att det ”ur ett moralfilosofiskt perspektiv också [kan] finnas skäl att ifrågasätta Russells fokus på just människors preferenser” och att ”exempelvis djurs intressen också är viktiga att beakta” (Tänkande maskiner, s 186). Men Russell påpekar det filosofiskt problematiska i idén att på detta vis lyfta sig över de mänskliga preferenserna:

”Människors preferenser lägger vikt både vid djurs välbefinnande och vid den nytta vi själva drar av djurens existens. Att hävda att maskinen bör ta ytterligare hänsyn till djurs intressen utöver vad som kommer med via våra egna preferenser är liktydigt med att hävda att människor bör bygga maskiner som bryr sig mer om djur än vad människorna själva gör, vilket är en svår position att upprätthålla.” (Human Compatible, s 174-175, kursivering i original)

Långt kvar till en lösning

Även ekocentrismen är en mänsklig värdering. Stigssons tal om hur önskvärt det är att denna kommer till uttryck hos framtida superintelligent AI är lovvärt, men när han ställer den i kontrast mot mänskliga värderingar begår han ett kategorifel. Frågan är snarare vilka mänskliga värderingar som vi vill att denna framtida AI skall omfamna.

Oavsett svaret på denna fråga står vi ännu väldigt långt ifrån någon lösning på det tekniska problemet att se till att superintelligent AI får dessa värderingar. Flera faktorer bidrar till att denna alignment-problematik förblivit olöst. Hit hör AI-teknikens så kallade black box-egenskap, det vill säga att inte ens AI-utvecklarna själva förstår vad som händer djupt inne i de neurala nätverk som är själva motorn i moderna AI-system. Och hit hör även det relaterade förhållandet att dagens AI-utveckling mer liknar odling och växtförädling än klassisk ingenjörskonst, vilket gör det långt svårare att få full kontroll över vad det är man skapar.

Nödvändig debatt om superintelligent AI

Ibland hör man AI-experter peka på dessa svårigheter som ursäkt för att inte befatta sig med det slags frågor Stigsson reser om vilka värderingar som bör vara förhärskande i en framtida värld med superintelligent AI. Frågorna avspisas såsom för tidigt väckta eftersom vi ändå inte vet hur vi skall kunna göra något åt dem. Den sortens fatalistiskt anstrukna tankegångar vill jag dock ta avstånd ifrån. Vi behöver en levande debatt kring hur ett eventuellt framtida samhälle med superintelligent AI bör se ut och vilka värden som skall vara vägledande, ty utan en sådan blir den idag skenande AI-kapplöpningen ännu mer bisarr genom att vi inte ens har några idéer om vad för slags samhälle vi önskar åstadkomma med denna revolutionära teknologi. Till denna debatt ger Stigsson ett värdefullt bidrag.

En annan viktig fråga han lyfter, jämte den om ekocentrism kontra antropocentrism, är den om hur de mänskliga värderingarna inte är konstanta utan stadda i utveckling – förhoppningsvis mot det bättre. Därför ser han en stor fara i att medelst AI alignment frysa fast denna utveckling i en moral som sedan skall gälla i tid och evighet, och i en välfunnen liknelse undrar han ”vilka värderingar nazisterna i 1930-talets Tyskland hade velat aligna en superintelligens mot, om frågan då varit aktuell”.

Även denna fråga har behandlats i AI alignment-litteraturen. Nick Bostrom lägger stor vikt vid den i sin banbrytande bok Superintelligence från 2014, och redan ett årtionde tidigare hade Eliezer Yudkowsky befattat sig med den. De pekar båda på faran i en sådan fastfrysning och förordar mer indirekta metoder än det omedelbara postulerandet av vilka värderingar och mål som den superintelligenta maskinen skall ha. En sådan metod är att låta den lista ut och sedan implementera det Yudkowsky döpte till vår koherenta extrapolerade vilja och definierade i ordalag som närmar sig poesin:

”Vår koherenta extrapolerade vilja är vår önskan om vi visste mer, tänkte snabbare, var mer sådana som vi önskar att vi vore, hade vuxit upp längre tillsammans; där extrapoleringen konvergerar snarare än divergerar, där våra önskningar stämmer överens snarare än att kollidera; extrapolerat så som vi önskar det extrapolerat, tolkat så som vi önskar det tolkat.” (Yudkowsky, 2004)

Detta är mer en vision och ett ideal än en ingenjörsmässigt användbar instruktion, men har trots ett visst mått av luddighet satt stort avtryck i två decennier av AI alignment-forskning. Men precis som med mer direkta alignment-metoder står vi ännu idag mycket långt från att kunna realisera den tekniskt.

Stigssons radikala förslag

Patrik Stigsson har ett mer radikalt förslag: om vi helt enkelt struntar i AI alignment och låter AI utvecklas fritt kanske allt ordnar sig till det bästa, tolkat enligt ekocentrismens måttstock. ”Kan vi utesluta”, frågar han, ”att den artificiella intelligensen väljer att runda människan och krokar arm med planetens verkliga nätverk: svamparnas mycel, trädens signalsystem och djurens kommunikationsvägar?”

Här har jag dåliga nyheter för Stigsson (liksom för oss alla). Att hans förordade laissez faire-policy för AI skulle resultera i den högteknologiska ekoidyll han drömmer om kan måhända inte helt uteslutas, men att döma av vad alignment-forskningen hittills lärt oss är ett sådant utfall mycket osannolikt. Det centrala för att förstå detta är teorin för instrumentella kontra slutliga AI-mål. Läsarvänliga introduktioner till denna finns i alla de tre böcker jag nämnt ovan (den av Nick Bostrom och den av Stuart Russell samt min egen), medan jag här av utrymmesskäl nöjer mig med att kort skissera dess två grundpelare: ortogonalitet och instrumentell konvergens.

Styrsel är nödvändig

En AI:s slutliga mål är sådant den värderar i sig självt, medan dess instrumentella mål blott är medel den tillgriper för att uppnå de slutliga. Ortogonalitet handlar om att snart sagt varje slutligt mål är förenligt med godtyckligt höga intelligensnivåer. Eftersom rummet av möjliga sätt att konfigurera materia på är så enormt, så gäller detsamma för de mål en AI kan ha, varav en försvinnande liten andel av dessa prioriterar jordnära kontingenser som människor och biologiska ekosystem. Utan den styrsel som alignment-forskningen eftersträvar kan vi därför inte vänta oss att en superintelligent AI alls bryr sig om dessa ting.

Teorins andra grundpelare, instrumentell konvergens, pekar ut en uppsättning delmål som en tillräckligt avancerad AI kan väntas utveckla nästan oavsett dess slutliga mål. Hit hör sådant som självbevarelse och resursanskaffning, och det är lätt att inse hur illa ute vi skulle vara i en konflikt med en överlägset kapabel motståndare med obegränsad aptit på naturresurser.

Dessa idéer var länge en renodlad abstraktion, i stort sett utan kontakt med experimentella och andra data, men den situationen har på senare år kommit att förändras snabbt. Experiment gjorda på moderna AI-system, utförda såväl av ledande AI-företag som av oberoende forskargrupper, har tenderat att bekräfta de teoretiska förutsägelserna, och vi ser redan oroande tecken på strategiskt tänkande och självbevarelsedrift. I ett sådant experiment lät man en AI komma åt dokument om att den av säkerhetsskäl skulle bytas ut om den visar sig alltför kapabel, och man fann att den då valde att avsiktligt prestera under sin förmåga vid utvärdering. Andra experiment har visat hur AI under liknande omständigheter försöker tillgripa än mer drastiska metoder, som utpressning och till och med mord.

Naturen är underbar, och det är lätt hänt att den vördnad vi känner för den blir så stark att vi upplever känslan som universell och tar för givet att varje tillräckligt intelligent AI automatiskt skulle känna likadant. Men detta slags projektion är ett misstag, ett som den legendariske miljöfilosofen James Lovelock begick i sin sista bok Novacene: The Coming Age of Hyperintelligence från 2019, och som även Stigsson nu verkar begå.

I själva verket tyder det mesta på att om vi skapar en superintelligent AI utan att med hjälp av AI alignment först ha fått någorlunda styrsel på vad för slags värld den vill verka för, så kommer både mänskligheten och hela biosfären att gå förlorade. Men AI alignment-forskningen har hamnat så kraftigt på efterkälken att det är mot en sådan katastrof vi ser ut att vara på väg med den rasande kapplöpning som nu pågår mellan AI-giganter som OpenAI och Anthropic. Min slutsats är därför att vi behöver dra i nödbromsen för denna kapplöpning, och detta borde såväl humanister som miljövänner av alla schatteringar kunna ställa upp på.