chatGPT

För att utmana föreställningen om att ChatGPT och andra avancerade språkmodeller är närmast magiska, gav vår kollega Jerker oss nyligen en genomgång av flera grundläggande komponenter som gör dessa AI-teknologier möjliga. Bland dessa komponenter nämndes “context”, “embeddings” och “attention”, vilka ligger till grund för modellernas förmåga att generera naturligt och precist språk.

I vårt senaste inlägg diskuterade vi “context”, som hjälper modellen att förutse vilket svar den ska ge dig. Nu ska vi gå vidare till att utforska “tokenization”, som omvandlar dina skrivna ord till förståbara siffror för modellen, samt “embeddings”, vilka fångar den språkliga betydelsen av ord och deras relationer.

Innan vår “context” kan bearbetas av modellen måste den först genomgå något som kallas tokenisering eller “tokenization”. Detta är den process där text, som vi människor kan förstå, översätts till siffror som LLM:en sedan kan arbeta med.

Exempel: Om vi tar meningen “This is a tokenized context” och tokeniserar den med GPT-4 (olika språkmodeller har olika tokenisering) blir utfallet följande sex siffror:

2028(This), 374( is), 264( a), 4037( token), 1534(ized), 2317( context).

När jag skriver ovanstående mening ser alltså GPT-4 följande token: “2028 374 264 4037 1534 2317”. Tokeniseringen är en avgörande optimering för att göra kontexten lättare att hantera. Utan denna process skulle det vara för många siffror att bearbeta, vilket skulle försämra modellens effektivitet.

Efter tokeniseringen kan tokens sedan omvandlas till “embeddings”. Embeddings fångar den språkliga betydelsen av olika ord och deras relation till varandra. Detta möjliggör en djupare förståelse för språkliga mönster och sammanhang, vilket är kritiskt för att AI-modellen ska kunna generera begripligt innehåll.

Exempel: Tänk dig att varje ord har en slags kod, en “embedding”, som representerar dess betydelse. Om vi har koden för ordet “kung” och sedan tar bort koden för “man” och lägger till koden för “kvinna”, så hamnar vi nära koden för “drottning”. Detta beror på att embeddings fångar de språkliga relationerna mellan ord. “Kung” och “drottning” är relaterade på ett sätt som liknar relationen mellan “man” och “kvinna”. På detta sätt hjälper således embeddings AI-modeller att förstå och producera språkligt korrekt innehåll.

Avslutningsvis är tokenisering och embeddings viktiga delar av AI-modellens effektivitet och förmåga. Det är dock värt att notera att medan kontext är synligt för användaren, förblir embeddings dolda och är en intern del av modellens funktion. Vidare är embeddings en del av transformer-tekniken, som vi kommer gå igenom i nästa inlägg.

Nyligen fick vi en grundlig genomgång av de avancerade funktionerna bakom ett av de mest omtalade AI-verktygen just nu: LLM:er (Large Language Models), såsom ChatGPT. Sammanfattningsvis är en LLM en typ av AI som tränats för att till exempel skapa, översätta och/eller sammanfatta stora mängder text. 

För att utmana föreställningen om LLM:er som nästintill magiska ting gick vår kollega Jerker igenom flera nyckelkomponenter som möjliggör AI:ns funktion, däribland “kontext”, “embeddings” och “attention”. Dessa utgör grundläggande byggstenar som ger LLM:en sin förmåga att generera naturligt språk på ett precist och nyanserat sätt. 

“Kontext” innebär både den information du ger modellen i chatten samt den information modellen själv genererat i samtalet. Kontexten gör det möjligt för LLM:en att bättre prediktera svar, eftersom modellen vet inom vilket sammanhang den ska hämta information ifrån. När du startar en ny chatt ger du modellen en ny kontext, och LLM:en börjar sedan om med att utgå från den nya information du delger. 

Kontexten är således något vi kan ändra för att påverka vad modellen genererar. Väldigt små skillnader i kontext kan innebära stora skillnader i output. Om du exempelvis skriver “Jag korsade vägen för att komma till banken.” kommer LLMen ge dig en helt annan output än om du istället skriver “Jag korsade floden för att komma till banken”.

Förutom den kontext du ger den har ChatGPT en förutbestämd grundkontext (kallad en “system prompt”). Denna grundläggande kontext gör att programmet vet att det är en hjälpsam AI-assistent som finns till för att generera svar till dig som användare. Det finns möjlighet att ändra denna ‘system prompt’, beroende på vad du har för interface i modellen.

Att få en djupare förståelse för hur dessa verktyg fungerar hjälper oss inte bara att upptäcka deras potential och begränsningar, utan också att utforska nya möjligheter och anpassningar av tekniken. 

I nästa inlägg kommer vi att gå igenom embeddings, en av modellens effektiviseringsverktyg där ord omvandlas till siffror.  

Magin bakom AI:n, LLM pt.2

Magin bakom AI:n, LLM pt.1

Göteborgskontoret

Varbergskontoret

Gasell

chatGPT

Footer

Göteborgskontoret

Varbergskontoret

Gasell