Nyligen fick vi en grundlig genomgång av de avancerade funktionerna bakom ett av de mest omtalade AI-verktygen just nu: LLM:er (Large Language Models), såsom ChatGPT. Sammanfattningsvis är en LLM en typ av AI som tränats för att till exempel skapa, översätta och/eller sammanfatta stora mängder text.
För att utmana föreställningen om LLM:er som nästintill magiska ting gick vår kollega Jerker igenom flera nyckelkomponenter som möjliggör AI:ns funktion, däribland “kontext”, “embeddings” och “attention”. Dessa utgör grundläggande byggstenar som ger LLM:en sin förmåga att generera naturligt språk på ett precist och nyanserat sätt.
“Kontext” innebär både den information du ger modellen i chatten samt den information modellen själv genererat i samtalet. Kontexten gör det möjligt för LLM:en att bättre prediktera svar, eftersom modellen vet inom vilket sammanhang den ska hämta information ifrån. När du startar en ny chatt ger du modellen en ny kontext, och LLM:en börjar sedan om med att utgå från den nya information du delger.
Kontexten är således något vi kan ändra för att påverka vad modellen genererar. Väldigt små skillnader i kontext kan innebära stora skillnader i output. Om du exempelvis skriver “Jag korsade vägen för att komma till banken.” kommer LLMen ge dig en helt annan output än om du istället skriver “Jag korsade floden för att komma till banken”.
Förutom den kontext du ger den har ChatGPT en förutbestämd grundkontext (kallad en “system prompt”). Denna grundläggande kontext gör att programmet vet att det är en hjälpsam AI-assistent som finns till för att generera svar till dig som användare. Det finns möjlighet att ändra denna ‘system prompt’, beroende på vad du har för interface i modellen.
Att få en djupare förståelse för hur dessa verktyg fungerar hjälper oss inte bara att upptäcka deras potential och begränsningar, utan också att utforska nya möjligheter och anpassningar av tekniken.
I nästa inlägg kommer vi att gå igenom embeddings, en av modellens effektiviseringsverktyg där ord omvandlas till siffror.