För att utmana föreställningen om att ChatGPT och andra avancerade språkmodeller är närmast magiska, gav vår kollega Jerker oss nyligen en genomgång av flera grundläggande komponenter som gör dessa AI-teknologier möjliga. Bland dessa komponenter nämndes “context”, “embeddings” och “attention”, vilka ligger till grund för modellernas förmåga att generera naturligt och precist språk.
I vårt senaste inlägg diskuterade vi “context”, som hjälper modellen att förutse vilket svar den ska ge dig. Nu ska vi gå vidare till att utforska “tokenization”, som omvandlar dina skrivna ord till förståbara siffror för modellen, samt “embeddings”, vilka fångar den språkliga betydelsen av ord och deras relationer.
Innan vår “context” kan bearbetas av modellen måste den först genomgå något som kallas tokenisering eller “tokenization”. Detta är den process där text, som vi människor kan förstå, översätts till siffror som LLM:en sedan kan arbeta med.
Exempel: Om vi tar meningen “This is a tokenized context” och tokeniserar den med GPT-4 (olika språkmodeller har olika tokenisering) blir utfallet följande sex siffror:
2028(This), 374( is), 264( a), 4037( token), 1534(ized), 2317( context).
När jag skriver ovanstående mening ser alltså GPT-4 följande token: “2028 374 264 4037 1534 2317”. Tokeniseringen är en avgörande optimering för att göra kontexten lättare att hantera. Utan denna process skulle det vara för många siffror att bearbeta, vilket skulle försämra modellens effektivitet.
Efter tokeniseringen kan tokens sedan omvandlas till “embeddings”. Embeddings fångar den språkliga betydelsen av olika ord och deras relation till varandra. Detta möjliggör en djupare förståelse för språkliga mönster och sammanhang, vilket är kritiskt för att AI-modellen ska kunna generera begripligt innehåll.
Exempel: Tänk dig att varje ord har en slags kod, en “embedding”, som representerar dess betydelse. Om vi har koden för ordet “kung” och sedan tar bort koden för “man” och lägger till koden för “kvinna”, så hamnar vi nära koden för “drottning”. Detta beror på att embeddings fångar de språkliga relationerna mellan ord. “Kung” och “drottning” är relaterade på ett sätt som liknar relationen mellan “man” och “kvinna”. På detta sätt hjälper således embeddings AI-modeller att förstå och producera språkligt korrekt innehåll.
Avslutningsvis är tokenisering och embeddings viktiga delar av AI-modellens effektivitet och förmåga. Det är dock värt att notera att medan kontext är synligt för användaren, förblir embeddings dolda och är en intern del av modellens funktion. Vidare är embeddings en del av transformer-tekniken, som vi kommer gå igenom i nästa inlägg.