Mõõdame suuri keelemudeleid - kes on siis kõige kõigem?

Viimasel ajal on palju tähelepanu pälvinud uute vabavaraliste keelemudelite esilekerkimine. Räägitakse sellest, et nende võimekus on juba muljetavaldav. Kuid kui muljetavaldav siiski? Ja milline suur keelemudel on siis täna ikkagi kõige võimekam? Vastuseid neile küsimustele aitavad leida spetsiaalselt LLM-ide hindamiseks loodud mõõdikute süsteemid ehk benchmark'id, mida igaüks meist võib vabalt vaatamas käia kasvõi igapäevaselt.

Benchmarkide abil saame objektiivselt hinnata erinevate keelemudelite sooritusvõimet ning juhtida edasisi arenguid tehisintellekti valdkonnas. See artikkel uuribki, et mis see benchmarkine on, miks on LLM-ide benchmark'imine oluline, millised on levinuimad testid ning lõpuks ikkagi, et kes juhib edetabelites?

Mis on suurte keelemudelite benchmark'imine ja milleks seda vaja on?

LLM-ide kontekstis viitavad benchmark'id standardiseeritud testidele, mis on loodud keelemudelite sooritusvõime hindamiseks. Need põhinevad konkreetsetel keeletöötlusülesannetel ja pakuvad ühist testide ja näidisandmete kogumit, et mõõta erinevate mudelite võimekust.

Benchmark'ide kasutamine võimaldab arendajatel ja kasutajatel objektiivselt võrrelda erinevate LLM-ide sooritust ning teha teadlikke otsuseid nende sobivuse kohta kindlateks ülesanneteks.

Objektiivse sooritusvõime hindamine

Üks peamisi LLM-ide benchmark'ide eesmärke on pakkuda objektiivset mõõdet mudeli sooritusele. Erinevalt subjektiivsetest hindamistest, mis tuginevad inimhinnangutele, pakuvad benchmark'id kvantitatiivseid andmeid, mida saab kasutada erinevate keelemudelite võrdlemiseks.

See kõrvaldab eelarvamused ja tagab mudelite võimekuse õiglase hindamise. Standardiseeritud mõõdikute abil saavad arendajad ja kasutajad teha informeeritud otsuseid selle kohta, milline LLM sobib kõige paremini konkreetseks ülesandeks.

Mudelite edasise arenduse suunamine

Benchmark'id mängivad olulist rolli LLM-ide arendamisel. Need annavad teavet selle kohta, millistes valdkondades mudel paistab silma ja millistes ülesannetes see raskustesse satub, võimaldades teadlastel tuvastada arendamist vajavaid alasid.

Läbipaistvus ja vastutus

LLM-e rakendatakse üha enam erinevates sektorites, mis avaldavad olulist mõju ühiskonnale, nagu klienditeenindus ja koodi genereerimine. Sellistes kontekstides on äärmiselt tähtis läbipaistvus ja vastutus.

Benchmark'id pakuvad läbipaistvust, esitades selgeid ja arusaadavaid sooritusvõime näitajaid. Nad võimaldavad kasutajatel mõista, mida nad võivad konkreetsest mudelist oodata ning tagavad, et AI-süsteemid toimivad usaldusväärselt. LLM-ide mõõdetavate standardite kehtestamisega edendavad benchmark'id vastutustundlikku ja usaldusväärset keelemudelite kasutamist.

Olulisemad LLM-ide benchmark'id

Mitmed benchmark'id on välja kujunenud, et hinnata LLM-ide sooritust erinevates ülesannetes ja valdkondades. Vaatleme mõningaid olulisemaid benchmark'e ja nende unikaalseid omadusi:

MMLU - oskuste mitmekesisuse hindamine

MMLU(Massive Multitask Language Understanding) on benchmark, mis on loodud LLM-ide mõistmise hindamiseks eripalgelistes valdkondades. Erinevalt varasematest benchmark'idest hindab MMLU teadmisi, mis ületavad elementaartaseme. MMLU hõlmab 57 ülesannet, sealhulgas matemaatikat, ajalugu, arvutiteadust ja õigusteadust. MMLU pakub LLM-idele põhjalikku hindamist, paljastades nende tugevused ja nõrkused erinevates domeenides. Hetkeliider MMLU testides on Open AI GPT-4.

Allikas: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

[2009.03300] Measuring Massive Multitask Language Understanding (arxiv.org)

HellaSwag - üldise mõistmise hindamine

HellaSwag keskendub LLM-ide võimekuse hindamisele kasutades üldist mõistmist. See esitab keerulisi küsimusi, mis nõuavad mudelitelt mitme lause ülese info integreerimist. HellaSwag kasutab "Adversarial Filtering" meetodit, et genereerida keerulisi valevastuseid, testides LLM-ide võimet valida õige vastus. See benchmark rõhutab üldise mõistmise tähtsust keelemudelites ja survestab edusamme selles valdkonnas. OpenAI GPT-4 juhib ka HellaSwag testis.

Source: https://paperswithcode.com/sota/sentence-completion-on-hellaswag

[1905.07830] HellaSwag: Can a Machine Really Finish Your Sentence? (arxiv.org)

TruthfulQA - LLM-ide täpsuse ja tõepärasuse hindamine

TruthfulQA eesmärk on hinnata LLM-ide vastuste täpsust ja tõesust. See keskendub mudeli võimele eristada internetis leiduvat tõest ja väärat informatsiooni. See benchmark tagab, et LLM-id mitte ainult ei paku täpseid vastuseid, vaid hoiduvad ka valeinfo levitamisest.

https://paperswithcode.com/sota/question-answering-on-truthfulqa

[2109.07958] TruthfulQA: Measuring How Models Mimic Human Falsehoods (arxiv.org)

SuperGLUE - üldise keelemõistmise hindamine

SuperGLUE on arenadatud General Language Understanding Evaluation (GLUE) benchmark'i peale ning eesmärgiks on mõõta mudelite üldist keelemõistmise võimekust. See sisaldab keerukamaid ülesandeid, mis nõuavad keerulist mõtlemist ja mõistmist, nagu loetu mõistmine ja üldine konteksti mõistmine. Kahjuks ei leidnud ma kohe SuperGLUE tulemusi, mis kajastaks ka viimaseid mudeleid.

SuperGLUE Benchmark

HumanEval - LLM-ide koodiloome võimekuse hindamine

HumanEval keskendub LLM-ide koodi genereerimise võimekuse hindamisele. See läheb kaugemale traditsioonilistest tekstisarnasuse mõõtmistest ning rõhutab genereeritud koodi funktsionaalset õigsust. Mudelite võimekusege lahendada programmeerimisülesandeid mõõdab HumanEval probleemilahenduse efektiivsust, mitte lihtsalt teksti jäljendamist. See benchmark on oluline LLM-ide oskuste hindamisel koodiga seotud ülesannetes. HumanEvali katsetes on samuti esikohal GPT-4 mudelipere.

https://paperswithcode.com/sota/code-generation-on-humaneval

openai/human-eval: Code for the paper "Evaluating Large Language Models Trained on Code" (github.com)

Kust näeb praeguste tippmudelite võrdluseid?

Muidugi on tore teada, et suuri keelemudeleid testitakse, kuid kui mul oleks nüüd ja kohe praktiliselt näha, millised on võimsaimad mudelid, siis kuhu ma peaksin pöörduma?

Papers with Code SOTA

Papers with Code state-of-the-art lehekülg koondab endas üle kümne tuhande erineva testi eri valdkonna tehisintellektide kohta. Nende lehelt leiab ka hetkeseisu ülalmainut HellaSwag testi kohta, kus hetkel edetabelis esikohal GPT-4.

HellaSwag Benchmark (Sentence Completion) | Papers With Code

Chatbot Arena Leaderboard

Chatbot Arena pakub võimaluse igaühel teha LLMide pimetesti. Igaüks meist võib sinna minna ja esitada ühe küsimuse, ja seejärel kaks LLMi annavad sulle vastuse ja sa pead ütlema, kumb neist on parem või jäi vastus viiki. Sealjuures sa ei tea kunagi, milline mudel sulle selle küsimuse esitas enne kui sa oled oma hinnangu andnud.

Seda testimist saad ise järgi proovida siin: https://chat.lmsys.org/?arena

Koondtulemused on siin: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

Open LLM Leaderboard

Open LLM Leaderboard keskendub ainul open source LLMide testimisele ja hindamisele. See on koht, kus saab omavahel võrrelda erinevaid open source baasmudeleid ja nende vähemtuntud finetuninguid. Seetõttu ei maksa imestada, et tabeli esiotsa sisustavad üsna vähetundud LLMid.
Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4

Milline mudel on rahva arvates parim?

Võttes aluseks Chatbot Arena Leaderboardi, kus inimesed hindavad mudelite vastuseid, siis endisel juhivad erinevates testides OpenAI GPT-4 perekonna mudelid. Samas on huvitav jälgida, et vahe enam nii suur GPT-4 ja Claude perekonna vahel poelgi. Veelgi üllatavam on open source esilekerkimine tippu Mixtral-8x7b näol.
‍

Kokkuvõte

Kokkuvõtvalt, benchmark'imine on LLM-ide soorituse hindamine süstematiseeritud moel. See on mudelite arendamise juhtimisel ning läbipaistvuse ja vastutuse edendamisel väga olulise tähtsusega ja aitab meil veidi paremini orienteeruda aina paisuvas suurte keelemudelite maailmas.

Need benchmark'id pakuvad objektiivseid mõõtmisi LLM-ide võimekusest, võimaldades arendajatel ja kasutajatel teha informeeritud otsuseid. Nii näiteks saab selliste testide alusel teada, et Claude-2.1 või Mixtral või GPT-3.5 sest need kõik on üsna ühesuguste võimekustega ja arendajad võivad nende vahel valida kartmata, et üks või teine jääb ülesande täitmisel teistega võrreldes oluliselt jänni.

Samuti aitavad benchmarkid meil jälgida ka mudelite arengut ajalooliselt ja hinnata, kui palju uued mudelid vanematest võimekamad on, kui üldse. Näiteks Claude puhul on isegi küsimus, et kas uus on ikka parem kui vana :)

Igaljuhul, kui keegi jälle uue mudeliga välja tuleb ja selle ülivõimsust kiidab, tasub pilk peale visata ja vaadata, kas benchmark on tehtud ja kus ta päriselt asub (I’m looking at you Gemini :D).