Íslenska í GPT-4

Íslenska í GPT-4

Forskot fyrir íslenskuna

Íslenska var valin fyrst tungumála, utan ensku, í þróunarfasa nýjustu útgáfu tæknifyrirtækisins OpenAI á gervigreindar-mállíkaninu GPT-4, sem samtalsgreindin ChatGPT byggir á. Verkefnið var formlega kynnt í dag.

Samstarf Íslands við OpenAI gengur út á að auka færni gervigreindar-mállíkansins GPT-4 í íslensku. Eitt markmiða samstarfsins er að finna leiðir til varðveislu smærri tungumála heimsins, svo tryggja megi að öll tungumál og öll menning eigi sinn stað í stafrænni tækni. Samstarfið kemur í kjölfar fundar sendinefndar forseta Íslands, ráðherra og Almannaróms með Sam Altman, forstjóra og stofnanda OpenAI, í San Francisco í maí síðastliðnum.

Hvað er GPT-4?
Fyrirtækið OpenAI var stofnað árið 2015 og er leiðandi í alþjóðlegri umræðu um opið aðgengi að gervigreindartækni, og ábyrga og örugga þróun hennar fyrir heimsbyggðina alla. DALL-E og ChatGPT eru þekktustu afurðir fyrirtækisins til þessa en þeim mætti lýsa sem textasmið og samtalstæki sem notendur geta spurt næstum hvers sem er. Tæknin byggir á ógrynni texta af vefnum sem gervigreindin er þjálfuð á til þess að rýna, greina og byggja svör sín á. Hægt var að nýta íslensku upp að vissu marki í GPT-3 og ChatGPT, en með nýja mállíkaninu GPT-4 verða ákveðin kaflaskil. 40 sjálfboðaliðar hafa unnið að því síðustu vikur, á vegum máltæknifyrirtækisins Miðeindar í samstarfi við OpenAI, að þjálfa GPT-4 í því að svara betur á íslensku. Samstarfið um virkni íslenskunnar er eitt sex sérstakra þróunarverkefna sem OpenAI stendur að í tengslum við útgáfu GPT-4, en það eina af þeim sem tengist þjóðtungu ríkis. Til skoðunar er hvort samstarfið geti orðið fyrirmynd fyrir önnur minni tungumál.

Af hverju máltækni?
Máltækni felur í sér alla þá tækni sem gerir hugbúnaði kleift að fást við tungumál og er því grunnþáttur í framtíð tölvunotkunar og þróun tungumála. Með aukinni notkun gervigreindar opnast áður óþekktir möguleikar til þess að hagnýta gríðarstór texta-, mál- og upplýsingasöfn. Máltækniáætlunin miðar að því að íslenska sé notuð á öllum sviðum tölvu- og upplýsingatækni sem varða daglegt líf almennings. Í því felst meðal annars að hugbúnaður í tækjum geti skilið og unnið með íslensku líkt og önnur tungumál. Almannarómur er miðstöð um máltækni og hefur haft yfirumsjón með framkvæmd máltækniáætlunar fyrir hönd ríkisins. Á vef hennar má finna upplýsingar um þær kjarnalausnir sem nú eru aðgengilegar en þar á meðal eru talgreinir, málrýnir og talgervill. Afurðir máltækniáætlunarinnar eru opnar svo allir geti samnýtt þau við þróun notendahugbúnaðar og eru kjarnalausnirnar aðgengilegar til niðurhals og leitar. Notendur gagnanna eru m.a. frumkvöðlar og nýsköpunarfyrirtæki, málfræðingar, talmeinafræðingar og sérfræðingar í máltækni, innanlands og erlendis.

Rannsóknar- og þróunarhópurinn SÍM, Samstarf um íslenska máltækni, hefur undanfarin fjögur ár þróað grunnstoðir máltækni fyrir íslensku. Hópinn skipa ríflega 60 sérfræðingar sem starfa innan rannsóknarstofnana, háskóla, annarra stofnana og sprotafyrirtækja.

„Ný tækni verður að auka lífsgæði, annars er lítið gagn í henni. Ný tækni þarf líka styrkja þá sjálfsögðu viðleitni okkar að efla ólík tungumál heimsins, hjálpa okkur að skilja hvert annað og viðhalda fjölbreytni í samfélagi þjóða. Allt þetta getur gervigreindin gert ef rétt er á málum haldið.“ Segir Guðni Th. Jóhannesson, forseti Íslands.

„Þetta er frábær áfangi fyrir tungumálið okkar, og til vitnis um þá mögnuðu vinnu sem unnin hefur verið innan máltækniáætlunarinnar. Ör þróun gervigreindartækni er mikilvæg fyrir tungumál eins og íslensku, þar felast mörg sóknarfæri sem flest eru ókönnuð – en við fáum þar ákveðið forskot með þessu samstarfi. Við viljum að framtíðin svari okkur á íslensku, og með gervigreindinni aukast möguleikarnir á því. Samvinnan skilar okkur árangri,“ segir Lilja Alfreðsdóttir menningar- og viðskiptaráðherra.

„Fyrir fjórum árum, þegar við lögðum af stað í þann mikla leiðangur að tryggja framtíð íslenskrar tungu í stafrænum heimi, var það forgangsmál að koma íslenskum máltæknilausnum í tæknina sem fólk notar dag hvern. Í maí síðastliðnum gátum við bankað upp á hjá stærstu tæknifyrirtækjum heims með hágæða gervigreindar- og máltækniafurðir, þökk sé þeim sérfræðingum sem hafa unnið að framleiðslu þeirra undanfarin ár. GPT-4 gervigreindar-mállíkansins hefur verið beðið með eftirvæntingu og sú staðreynd að OpenAI vinnur sérstaklega með íslenskum aðilum, í því skyni að auka getu þess þegar kemur að íslensku, er stórsigur fyrir íslenska tungu í tæknivæddum heimi,” segir Jóhanna Vigdís Guðmundsdóttir, framkvæmdastjóri Almannaróms. „Framtíð íslenskunnar er eitt stærsta samstarfsverkefni þjóðarinnar. Við eigum þennan áfanga öll saman.“

„Fyrir mig persónulega er bæði spennandi og skemmtilegt að fá að taka þátt í upphafi gervigreindar-byltingarinnar í samstarfi við OpenAI, sem er leiðandi á heimsvísu á því sviði,“ segir Vilhjálmur Þorsteinsson, stofnandi og framkvæmdastjóri máltæknifyrirtækisins Miðeindar. „Ég hóf minn starfsferil í árdaga einmenningstölvunnar og upplifði einnig byltingu internetsins og vefsins frá fyrstu hendi. Gervigreindar-byltingin er ekki sú minnsta af þessum þremur. Að geta tekið þátt í henni frá byrjun og stutt við íslenskuna í leiðinni er auðvitað bara draumur í dós. Nú þurfum við að hamra járnið áfram meðan það er heitt og ég hlakka til takast á við það með mínu frábæra teymi hjá Miðeind,“ segir Vilhjálmur enn fremur.

Kynningarfundur 20. mars
Næstkomandi mánudag, þann 20. mars kl. 13, verður haldinn kynningarfundur í Grósku undir yfirskriftinni „Framtíðin svarar á íslensku“. Þar verður árangur máltækniáætlunarinnar kynntur, fjallað um næstu skref í stafrænni vegagerð með máltækni og samstarfið við OpenAI kynnt nánar. Meðal þátttakenda verður Anna Adeola Makanju, yfirmaður opinberrar stefnumótunar hjá OpenAI og Angela Jiang, vörustjóri hjá OpenAI. Viðburðinn verður nánar kynntur síðar í vikunni.


Um verkefnið hjá Open AI

Myndband um verkefnið:
Með enskum texta: https://www.youtube.com/watch?v=cYJfKQN7sJ0
Með íslenskum texta: https://www.youtube.com/watch?v=TjCTWgZM1PA