Íslenska batnar mest allra tungumála í nýjum þýðingarlíkönum Google

Mikil bæting er á vélþýðingum milli ensku og íslensku í nýjum opnum þýðingarlíkönum sem Google gaf út fyrir stuttu, TranslateGemma. Villutíðni minnkar um rúm 30% frá fyrri opnum líkönum Google þegar kemur að íslensku, sem er mesta bæting á nokkru tungumáli sem greint er frá í tækniskýrslu Google, sem fylgir útgáfu líkananna.
Þannig fá þýðingar milli ensku og íslensku hjá TranslateGemma 5,69 stig á svokölluðum MetricX-skala (því lægra stig, því betra) en höfðu áður mælst 8,31 á opna líkaninu Gemma 3. Þetta er bæting upp á rúm 31% sem er mesta bæting á nokkru tungumáli sem Google mældi á prófinu. Þrátt fyrir þessa miklu bætingu mælist villutíðni íslensku þó enn há miðað við önnur stærri tungumál.
Þessa miklu bætingu á þýðingarvirkni íslensku hjá Google má líklega að hluta til rekja til fundar sem haldinn var með Google í maí 2024 þegar sendinefnd á vegum þáverandi menningarráðherra heimsótti tæknifyrirtæki á vesturströnd Bandaríkjanna. Á þeim fundi sátu meðal annars meðlimir vélþýðingarteymis Google auk stjórnenda innan Google DeeppMind, sem fengu kynningu á þeim íslensku gagnasöfnum sem til eru, meðal annars fyrir vélþýðingu.

Lilja Alfreðsdóttir, þáverandi menningarráðherra, og Hadar Shemtov, sem fer fyrir verkefni innan Google um fjölbreytni tungumála í lausnum fyrirtækisins, taka mynd saman eftir vel heppnaðan fund í maí 2024.
Gemini 3 stendur sig vel
Almannarómur hefur síðan haldið góðu sambandi við tengiliði sína innan fyrirtækisins og ítrekað þörf fyrir bætta íslenskugetu lausna fyrirtækisins. Annað dæmi um nýlega bætingu lausna Google fyrir íslensku er góð íslenskugeta mállíkansins Gemini 3 frá Google, sem mælist það besta í íslensku skv. stigatöflu Miðeindar fyrir risamállíkön.

Hlutfall íslenskra fínþjálfunargagna var þónokkuð miðað við önnur tungumál í þjálfunarferli nýju líkananna, um 2%.
Íslensk gæðaprófun í vinnslu
TranslateGemma-líkönin eru afar ný af nálinni og enn á eftir að keyra íslensk mælipróf á gæðum þýðinganna en niðurstaðna úr þeim má vænta frá Árnastofnun snemma í mars. Fæst þá betra samhengi gæðanna við aðrar vélþýðingarlausnir sem til eru í dag fyrir íslensku en nokkuð óhætt er að fullyrða að TranslateGemma séu á meðal bestu opnu vélþýðingarlíkana milli ensku og íslensku, sérstaklega ef miðað er við stærð. Líkönin eru aðgengileg í þremur stærðum, 27B, 12B og 4B parametra, og krefjast því ekki gífurlegs vinnsluminnis til keyrslu.
Niðurstöður mælinganna hér að ofan eiga við stærsta líkanið, GemmaTranslate 27B, en minni líkön GemmaTranslate mælast öll töluvert betri en sama stærð líkansins Gemma 3.

