Kjarnaverkefni í máltækni

Máltækni er þróuð í hagnýtum tilgangi, þar er tölvutækni nýtt við beitingu tungumálsins og tungumálið nýtt við beitingu tölvutækni. Tilgangurinn er að auðvelda fólki notkun tungumálsins, á fjölda sviða.

Grundvöllur allrar máltækniþróunar á íslensku

Kjarnaverkefni í máltækni er samheiti yfir þær kjarnalausnir sem eru grundvöllur allrar frekari máltækniþróunar á íslensku. Þessar kjarnalausnir eru:
  1. Markmiðið með þróun talgreinis er að til verði forrit sem geti túlkað eðlilegt tal á íslensku. Talgreiningu er hægt að nota á mörgum sviðum, s.s. í tölvukerfum bíla, í heilbrigðiskerfinu, í þjónustuverum fyrirtækja, í tölvustuddu tungumálanámi, til stuðnings fólki sem vegna fötlunar á erfitt með innslátt texta, en talgreinir gefur notendum kost á að eiga samskipti við tölvustýrð tæki með tali í stað lyklaborðs.

    Hugbúnaðarhirslur fyrir talgreiningu.

  2. Þróun talgervils miðar að því að hann geti lesið upp íslenskan texta með skýrum og auðskiljanlegum framburði, og eðlilegu tónfalli. Talgervlar fyrir íslensku verða þróaðir þannig að hægt verður að framleiða margar mismunandi raddir. Þannig geta þeir sem vilja bæta sjálfvirkum upplestri eða talsvörun við sín kerfi samþætt talgervingu við sinn hugbúnað.

    Hugbúnaðarhirslur fyrir talgervingu.

  3. Í vélþýðingum eru tölvur notaðar til að þýða texta úr einu tungumáli yfir á annað. Vélþýðingar geta þannig flýtt fyrir öllu starfi þýðenda og styrkt stöðu smærri tungumála verulega, með því t.d. að bjóða upp á rauntímaþýðingar á sjónvarpsefni, og draga verulega úr kostnaði.

    Hugbúnaðarhirslur fyrir vélþýðingar.

  4. Hugbúnaður til málrýni getur hjálpað verulega við leiðréttingar á stafsetningu og málfari, og getur veitt margvíslegar leiðbeiningar við textaskrif. Auk þess að nýtast öllum almenningi við almenn skrif getur sérhæfð málrýni nýst fjölbreyttum hópi notenda: starfsfólki fyrirtækja og stofnana, börnum, fólki með íslensku sem annað mál, lesblindum, o.s.frv. Málrýni er líka mjög mikilvæg fyrir þróun annars konar máltæknihugbúnaðar, t.d. leitarvéla og vélþýðinga, og til að gera ljóslesna texta nothæfa í stafrænu umhverfi.

    Hugbúnaðarhirslur fyrir sjálfvirkar leiðréttingar.

  5. Undir málföng falla málleg gagnasöfn og stoðtól. Málleg gagnasöfn skiptast í texta- og orðasöfn ásamt talgögnum. Þau nýtast til að mynda við þjálfun á mál- og hljóðlíkönum fyrir mismunandi máltæknihugbúnað. Stoðtól eru nauðsynleg til þess að útbúa gögn til notkunar í máltækni, en þau framkvæma einnig grunngreiningu á texta, sem oft er fyrsta skref í flóknari máltæknihugbúnaði. Nægilegt magn viðeigandi gagna og áreiðanleg stoðtól eru grunnur og forsenda allrar þróunar í máltækni.

    Hugbúnaðarhirslur fyrir stoðtól.

    Hugbúnaðarhirslur fyrir málföng.

    Risamálheild 1.

    Risamálheild 2.

    Mörkuð íslensk málheild, Gullstaðall.

    Mörkuð íslensk málheild, Gullstaðall, þjálfunar- og prófunarsett.

    BÍN - Beygingarlýsing íslensks nútímamáls.

    Íslenskt orðanet.

    Samhliða málheild ParlIce.

    Þjálfunar- og prófunargögn ParlIce.

    Hljóðgögn frá RÚV sjónvarpi.

Framkvæmd og gæðastjórnun

Almannarómur, sem ábyrgðaraðili framkvæmdar Máltækniáætlunar, gekk til samninga við rannsóknar- og þróunarhópinn SÍM (Samstarf um íslenska máltækni) sem framkvæmdaaðila kjarnalausna á fyrsta árum verkefnisins.

Öll skil frá framkvæmdahópnum eru grunnur að nýtingu og áframhaldandi þróun íslenskrar máltækni og því eru gerðar miklar gæðakröfur til þeirra.

Almannarómur ber ábyrgð á að afurðir máltækniáætlunar verði af þeim gæðum að frumkvöðlar, fyrirtæki, stofnanir og einstaklingar geti nýtt þær við smíði máltæknilausna á íslensku fyrir notendur. Í því skyni hefur Almannarómur sett saman fagráð sem samanstendur af virtum alþjóðlegum sérfræðingum á sviði máltækni.

Fagráðið skipa þau Bente Maegaard, Kadri Vider og Steven Krauwer. Hlutverk fagráðs er að vera framkvæmdastjóra Almannaróms til ráðgjafar hvað varðar tæknilega útfærslu kjarnaverkefna. Þannig rýnir fagráð ítarlega tæknilýsingu samstarfssamnings Almannaróms og SÍM, í samhengi við fimm ára máltækniáætlun og þróun tæknilausna í máltækni alþjóðlega. Þá hefur fagráð einnig það hlutverk að rýna áfangaskýrslur rannsóknar og þróunarhópsins SÍM áður en greiðslur vegna framkvæmdar geta farið fram.

SÍM-hópurinn hefur sett saman staðla fyrir gögn annars vegar og hugbúnað hins vegar og mun fylgja því eftir að afurðir verkefnisins fylgi þessum stöðlum. Fagráð Almannaróms hefur það hlutverk að rýna staðla og störf gæðanefnda.

Gæðastjórnun hugbúnaðarlausna

Búið verður um hugbúnaðarlausnir verkefnisins á þann hátt að þær nýtist sem best í áframhaldandi þróun og sem hluti stærri hugbúnaðarlausna hjá fyrirtækjum og stofnunum. Í gæðastjórnunarteymi fyrir hugbúnað kemur saman víðtæk alþjóðleg reynsla af hugbúnaðarþróun á ýmsum sviðum, í atvinnulífinu og í rannsóknarumhverfi.  Daniel Schnell frá Grammatek ehf., Dr. Hrafn Loftsson frá Háskólanum í Reykjavík og Vilhjálmur Þorsteinsson frá Miðeind ehf. mynda þetta teymi.

Gæðastjórnun gagna

Staðlar fyrir gögn eru samhæfðir eins og kostur er, sem auðveldar alla nýtingu þeirra. Farið er eftir alþjóðlegu FAIR-viðmiðunum (e. Findable-Accessible-Interoperable-Reusable), sem tryggir m.a. að gögnin finnist auðveldlega við leit og séu aðgengileg. Í gæðastjórnunarteymi gagna eiga sæti fulltrúar miðstöðvar CLARIN á Íslandi, sem tryggja að CLARIN-stöðlum sé fylgt, sem og sérfræðingar í texta- og talgögnum. Þau eru Eiríkur Rögnvaldsson og Samúel Þorsteinsson frá CLARIN, Dr. Eydís Huld Magnúsdóttir frá Háskólanum í Reykjavík og Steinþór Steingrímsson frá Stofnun Árna Magnússonar í íslenskum fræðum.