Máltæknilausnir

Í máltækni er tölvutækni nýtt við beitingu tungumálsins og tungumálið nýtt við beitingu tölvutækni. Tilgangurinn er að auðvelda fólki notkun tungumálsins, á fjölda sviða. Hér má sjá yfirlit yfir kjarnalausnir og útskýringar á þeim auk afurða máltækniáætlunar hingað til. Einnig má lesa um gæðastjórnun á afurðunum.

Kjarnalausnir

Kjarnalausnir eru grundvöllur allrar frekari máltækniþróunar á íslensku. Þær eru:
  1. Markmiðið með þróun talgreinis er að til verði forrit sem geti túlkað eðlilegt tal á íslensku. Talgreiningu er hægt að nota á mörgum sviðum, s.s. í tölvukerfum bíla, í heilbrigðiskerfinu, í þjónustuverum fyrirtækja, í tölvustuddu tungumálanámi, til stuðnings fólki sem vegna fötlunar á erfitt með innslátt texta, en talgreinir gefur notendum kost á að eiga samskipti við tölvustýrð tæki með tali í stað lyklaborðs.

    Hugbúnaðarhirslur fyrir talgreiningu.

  2. Þróun talgervils miðar að því að hann geti lesið upp íslenskan texta með skýrum og auðskiljanlegum framburði, og eðlilegu tónfalli. Talgervlar fyrir íslensku verða þróaðir þannig að hægt verður að framleiða margar mismunandi raddir. Þannig geta þeir sem vilja bæta sjálfvirkum upplestri eða talsvörun við sín kerfi samþætt talgervingu við sinn hugbúnað.

    Hugbúnaðarhirslur fyrir talgervingu.

  3. Í vélþýðingum eru tölvur notaðar til að þýða texta úr einu tungumáli yfir á annað. Vélþýðingar geta þannig flýtt fyrir öllu starfi þýðenda og styrkt stöðu smærri tungumála verulega, með því t.d. að bjóða upp á rauntímaþýðingar á sjónvarpsefni, og draga verulega úr kostnaði.

    Hugbúnaðarhirslur fyrir vélþýðingar.

  4. Hugbúnaður til málrýni getur hjálpað verulega við leiðréttingar á stafsetningu og málfari, og getur veitt margvíslegar leiðbeiningar við textaskrif. Auk þess að nýtast öllum almenningi við almenn skrif getur sérhæfð málrýni nýst fjölbreyttum hópi notenda: starfsfólki fyrirtækja og stofnana, börnum, fólki með íslensku sem annað mál, lesblindum, o.s.frv. Málrýni er líka mjög mikilvæg fyrir þróun annars konar máltæknihugbúnaðar, t.d. leitarvéla og vélþýðinga, og til að gera ljóslesna texta nothæfa í stafrænu umhverfi.

    Hugbúnaðarhirslur fyrir sjálfvirkar leiðréttingar.

  5. Undir málföng falla málleg gagnasöfn og stoðtól. Málleg gagnasöfn skiptast í texta- og orðasöfn ásamt talgögnum. Þau nýtast til að mynda við þjálfun á mál- og hljóðlíkönum fyrir mismunandi máltæknihugbúnað. Stoðtól eru nauðsynleg til þess að útbúa gögn til notkunar í máltækni, en þau framkvæma einnig grunngreiningu á texta, sem oft er fyrsta skref í flóknari máltæknihugbúnaði. Nægilegt magn viðeigandi gagna og áreiðanleg stoðtól eru grunnur og forsenda allrar þróunar í máltækni.

    Hugbúnaðarhirslur fyrir stoðtól.

    Hugbúnaðarhirslur fyrir málföng.

    Risamálheild 1.

    Risamálheild 2.

    Mörkuð íslensk málheild, Gullstaðall.

    Mörkuð íslensk málheild, Gullstaðall, þjálfunar- og prófunarsett.

    BÍN - Beygingarlýsing íslensks nútímamáls.

    Íslenskt orðanet.

    Samhliða málheild ParlIce.

    Þjálfunar- og prófunargögn ParlIce.

    Hljóðgögn frá RÚV sjónvarpi.

Afurðir máltækniáætlunar

CLARIN ERIC er rannsóknarinnviðaverkefni á vegum Evrópusambandsins – CLARIN stendur fyrir „Common Language Resources and Technology Infrastructure“ og ERIC stendur fyrir „European Research Infrastructure Consortium“. Samþykktir CLARIN ERIC hafa verið staðfestar af Framkvæmdastjórn Evrópusambandsins.

Meginmarkmið CLARIN ERIC er að öll stafræn málföng (language resources) og búnaður frá allri Evrópu (og víðar) verði aðgengileg með einni innskráningu (single sign-on) á netið, til nota í rannsóknum í hug- og félagsvísindum og innan máltækni.

Varðveislusvæði CLARIN-IS (repository.clarin.is) inniheldur fjölda gagna, bæði hugbúnað til málvinnslu, málleg gagnasöfn og mállýsingar af ýmsum toga. Allar afurðir Máltækniáætlunar fóru til að mynda þangað inn og flest þau gögn sem finna mátti á www.malfong.is einnig. Hægt er að leita á varðveislusvæðinu en til að einfalda yfirsýn og leit eru helstu gögn birt hér.

Málheildir

Leitarvélar fyrir orð og orðasambönd í íslenskum texta. Málheildir geyma gríðarlegt magn orða. Til dæmis inniheldur Risamálheild Árnastofnunar meira en milljarð orða. Til málheilda telja líka gagnabankar með raddsýnum eins og þeim sem safnað hefur verið meðal almennings á vef Samróms.

Trjábankar

  • Samtímalegi íslenski trjábankinn (IceConTree) 1.1 | 1.0
  • Sögulegi íslenski trjábankinn (IcePaHC) 0.9 
  • Sögulegi færeyski trjábankinn 1.0
  • NeuralMIcePaHC 20.05 | 20.04
  • GreynirCorpus 21.06 | 20.05 | 20.05

Markaðar einmálamálheildir

Villumálheildir

  • Íslenska villumálheildin (IceEC) 1.1 | 1.0 | 0.9
  • Villumálheild íslensks barnamáls (IceCLEC) 1.1 | 1.0
  • Villumálheild íslensku sem annars máls (IceL2EC) 1.2 | 1.1 | 1.0
  • Íslenska lesblinduvillumálheildin (IceDEC) 1.1 | 1.0
  • Gagnagrunnur íslenskra bannorða (iceTaboo) 1.0
  • Óorð íslensku villumálheildarinnar 20.09

Samhliða málheildir

  • ParIce: Ensk-íslensk hliðstæð málheild 21.10 | 19.10 
  • ParIce: Þjálfunar- og prófunargögn 21.10 | 20.05
  • Íslensk-ensk þjálfunargögn fyrir samröðun setninga 21.10
  • Icelandic-English Classification Training Set for Parallel Sentence Alignment Filtering sækja
  • Icelandic-English Parallel Sentence Extraction Dataset 21.10
  • En-Is Parallel Named Entity Robustness Corpus - Test data 1.0
  • Tilbúin samhliða málheild (íslenska-enska) með innskotsorðaforða 1.0
  • Samhliða gervimálheild (EN-IS) 21.07 | 20.09
  • En-Is Synthetic Parallel Named Entity Robustness Corpus 1.0
  • En-Is Semi-Synthetic Parallel Name Robustness Corpus 1.0
  • cities_is2en 20.09 | 20.05
  • countries_is2iso 20.09 | 20.05
  • isprep4cc 20.09 | 20.05
  • isprep4isloc 20.09 | 20.05

Raddsýni og upptökur

  • Talrómur 21.02
  • Talrómur 2 21.12
  • Samrómur 21.05
  • Samrómur Queries 21.12
  • Samrómur Children 21.09
  • Spjallrómur - Icelandic Conversational Speech 22.01
  • Kennslurómur - Icelandic Lectures 22.01
  • RÚV TV data 20.12
  • RUV TV unknown speakers 22.02
  • Islex upptökur 1.0 
  • Test Set for TTS Intelligibility Tests 22.01
  • Hjal málheildin sækja 
  • Málrómur sækja 
  • Alþingisumræður sækja   
  • Alþingisgögnin (til talgreiningar) sækja 
  • Jensson málheildin sækja 
  • Þór málheildin sækja 
  • Rúv málheildin sækja 

Aðrar málheildir

  • Íslenska ruglingsmengjamálheildin (ICoSC) 2.0 | 1.0
  • Málheild fyrir textanormun (Text Normalization Corpus) 21.10
  • NQiI - Natural Questions In Icelandic 1.1 | 1.0
  • Íslenska WinoGrande málheildin 1.0

Hugbúnaður og líkön

Tókarar, pos-markarar, lemmöld og þáttarar

  • ABL-tagger 3.0 | 2.0 | 1.0
  • ABL-lemmatizer 3.1.0
  • CombiTagger 1.0 
  • Tokenizer - tilreiðari fyrir íslenska texta 3.3.3 | 3.3.2 | 2.3.1 | 2.0.3
  • IceParser 1.5.0 
  • IceNLP Natural Language Processing toolkit 1.0   
  • Íslensk taugaþáttunarpípa (IceNeuralParsingPipeline) 20.04
  • Tauganetsþáttari Miðeindar  1.0
  • GreynirPackage 3.5.1 | 3.1.0 | 2.6.1

Nafnaþekkjarar

  • Icelandic NER API - Ensamble model 21.09
  • Icelandic NER API - ELECTRA-base model 21.05

Þýðingarvélar og líkön

  • GreynirTranslate - mBART25 NMT þýðingarlíkön fyrir íslensku og ensku 1.0 
  • GreynirTranslate - mBART25 NMT (með lagamissi) þýðingarlíkön fyrir íslensku og ensku 1.0
  • GreynirT2T - En--Is NMT með Tensor2Tensor 1.0
  • GreynirT2T Serving - En--Is NMT Inference and Pre-trained Models 1.0
  • MT: Moses-SMT 1.0

Talgerving og talgreining

  • RÚV-DI Speaker Diarization 21.10 | 20.09
  • RÚV-DI Speaker Diarization v5 models 21.05
  • Tiro: TTS vefþjónusta 1.0
  • Tiro: Vefgátt fyrir talgreiningu 1.0
  • FED-tól  fyrir einkenni hljóðvistar með mælendaupplýsingum 20.09
  • MOSI: hugbúnaður til að meta gæði hljóðgervingar 22.01
  • Samrómur - sýnisforskriftir fyrir börn  22.01
  • Webrice-viðbótin 22.01
  • Hljóðritunarlíkön fyrir íslensku 20.10
  • Hljóðritunarlíkön fyrir íslensku - þjálfuð á LSTM tauganeti 20.10
  • Vefviðmót til þess að vinna með framburðarorðabækur. 20.10
  • Greinarmerkingarlíkan 20.09

Málrýni

  • Multilabel Error Classifier (Icelandic Error Corpus categories) for Sentences 22.01
  • GreynirCorrect 3.2.1 | 3.2.0 | 1.0.2 | 1.0.0  

Orðasöfn og orðabækur

Orðabækur og orðanet

Önnur orðasöfn

  • BÍN - skammstafanir 21.10 
  • Stopporðalisti fyrir Risamálheildina 21.08
  • Gold Alignments for English-Icelandic Word Alignments 21.04
  • IceBATS - The Icelandic Bigger Analogy Test Set 21.06
  • Icelandic Multi-SimLex 21.06
  • Íslenskar leitarfyrirspurnarvillur (IceSQuEr) 0.1
  • Þýðingar á stofnunum, fyrirtækjum og titum 1.0

Annað

  • Icegrams 1.1.1 | 20.09
  • Icelandic Pronunciation 20.10
  • Íslensk mállíkön með framburðarorðabók 22.01
  • Framburðarorðabókin sækja 
  • Almenn framburðarorðabók fyrir talgreiningu sækja 
  • Mynstur og setningar sækja 

Annað

  • Alexia - orðtökutól fyrir íslensku 3.0 | 2.0 | 1.0
  • Hunspell-IS. Villuleit, málfræðigreining og samheitaorðabók fyrir íslensku. sækja
  • BinPackage 0.4.2 | 0.3.1
  • Skiptir 20.10
  • UD-varpari 22.01

Framkvæmd og gæðastjórnun

Almannarómur, sem ábyrgðaraðili framkvæmdar Máltækniáætlunar, gekk til samninga við rannsóknar- og þróunarhópinn SÍM (Samstarf um íslenska máltækni) sem framkvæmdaaðila kjarnalausna á fyrsta árum verkefnisins.

Öll skil frá framkvæmdahópnum eru grunnur að nýtingu og áframhaldandi þróun íslenskrar máltækni og því eru gerðar miklar gæðakröfur til þeirra.

Almannarómur ber ábyrgð á að afurðir máltækniáætlunar verði af þeim gæðum að frumkvöðlar, fyrirtæki, stofnanir og einstaklingar geti nýtt þær við smíði máltæknilausna á íslensku fyrir notendur. Í því skyni hefur Almannarómur sett saman fagráð sem samanstendur af virtum alþjóðlegum sérfræðingum á sviði máltækni.

Fagráðið skipa þau Bente Maegaard, Kadri Vider og Steven Krauwer. Hlutverk fagráðs er að vera framkvæmdastjóra Almannaróms til ráðgjafar hvað varðar tæknilega útfærslu kjarnaverkefna. Þannig rýnir fagráð ítarlega tæknilýsingu samstarfssamnings Almannaróms og SÍM, í samhengi við fimm ára máltækniáætlun og þróun tæknilausna í máltækni alþjóðlega. Þá hefur fagráð einnig það hlutverk að rýna áfangaskýrslur rannsóknar og þróunarhópsins SÍM áður en greiðslur vegna framkvæmdar geta farið fram.

SÍM-hópurinn hefur sett saman staðla fyrir gögn annars vegar og hugbúnað hins vegar og mun fylgja því eftir að afurðir verkefnisins fylgi þessum stöðlum. Fagráð Almannaróms hefur það hlutverk að rýna staðla og störf gæðanefnda.

Gæðastjórnun hugbúnaðarlausna

Búið verður um hugbúnaðarlausnir verkefnisins á þann hátt að þær nýtist sem best í áframhaldandi þróun og sem hluti stærri hugbúnaðarlausna hjá fyrirtækjum og stofnunum. Í gæðastjórnunarteymi fyrir hugbúnað kemur saman víðtæk alþjóðleg reynsla af hugbúnaðarþróun á ýmsum sviðum, í atvinnulífinu og í rannsóknarumhverfi.  Daniel Schnell frá Grammatek ehf., Dr. Hrafn Loftsson frá Háskólanum í Reykjavík og Vilhjálmur Þorsteinsson frá Miðeind ehf. mynda þetta teymi.

Gæðastjórnun gagna

Staðlar fyrir gögn eru samhæfðir eins og kostur er, sem auðveldar alla nýtingu þeirra. Farið er eftir alþjóðlegu FAIR-viðmiðunum (e. Findable-Accessible-Interoperable-Reusable), sem tryggir m.a. að gögnin finnist auðveldlega við leit og séu aðgengileg. Í gæðastjórnunarteymi gagna eiga sæti fulltrúar miðstöðvar CLARIN á Íslandi, sem tryggja að CLARIN-stöðlum sé fylgt, sem og sérfræðingar í texta- og talgögnum. Þau eru Eiríkur Rögnvaldsson og Samúel Þorsteinsson frá CLARIN, Dr. Eydís Huld Magnúsdóttir frá Háskólanum í Reykjavík og Steinþór Steingrímsson frá Stofnun Árna Magnússonar í íslenskum fræðum.