Hvernig virkar heimildasöfnun Almannaróms?

Tæknilegir innviðir íslenskrar máltækni efldir með heimildasöfnun úr atvinnulífinu

Risamálheildin, sem er eitt af flaggskipum Árnastofnunar, hefur um árabil verið ein af helstu stoðum íslenskrar máltækni. Risamálheildin inniheldur yfir 2,5 milljarða lesmálsorða úr fjölbreyttum textaflokkum og nýtist bæði til rannsókna og til þróunar máltæknilausna á íslensku.

En til þess að Risamálheildin geti haldið áfram að þróast og endurspegla lifandi, nútímalegt mál þarf stöðugt að uppfæra hana með fleiri og fjölbreyttari textum. Það er ekki síst mikilvægt að hún endurspegli þá orðanotkun sem tíðkast í atvinnulífinu þar sem sérhæfður orðaforði þróast hratt.

Verkefnið „Þín íslenska er málið“, sem Almannarómur og Árnastofnun standa sameiginlega að, styrkir þessa uppbyggingu með því að virkja almenning, fyrirtæki og stofnanir til að deila eigin heimildum, það er stafrænum textum úr eigin starfsemi. Verkefninu var hrundið af stað í Viku íslenskrar tungu með miklum og góðum viðbrögðum frá bæði almenningi og íslensku atvinnulífi.

„Risamálheildin er lykilatriði í rannsóknum á íslensku máli. Ekkert annað málfræðilega greint textasafn á íslensku nálgast hana í stærð eða aðgengi og geta sérfræðingar sem og leikmenn nálgast nákvæmar upplýsingar um málnotkun samtímans í gegnum hana. Þróun máltækni- og gervigreindartóla fyrir íslensku stendur og fellur sömuleiðis með tilvist og gæðum gagnanna sem við höfum. Í þessu samhengi er gríðarlega mikilvægt að við höldum áfram að efla innihald Risamálheildarinnar svo hún endurspegli sem flest svið samfélagsins, enda á íslenska heima á þeim öllum“ segir Hinrik Hafsteinsson, umsjónarmaður Risamálheildarinnar á Árnastofnun.

Tæknilegur vinnsluferill textagagna

Heimildasöfnunin er í höndum Almannaróms og fara heimildirnar, t.d. textagögn, í gegnum sérstaka heimildagátt. Dæmi um slíkt eru skýrslur, verklagsreglur, leiðbeiningar, minnisblöð, kynningar og margt fleira.

Í kjölfarið tekur Árnastofnun við keflinu og færir gögnin inn í Risamálheildina með tilheyrandi forvinnsluferli.

Stofnun Árna Magnússonar í íslenskum fræðum hefur annast slíka gagnavinnslu um árabil og er hlutverk hennar að tryggja gæði og notagildi gagnanna.

1. Móttaka og undirbúningur

Gögnin eru fyrst stöðluð og undirbúin fyrir vinnslu. Skráarsnið og kóðun eru samræmd til að þau falli að vinnslukerfum málheildarinnar. Þetta felur einnig í sér að innihald skjalanna er hreinsað á sjálfvirkan hátt af hvers konar ónothæfum táknum, HTML-kóðum eða textabrotum á erlendum tungumálum, sem dæmi.

Við lok þessa ferlis sitja eftir heilir textar á íslensku.

Mikilvægt er að taka fram að þetta ferli felur ekki í sér fjarlægingu viðkvæmra upplýsinga. Því er mikilvægt að fyrirtæki tryggi að innsend gögn innihaldi engin trúnaðarmál.

2. Málfræðileg greining og sundurliðun

Textinn fer svo í gegnum sjálfvirka málfræðilega greiningu. Hann er:

  • bútaður niður í smærri einingar,
  • merktur með ítarlegum málfræðilegum upplýsingum,
  • staðlaður í samræmdu gagnasniði.

Þetta er nauðsynlegt, bæði svo hægt sé að nýta þau í málfræðirannsóknir og svo að gögnin nýtist sem efniviður fyrir máltæknilausnir, sem vinna m.a. með orðmyndir, setningagerð og samhengi.

3. Útgáfa sem opin málheild

Að lokinni vinnslu verða gögnin hluti af sérstakri afleiddri málheild fyrir verkefnið sem gefin verður út undir leyfinu Creative Commons BY 4.0.

Þar með er hún öllum m.a. opin til rannsókna og þróunar, en heilir textar verða hlutaðir niður og þeir stokkaðir upp, þannig að ekki verður hægt að endurgera upprunaleg skjöl eða sækja í þau samhengi.

Samfélagslegt framtak fyrir framtíð íslenskunnar

Almannarómur hefur frá 2014 byggt upp innviði íslenskrar máltækni í samstarfi við Árnastofnun, háskóla og atvinnulíf. Heimildasöfnunin er framhald þess starfs og mikilvægt skref í að tryggja að íslenska verði áfram fullgilt tungumál í stafrænum heimi. Með því að leggja verkefninu lið styrkja fyrirtæki grundvöll gervigreindar í íslensku samfélagi og stuðla að því Íslendingar geti óhindrað notað nútímatækni á þeirri íslensku sem við tölum í dag.

Nánari upplýsingar um átaksverkefnið og þátttöku má finna hér