Heimildasöfnun um íslenskunotkun fyrirtækja landsins. Markmiðið er bæta við risamálheildina raunsannri mynd af þeirri íslensku sem notuð er í atvinnulífinu. Það mun styrkja stoðir tungumálsins okkar á sama tíma og það stuðlar að bættri íslenskugetu tæknilausna framtíðarinnar.

Frá árinu 2014 hefur Almannarómur búið íslenska tungumálinu framtíð í tækni. Nú leggjum við af stað með átak og biðlum til íslenska atvinnulífsins að taka þátt í því með okkur. Átakið miðar að því að stækka Risamálheildina, miðlæga grunnstoð máltækni á íslensku.
Til að taka þátt skráir þú þitt fyrirtæki eða vinnustað hér að ofan. Þú sem fulltrúi vinnustaðar skrifar rafrænt undir afhendingarsamning og getur svo hlaðið upp þeim heimildum sem þið kjósið að deila fyrir átakið.
Opna vef →
Markmið Almannaróms eru að tryggja að íslenskan verði jafnoki annarra tungumála í stafrænni þróun og að fyrirtæki og almenningur hafi aðgang að máltækni á íslensku. Þannig búum við íslenskunni framtíð í tækni.
Heimildasöfnunin er í höndum Almannaróms og fara heimildirnar, t.d. textagögn, í gegnum sérstaka heimildagátt. Dæmi um slíkt eru skýrslur, verklagsreglur, leiðbeiningar, minnisblöð, kynningar og margt fleira.
Í kjölfarið tekur Árnastofnun við keflinu og færir gögnin inn í Risamálheildina með tilheyrandi forvinnsluferli.
Stofnun Árna Magnússonar í íslenskum fræðum hefur annast slíka gagnavinnslu um árabil og er hlutverk hennar að tryggja gæði og notagildi gagnanna.
01
Móttaka og undirbúningur
Gögnin eru fyrst stöðluð og undirbúin fyrir vinnslu. Skráarsnið og kóðun eru samræmd til að þau falli að vinnslukerfum málheildarinnar. Þetta felur einnig í sér að innihald skjalanna er hreinsað á sjálfvirkan hátt af hvers konar ónothæfum táknum, HTML-kóðum eða textabrotum á erlendum tungumálum, sem dæmi.
Við lok þessa ferlis sitja eftir heilir textar á íslensku.
Mikilvægt er að taka fram að þetta ferli felur ekki í sér fjarlægingu viðkvæmra upplýsinga. Því er mikilvægt að fyrirtæki tryggi að innsend gögn innihaldi engin trúnaðarmál.
02
Málfræðileg greining og sundurliðun
Textinn fer svo í gegnum sjálfvirka málfræðilega greiningu. Hann er:
→
Bútaður niður í smærri einingar
→
Merktur með ítarlegum málfræðilegum upplýsingum
→
Staðlaður í samræmdu gagnasniði
Þetta er nauðsynlegt, bæði svo hægt sé að nýta þau í málfræðirannsóknir og svo að gögnin nýtist sem efniviður fyrir máltæknilausnir, sem vinna m.a. með orðmyndir, setningagerð og samhengi.
03
Útgáfa sem opin málheild
Að lokinni vinnslu verða gögnin hluti af sérstakri afleiddri málheild fyrir verkefnið sem gefin verður út undir leyfinu Creative Commons BY 4.0.
Þar með er hún öllum m.a. opin til rannsókna og þróunar, en heilir textar verða hlutaðir niður og þeir stokkaðir upp, þannig að ekki verður hægt að endurgera upprunaleg skjöl eða sækja í þau samhengi.
Samfélagslegt framtak fyrir framtíð íslenskunnar
Almannarómur hefur frá 2014 byggt upp innviði íslenskrar máltækni í samstarfi við Árnastofnun, háskóla og atvinnulíf. Heimildasöfnunin er framhald þess starfs og mikilvægt skref í að tryggja að íslenska verði áfram fullgilt tungumál í stafrænum heimi. Með því að leggja verkefninu lið styrkja fyrirtæki grundvöll gervigreindar í íslensku samfélagi og stuðla að því Íslendingar geti óhindrað notað nútímatækni á þeirri íslensku sem við tölum í dag.
Nánari upplýsingar um átaksverkefnið og þátttöku má finna hér.
Hvað verður um gögnin og hvernig verður unnið úr þeim áður en þau enda í Risamálheild?
Verða viðkvæmar upplýsingar sjálfkrafa hreinsaðar úr skjölunum?
Hverjir munu hafa aðgang að gagnahirslum sem gögnin verða geymd í?
Verður hægt að endurgera og leita í þeim skjölum sem ég gef af hendi?
Get ég óskað eftir að gögnum sem ég hef sent inn sé eytt úr málheildinni eftir á?
