Sólin Sólin Rís 05:36 • sest 21:19 í Reykjavík
Tunglið Tunglið Rís 16:44 • Sest 05:50 í Reykjavík
Flóð Flóð Árdegis: 04:37 • Síðdegis: 17:05 í Reykjavík
Fjaran Fjara Árdegis: 10:57 • Síðdegis: 23:09 í Reykjavík

Hvað er máltækni og hvaða máli skiptir hún fyrir íslensku?

Eiríkur Rögnvaldsson

Máltækni er tiltölulega nýlegt orð í íslensku – þýðing á því sem á ensku nefnist language technology. Einnig hefur orðið tungutækni verið notað um sama hugtak. Í stuttu máli má segja að með máltækni sé átt við hvers kyns samvinnu tungumáls og tölvutækni sem hefur einhvern hagnýtan tilgang; beinist að því að hanna eða útbúa einhvern hugbúnað eða tæki sem nýtist mönnum í starfi eða leik. Þessi samvinna hefur tvær hliðar og felst annars vegar í notkun tölvutækninnar í þágu tungumálsins; hins vegar í notkun tungumálsins í þágu tölvutækninnar.

Það er hægt að nýta tölvu- og upplýsingatækni á ýmsan hátt til þess að auðvelda mönnum að nota tungumálið. Þar má nefna ýmiss konar leiðréttingarforrit fyrir stafsetningu og málfar. Slíkur búnaður fylgir til dæmis algengum forritapökkum eins og Microsoft Office og LibreOffice á ýmsum tungumálum. Einnig er hægt að sækja viðbætur af þessu tagi fyrir ýmsa vafra, til dæmis Firefox og Chrome. Íslensk stafsetningarleiðréttingarforrit eru til, svo sem Púki og Skrambi, en ekkert málfræðileiðréttingarforrit er til fyrir íslensku.

Máltækni er hvers kyns samvinna tungumáls og tölvutækni sem hefur einhvern hagnýtan tilgang.

Hér má einnig telja ýmiss konar hjálpartæki handa þeim sem eiga erfitt með mál eða lestur sökum einhvers konar fötlunar. Talgervill, sem er búnaður sem les upp ritaðan texta, var fyrst gerður fyrir íslensku um 1990 en nýjasti talgervillinn kom á markaðinn 2012. Hann var gerður á vegum Blindrafélagsins og býr yfir tveimur röddum, karlmannsrödd sem nefnist Karl og kvenmannsrödd sem nefnist Dóra.

Talgreinir breytir töluðu máli í ritaðan texta. Slíkur búnaður fyrir íslensku var gerður árið 2012 í samvinnu Google við íslenska aðila og er nú í símum með Android-stýrikerfi og í Google Chrome-vafranum. Hægt er að nota talgreininn við leit á netinu, til að skrifa smáskilaboð og tölvupóst, minnisatriði og fleira. Slíkur búnaður getur vitaskuld nýst öllum málnotendum en ekki síst þeim sem eru hreyfihamlaðir og eiga erfitt með að nota lyklaborð til að rita texta.

Eitt veigamesta svið máltækni eru vélrænar þýðingar, þar sem hugbúnaður er notaður til að þýða texta af einu máli á annað. Google Translate er þekktasti búnaðurinn á þessu sviði og getur þýtt milli fjölda tungumála, þar á meðal milli íslensku og annarra mála. Gæði þýðinganna eru misjöfn en fara vaxandi eftir því sem búnaðurinn er lengur í notkun og hefur fleiri gögn til að læra af. Íslendingar hafa einnig unnið að vélrænum þýðingum, einkum Stefán Briem sem rekur vefsetrið Tungutorg.

Eitt veigamesta svið máltækni eru vélrænar þýðingar.

En tungumálið er ekki bara þiggjandi í samvinnu við tölvutæknina. Það er líka notað á margvíslegan hátt til að gera tæknina aðgengilegri og auðvelda mönnum að nýta sér hana. Þar má nefna ýmiss konar þjónustuver þar sem tölva hlustar á erindi notandans og greinir merkingu þess. Sú greining er síðan send til gagnabanka, þar sem er að finna svör við margvíslegum fyrirspurnum, og viðeigandi svar sótt í bankann. Því svari er svo breytt í eðlilega setningu og hún send til tölvubúnaðar sem les hana fyrir notandann. Þetta ferli er alsjálfvirkt og byggist á margvíslegri og flókinni greiningu á tali notandans; hljóðgreiningu, orðgreiningu, setningagreiningu, merkingargreiningu og fleira.

Einnig má nefna notkun málsins við stjórn tölva og ýmiss konar tölvustýrðra tækja. Það fer mjög í vöxt að slíkum tækjum sé stjórnað með venjulegu máli, annað hvort rituðu eða töluðu. Skipanir eru þá ýmist slegnar inn á lyklaborð eða talaðar í hljóðnema, í stað þess að ýta á takka eða velja kost í valmynd. Þetta mun á næstunni taka til sífellt fjölbreyttari tækja, svo sem ýmiss konar framleiðslutækja, heimilistækja og bíla.

En slík tæki skilja ekki íslensku – enn sem komið er. Til að slíkt megi verða þarf að byggja upp viðamikil málleg gagnasöfn – orðasöfn, textasöfn, hljóðsöfn og fleira. Þessi söfn eru síðan notuð til að vinna úr þeim margvíslegar og nákvæmar upplýsingar um tungumálið. Til að hægt sé að þróa forrit til málfarsleiðréttingar þarf til dæmis að liggja fyrir nákvæm og ítarleg greining á íslenskri setningagerð – mun nákvæmari og ítarlegri en finna má í handbókum og kennslubókum. Það er ekki hægt að útbúa leiðréttingarforrit nema skrá nákvæmlega hvaða setningagerðir eru leyfilegar í málinu og hverjar ekki og jafnframt semja lýsingu á því hvernig eigi að lagfæra það sem betur má fara. En það er ekki nóg að byggja upp gagnasöfn – það þarf líka að skrifa hugbúnað sem vinnur með þessi gagnasöfn, svo sem forrit til málfarsleiðréttinga, þýðingaforrit, talgervla og svo framvegis.

Þetta uppbyggingarstarf er dýrt. Það kostar jafnmikið að koma upp máltækni fyrir íslensku og fyrir tungumál milljónaþjóða. Margs konar máltæknibúnaður er vissulega góð markaðsvara og skilar miklum tekjum sem standa undir háum þróunarkostnaði – ef markaðurinn er nógu stór. En því er ekki að heilsa á Íslandi. Vegna smæðar markaðarins er ljóst að það verður seint arðvænlegt að þróa dýran máltæknibúnað fyrir íslensku. Vilji Íslendingar að íslenska sé nothæf innan tölvu- og upplýsingatækninnar þarf opinber stuðningur við þróunarstarf að koma til.

Ritið Íslensk tunga á stafrænni öld.

Þegar mikilvægi máltækni fyrir íslensku er metið verður að líta til þess að upplýsingatæknin er orðin mikilvægur þáttur í daglegu lífi alls almennings í landinu. Ef ekki verður hægt að nota íslensku á öllum sviðum upplýsingatækninnar kemur upp splunkuný staða, sem ekki á sér hliðstæðu fyrr í málsögunni. Þá verður orðið til mikilvægt svið í daglegu lífi venjulegs fólks, þar sem móðurmálið er gagnslítið eða ónothæft. Hvaða áhrif hefði slíkt umdæmistap á málnotendur og málsamfélagið? Hvað gæti gerst ef móðurmálið yrði ekki lengur nothæft í nýrri tækni og öðru sem er nýtt og spennandi; á sviðum þar sem nýsköpun af ýmsu tagi á sér stað; og á sviðum þar sem ný atvinnutækifæri bjóðast?

En íslensk máltækni hefur ekki eingöngu gildi fyrir tungumálið og varðveislu þess. Málnotendurnir og hagsmunir þeirra skipta ekki síður máli. Það er mannréttindamál að geta notað móðurmálið á öllum sviðum daglegs lífs, bæði í starfi og leik – líka innan upplýsingatækninnar. Til að svo megi verða þarf allur algengur hugbúnaður að vera á íslensku, leiðréttingarhugbúnaður fyrir íslenskan texta þarf að vera til, það þarf að vera hægt að tala við ýmis tölvustýrð tæki á íslensku, til þurfa að vera þýðingarforrit sem geta þýtt milli íslensku og annarra mála, og málnotendur þurfa að eiga aðgang að hugbúnaði sem getur unnið flóknar upplýsingar úr texta- og gagnasöfnum og leitað í þeim á margvíslegan hátt. Enn vantar mikið upp á að þessi markmið náist.

Heimildir:

Myndir:

Frekara ítarefni:

Höfundur

Eiríkur Rögnvaldsson

prófessor emeritus í íslenskri málfræði

Útgáfudagur

21.1.2014

Spyrjandi

Margrét Guðmundsdóttir

Tilvísun

Eiríkur Rögnvaldsson. „Hvað er máltækni og hvaða máli skiptir hún fyrir íslensku?“ Vísindavefurinn, 21. janúar 2014. Sótt 20. apríl 2024. http://visindavefur.is/svar.php?id=66671.

Eiríkur Rögnvaldsson. (2014, 21. janúar). Hvað er máltækni og hvaða máli skiptir hún fyrir íslensku? Vísindavefurinn. Sótt af http://visindavefur.is/svar.php?id=66671

Eiríkur Rögnvaldsson. „Hvað er máltækni og hvaða máli skiptir hún fyrir íslensku?“ Vísindavefurinn. 21. jan. 2014. Vefsíða. 20. apr. 2024. <http://visindavefur.is/svar.php?id=66671>.

Chicago | APA | MLA

Spyrja

Sendu inn spurningu LeiðbeiningarTil baka

Hér getur þú sent okkur nýjar spurningar um vísindaleg efni.

Hafðu spurninguna stutta og hnitmiðaða og sendu aðeins eina í einu. Einlægar og vandaðar spurningar um mikilvæg efni eru líklegastar til að kalla fram vönduð og greið svör. Ekki er víst að tími vinnist til að svara öllum spurningum.

Persónulegar upplýsingar um spyrjendur eru eingöngu notaðar í starfsemi vefsins, til dæmis til að svör verði við hæfi spyrjenda. Spurningum er ekki sinnt ef spyrjandi villir á sér heimildir eða segir ekki nægileg deili á sér.

Spurningum sem eru ekki á verksviði vefsins er eytt.

Að öðru leyti er hægt að spyrja Vísindavefinn um allt milli himins og jarðar!

=

Senda grein til vinar

=

Hvað er máltækni og hvaða máli skiptir hún fyrir íslensku?
Máltækni er tiltölulega nýlegt orð í íslensku – þýðing á því sem á ensku nefnist language technology. Einnig hefur orðið tungutækni verið notað um sama hugtak. Í stuttu máli má segja að með máltækni sé átt við hvers kyns samvinnu tungumáls og tölvutækni sem hefur einhvern hagnýtan tilgang; beinist að því að hanna eða útbúa einhvern hugbúnað eða tæki sem nýtist mönnum í starfi eða leik. Þessi samvinna hefur tvær hliðar og felst annars vegar í notkun tölvutækninnar í þágu tungumálsins; hins vegar í notkun tungumálsins í þágu tölvutækninnar.

Það er hægt að nýta tölvu- og upplýsingatækni á ýmsan hátt til þess að auðvelda mönnum að nota tungumálið. Þar má nefna ýmiss konar leiðréttingarforrit fyrir stafsetningu og málfar. Slíkur búnaður fylgir til dæmis algengum forritapökkum eins og Microsoft Office og LibreOffice á ýmsum tungumálum. Einnig er hægt að sækja viðbætur af þessu tagi fyrir ýmsa vafra, til dæmis Firefox og Chrome. Íslensk stafsetningarleiðréttingarforrit eru til, svo sem Púki og Skrambi, en ekkert málfræðileiðréttingarforrit er til fyrir íslensku.

Máltækni er hvers kyns samvinna tungumáls og tölvutækni sem hefur einhvern hagnýtan tilgang.

Hér má einnig telja ýmiss konar hjálpartæki handa þeim sem eiga erfitt með mál eða lestur sökum einhvers konar fötlunar. Talgervill, sem er búnaður sem les upp ritaðan texta, var fyrst gerður fyrir íslensku um 1990 en nýjasti talgervillinn kom á markaðinn 2012. Hann var gerður á vegum Blindrafélagsins og býr yfir tveimur röddum, karlmannsrödd sem nefnist Karl og kvenmannsrödd sem nefnist Dóra.

Talgreinir breytir töluðu máli í ritaðan texta. Slíkur búnaður fyrir íslensku var gerður árið 2012 í samvinnu Google við íslenska aðila og er nú í símum með Android-stýrikerfi og í Google Chrome-vafranum. Hægt er að nota talgreininn við leit á netinu, til að skrifa smáskilaboð og tölvupóst, minnisatriði og fleira. Slíkur búnaður getur vitaskuld nýst öllum málnotendum en ekki síst þeim sem eru hreyfihamlaðir og eiga erfitt með að nota lyklaborð til að rita texta.

Eitt veigamesta svið máltækni eru vélrænar þýðingar, þar sem hugbúnaður er notaður til að þýða texta af einu máli á annað. Google Translate er þekktasti búnaðurinn á þessu sviði og getur þýtt milli fjölda tungumála, þar á meðal milli íslensku og annarra mála. Gæði þýðinganna eru misjöfn en fara vaxandi eftir því sem búnaðurinn er lengur í notkun og hefur fleiri gögn til að læra af. Íslendingar hafa einnig unnið að vélrænum þýðingum, einkum Stefán Briem sem rekur vefsetrið Tungutorg.

Eitt veigamesta svið máltækni eru vélrænar þýðingar.

En tungumálið er ekki bara þiggjandi í samvinnu við tölvutæknina. Það er líka notað á margvíslegan hátt til að gera tæknina aðgengilegri og auðvelda mönnum að nýta sér hana. Þar má nefna ýmiss konar þjónustuver þar sem tölva hlustar á erindi notandans og greinir merkingu þess. Sú greining er síðan send til gagnabanka, þar sem er að finna svör við margvíslegum fyrirspurnum, og viðeigandi svar sótt í bankann. Því svari er svo breytt í eðlilega setningu og hún send til tölvubúnaðar sem les hana fyrir notandann. Þetta ferli er alsjálfvirkt og byggist á margvíslegri og flókinni greiningu á tali notandans; hljóðgreiningu, orðgreiningu, setningagreiningu, merkingargreiningu og fleira.

Einnig má nefna notkun málsins við stjórn tölva og ýmiss konar tölvustýrðra tækja. Það fer mjög í vöxt að slíkum tækjum sé stjórnað með venjulegu máli, annað hvort rituðu eða töluðu. Skipanir eru þá ýmist slegnar inn á lyklaborð eða talaðar í hljóðnema, í stað þess að ýta á takka eða velja kost í valmynd. Þetta mun á næstunni taka til sífellt fjölbreyttari tækja, svo sem ýmiss konar framleiðslutækja, heimilistækja og bíla.

En slík tæki skilja ekki íslensku – enn sem komið er. Til að slíkt megi verða þarf að byggja upp viðamikil málleg gagnasöfn – orðasöfn, textasöfn, hljóðsöfn og fleira. Þessi söfn eru síðan notuð til að vinna úr þeim margvíslegar og nákvæmar upplýsingar um tungumálið. Til að hægt sé að þróa forrit til málfarsleiðréttingar þarf til dæmis að liggja fyrir nákvæm og ítarleg greining á íslenskri setningagerð – mun nákvæmari og ítarlegri en finna má í handbókum og kennslubókum. Það er ekki hægt að útbúa leiðréttingarforrit nema skrá nákvæmlega hvaða setningagerðir eru leyfilegar í málinu og hverjar ekki og jafnframt semja lýsingu á því hvernig eigi að lagfæra það sem betur má fara. En það er ekki nóg að byggja upp gagnasöfn – það þarf líka að skrifa hugbúnað sem vinnur með þessi gagnasöfn, svo sem forrit til málfarsleiðréttinga, þýðingaforrit, talgervla og svo framvegis.

Þetta uppbyggingarstarf er dýrt. Það kostar jafnmikið að koma upp máltækni fyrir íslensku og fyrir tungumál milljónaþjóða. Margs konar máltæknibúnaður er vissulega góð markaðsvara og skilar miklum tekjum sem standa undir háum þróunarkostnaði – ef markaðurinn er nógu stór. En því er ekki að heilsa á Íslandi. Vegna smæðar markaðarins er ljóst að það verður seint arðvænlegt að þróa dýran máltæknibúnað fyrir íslensku. Vilji Íslendingar að íslenska sé nothæf innan tölvu- og upplýsingatækninnar þarf opinber stuðningur við þróunarstarf að koma til.

Ritið Íslensk tunga á stafrænni öld.

Þegar mikilvægi máltækni fyrir íslensku er metið verður að líta til þess að upplýsingatæknin er orðin mikilvægur þáttur í daglegu lífi alls almennings í landinu. Ef ekki verður hægt að nota íslensku á öllum sviðum upplýsingatækninnar kemur upp splunkuný staða, sem ekki á sér hliðstæðu fyrr í málsögunni. Þá verður orðið til mikilvægt svið í daglegu lífi venjulegs fólks, þar sem móðurmálið er gagnslítið eða ónothæft. Hvaða áhrif hefði slíkt umdæmistap á málnotendur og málsamfélagið? Hvað gæti gerst ef móðurmálið yrði ekki lengur nothæft í nýrri tækni og öðru sem er nýtt og spennandi; á sviðum þar sem nýsköpun af ýmsu tagi á sér stað; og á sviðum þar sem ný atvinnutækifæri bjóðast?

En íslensk máltækni hefur ekki eingöngu gildi fyrir tungumálið og varðveislu þess. Málnotendurnir og hagsmunir þeirra skipta ekki síður máli. Það er mannréttindamál að geta notað móðurmálið á öllum sviðum daglegs lífs, bæði í starfi og leik – líka innan upplýsingatækninnar. Til að svo megi verða þarf allur algengur hugbúnaður að vera á íslensku, leiðréttingarhugbúnaður fyrir íslenskan texta þarf að vera til, það þarf að vera hægt að tala við ýmis tölvustýrð tæki á íslensku, til þurfa að vera þýðingarforrit sem geta þýtt milli íslensku og annarra mála, og málnotendur þurfa að eiga aðgang að hugbúnaði sem getur unnið flóknar upplýsingar úr texta- og gagnasöfnum og leitað í þeim á margvíslegan hátt. Enn vantar mikið upp á að þessi markmið náist.

Heimildir:

Myndir:

Frekara ítarefni:

...