Sólin Sólin Rís 05:12 • sest 21:41 í Reykjavík
Tunglið Tunglið Rís 00:00 • Sest 00:00 í Reykjavík
Flóð Flóð Árdegis: 08:09 • Síðdegis: 20:27 í Reykjavík
Fjaran Fjara Árdegis: 02:12 • Síðdegis: 14:14 í Reykjavík

Hvað er raddþekking í tölvum og hvernig virkar hún?

Björn Kristinsson

Svarið er miðað við að með „raddþekkingu“ eigi spyrjandi við það sem á ensku kallast „voice recognition“ eða „speaker identification“ fremur en „speech recognition“ („talgreining“).


Með raddþekkingu í tölvum er átt við það þegar reynt er að nota tölvu til að greina hver talar. Algengt er að slíkt sé notað við ýmiss konar öryggiskerfi. Í stað hefðbundnari leiða eins og að láta notendur slá inn öryggiskóða eða annað slíkt þarf kerfið að heyra rödd sem það þekkir, en slíkt er erfiðara að falsa. Þessu má líkja við fingrafaragreiningu eða augnskönnun, en raddþekking hefur þó ýmsa kosti fram yfir þær aðferðir.

Fyrst má nefna að búnaður eins og hljóðnemar, sem notaður er til að greina röddina er tiltölulega ódýr og auðvelt að komast yfir hann. Fingrafaraskannar eru til dæmis mun dýrari. Þá er annar kostur að röddina má senda til greiningar í gegnum síma. Þannig mætti hugsa sér öryggiskerfi í sjálfvirkum símabanka þar sem einungis eigandi reiknings fær að millifæra eða athuga innistæðu, að því gefnu að rödd hans þekkist. Fingrafaragreining um síma er aftur á móti óþekkt, að minnsta kosti í almennum símtækjum.


Þetta hljóðrófsrit sýnir breytingar á tíðni og styrkleika hljóðanna í setningunni „Cottage cheese with chives is delicious“ (kotasæla með graslauk er ljúffeng). Smellið hér til að hlusta.

Raddþekking í tölvum er ansi flókin af ýmsum ástæðum. Okkur mannfólkinu reynist til dæmis afar auðvelt að greina hundgá eða fótatak eða fiðlutón frá mannsrödd. Tölvur eiga aftur á móti mun erfiðara með að átta sig á hvað sé rödd og hvað sé umhverfishljóð.

Fyrst svo erfitt er að greina mannsröddina frá öðrum hljóðum liggur í augum uppi að ennþá erfiðara er að greina eina rödd frá annarri. Þannig getur kerfið gert mistök sem enginn maður myndi nokkurn tíma gera. Á móti kemur að raddþekking í tölvum hefur ýmislegt umfram greiningu eftir eyranu, því margt sem okkur er ómögulegt að skynja getur verið tölvunni leikur einn. Til dæmis hefur reynst ágætlega að mæla tíðni raddbandasveiflna (ásamt öðrum þáttum), en hún er bæði nokkuð einstaklingsbundin og ómögulegt að líkja eftir henni. Þannig gæti góð eftirherma blekkt mannseyrað en öryggiskerfi léti aldrei blekkjast af slíku. Raddþekking í tölvum þarf því að miðast við að nýta styrkleika hennar, en láta sem minnst reyna á veikleikana.

Gæði raddþekkingar eru afar mismunandi eftir því hvar og hvernig hún er notuð. Ef kerfið er á lokuðum vinnustað þar sem aðeins fáir tala við það og enn færri hafa aðgang er nokkuð líklegt að það skili réttri greiningu. En því fleiri mismunandi raddir sem kerfið þarf að hlusta á, og því fleiri sem það þarf að þekkja, þeim mun meiri hætta er á að það geri mistök. Því er enn nokkuð í land áður en unnt verður að nota slíka tækni af nokkru öryggi á almennum markaði.

Hljóð og mynd: EE6820 Digital Audio Processing HW #7. Lexing Xie.

Höfundur

M.A. í tungutækni

Útgáfudagur

14.3.2006

Spyrjandi

Einar Úlfarsson

Tilvísun

Björn Kristinsson. „Hvað er raddþekking í tölvum og hvernig virkar hún?“ Vísindavefurinn, 14. mars 2006. Sótt 27. apríl 2024. http://visindavefur.is/svar.php?id=5705.

Björn Kristinsson. (2006, 14. mars). Hvað er raddþekking í tölvum og hvernig virkar hún? Vísindavefurinn. Sótt af http://visindavefur.is/svar.php?id=5705

Björn Kristinsson. „Hvað er raddþekking í tölvum og hvernig virkar hún?“ Vísindavefurinn. 14. mar. 2006. Vefsíða. 27. apr. 2024. <http://visindavefur.is/svar.php?id=5705>.

Chicago | APA | MLA

Spyrja

Sendu inn spurningu LeiðbeiningarTil baka

Hér getur þú sent okkur nýjar spurningar um vísindaleg efni.

Hafðu spurninguna stutta og hnitmiðaða og sendu aðeins eina í einu. Einlægar og vandaðar spurningar um mikilvæg efni eru líklegastar til að kalla fram vönduð og greið svör. Ekki er víst að tími vinnist til að svara öllum spurningum.

Persónulegar upplýsingar um spyrjendur eru eingöngu notaðar í starfsemi vefsins, til dæmis til að svör verði við hæfi spyrjenda. Spurningum er ekki sinnt ef spyrjandi villir á sér heimildir eða segir ekki nægileg deili á sér.

Spurningum sem eru ekki á verksviði vefsins er eytt.

Að öðru leyti er hægt að spyrja Vísindavefinn um allt milli himins og jarðar!

=

Senda grein til vinar

=

Hvað er raddþekking í tölvum og hvernig virkar hún?
Svarið er miðað við að með „raddþekkingu“ eigi spyrjandi við það sem á ensku kallast „voice recognition“ eða „speaker identification“ fremur en „speech recognition“ („talgreining“).


Með raddþekkingu í tölvum er átt við það þegar reynt er að nota tölvu til að greina hver talar. Algengt er að slíkt sé notað við ýmiss konar öryggiskerfi. Í stað hefðbundnari leiða eins og að láta notendur slá inn öryggiskóða eða annað slíkt þarf kerfið að heyra rödd sem það þekkir, en slíkt er erfiðara að falsa. Þessu má líkja við fingrafaragreiningu eða augnskönnun, en raddþekking hefur þó ýmsa kosti fram yfir þær aðferðir.

Fyrst má nefna að búnaður eins og hljóðnemar, sem notaður er til að greina röddina er tiltölulega ódýr og auðvelt að komast yfir hann. Fingrafaraskannar eru til dæmis mun dýrari. Þá er annar kostur að röddina má senda til greiningar í gegnum síma. Þannig mætti hugsa sér öryggiskerfi í sjálfvirkum símabanka þar sem einungis eigandi reiknings fær að millifæra eða athuga innistæðu, að því gefnu að rödd hans þekkist. Fingrafaragreining um síma er aftur á móti óþekkt, að minnsta kosti í almennum símtækjum.


Þetta hljóðrófsrit sýnir breytingar á tíðni og styrkleika hljóðanna í setningunni „Cottage cheese with chives is delicious“ (kotasæla með graslauk er ljúffeng). Smellið hér til að hlusta.

Raddþekking í tölvum er ansi flókin af ýmsum ástæðum. Okkur mannfólkinu reynist til dæmis afar auðvelt að greina hundgá eða fótatak eða fiðlutón frá mannsrödd. Tölvur eiga aftur á móti mun erfiðara með að átta sig á hvað sé rödd og hvað sé umhverfishljóð.

Fyrst svo erfitt er að greina mannsröddina frá öðrum hljóðum liggur í augum uppi að ennþá erfiðara er að greina eina rödd frá annarri. Þannig getur kerfið gert mistök sem enginn maður myndi nokkurn tíma gera. Á móti kemur að raddþekking í tölvum hefur ýmislegt umfram greiningu eftir eyranu, því margt sem okkur er ómögulegt að skynja getur verið tölvunni leikur einn. Til dæmis hefur reynst ágætlega að mæla tíðni raddbandasveiflna (ásamt öðrum þáttum), en hún er bæði nokkuð einstaklingsbundin og ómögulegt að líkja eftir henni. Þannig gæti góð eftirherma blekkt mannseyrað en öryggiskerfi léti aldrei blekkjast af slíku. Raddþekking í tölvum þarf því að miðast við að nýta styrkleika hennar, en láta sem minnst reyna á veikleikana.

Gæði raddþekkingar eru afar mismunandi eftir því hvar og hvernig hún er notuð. Ef kerfið er á lokuðum vinnustað þar sem aðeins fáir tala við það og enn færri hafa aðgang er nokkuð líklegt að það skili réttri greiningu. En því fleiri mismunandi raddir sem kerfið þarf að hlusta á, og því fleiri sem það þarf að þekkja, þeim mun meiri hætta er á að það geri mistök. Því er enn nokkuð í land áður en unnt verður að nota slíka tækni af nokkru öryggi á almennum markaði.

Hljóð og mynd: EE6820 Digital Audio Processing HW #7. Lexing Xie....