Sólin Sólin Rís 05:08 • sest 21:44 í Reykjavík
Tunglið Tunglið Rís 00:00 • Sest 00:00 í Reykjavík
Flóð Flóð Árdegis: 08:47 • Síðdegis: 21:08 í Reykjavík
Fjaran Fjara Árdegis: 02:49 • Síðdegis: 14:50 í Reykjavík

Hvað er sýndarfylgni?

Anna Helga Jónsdóttir

Hugtakið sýndarfylgni (e. spurious correlation) er notað þegar tengsl mælast á milli tveggja breyta, köllum þær x og y, en á milli þeirra er ekki orsakasamband. Þetta getur gerst fyrir hreina tilviljun en algengara er að breyturnar tvær tengjast báðar annarri breytu, köllum hana z, sem veldur því að svo gæti virst sem orsakasamband sé á milli x og y. Sem dæmi má nefna er að tengsl hafa mælst á milli íssölu (hér x) og tíðni sólbruna (hér y). Það er þó ekki svo að meira ísát valdi því að fólk brenni meira í sólinni heldur tengjast báðar breyturnar annarri breytu, magni sólarljóss (hér z). Því meiri sól því meiri íssala og því meiri sól því fleiri sólbrenna.

Áður en fleiri dæmi um sýndarfylgni verða skoðuð er rétt að fræðast svolítið um fylgni. Innan tölfræði lýsir fylgni sambandi á milli tveggja breyta og skiptir þá engu máli hvort sambandið sé orsakasamband eða ekki. Ýmsir mælikvarðar eru til sem mæla styrk fylgni á milli tveggja breyta og er svonefndur fylgnistuðull Pearson sá sem mest er notaður. Sá stuðull mælir línulega fylgni á milli breyta og því skal ekki nota stuðulinn þegar samband á milli breyta er ólínulegt. Á mynd 1 má sjá dæmi um línuleg og ólínuleg sambönd á milli breyta.

Mynd 1: Punktarit þar sem samband breyta er línulegt (að ofan) og ólínulegt (að neðan).

Fylgnistuðull Pearson tekur ávallt gildi á bilinu [-1, 1] og er hann yfirleitt táknaður með r. Þegar samband á milli breyta er neikvætt tekur stuðullinn neikvætt gildi en jákvætt gildi ef sambandið er jákvætt. Því lengra sem gildið á fylgnistuðlinum er frá núlli, því sterkari er fylgnin. Hugsum okkur nú að við höfum úrtak sem inniheldur n pör mælinga á tveimur breytum x og y, $(x_1, y_1), (x_2, y_2), … ,(x_n, y_n)$. Hér gætu x og y til dæmis verið aldur og hæð barna. Þá má reikna fylgnistuðul Pearson með:

$$ r = \frac{1}{n-1} \sum_{i=1}^n \left( \frac{x_i - \bar{x}}{s_x}\right) \left( \frac{y_i - \bar{y}}{s_y}\right) $$

þar sem $\bar{x}$ og $\bar{y}$ eru meðaltöl breytanna og $s_x$ og $s_y$ staðalfrávik þeirra. Á mynd 2 má sjá sex punktarit ásamt gildinu á Person-fylgnistuðlinum.

Mynd 2: Samband breyta með mismunandi gildi á Pearson-fylgnistuðlinum, r.

Með því að safna saman ýmis konar gögnum í gagnagrunna þar sem gagnapunktar eru paraðir saman í tíma mælist oft há fylgni á milli breyta. Sem dæmi um þetta er neysla á mozzerellaosti og fjöldi doktorsgráða í verkfræði í Bandaríkjunum á árunum 2000 – 2009 en gildið á Pearson-fylgnistuðlinum er r = 0,959. Annað álíka dæmi er skilnaðartíðni í fylkinu Maine í Bandaríkjunum og neysla á smjörlíki, r = 0,993. Í báðum þessum tilfellum er mjög sterk fylgni á milli breytanna en hana má skýra með sambandi þeirra við þriðju breytuna, tíma. Fleiri slík dæmi má finna hér.

Dæmin hér að ofan minna okkur á mikilvægi gagnrýninnar hugsunar við greiningu gagna og því að huga að öðrum mögulegum skýringum þegar fylgni mælist á milli breyta. Það væri ekki líklegt til árangurs að banna smjörlíkisneyslu til að reyna að lækka skilnaðartíðni eða að hvetja fólk til að borða mozzarellaost til að fjölga doktorsgráðum í verkfræði. Í þessum tilvikum er sterk fylgni á milli breytanna án þess að orsakasamband sé til staðar sem oft er kallað sýndarfylgni.

Myndir:
  • Frá höfundi.

Höfundur

Anna Helga Jónsdóttir

dósent í tölfræði við HÍ

Útgáfudagur

6.9.2023

Spyrjandi

Arndís Vilhjálmsdóttir

Tilvísun

Anna Helga Jónsdóttir. „Hvað er sýndarfylgni? “ Vísindavefurinn, 6. september 2023. Sótt 28. apríl 2024. http://visindavefur.is/svar.php?id=84412.

Anna Helga Jónsdóttir. (2023, 6. september). Hvað er sýndarfylgni? Vísindavefurinn. Sótt af http://visindavefur.is/svar.php?id=84412

Anna Helga Jónsdóttir. „Hvað er sýndarfylgni? “ Vísindavefurinn. 6. sep. 2023. Vefsíða. 28. apr. 2024. <http://visindavefur.is/svar.php?id=84412>.

Chicago | APA | MLA

Spyrja

Sendu inn spurningu LeiðbeiningarTil baka

Hér getur þú sent okkur nýjar spurningar um vísindaleg efni.

Hafðu spurninguna stutta og hnitmiðaða og sendu aðeins eina í einu. Einlægar og vandaðar spurningar um mikilvæg efni eru líklegastar til að kalla fram vönduð og greið svör. Ekki er víst að tími vinnist til að svara öllum spurningum.

Persónulegar upplýsingar um spyrjendur eru eingöngu notaðar í starfsemi vefsins, til dæmis til að svör verði við hæfi spyrjenda. Spurningum er ekki sinnt ef spyrjandi villir á sér heimildir eða segir ekki nægileg deili á sér.

Spurningum sem eru ekki á verksviði vefsins er eytt.

Að öðru leyti er hægt að spyrja Vísindavefinn um allt milli himins og jarðar!

=

Senda grein til vinar

=

Hvað er sýndarfylgni?
Hugtakið sýndarfylgni (e. spurious correlation) er notað þegar tengsl mælast á milli tveggja breyta, köllum þær x og y, en á milli þeirra er ekki orsakasamband. Þetta getur gerst fyrir hreina tilviljun en algengara er að breyturnar tvær tengjast báðar annarri breytu, köllum hana z, sem veldur því að svo gæti virst sem orsakasamband sé á milli x og y. Sem dæmi má nefna er að tengsl hafa mælst á milli íssölu (hér x) og tíðni sólbruna (hér y). Það er þó ekki svo að meira ísát valdi því að fólk brenni meira í sólinni heldur tengjast báðar breyturnar annarri breytu, magni sólarljóss (hér z). Því meiri sól því meiri íssala og því meiri sól því fleiri sólbrenna.

Áður en fleiri dæmi um sýndarfylgni verða skoðuð er rétt að fræðast svolítið um fylgni. Innan tölfræði lýsir fylgni sambandi á milli tveggja breyta og skiptir þá engu máli hvort sambandið sé orsakasamband eða ekki. Ýmsir mælikvarðar eru til sem mæla styrk fylgni á milli tveggja breyta og er svonefndur fylgnistuðull Pearson sá sem mest er notaður. Sá stuðull mælir línulega fylgni á milli breyta og því skal ekki nota stuðulinn þegar samband á milli breyta er ólínulegt. Á mynd 1 má sjá dæmi um línuleg og ólínuleg sambönd á milli breyta.

Mynd 1: Punktarit þar sem samband breyta er línulegt (að ofan) og ólínulegt (að neðan).

Fylgnistuðull Pearson tekur ávallt gildi á bilinu [-1, 1] og er hann yfirleitt táknaður með r. Þegar samband á milli breyta er neikvætt tekur stuðullinn neikvætt gildi en jákvætt gildi ef sambandið er jákvætt. Því lengra sem gildið á fylgnistuðlinum er frá núlli, því sterkari er fylgnin. Hugsum okkur nú að við höfum úrtak sem inniheldur n pör mælinga á tveimur breytum x og y, $(x_1, y_1), (x_2, y_2), … ,(x_n, y_n)$. Hér gætu x og y til dæmis verið aldur og hæð barna. Þá má reikna fylgnistuðul Pearson með:

$$ r = \frac{1}{n-1} \sum_{i=1}^n \left( \frac{x_i - \bar{x}}{s_x}\right) \left( \frac{y_i - \bar{y}}{s_y}\right) $$

þar sem $\bar{x}$ og $\bar{y}$ eru meðaltöl breytanna og $s_x$ og $s_y$ staðalfrávik þeirra. Á mynd 2 má sjá sex punktarit ásamt gildinu á Person-fylgnistuðlinum.

Mynd 2: Samband breyta með mismunandi gildi á Pearson-fylgnistuðlinum, r.

Með því að safna saman ýmis konar gögnum í gagnagrunna þar sem gagnapunktar eru paraðir saman í tíma mælist oft há fylgni á milli breyta. Sem dæmi um þetta er neysla á mozzerellaosti og fjöldi doktorsgráða í verkfræði í Bandaríkjunum á árunum 2000 – 2009 en gildið á Pearson-fylgnistuðlinum er r = 0,959. Annað álíka dæmi er skilnaðartíðni í fylkinu Maine í Bandaríkjunum og neysla á smjörlíki, r = 0,993. Í báðum þessum tilfellum er mjög sterk fylgni á milli breytanna en hana má skýra með sambandi þeirra við þriðju breytuna, tíma. Fleiri slík dæmi má finna hér.

Dæmin hér að ofan minna okkur á mikilvægi gagnrýninnar hugsunar við greiningu gagna og því að huga að öðrum mögulegum skýringum þegar fylgni mælist á milli breyta. Það væri ekki líklegt til árangurs að banna smjörlíkisneyslu til að reyna að lækka skilnaðartíðni eða að hvetja fólk til að borða mozzarellaost til að fjölga doktorsgráðum í verkfræði. Í þessum tilvikum er sterk fylgni á milli breytanna án þess að orsakasamband sé til staðar sem oft er kallað sýndarfylgni.

Myndir:
  • Frá höfundi.

...