2.1 Tilastojen analysoiminen
Tilastollinen riippuvuus tarkoittaa muuttujien yhteisvaihtelua. Jo arkikokemus osoittaa, että ihmisten pituus ja paino ovat yhteydessä toisiinsa eli vaihtelevat yhdessä: mitä pidempi henkilö on, sitä painavampi hän myös on. Yhteys ei ole tietenkään täydellinen, koska poikkeukset sääntöön eli pienikokoiset pullukat ja langanlaihat hongankolistajat todistavat päinvastaista. Tilastollisten riippuvuuksien toteaminen, selittäminen ja viime kädessä niiden hyödyntäminen tulevaisuuden ennustamisessa on eräs soveltavan tilastotieteen tehtäväkenttä. Pearsonin korrelaatio on tavallisin tarjolla olevista menetelmistä mitata kahden välimatka-asteikollisen muut-tajan välistä tilastollista yhteyttä tiiviisti yhden tunnusluvun eli korrelaatiokertoimen avulla. Pearsonin kerroin perustuu edellä mainittuun muuttujien yhteisvaihteluun. Kahden muuttujan yhteisvaihtelusta saa hyvän käsityksen hajontakuvioiden avulla (ks. esimerkki). Pearsonin kor-relaatio ilmaisee vakioidun kertoimen avulla, joka vaihtelee -1:stä 0:n kautta +1:een, yhteis-vaihtelun, voimakkuuden (onko se voimakas 0.80 vaiko lievä 0.20) ja suunnan (positiivinen vai negatiivinen). Lisäksi voidaan laskea, onko korrelaatio todennäköisesti voimassa myös perus-joukossa.
Helsingin Sanomissa julkaistiin aikoinaan uutinen, jonka mukaan hyvin koulutetut suomalaiset ovat pitkiä ja erityisesti Länsi- ja Etelä-Suomessa asuvat ovat pidempiä ja varakkaampia kuin idässä ja pohjoisessa asuvat. Tämä on herkullista materiaalia raflaaville otsikoille, mutta tavallisesti lukija ei tule ajatelleeksi, että yhteyksien oikea tulkinta saattaa olla yllättävänkin vaikeaa. Pituus ja koulutus eivät varmaankaan ole suorassa syy-seurausyhteydessä, vaan ne molemmat heijastelevat lapsuudenkodin varallisuutta. Sosioekonominen asema (so. tulot, koulutus, ammatti) selittänee suurimmaksi osaksi myös mainitut alueelliset erot. Poikkileikkaustutkimukset - joita suurin osa haastattelututkimuksista on - ovat hankalia syy-seuraussuhteiden varmentamisen kannalta. Tulkintoihin jää aina melkoinen annos arvailua. Suurempaan varmuuteen päästään vain kontrolloidulla koeasetelmalla.
Syy-seuraus- eli kausaalisuhteiden tulkinnassa on hyvä pitää mielessä mm. seuraavat seikat:
- Mikä on otos ja minkälaiseen joukkoon sitä koskevia tuloksia voi yleistää?
- Onko yhteys selitettävissä kolmannen tekijän avulla (edellä sosio-ekonominen asema)?
- Onko tilastollinen yhteys riittävän voimakas ollakseen sisällöllisesti merkittävä?
- Onko syy-seuraussuhteen suunta varmuudella pääteltävissä?
Korrelaatiokertoimella voi kätevästi todeta, onko kahden muuttujan välillä tilastollista lineaarista riippuvuutta, sekä mitata tuon riippuvuuden voimakkuutta. Korrelaatiokerroin ei kuitenkaan ole riittävä, jos halutaan tehdä ennusteita. Esimerkkinä voisi esittää kysymyksen, miten paljon tulot kasvavat, jos henkilö hankkii koulutusta yhden vuoden enemmän. Jos x:n ja y:n korrelaation suuruudeksi on todettu 0.9, ei tämän avulla voida ennustaa, miten paljon y lisääntyy, jos x kasvaa yhden yksikön verran. Syynä on se, että korrelaatiokertoimessa muuttujat x ja y ovat samanarvoisia. Regressioanalyysissa sen sijaan valitaan toinen muuttujista riippumattomaksi ja toinen riippuvaksi muuttujaksi. Tällä menetelmällä voimme ennustaa yhden tai useamman riippumattoman muuttujan muutoksen vaikutusta riippuvassa muuttujassa.
Lineaarinen regressio tarkoittaa yksinkertaisimmassa tapauksessa sitä, että havaintopisteet merkitään koordinaatistoon ja niiden lävitse vedetään suora, joka on keskimääräisesti kaikkein lähimpänä havaintopisteitä. Tätä kutsutaan pienimmän neliösumman suoraksi. Sen avulla voi vastata edellä esitettyyn kysymykseen koulutuksen ja tulojen välisestä yhteydestä. Useampien selittävien muuttujien yhteyksiä tutkittavaan ilmiöön voidaan analysoida multippeliregression avulla.
Faktorianalyysi on tilastollinen monimuuttujamenetelmä, jonka avulla pyritään löytämään suuren muuttujajoukon taustalla olevia ulottuvuuksia. Kyseessä on tieteelliselle tutkimukselle tyypillinen aineiston pelkistämisongelma, kun aineistomassa pyritään selittämään muutaman ilmiön taustalla vaikuttavan olennaisen tekijän avulla. Tyypillisissä faktorianalyysin sovellustilanteissa ilmiön taustalla vaikuttavat tekijät ovat luonteeltaan piilomuuttujia, eikä niiden arvo ole havaittavissa sellaisenaan. Menetelmä perustuu ajatukselle, että havaittavissa olevien muuttujien, esimerkiksi älykkyystestin eri osioiden pistemäärien avulla, saadaan määritettyä taustamuuttujat ja niiden vaikutus havaittavissa oleviin muuttujiin. Kuvaileva faktorianalyysi antaa yleiskuvan aineiston käsittelyssä muuttujien välisistä riippuvuuksista eli siitä, miten muuttujat ryhmittyvät eri faktoreille. Tarkoituksena ei ole osoittaa, että faktorien ja havaittujen muuttujien välillä olisi kausaalinen syy-seuraus-suhde, vaan kartoittaa erilaisia faktorirakenteita: faktoreiden lukumäärää ja niiden luontevaa tulkintaa. Kuvailevassa faktorianalyysissä faktoreiden sisällöllinen tulkinta on kuitenkin enemmän tai vähemmän subjektiivista. Tulkinnan tukena käytetään faktoreiden ja havaittujen muuttujien välisiä korrelaatioita. Tilastolliset tietokoneohjelmistot sisältävät hyvät mahdollisuudet faktorianalyysin tekemiseen.
Tilastollinen lähestymistapa, ennen kaikkea otosten käyttö ja siihen liittyvä satunnaistekijöistä aiheutuva virhemahdollisuus, vaikuttaa yksittäisen tutkimuksen johtopäätösten luotettavuuteen. Tilastolliset ohjelmistot kertovat tilastollisten testien merkitsevyystasosta ja tunnuslukujen estimaattoreiden luottamusväleistä. Tiedot ovat tärkeitä, kun arvioidaan tulosten ja johtopäätösten tilastollista luotettavuutta. Luotettavuuteen vaikuttaa kuitenkin ensisijaisesti käytetyn havaintoaineiston laadukkuus. Tilastojen laatua voidaan tarkastella eri tavoin. Tässä Ruotsin tilastoviraston malli kokonaislaadun eri tekijöitä havainnollistavasta luokittelusta.
Sisältö | Tarkkuus |
Tilastolliset suureet - Perusjoukot
- Havaintoyksiköt
- Muuttujat
- Tilastolliset tunnusluvut
- Luokkajako
- Vertailtavuus muihin esim. kv. tilastoihin
| Tulosten luotettavuus, virhelähteet - Peittävyys
- Otantamenetelmä
- Mittausvirheet
- Kato
- Laadintavirheet
- Käsittelyvirheet
- Virhe- ja harhatekijöiden korjaus ja oikaisu
- Käytettyjä tilastollisia malleja koskevat olettamukset
- Laatuselostukset
|
Ajankohtaisuus | Saatavuus |
- Tilastoajankohta / -jakso
- Tuotantonopeus / tuotantoviiveet
- Täsmällisyys / julkaisuviiveet
- Mittaus- ja julkistustiheys
- Vertailukelpoisuus yli ajan
- Ennakkotiedot ja niiden luotettavuus
| - Julkaisumuodot
- Esitysmuodot
- Dokumentointi
- Perustietojen saatavuus
- Käyttäjien erityistarpeiden täyttäminen
|