Esitlus üles laadida
Esitlus laaditakse üles. Palun oodake
AvaldatudAlbert Pakarinen
1
Katseandmete analüüs Statistika – piiratud vastutusega esitus, matemaatikat minimaalselt. Loengud kaks nädalat – tekstid on, aga mõte ikka T, N, R kell 10.15 ingl. k. ka - loengud uuesti algusega 29. oktoobril 2 kodutööd, 2 kontrolltööd, eksam, 6 EAP (5%, 5%, 15%, 15%, 60%) - T 8. oktoobril kontrolltöö! – hakka kohe õppima! praktikume 8 (neljas vaja käia), kodutöö teha: kalkulaator!
2
Ülesannete lahendamine Excel ja R,
praksivanem Jaanis Lodjak:
4
Miks statistikat just eriti bioloogias vaja on?
…. purk väävelhapet on purk väävelhapet,
5
Miks statistikat just eriti bioloogias vaja on?
…. purk väävelhapet on purk väävelhapet, …. hiir ei ole lihtsalt hiir, ta on “see” hiir.
6
Miks statistikat just eriti bioloogias vaja on?
…. purk väävelhapet on purk väävelhapet, …. hiir ei ole lihtsalt hiir, ta on “see” hiir. objektid pole täpselt ühesugused, individuaalne omapära isendid, nende osad, populatsioonid. Väita tahame aga midagi objektide klassi kohta üldiselt. Statistika ongi selleks, et individuaalsuse müra tagant see üles leida, mida kogu hulga kohta väita võib. Mis teha? Kõiki kahjuks uurida ei saa, uurime valimit (sample) – mida suurem, seda parem. Üldkogum.
7
Valimi ja üldkogumi kirjeldamine
Pidev muutuja vs diskreetne (kategooriline) muutuja, objekt ja vaatlus, vaatlused moodustavad jaotuse. Lihtsaim: kaheväärtuseline jaotus Pidev tunnus: histogramm, tihedusfunktsioon on abstraktsioon. Normaaljaotus, paljud tegurid mõjutavad; tegelt täpselt pole olemas, kuid paljud asjad ligilähedaselt normaaljaotusega
8
Pideva jaotuse kirjeldamine
Mitmesugused jaotuse keskkohta iseloomustavad suurused: (Valimi)keskmine (üldkogumi keskväärtus) – aritmeetiline keskmine; Mediaan suuremaid ja väiksemaid väärtusi on võrdselt; Mood kõige enamatel. Sümmeetrilise jaotuse korral langevad ühte. Näide: sissetuleku jaotus.
9
Hajuvusstatistikud - mitmeid erinevaid,
väitele “on hajuvam” võib anda mitmeid erinevaid matemaatilisi interpretatsioone. dispersioon (variance) valimi põhjal antud hinnang üldkogumi dispersioonile: esinduslik suure puhul pole vahet; paha: dimensionaalsus pole sama; Miks hea: - aditiivsus, ehk saab komponentideks jagada (tabel).
10
Kala pikkus seisab koos pea, keha ja saba pikkusest.
- väärtused annavad väärtuse kokku. - dispersioonid annavad dispersiooni kokku, - niipalju varieeruvusest selle, niipalju teise arvele.
11
Standardhälve (standard deviation, SD) on ruutjuur dispersioonist.
mitu korda varieeruvus suurem? - ± SD 68%, vabalt võib piirest väljas olla; Variatsioonikoefitsient (coefficient of variation, CV) Kvantiilid ehk fraktiilid jagavad jaotust teatud suurusega osadeks, 25% ja 75% kvantiilid - kvartiilid. Normaaljaotuse puhul SD-l kvantiili (16% ja 84%) sisu, üldjuhul mitte. Väärtused ei sõltu süstemaatiliselt valimi suurusest.
12
Sarnased, kuid sisuliselt erinevad näitajad iseloomustavad meie teadmiste täpsust üldkogumi keskmisest. Standardviga (standard error, SE) arvutatakse SD/ruutjuur-n. Sõltub dispersioonist ja valimi suurusest. Usaldusintervall (confidence interval of the mean) on SE-ga analoogiline suurus - väljaspool seda intervalli oleks üldkogumi keskmise olemine imelik, 95% tavaliselt, ± SE 68% usaldusintervall
13
Pane tähele: SE ja usaldusintervallid iseloomustavad meie teadmist üldkogumi keskmisest, nad ei ole mõeldud kirjeldama hajuvust üldkogumis, valimi kasvades läheneb SE nullile.
14
Hinnang üldkogumi dispersioonile:
Dispersioon valimis: Hinnang üldkogumi dispersioonile: kala pikkus, m Hinnang üldkogumi standardhälbele SD: ruutjuur dispersioonist. Variatsioonikoefitsient: standardhälve jagatud keskmisega. Standardviga SE: SD/ruutjuur-n.
15
Keskmine 2, hälbed: -1, 1, 0, 0 ruudud: 1, 1, 0, 0 ruutude summa: 2 dispersioon = ruutude summa/ vaatluste arvuga = 0,5 hinnang üldkogumi dispersioonile = 2/(4-1) = 0,66 standardhälve = 0,816 CV: 40,8%, SE=0.408
16
Hajuvusstatikute esitamine
- ± märgi abil enamasti, joonisel error bar’ide kujul, alati ära mainida, millega tegu. SD iseloomustab hajuvust, SE error barid näitavad erinevusi ja olulisusest Ebasümmeetriliste puhul kvantiile Eriti kui: 0,2 0,1 0,1 0,1 0,9 0,8 saame 0.36±0.37, Kvantiilidega koos mediaan.
17
Box plot kui mitut korraga.
Mis mis kirja! Tavalised tulpdiagrammid kui oluline on suhteline erinevus. Keerulisemad - asümmeetrilisus (skewness). Pikk saba paremale - positiivne. - järsakus (kurtosis) - terava tipuga positiivne.
18
Statistiline test - näeme seost või erinevust valimis; - kas võime väita, et see on olemas ka üldkogumis; - valimi põhjal üldkogumi kohta; Statistiline olulisus (significance) p mõõdab tõenäosust saada vaadeldav olukord juhuslikult, ... ehk siis, kui üldkogumis seost ei ole;
19
Statistiline olulisus väljendab tõenäosust saada
(valimi võtmise käigus üldkogumist) vähemalt nii suure erinevusega või vähemalt nii tugeva seosega valim juhul, kui üldkogumis seda seost või erinevust tegelikult ei ole. Teeme (arvuti)mängu ja uurime! - mängime läbi olukorra, kus seost tegelt pole.
20
r = 0,5 Oli meil valim, N = 7, midagi muud me ei tea
silma ja tarkuse vahel oli korrelatsioon silm IQ r = 0,5
21
Kuidas saame teada, et kas võime uskuda, et korrelatsioon
on ka üldkogumis? Uurime, kas võib saada nii tugeva seosega valimi juhuslikult. Kui nii tugeva seosega valimi saamine juhuslikult on tõenäone, pole põhjust uskuda, et üldkogumis seos on; kui on väga vähe tõenäone, siis on põhjust uskuda.
22
Kuidas teame, kui tõenäone on saada juhuslikult,
st saada olukorras, kus üldkogumis seost ei ole? Simuleerime arvutil olukorda, kus üldkogumis seost ei ole, ja simuleerime sellest valimite võtmist, valimid on sellise suurusega nagu meie pärisvalim.
23
Kuidas simuleerime: teeme arvutil väga suure üldkogumi,
milles seost silma ja IQ vahel ei ole: IQ võtame sellest juhuslikult valimeid, N = 7 silm IQ r=0,2
24
silm IQ r=-0,3 -0,3 r=0,2 silm IQ r=0,7 0,7 IQ silm 2 1 0,2 r väärtused
25
p = 0,15 sagedus +0,5 1000-st 150-l ehk 15% on suuremad kui meie väärtus, juhuslikult saada on parasjagu tõenäone, ei julge järeldada, et üldkogumis seos on. r-väärtused
26
p < 0,05 Kokkuleppeline piir Mispuhul öeldakse, et seos on
statistiliselt oluline (significant)
27
p-väärtus väljendab, kui tõenäone on saada nähtav
olukord (seos või erinevus) juhuslikult, p-väärtus ei näita, kui tõenäone on, et seos on saadud juhuslikult, ehk siis p=0,02 ei tohi tõlgendada nii, „2% tõenäosusega on seos saadud juhuslikult“ Või et „98% tõenäosusega on seos tegelikult olemas“
28
Pane hästi tähele, et p ei mõõda seose tugevust!
Statistiline olulisus sõltub: - seose tugevusest; - valimi suurusest. - juhusliku varieeruvuse hulgast; Pane veel tähele, et erinevuse puudumist üldkogumis ei saa tõestada, pigem ei tea, mispidi on. Looduses ei ole olulisi ja mitteolulisi seoseid, p ei iseloomusta mitte seost vaid meie teadmist temast!
29
Vabadusaste (degree of freedom, df) on statistiliste testide juures üldiselt ette tulev arusaamatu mõiste. süsteemi vabadusaste, kui mitme sõltumatu arvuga on süsteem täielikult kirjeldatav. Nii on kolmnurgal kolm vabadusastet. Andmestik on täielikult kirjeldatav, kui teame mudelit (mida siis sinna sobitame, näiteks regressioonsirget) ja teame iga vaatluse hälvet kummalgi omad vabadusastmed: mudeli ja juhuhälvete vabadusastmed; - neist sõltub, kas mudeli sobivus on juhuslik, seepst oluline.
30
Statistiliste testide tüüpe on väga palju,
iga olukorra jaoks oma, statistika valdamine rakendustasemel tähendabki oskust õiget testi valida ja tulemusi õigesti interpreteerida. Testi valimisel – esimene asi: kas muutuja on pidev või diskreetne? Pidev - arvuliselt väljendatav pideval skaalal. Diskreetne = kategooriline, klassifitseeriv, klass-muutuja. Kõigepealt sõltuv pidev; sõltumatu diskreetne. t-test kaks rühma - kas enne meid olemas või ise tekitame
31
Arvutatakse t-statistik, mis on seda suurem,
- mida suurem on valimite keskmiste vahe; - mida suurem on valim; - mida väiksem on dispersioon valimites. t järgi p tabeli alusel, sest otse arvutada ei saa, vabadusastmed hälvete vabadusastmed df=n1+n2-2, mudeli omad alati 1 ja pole vaja esitada.
33
Esitame nii: “Küla- ja Metsajärve ahvenate pikkustes oli erinevus (t=2,17; df=34 ; p=0,025)” või ka “Toidutaimel ei olnud mõju röövikute kasvukiirusele (t=0,17; df=52 ; p=0,37)”
34
Arvutame ühe näite: kus ... aga siin näites s2=0,667 df=n1+n2-2 t = 1/ (0,816 p(1/4+1/4)) = = 1/(0,816*0,707) = 1,73 df= p>0.1
35
t = 1,73 p = 0,13
36
enne oli t = 1,73 p = 0,13 t = 3,46 p = 0,013
37
t = 3,46 p = 0,013
38
enne oli t = 3,46 p = 0,013 t = 1,73 p = 0,13
39
t = 1,73 p = 0,13
40
enne oli t = 1,73 p = 0,13 t = 2,65 p = 0,019
41
Ühefaktoriline dispersioonanalüüs
(analysis of variance, ANOVA) nagu t-test aga rühmi rohkem kui kaks. Rühmi võib siin kontekstis nimetada tasemeteks, nt „sõltumatul muutujal on kolm taset.“ (nt Külajärv, Metsajärv, Kassijärv)
42
Põhineb dispersiooni komponentideks lahutamisel - rühmade keskmiste dispersioon ja üksikvaatluste dispersioon ümber rühmade keskmiste (jääkhajuvus), tasemesisene ja tasemete vaheline dispersioon. kas rühmade keskmiste dispersioon on seletatav juhusega ehk siis üksikvaatluste dispersiooniga? - 2 +2 +1 Jääk: - 2 +2 +1 - 2 +2 +1
43
olukord 1 pikkus olukord 2 pikkus
44
Formaliseeritakse F-statistiku arvutamisega.
F=MSmodel/MSerror MS=SS/df, mean square ehk keskruut. See SS on sum of squares ehk hälvete ruutude summa F põhjal leiame p, sealjuures df olulised siin juba kahed df-d: mudeli ja hälvete df-d mudeli omad: k-1; hälvete omad: n-k
45
- 2 +2 +1 - 2 +2 +1 4 - 2 +2 +1 3 - 2 +2 +1 -1 2 -1 1 -1 -1 SS model = SS(1, 2, 3, 4)*5 = 25 SS error = SS( +1,+2,-1,-2, 0, +1,+2,-1,-2, 0,+1,+2,-1,-2, 0, +1,+2,-1,-2, 0) = 40 MS model= SS model /3 = 8,33 MS error = SS error /16 = 2,5 F = 8,33/2,5 = 3,33; p = 0,046
46
Determinatsioonikordaja
R2 =SSmodel/SStotal, mudel kirjeldab ehk seletab parasjagu niipalju hajuvusest – accounts for …. % of variance; manipulatsiooni mõju iseloomustaja; Kirjutame: “toidutaime liigil oli mõju nukukaalule (F3,16 = 3,33, p=0,046)”, aga ei ütle, millisel! ka R2
47
R2 = 0 p = 1
48
R2 = 0,57 p = 0,022
49
R2 = 0,25 p = 0,27
50
R2 = 1 p = .... määramata
51
Natuke terminoloogiat:
ühefaktoriline dispersioonanalüüs - ühe faktori järgi rühmad; ANOVA on tasakaaluline, kui kõikides rühmades on samapalju objekte; vaadeldud väärtus = ennustatud väärtus + jääk - 2 +2 +1 Kahe rühma puhul saab ka ikka teha
52
Aga ANOVA’l (ka t-testil) on eeldused:
rühmade sisesed jaotused normaalsed ja võrdse dispersiooniga rühma sees ja mitte kokku! Testida saab, aga ei pruugi olla kõige targem, analüüs robustne. Tee midagi, kui - ilmne jama - süstemaatiline jama. Teisendused, mitteparameetrilised meetodid, t-testi puhul ka erivariant ebavõrdsete dispersioonide jaoks
53
Muutujate teisendamine
- sõltuv muutuja asendatakse mingi funktsiooniga temast, kui niisama pole normaaljaotust, siis teisendatult võib olla. Tavalisim: logaritmimine, kui pika sabaga paremale. Vaja midagi liita, kui nulle või negatiivseid. Liita ka siis kui “tugevust” vaja reguleerida. Muud: ruutjuur, ruutu tõstmine
54
Mitteparameetrilised meetodid
jaotusi ei saa sümmeetriliseks miski teisendusega, - siiski - võimsus väiksem; - vähem informatsiooni annab. Mann-Whitney U-test (ehk Kruskal-Wallise testi - viimane nimi juhuks, kui võrreldavaid rühmi on rohkem kui kaks) mediaanitest Või ka siis kui järjestustunnus.
Seotud esitlused
© 2024 SlidePlayer.ee Inc.
All rights reserved.