Steekproeven
Moderator: Moderators
- Peter van Velzen
- Site Admin
- Berichten: 21319
- Lid geworden op: 02 mei 2010 10:51
- Locatie: ampre muang trang thailand
Steekproeven
Naar aanleiding van de kritiek op het gebruik van de p-waarde in wetenschappelijke onderzoeken, vroeg ik me af hoe belangrijk de grootte van de testpopulatie is voor de nauwkeurigheid van een meting. Stel men onderzoekt een populatie die feitelijk voor de helft uit mannen bestaat en voor de helft uit vrouwen op sexe. Wat is het resultaat dat men mag verwachten bij een bepaalde grote van de testgroep?
Bij een steekproef van één persoon is het simpel. Men komt uit op 100% mannen of op 100% vrouwen, en men zit er dus 100% naast (50%/50%=100%)
Bij 2 testpersonen is het resulaat al “veel” beter, Men heeft een kans van 1 op 4 om 100% mannen te vinden, een evengrote kans omm 100% vrouwen te vinden en in de helft van de gevallen vindt men (bij toeval) de juiste uitkomst. Gemiddeld zit men er nog maar 50% naast.
Het rare geval doet zich voor dat een oneven aantal proefpersonen dezelfde foutkans oplevert als het even aantal daar net onder. Zo vindt met bij een steekproef van 4 in 1 op de 8 gevallen 4 mannen, in 1 op de 8 gevallen vier vrouwen, en in 6 op de 8 gevallen een verhouding van 2 tegen 1.
Gemiddeld scoort met dus 2 x 3 + 6 x 2 personen van dezelfde kunne. (dat is samen 18) terwijl het er 8 * 1,5 = 12 hadden moeten zijn. Men zit er dus nog steeds 50% naast. Dit komt uiteraard doordat men bij een oneven aantal nooit op de helft kán uitkomen, en dat daardoor de afwijking systematisch groter is dan bij een even steekproef. Hetzelfde effect (maar iets geringer) zou zich voordoen bij een populatie van 1/3 mannen en 2/3 vrouwen, als men een steekproef neemt die niet een geheel aantal keren 3 personen bevat.
Naarmate men een grotere steekproef neemt, wordt de fout kleiner, maar steeds langzamer. Bij 4 personen is ze 37,5%, bij 6 personen 31,25% en bij 8: 27,34%. Zelfs bij een steekproef van 40 zit men er gemiddeld nog zo’n 12,54% naast. Let wel dat kan zowel naar boven als naar beneden zijn, en de fout kán in feite ook veel groter of veel kleiner zijn. 12,54% is de gemiddelde afwijking.
Omdat de berekeningen steeds langer worden heb ik het niet verder uitgerekend, maar de trend voorzettende dat de afwijking ietsje groter is dan die voor een resultaat van de helft plus of min 2, is de afwijking bij 400 personen pas teruggebracht tot (iets meer dan) 1 procent. Dit is overigens alleen waar als de totale populatie aanzienlijk groter is dan de steekproef. Bij een totale populatie van 400 personen is de foutkans bij een “steekproef” van 400 personen uiteraard nul.
Ik ben in elk geval flink onder de indruk van het belang van een grote steekproef.
Bij een steekproef van één persoon is het simpel. Men komt uit op 100% mannen of op 100% vrouwen, en men zit er dus 100% naast (50%/50%=100%)
Bij 2 testpersonen is het resulaat al “veel” beter, Men heeft een kans van 1 op 4 om 100% mannen te vinden, een evengrote kans omm 100% vrouwen te vinden en in de helft van de gevallen vindt men (bij toeval) de juiste uitkomst. Gemiddeld zit men er nog maar 50% naast.
Het rare geval doet zich voor dat een oneven aantal proefpersonen dezelfde foutkans oplevert als het even aantal daar net onder. Zo vindt met bij een steekproef van 4 in 1 op de 8 gevallen 4 mannen, in 1 op de 8 gevallen vier vrouwen, en in 6 op de 8 gevallen een verhouding van 2 tegen 1.
Gemiddeld scoort met dus 2 x 3 + 6 x 2 personen van dezelfde kunne. (dat is samen 18) terwijl het er 8 * 1,5 = 12 hadden moeten zijn. Men zit er dus nog steeds 50% naast. Dit komt uiteraard doordat men bij een oneven aantal nooit op de helft kán uitkomen, en dat daardoor de afwijking systematisch groter is dan bij een even steekproef. Hetzelfde effect (maar iets geringer) zou zich voordoen bij een populatie van 1/3 mannen en 2/3 vrouwen, als men een steekproef neemt die niet een geheel aantal keren 3 personen bevat.
Naarmate men een grotere steekproef neemt, wordt de fout kleiner, maar steeds langzamer. Bij 4 personen is ze 37,5%, bij 6 personen 31,25% en bij 8: 27,34%. Zelfs bij een steekproef van 40 zit men er gemiddeld nog zo’n 12,54% naast. Let wel dat kan zowel naar boven als naar beneden zijn, en de fout kán in feite ook veel groter of veel kleiner zijn. 12,54% is de gemiddelde afwijking.
Omdat de berekeningen steeds langer worden heb ik het niet verder uitgerekend, maar de trend voorzettende dat de afwijking ietsje groter is dan die voor een resultaat van de helft plus of min 2, is de afwijking bij 400 personen pas teruggebracht tot (iets meer dan) 1 procent. Dit is overigens alleen waar als de totale populatie aanzienlijk groter is dan de steekproef. Bij een totale populatie van 400 personen is de foutkans bij een “steekproef” van 400 personen uiteraard nul.
Ik ben in elk geval flink onder de indruk van het belang van een grote steekproef.
Ik wens u alle goeds
- De Encyclopedist
- Ervaren pen
- Berichten: 735
- Lid geworden op: 30 mar 2017 21:04
- Locatie: Rotterdam
Re: Steekproeven
Het bepalen van de steekproefgrootte voor praktische doeleinden is een subdiscipline van de inferentiële statistiek waaraan mijn universitaire docent bijna een half semester wijdde. Nu is het doel van een steekproef uitdrukkelijk niet de te schatten grootheid exact te bepalen, maar om een uitspraak te doen over die waarde en de betrouwbaarheid (in termen van een kansverdeling) van de gevonden waarde. In het voorbeeld van de geslachtsverhouding van de populatie zal dat uitkomen op een 0,95-betrouwbaarheidsinterval van bijvoorbeeld 0,45:0,55.Peter van Velzen schreef: ↑24 okt 2017 04:26 Ik ben in elk geval flink onder de indruk van het belang van een grote steekproef.
Het verschil tussen de grenzen van een betrouwbaarheidsinterval wordt kleiner naarmate de steekproef groter is. De steekproeffractie, d.i. de verhouding van de steekproefgrootte tot de populatie, is daarbij van ondergeschikt belang zolang de steekproef kleiner is dan de populatie. De keuze van een steekproefgrootte is dan ook een afweging tussen de gewenste nauwkeurigheid en de kosten van de proef.
Stook een vuur voor iemand en hij heeft het een dag warm; steek hem in brand en hij heeft het de rest van zijn leven warm. (Terry Pratchett)
- TIBERIUS CLAUDIUS
- Superposter
- Berichten: 8664
- Lid geworden op: 02 mei 2017 18:24
- Locatie: CAPRI
Re: Steekproeven
Je hebt geen H0 en H1.
Dus kan je zo niet rekenen.
Ook is het beter te werken met kansen van de eerste en de tweede soort.
Dat is bewerkelijker maar wel exacter.
Dus kan je zo niet rekenen.
Ook is het beter te werken met kansen van de eerste en de tweede soort.
Dat is bewerkelijker maar wel exacter.
En als er nu meer keizers zijn geweest dan maanden, wat dan, geachte senatoren?
- TIBERIUS CLAUDIUS
- Superposter
- Berichten: 8664
- Lid geworden op: 02 mei 2017 18:24
- Locatie: CAPRI
Re: Steekproeven
Dat is zijn algemeenheid niet waar, men kan immers een steekproef nemen met terug leggen.De Encyclopedist schreef: ↑24 okt 2017 09:33De steekproeffractie, d.i. de verhouding van de steekproefgrootte tot de populatie, is daarbij van ondergeschikt belang zolang de steekproef kleiner is dan de populatie.
Neen een vaas met twee witten en twee zwarte knikkers je kunt dan een knikker trekken en weer terug leggen schudden en weer trekken.
Men kan dan gerust honderd trekkingen doen terwijl de populatie maar vier is.
En als er nu meer keizers zijn geweest dan maanden, wat dan, geachte senatoren?
Re: Steekproeven
Theoretisch heb je gelijk maar voor het scenario dat Peter schetst is een steekproef met terugleggen niet relevant. Prakitsch zie ik mensen een papiertje invullen waarop de aankruisen of ze een mannetje of een vrouwtje zijn. Dan zouden ze allemaal een onbeperkt aantal formuliertjes tot hun beschikking moeten hebben?TIBERIUS CLAUDIUS schreef: ↑24 okt 2017 09:46Dat is zijn algemeenheid niet waar, men kan immers een steekproef nemen met terug leggen.De Encyclopedist schreef: ↑24 okt 2017 09:33De steekproeffractie, d.i. de verhouding van de steekproefgrootte tot de populatie, is daarbij van ondergeschikt belang zolang de steekproef kleiner is dan de populatie.
Neen een vaas met twee witten en twee zwarte knikkers je kunt dan een knikker trekken en weer terug leggen schudden en weer trekken.
Men kan dan gerust honderd trekkingen doen terwijl de populatie maar vier is.
Ik zou zeggen, laten we om te beginnen bij het voorbeeld blijven.
Zo moet ge dat zien, we worden geboren en we gaan dood, daar tussendoor begaan we stommiteiten (hoofdinspecteur van In, Aspe)
- TIBERIUS CLAUDIUS
- Superposter
- Berichten: 8664
- Lid geworden op: 02 mei 2017 18:24
- Locatie: CAPRI
Re: Steekproeven
Wat de fout is, is pas bepaalbaar als je uit de trekking een conclusie trekt.Peter van Velzen schreef: ↑24 okt 2017 04:26Bij een steekproef van één persoon is het simpel. Men komt uit op 100% mannen of op 100% vrouwen, en men zit er dus 100% naast (50%/50%=100%)
Die vermeld je niet dus de zaak hangt in de lucht.
En als er nu meer keizers zijn geweest dan maanden, wat dan, geachte senatoren?
Re: Steekproeven
Nu test je een man/vrouw situatie. Een alles of niets.
Hoe verandert dit als je wilt weten of een eindexamen goed gemaakt is? Dan krijg je een reeks van cijfers
Het is allemaal alweer zolang geleden dat ik dit gehad heb.
Hoe verandert dit als je wilt weten of een eindexamen goed gemaakt is? Dan krijg je een reeks van cijfers
Het is allemaal alweer zolang geleden dat ik dit gehad heb.
Israëlisch politiek is de splijtzwam van de wereld.
- TIBERIUS CLAUDIUS
- Superposter
- Berichten: 8664
- Lid geworden op: 02 mei 2017 18:24
- Locatie: CAPRI
Re: Steekproeven
Daarvoor moet je een norm stellen.
Zo'n norm is meestal arbitrair dat komt omdat er geen natuurlijke norm is.
En als er nu meer keizers zijn geweest dan maanden, wat dan, geachte senatoren?
- Peter van Velzen
- Site Admin
- Berichten: 21319
- Lid geworden op: 02 mei 2010 10:51
- Locatie: ampre muang trang thailand
Re: Steekproeven
Uieraard was mijn enige doel bij deze exercitie - zonder al te veel kennis van deze discipline - uitvissen hoe groot een steekproef moest zijn om een betrouwbare uitslag te geven. (ik ging er immers van uit dat ik het juiste percentage al kende). Een aantal van 40 is zo te zien vrij zinloos, tenzij je tevreden bent met een afwijking van meer dan 12 procent, een aantal van 400 is waarschijnlijk wel zinvol, tenzij je iets héél precies wilt weten.
Aan het herhaaldelijk testen van dezelfde personen had ik wel gedacht, maar inderdaad is dat in dit verband nogal raar. Maar je kunt dan ook bij een aantal van 40 personen een foutmarge van 12 procent creëren, en als resultaat bijvoorbeeld 22 -18 krijgen in plaats van 20-20 ook als 20-20 het juiste antwoord is. Het is trouwens interessant of enqueteurs dit trachten te vermijden of niet. Als je denkt 400 proefpersonen te testen, maar je ondervraagt in feite slechts 200 verschillende individuën dan zal je betrouwbaarheid - denk ik - ongeveer een procent lager uitkomen. Bij een populatie van een bedreigde diersoort zal dit echter wel voorkomen. Die zet je liefst weer snel terug in hun omgeving.
Tiberius Claudius bedoelde met h0 en h1 waarschijnlijk de nulhypothese en de alternatieve hypothese. DIe waren er in dit geval natuurlijk niet. Dat geldt trouwens ook bij opiniepeilingen.
Aan het herhaaldelijk testen van dezelfde personen had ik wel gedacht, maar inderdaad is dat in dit verband nogal raar. Maar je kunt dan ook bij een aantal van 40 personen een foutmarge van 12 procent creëren, en als resultaat bijvoorbeeld 22 -18 krijgen in plaats van 20-20 ook als 20-20 het juiste antwoord is. Het is trouwens interessant of enqueteurs dit trachten te vermijden of niet. Als je denkt 400 proefpersonen te testen, maar je ondervraagt in feite slechts 200 verschillende individuën dan zal je betrouwbaarheid - denk ik - ongeveer een procent lager uitkomen. Bij een populatie van een bedreigde diersoort zal dit echter wel voorkomen. Die zet je liefst weer snel terug in hun omgeving.
Tiberius Claudius bedoelde met h0 en h1 waarschijnlijk de nulhypothese en de alternatieve hypothese. DIe waren er in dit geval natuurlijk niet. Dat geldt trouwens ook bij opiniepeilingen.
Ik wens u alle goeds
- TIBERIUS CLAUDIUS
- Superposter
- Berichten: 8664
- Lid geworden op: 02 mei 2017 18:24
- Locatie: CAPRI
Re: Steekproeven
Als je het juiste percentage al kent dan is de steekproef niet erg zinvol lijkt me.Peter van Velzen schreef: ↑24 okt 2017 10:44 (ik ging er immers van uit dat ik het juiste percentage al kende).
Ook vermeld je niet wat nu precies een betrouwbaar resultaat is.
En als er nu meer keizers zijn geweest dan maanden, wat dan, geachte senatoren?
- Peter van Velzen
- Site Admin
- Berichten: 21319
- Lid geworden op: 02 mei 2010 10:51
- Locatie: ampre muang trang thailand
Re: Steekproeven
Ik hield geen steekproef, Ik berekende slechts de gemiddelde afwijking van het juiste antwoord bij een steekproef van N testen op een veel grotere populatie. Als jij een afwijking van gemiddeld 12% betrouwbaar genoeg vind dan heb je aan een steekproef van 40 genoeg, wil je een afwijking van minder dan één procent, dan heb je er al gauw 500 nodig of daaromtrent (ik heb slechts tot 40 nauwkeurig gerekend en daarboven een alleen de trend voortgezet, die aangaf dat een verschil van 2 t.o.v. het gemiddelde ongeveer correspondeerde met de gemiddelde afwijking)TIBERIUS CLAUDIUS schreef: ↑24 okt 2017 10:53Als je het juiste percentage al kent dan is de steekproef niet erg zinvol lijkt me.Peter van Velzen schreef: ↑24 okt 2017 10:44 (ik ging er immers van uit dat ik het juiste percentage al kende).
Ook vermeld je niet wat nu precies een betrouwbaar resultaat is.
Ik heb uiteraard heel dom gerekend en de halve driehoek van Pascal gebruikt om de frequentie van de mogelijke antwoorden te vinden, (dus 1-4-3 ipv 1-4-6-4-1 en 1-5-10 ipv 1-5-10-10-5-1) Ik had bij een steekproef van 40, bijna 70 miljard manieren waarop ik het juiste antwoord kon krijgen en ruim 500 miljard MV-combinaties van 40 lang. De gemiddelde afwijking blijkt - bij even aantallen - precies gelijk te zijn aan het eerste getal gedeeld door het tweede.
Ik wens u alle goeds
- TIBERIUS CLAUDIUS
- Superposter
- Berichten: 8664
- Lid geworden op: 02 mei 2017 18:24
- Locatie: CAPRI
Re: Steekproeven
Je bedoelt met het juiste antwoord dat er in de steekproef precies evenveel mannen als vrouwen zitten?
En als er nu meer keizers zijn geweest dan maanden, wat dan, geachte senatoren?
- Peter van Velzen
- Site Admin
- Berichten: 21319
- Lid geworden op: 02 mei 2010 10:51
- Locatie: ampre muang trang thailand
Re: Steekproeven
Dat was mijn uitgangspunt inderdaad.TIBERIUS CLAUDIUS schreef: ↑24 okt 2017 11:22 Je bedoelt met het juiste antwoord dat er in de steekproef precies evenveel mannen als vrouwen zitten?
Ik wens u alle goeds
- De Encyclopedist
- Ervaren pen
- Berichten: 735
- Lid geworden op: 30 mar 2017 21:04
- Locatie: Rotterdam
Re: Steekproeven
Ja, dat klopt. Ik heb die mogelijkheid genegeerd om de boel niet ingewikkelder te maken dan hij al is. Je kunt je afvragen welk praktisch doel dat voorbeeld zou moeten dienen als de populatieverdeling niet verandert in de te bepalen eigenschap.TIBERIUS CLAUDIUS schreef: ↑24 okt 2017 09:46Dat is zijn algemeenheid niet waar, men kan immers een steekproef nemen met terug leggen.De Encyclopedist schreef: ↑24 okt 2017 09:33De steekproeffractie, d.i. de verhouding van de steekproefgrootte tot de populatie, is daarbij van ondergeschikt belang zolang de steekproef kleiner is dan de populatie.
Neen een vaas met twee witten en twee zwarte knikkers je kunt dan een knikker trekken en weer terug leggen schudden en weer trekken.
Men kan dan gerust honderd trekkingen doen terwijl de populatie maar vier is.
Stook een vuur voor iemand en hij heeft het een dag warm; steek hem in brand en hij heeft het de rest van zijn leven warm. (Terry Pratchett)
- TIBERIUS CLAUDIUS
- Superposter
- Berichten: 8664
- Lid geworden op: 02 mei 2017 18:24
- Locatie: CAPRI
Re: Steekproeven
Dan klopt er iets niet aan je berekeningen.Peter van Velzen schreef: ↑24 okt 2017 12:14Dat was mijn uitgangspunt inderdaad.TIBERIUS CLAUDIUS schreef: ↑24 okt 2017 11:22 Je bedoelt met het juiste antwoord dat er in de steekproef precies evenveel mannen als vrouwen zitten?
In het begin er geen sprake van een populatie grootte. (dat duikt pas op het eind op)
Er moet dus wel worden aangenomen dat het binomiaal verdeelt is. (trekkingen hebben daar de zelfde kansen)
Nemen we n=2 (p=q=1/2)
Dan is de kans op precies 1man en 1vrouw 0.5 (dus de kans dat men er naast zit is:1-0.50=0.50)
Nemen we n=8 (p=q=1/2)
Dan is de kans op precies 4man en 4vrouw 0.27 (dus de kans dat men er naast zit is:1-0.27=0.73)
De kans neemt dus toe dat men niet precies even veel mannen als vrouwen trekt naarmate de trekking groter wordt.
Als n oneven is dan is de kans op de goede verhouding trouwens 0.
======================
Als men de populatie grootte weet en het een trekking zonder terug leggen ontstaat een ander beeld.
Dit is dan Hypergeometrisch verdeeld.
Ik heb daar geen tabellen van (die zijn zeldzaam) en Maple waarmee ik ze kan uitrekenen staat op een andere computer.
Ik heb daar dus geen cijfers over, maar ik vermoed dat het patroon zo zal zijn:
De kans dat het de juiste verhouding is zal met groter wordende n (beste is met n=2 te starten) afnemen
totdat n vrij groot is en dan gaat hij weer afnemen en zal dan naar 1 gaan.
Om 1 te worden als n zo groot is als de populatie.
En als er nu meer keizers zijn geweest dan maanden, wat dan, geachte senatoren?