prawo małych liczb

Prawo małych liczb – Daniel Kahneman

Badanie zapadalności na raka nerek przeprowadzone we wszystkich 3 141 hrabstwach Stanów Zjednoczonych ujawniło pewną dziwną prawidłowość. Zapadalność okazała się najniższa głównie na wiejskich, rzadko zaludnionych obszarach stanów Środkowego Zachodu, Zachodu i Południa, gdzie tradycyjnie głosuje się na Partię Republikańską. Jak należy to interpretować?

[…]

Zapewne odrzuciłeś myśl, że przed rakiem chronią mieszkańców republikańskie poglądy. Bardzo możliwe, że w końcu skupiłeś się na tym, iż tereny o niskiej zapadalności na raka to głównie obszary wiejskie. Statystycy Howard Wainer i Harris Zwerling, od których zaczerpnąłem ten przykład, komentują: „Byłoby rzeczą łatwą i kuszącą wyciągnąć stąd wniosek, że mała liczba zachorowań na raka wynika bezpośrednio ze zdrowego, wiejskiego stylu życia: braku zanieczyszczeń powietrza i wody oraz dostępu do świeżej żywności wolnej od sztucznych dodatków”. Ma to sens.

Teraz weźmy pod uwagę hrabstwa, w których zapadalność na raka nerek jest najwyższa. Jak się okazuje, większość z nich to także tereny wiejskie, rzadko zaludnione i położone w tradycyjnie republikańskich stanach Środkowego Zachodu, Zachodu i Południa. Wainer i Zwerling z przymrużeniem oka komentują: „Łatwo byłoby wywnioskować, że zwiększona liczba zachorowań wynika bezpośrednio z ubogiego, wiejskiego stylu życia: braku dobrej opieki medycznej, tłustej diety, nadużywania alkoholu i papierosów”.

Oczywiście coś tu nie gra. Wiejski styl życia nie może jednocześnie tłumaczyć wysokiej i niskiej zapadalności na raka nerek. Otóż kluczowym czynnikiem nie jest to, czy dane hrabstwo leży na terenach wiejskich albo czy częściej głosuje się w nim na republikanów. Liczy się to, że hrabstwa wiejskie mają mało mieszkańców.

Główna lekcja płynąca z tego badania nie dotyczy epidemiologii, ale trudności, jakich naszemu umysłowi nastręcza statystyka. […] Słysząc o wysokiej zapadalności na raka, od razu zakładasz, że musi istnieć konkretna przyczyna, dla której hrabstwa różnią się od siebie – że różnica musi mieć jakiś powód.

[…]



Zaczęliśmy od faktu, który domagał się znalezienia przyczyny: w poszczególnych hrabstwach występują duże systemowe różnice dotyczące zapadalności na raka nerek. Wyjaśnienie, które zaproponowałem, jest natury statystycznej: wyniki skrajne (czy to niskie, czy wysokie) częściej pojawiają się w małych próbkach niż w dużych. Nie jest to wyjaśnienie przyczynowoskutkowe. Niewielka liczba ludności nie chroni przed rakiem ani go nie wywołuje; sprawia tylko, że zapadalność na raka okazuje się znacznie wyższa (albo znacznie niższa) niż w większej populacji. Głęboka prawda w tym przypadku mówi, że nie ma czego wyjaśniać. W rzeczywistości zapadalność na raka w słabo zaludnionym hrabstwie nie jest w danym roku ani niższa, ani wyższa, a tylko robi takie wrażenie w wyniku przypadkowego losowania.

Gdyby tę analizę powtórzyć rok później, zaobserwujemy tę samą ogólną prawidłowość (wyniki skrajne częściej pojawią się w małych próbkach), jednak w hrabstwach, gdzie przed rokiem nowotwory pojawiały się często, tym razem wcale nie musi występować wysoka zapadalność. Jeśli tak będzie, różnice pomiędzy hrabstwami gęsto zaludnionymi a wiejskimi okażą się nie rzeczywistym faktem, lecz czymś, co naukowcy nazywają „artefaktem”, czyli obserwacją wygenerowaną przez pewien aspekt przyjętej metody badawczej – w tym wypadku przez różnicę w wielkości próbek.

Możliwe, że ta historia cię zaskoczyła, ale nie była dla ciebie jakimś objawieniem. Nie od dzisiaj masz świadomość, że wyniki oparte na dużych próbkach są bardziej miarodajne od wyników opartych na małych – tak działa prawo wielkich liczb, o którym słyszeli nawet ludzie, którzy nie splamili się wiedzą statystyczną…

Prawo małych liczb

Dla psychologa różnice wynikające z opierania się na próbkach nie są zwykłą ciekawostką; są nieustannym utrapieniem i kosztowną przeszkodą, która może zamienić dowolny projekt badawczy w czystą loterię. Wyobraźmy sobie, że chcesz potwierdzić hipotezę, iż statystyczna sześciolatka ma bogatsze słownictwo od statystycznego rówieśnika płci męskiej. Hipoteza ta jest prawdziwa dla całości populacji – dziewczynki statystycznie znają więcej słów. Jednak poszczególne dzieci są bardzo różne,więc możesz trafić na próbkę, w której nie będzie widać bezspornej różnicy, albo nawet chłopcy osiągną lepszy wynik. Jeśli jesteś badaczem, taki wynik będzie kosztowny, bo zmarnujesz czas i pracę, a i tak nie uda ci się potwierdzić prawdziwości hipotezy. Jedynym sposobem na zmniejszenie tego ryzyka będzie użycie odpowiednio licznej próbki. Badacze, którzy wybierają zbyt małą próbkę, są zdani na łaskę ślepego trafu. Istnieje dość prosta procedura matematyczna, która pozwala ustalić ryzyko błędu dla próbki określonej wielkości, jednak utarło się, że psycholodzy decydują o liczności próbki nie na podstawie wyliczeń, lecz własnej fachowej oceny, która często okazuje się niedoskonała.

Na krótko przed dyskusją z Amosem czytałem artykuł, który w dość dramatyczny sposób wykazywał błąd często popełniany przez badaczy (nawiasem mówiąc, badacze popełniają go po dziś dzień). Autor artykułu podkreślał, iż psychologom często zdarza się wybierać próbki tak małe, że ryzyko niepotwierdzenia prawdziwej hipotezy wynosi aż 50 procent! Żaden badacz o zdrowych zmysłach nie zaakceptowałby takiego ryzyka. Błędne decyzje psychologów na temat liczności próbki można było w wiarygodny sposób wyjaśnić tezą, że biorą się one z częstych intuicyjnych nieporozumień dotyczących możliwego zakresu wariacji w próbce.

Artykuł był dla mnie szokiem, bo częściowo wyjaśniał problemy, z którymi się borykałem we własnych badaniach. Tak jak większości psychologów rutynowo zdarzało mi się dobierać za małe próbki i często otrzymywałem bezsensowne wyniki. Teraz zrozumiałem dlaczego: dziwne wyniki były w rzeczywistości artefaktami mojej metody badawczej. Błąd był o tyle krępujący, że sam prowadziłem zajęcia ze statystyki i wiedziałem, jak należy wyliczyć wielkość próby pozwalającą zredukować ryzyko niepowodzenia do akceptowalnego poziomu – a jednak nigdy nie zastosowałem wyliczeń, żeby ustalić właściwą wielkość próbki. Planując eksperymenty, tak jak inni psycholodzy ufałem tradycji i własnej intuicji, nie zastanawiając się zbytnio nad problemem. Zanim jeszcze Amos pojawił się na naszym seminarium, doszedłem do wniosku, że
moje statystyczne przeczucia są zawodne i w dyskusji szybko się zgodziliśmy, że optymiści z Michigan nie mieli racji.

Razem z Amosem spróbowaliśmy ustalić, czy jestem jedynym durniem, czy też może durnie tacy jak ja stanowią większość. Postanowiliśmy sprawdzić, czy podobne błędy popełnią również inni badacze, których dobraliśmy pod kątem fachowej wiedzy matematycznej. Stworzyliśmy kwestionariusz opisujący realistyczne sytuacje badawcze, w tym próby potwierdzenia wyników innych udanych eksperymentów. W kwestionariuszu zwróciliśmy się do badaczy o wybranie odpowiedniej wielkości próbki, ocenę związanego z taką decyzją ryzyka niepowodzenia badania oraz udzielenie porady hipotetycznej doktorantce planującej własne badania. Odpowiedzi zebraliśmy podczas spotkania Towarzystwa Psychologii Matematycznej od grupy uczestników o dużej wiedzy statystycznej (w tym autorów dwóch podręczników statystyki).

Wyniki były jasne: nie byłem jedynym durniem. Znaczna większość respondentów popełniała dokładnie takie same błędy jak ja. Stało się oczywiste, że nawet eksperci nie zwracają odpowiedniej uwagi na wielkość próbki.

Fragment książki “Pułapki myślenia…” Daniela Kahnemana, wyd. Media Rodzina.

Czy ten artykuł był przydatny?

Podziel się oceną! 🙂

Ocena: / 5. Głosów:

czlowiek.info