Statystyka nie kłamie - kłamią dziennikarze
W przededniu obchodów 50-lecia Instytutu Socjologii UW przyszło mi wypowiedzieć się z pozycji jego absolwenta. A pretekst dali mi dziennikarze TVN24, który dotknęli mnie do żywego bredząc dziś o tym, że statystyka kłamie.
Powodem, dla którego dziennikarze - których nazwisk nie wymieniam dla tego, że rzecz dotyczy niemal wszystkich, nie tylko tym zawodem się parających - zajęli się dziś statystyką są oczywiście wybory, a konkretnie wyniki sondaży. A jeszcze precyzyjniej mówiąc rozbieżności między nimi. Rozbieżności, które - wiem to z licznych rozmów z ludźmi reprezentującymi najróżniejsze stopnie i kierunki wykształcenia - utwierdzają wielu w przekonaniu, że statystykę traktować należy z przymrużeniem oka. I jakkolwiek nie mam złudzeń, co do zasięgu mojej tyrady, dwa słowa na ten temat napisać muszę.
Otóż, drodzy koledzy, statystyka nie kłamie, jest to bowiem nauka ścisła w ścisłym rozumieniu tego pojęcia. Tak, jak kłamać nie może fizyka czy matematyka - tak i statystyka z definicji kłamać po prostu nie może. Kłamać mogą najwyżej statystycy, czy - i tak jest najczęściej - osoby w ogóle nie przygotowane do posługiwania się tym precyzyjnym narzędziem.
Jest kilka potocznych mitów na temat badań społecznych, po których chciałbym się tu przejechać na tyle, na ile pozwala formuła bloga i moja nieco już przykurzona wiedza.
Na przykład taki mit - że próba reprezentatywna to taka, w której proporcje między różnymi grupami (wydzielonymi ze względu np. na wiek, płeć, wykształcenie czy miejsce zamieszkania) są takie same, jak w całej badanej zbiorowości. Nic bardziej mylnego! Taką próbę nazywa się kwotową i korzysta się z niej wtedy, gdy z jakiegoś powodu nie sposób dobrać próby losowej.
A próba losowa - kolejny mit - to nie to samo, co przypadkowa grupa ludzi złapana na ulicy. Próbę losową dobiera się w taki sposób, by każdy członek zbiorowości miał równą szansę się w niej znaleźć, czyli np. losuje z bazy numerów PESEL (jedna z metod stosowanych w poważnych badaniach społecznych w Polsce).
Czym różni się prawidłowo dobrana próba losowa od próby przypadkowej czy kwotowej? Bynajmniej nie tym, że lepiej odwzorowuje podziały społeczne. Jej podstawową zaletą jest reprezentatywność.
I tu znów pewien mit, czy raczej pewne językowe przyzwyczajenie, które kryje błędne przekonanie. Otóż próba nie może być bardziej lub mniej reprezentatywna - reprezentatywność nie jest stopniowalna. Jest mierzalna - opisuje ją kilka matematycznych parametrów, które dadzą się wyliczyć.
Inny mit - większości ludzi wydaja się oczywiste, że próba jest tym lepsza - czy, jak zwykli mówić, "bardziej reprezentatywna" - im jest liczniejsza. Tymczasem - choć to wbrew wszelkiej intuicji - 1000-osobowa próba jest tak samo dobra, gdy badamy dwumilionową populację Warszawy, jak i wtedy, gdy chcemy zbadać czterdziestomilionowy naród. Wiem, że trudno w to uwierzyć, ale jak ktoś nie chce na słowo, to musi zadać sobie trud i przebrnąć przez podstawy statystyki. Zastrzegam, że Wikipedia jawi się tu jako mizerne źródło, ale od czegoś trzeba zacząć. Warto więc zerknąć na listę haseł mieszczących się tam w kategorii "Statystyka", by z samej ich ilości wywnioskować, że sprawa jest nieco bardziej skomplikowana, niż wydaje się osobom powtarzającym np. bzdury o tym, że statystycznie mają 0.5 dziecka.
Wracając do meritum. Stopień dokładności pomiaru wynika z założeń przyjętych przez badacza, ale wszystko, co następuje potem jest czysto matematyczną operacją, nie może więc być poddane wpływom ani nadużyciom.
Niestety, najlepszy nawet badacz nie poradzi nic na to, co dzieje sie zebranymi przez niego danymi. Ani na to, kto je obrabia i komentuje. Widać to często po samych wykresach i towarzyszących im "analizach". Prosty przykład: jeśli mamy badanie oparte na 1000-osobowej próbie i znamy w nim rozkłady płci, to nie znaczy jeszcze, że możemy sobie na jego podstawie w prosty sposób wnioskować o tym, jak dana cecha rozkłada się w podgrupach kobiet i mężczyzn, co jest niezwykle często powtarzanym błędem. Tego typu drobny - a w istocie kompletnie absurdalnych - błędów jest w mediach pełno.
Potem dane te poddawane się z kolei domorosłym analizom socjologicznym, często przez samych dziennikarzy lub przez redaktorów spisujących komentarz przez telefon. Bywają oceniane w telewizji, gdzie nagminnie nie daje się naukowcom dokończyć myśli.
Wreszcie za analizę biorą się politycy. Tego to już nawet komentować nie będę, bo szkoda nerwów.
I na koniec stawia się - z pozoru poważne - pytanie o wiarygodność sondaży. Oczywiście, że nie są wiarygodne. Gdy kilkanaście ośrodków robi je dzień w dzień, a kilkanaście różnych gazet, portali, stacji radiowych i kanałów telewizyjnych zarzuca nimi odbiorców podlewając to sosem afer, łapówek i innych framazonów, prezentowane nam badania nie pokazuję realnych preferencji wyborczych, tylko aktualny w chwili badania poziom wkurwienia na daną partię.
Rynek badań opinii jest systematycznie psuty przez media, polityków i łatwo poddające się presji odbiorców ośrodki badawcze. Niestety, w tym wszystkim utrwala się też fatalne w skutkach przekonanie, że statystyka kłamie. Dlaczego fatalne? Właśnie dlatego, że dziś naprawdę wiele dziedzin życia opiera się na terminologii i metodologii statystycznej - i szereg codziennych decyzji jest - zupełnie nieświadomie - opartych na wnioskach z różnorodnych badań. Tymczasem przeciętny Kowalski nie ma w szkole nawet rachunku prawdopodobieństwa, który, zdaje mi się, jakiś czas temu wyleciał z programu. Nie jest więc w stanie zrozumieć nawet podstaw statystyki - podstaw, które - co starałem się zasygnalizować powyżej - często są dalekie od tego, co podpowiada nam intuicja.
Powodem, dla którego dziennikarze - których nazwisk nie wymieniam dla tego, że rzecz dotyczy niemal wszystkich, nie tylko tym zawodem się parających - zajęli się dziś statystyką są oczywiście wybory, a konkretnie wyniki sondaży. A jeszcze precyzyjniej mówiąc rozbieżności między nimi. Rozbieżności, które - wiem to z licznych rozmów z ludźmi reprezentującymi najróżniejsze stopnie i kierunki wykształcenia - utwierdzają wielu w przekonaniu, że statystykę traktować należy z przymrużeniem oka. I jakkolwiek nie mam złudzeń, co do zasięgu mojej tyrady, dwa słowa na ten temat napisać muszę.
Otóż, drodzy koledzy, statystyka nie kłamie, jest to bowiem nauka ścisła w ścisłym rozumieniu tego pojęcia. Tak, jak kłamać nie może fizyka czy matematyka - tak i statystyka z definicji kłamać po prostu nie może. Kłamać mogą najwyżej statystycy, czy - i tak jest najczęściej - osoby w ogóle nie przygotowane do posługiwania się tym precyzyjnym narzędziem.
Jest kilka potocznych mitów na temat badań społecznych, po których chciałbym się tu przejechać na tyle, na ile pozwala formuła bloga i moja nieco już przykurzona wiedza.
Na przykład taki mit - że próba reprezentatywna to taka, w której proporcje między różnymi grupami (wydzielonymi ze względu np. na wiek, płeć, wykształcenie czy miejsce zamieszkania) są takie same, jak w całej badanej zbiorowości. Nic bardziej mylnego! Taką próbę nazywa się kwotową i korzysta się z niej wtedy, gdy z jakiegoś powodu nie sposób dobrać próby losowej.
A próba losowa - kolejny mit - to nie to samo, co przypadkowa grupa ludzi złapana na ulicy. Próbę losową dobiera się w taki sposób, by każdy członek zbiorowości miał równą szansę się w niej znaleźć, czyli np. losuje z bazy numerów PESEL (jedna z metod stosowanych w poważnych badaniach społecznych w Polsce).
Czym różni się prawidłowo dobrana próba losowa od próby przypadkowej czy kwotowej? Bynajmniej nie tym, że lepiej odwzorowuje podziały społeczne. Jej podstawową zaletą jest reprezentatywność.
I tu znów pewien mit, czy raczej pewne językowe przyzwyczajenie, które kryje błędne przekonanie. Otóż próba nie może być bardziej lub mniej reprezentatywna - reprezentatywność nie jest stopniowalna. Jest mierzalna - opisuje ją kilka matematycznych parametrów, które dadzą się wyliczyć.
Inny mit - większości ludzi wydaja się oczywiste, że próba jest tym lepsza - czy, jak zwykli mówić, "bardziej reprezentatywna" - im jest liczniejsza. Tymczasem - choć to wbrew wszelkiej intuicji - 1000-osobowa próba jest tak samo dobra, gdy badamy dwumilionową populację Warszawy, jak i wtedy, gdy chcemy zbadać czterdziestomilionowy naród. Wiem, że trudno w to uwierzyć, ale jak ktoś nie chce na słowo, to musi zadać sobie trud i przebrnąć przez podstawy statystyki. Zastrzegam, że Wikipedia jawi się tu jako mizerne źródło, ale od czegoś trzeba zacząć. Warto więc zerknąć na listę haseł mieszczących się tam w kategorii "Statystyka", by z samej ich ilości wywnioskować, że sprawa jest nieco bardziej skomplikowana, niż wydaje się osobom powtarzającym np. bzdury o tym, że statystycznie mają 0.5 dziecka.
Wracając do meritum. Stopień dokładności pomiaru wynika z założeń przyjętych przez badacza, ale wszystko, co następuje potem jest czysto matematyczną operacją, nie może więc być poddane wpływom ani nadużyciom.
Niestety, najlepszy nawet badacz nie poradzi nic na to, co dzieje sie zebranymi przez niego danymi. Ani na to, kto je obrabia i komentuje. Widać to często po samych wykresach i towarzyszących im "analizach". Prosty przykład: jeśli mamy badanie oparte na 1000-osobowej próbie i znamy w nim rozkłady płci, to nie znaczy jeszcze, że możemy sobie na jego podstawie w prosty sposób wnioskować o tym, jak dana cecha rozkłada się w podgrupach kobiet i mężczyzn, co jest niezwykle często powtarzanym błędem. Tego typu drobny - a w istocie kompletnie absurdalnych - błędów jest w mediach pełno.
Potem dane te poddawane się z kolei domorosłym analizom socjologicznym, często przez samych dziennikarzy lub przez redaktorów spisujących komentarz przez telefon. Bywają oceniane w telewizji, gdzie nagminnie nie daje się naukowcom dokończyć myśli.
Wreszcie za analizę biorą się politycy. Tego to już nawet komentować nie będę, bo szkoda nerwów.
I na koniec stawia się - z pozoru poważne - pytanie o wiarygodność sondaży. Oczywiście, że nie są wiarygodne. Gdy kilkanaście ośrodków robi je dzień w dzień, a kilkanaście różnych gazet, portali, stacji radiowych i kanałów telewizyjnych zarzuca nimi odbiorców podlewając to sosem afer, łapówek i innych framazonów, prezentowane nam badania nie pokazuję realnych preferencji wyborczych, tylko aktualny w chwili badania poziom wkurwienia na daną partię.
Rynek badań opinii jest systematycznie psuty przez media, polityków i łatwo poddające się presji odbiorców ośrodki badawcze. Niestety, w tym wszystkim utrwala się też fatalne w skutkach przekonanie, że statystyka kłamie. Dlaczego fatalne? Właśnie dlatego, że dziś naprawdę wiele dziedzin życia opiera się na terminologii i metodologii statystycznej - i szereg codziennych decyzji jest - zupełnie nieświadomie - opartych na wnioskach z różnorodnych badań. Tymczasem przeciętny Kowalski nie ma w szkole nawet rachunku prawdopodobieństwa, który, zdaje mi się, jakiś czas temu wyleciał z programu. Nie jest więc w stanie zrozumieć nawet podstaw statystyki - podstaw, które - co starałem się zasygnalizować powyżej - często są dalekie od tego, co podpowiada nam intuicja.
K.O.B.O.S. - Krajowy Ośrodek Badania Opinii Społecznej ;)
Brawo Rudy!
OdpowiedzUsuń:)
Iwka
No no :-)
OdpowiedzUsuńWyciagnalas stare notatki z metodologii?
Poniekad masz racje, ale poniekad tez troche sa winne media i politycy, wszyscy rzucaja sie na cyferki, ktore pasuja do ich tez - a czy to byl telefon, czy sondaz na Gazeta.pl to juz mniej ich interesuje.
A potem sa zdziwieni.
No i inna bajka - wieczne niedoszacowanie ugrupowan ekstremistycznych i populistycznych - bo wszak "wstyd" sie ankieterowi przyznac.
Nie wyciągnąłem, nie chciało mi się na szafę zaglądać. Ale wkurza mnie ten bełkot deprecjonujący statystykę wygłaszany przez ludzi, którym się wydaje, że cała statystyka sprowadza się do wykresów i wyliczania średniej.
OdpowiedzUsuń