Skip to content

Sens i bezsens analizowania wyników wyborów

edytowano March 2015 w Forum ogólne
Jeśli już chcemy podejść "naukowo" - próbka exit polls ma rozkład wielomianowy a dokładniej - hipergeometryczny dla wielu zmiennych, jeszcze dokładniej - jest złożeniem szesnastu takich rozkładów, które na poziomie każdego województwa minimalnie się różnią. Do wszystkich obliczeń wystarcza na ogół rozkład wielomianowy, co pozwala w zaciszu domowym przeprowadzić naukowe symulacje.
Załóżmy że
Kandydat 1 otrzymał 27% głosów
Kandydat 2 - 26%
Kandydat 3 - 24%
Kandydat 4 - 14%
Kandydat 5 - 9%
Dla próbki liczącej 1000 osób prawdopodobieństwo dokładnego powtórzenia tych wyników wynosi 1.73E-06 (1.73 razy 10 do -6 czyli 0,00000173)
Prawdopodobieństwo otrzymania wyniku
Kandydat 1 - 26% głosów
Kandydat 2 - 27%
Kandydat 3 - 23%
Kandydat 4 - 16%
Kandydat 5 - 8%
jest równe 1.4E-07
zaś prawdopodobieństwo wyniku
Kandydat 1 - 32% głosów
Kandydat 2 - 27%
Kandydat 3 - 18%
Kandydat 4 - 14%
Kandydat 5 - 9%
zaledwie 5.11E-12
Prawdopodobieństwo w przypadku drugim jest 8 razy niższe od wyniku najbardziej prawdopodobnego a w trzecim - już 340 tysięcy razy niższe. Po zwiększeniu liczebności próbki do 3000 różnica wynosi, odpowiednio, trzy i 17
rzędów wielkości.
W przypadku próbki o liczbie kilkadziesiąt tysięcy, jeśli uszeregujemy wyniki malejąco pod względem prawdopodobieństwa wystąpienia i podzielimy na dwie grupy tak, by suma prawdopodobieństw w grupie wyników mniej prawdopodobnych była równa prawdopodobieństwu uzyskania głównej wygranej w lotto, w tej właśnie grupie znajdzie się wynik sondażowni przeprowadzającej exit polls, o ile PKWN prawidłowo policzyła głosy. Dodam, że to oszacowanie można wzmocnić podając wynik znacznie niższy od prawdopodobieństwa wygranej w lotto.
Najbardziej wiarygodne i widoczne gołym okiem wyjaśnienie rozbieżności:
- po długim liczeniu głosów PKW dodała 6,25% do wyniku sondażowego PSL, wyniki PiS i PO zostały obniżone odpowiednio o 5,25% i 1% w porównaniu z wynikiem sondażowym a w pozostałych po prostu nic nie zmieniono.
The author has edited this post (w 24.11.2014)
«1

Komentarz

  • Inny przyczynek
    W ostatnich wyborach samorządowych rzuca się w oczy kilka spraw:
    - zaskakująco duży odsetek głosów nieważnych (blisko 18% vs. 12% w 2006 i w 2010 roku)
    - zaskakująco duży wzrost notowań PSL
    - niewytłumaczalna różnica pomiędzy wynikami exit polls a wynikami głosowania w przypadku PiS (minus 4,7%) i PSL (plus 6,7%).
    Pojawiają się próby "racjonalnego" wytłumaczenia powstałych anomalii: a to efekt "pierwszej strony" książeczki do głosowania miał działać dla PSL, a to znowu powodem dużej liczby nieważnych głosów miały być mylące instrukcje dotyczące głosowania na "kartę". Inni złośliwie sugerują, że wyborcy PiS są bardziej nierozgarnięci od wyborców innych partii i masowo marnowali swoje głosy. Inne wytłumaczenie, podsunięte przez J.Kalinowskiego, mówi o wyjątkowej mobilizacji elektoratu PSL. Argumenty te nie wytrzymują krytyki. Książeczki zdarzały się we wcześniejszych wyborach i z tego powodu nie zauważono masowego wzrostu poparcia dla jakiejś partii ani większej liczby głosów nieważnych. Trudno też uwierzyć, by wyborcy PSL byli inteligentniejsi nie tylko od wyborców PiS ale i innych partii... Zaś ewentualna mobilizacja elektoratu PSL powinna znaleźć odbicie w wynikach exit polls. Tak ogromne anomalie rodzą więc podejrzenia o fałszerstwo wyborcze, jednak nikt nikogo nie złapał za rękę.
    By statystycznie sprawdzić, która partia zyskała, a która straciła na sensacyjnym wzroście głosów nieważnych, obliczyłem wskaźnik korelacji Pearsona pomiędzy zmianą poparcia dla poszczególnych partii a zmianą odsetka głosów nieważnych (wybory samorządowe 2014 vs. wybory samorządowe 2010) w ujęciu regionalnym (w rozbiciu na województwa). Ujęcie to pozwala ustandaryzować naturalne różnice regionalne w poparciu dla partii politycznych.
    Współczynnik Pearsona może kształtować się od -1, co oznacza pełną korelację negatywną do +1 co oznacza pełną korelację pozytywną. Zero oznacza brak korelacji.
    Analiza jest oparta na danych z tylko 8 województw, ponieważ jak do tej pory PKW nie podała danych o głosach nieważnych z pozostałych województw.
    Wyliczony współczynnik korelacji Pearsona wynosi:
    dla PSL 0,92
    dla PiS -0,28
    dla PO 0,13
    dla SLD 0,24
    Oznacza to, ze istnieje niemal liniowa korelacja pomiędzy wzrostem udziału głosów nieważnych a wzrostem poparcia dla PSL w porównaniu do wyników głosowania z 2010 roku. Mocno upraszczając, niemal każdy nowy głos nieważny okazywał się głosem oddanym na PSL. Korelacja wzrostu udziału głosów nieważnych z wynikami innych partii jest słaba, ale warto zauważyć, że PiS jest jedyną partią z "wielkiej czwórki", która ma korelację ujemną, co oznacza, że PiS jednak tracił na wzroście liczby zmarnowanych głosów.
    Kazdy statystyk uzna korelacje 92% za udowodniony zwiazek przyczynowo-skutkowy. Falszerstwo jest dowiedzione.

    Ci Polacy, co po raz kolejny uwierzyli don Aldowi, maja pamięć złotych rybek i nie potrzebują własnego państwa. Trzy dni po tym, jak je stracą, zapomną, że je kiedyś mieli.
  • Wymowne, ale lepiej, gdyby tego typu analiza została przeprowadzona przez profesjonalnego statystyka.
    Po tym, jak widziałem magistrów matematyki udowadniających, że
    Paradoks Monty Halla
    w rzeczywistości nie istnieje w przyrodzie, mam umiarkowane zaufanie do anonimowych analiz statystyczno-probabilistycznych umieszczanych na blogaskach.
  • Sprawdziłem dla PiS, dobrze policzone, ale:
    - korelacja nie oznacza przecież związku przyczynowo-skutkowego, a współwystępowanie (choć ad hoc trudno podać inną hipotezę niż fałszowanie).
    - druga sprawa to baza na jakiej wyniki są liczone - to jest dosłownie kilka liczb na partię. Moim skromnym zdaniem dopiero wyniki w powiatach pokażą prawdziwą skalę.
  • van.den.budenmayer
    Wymowne, ale lepiej, gdyby tego typu analiza została przeprowadzona przez profesjonalnego statystyka.
    Po tym, jak widziałem magistrów matematyki udowadniających, że
    Paradoks Monty Halla
    w rzeczywistości nie istnieje w przyrodzie, mam umiarkowane zaufanie do anonimowych analiz statystyczno-probabilistycznych umieszczanych na blogaskach.
    Poprawny dowod twierdzenia Radona-Nikodyma pozostaje poprawny nawet niepodpisany. Na tym polega wyzszosc matematyki nad humanistyka - argument z autorytetu jest stosowany najwyzej niejawnie.
    Profesjonalny statystyk (dr hab.) los mowi ci, ze kriszu policzyl poprawnie.
    A mydlacych sie magistrow (i psorow) matematyki tez widzialem a raczej ciagle ogladam. Kolejna wyzszosc matematyki nad humanistyka - prawo do bledu. Bo niepoprawny dowod twierdzenia pozostaje niepoprawny nawet, jesli jest autorstwa matematycznej slawy.
    The author has edited this post (w 24.11.2014)

    Ci Polacy, co po raz kolejny uwierzyli don Aldowi, maja pamięć złotych rybek i nie potrzebują własnego państwa. Trzy dni po tym, jak je stracą, zapomną, że je kiedyś mieli.
  • Kuba
    - korelacja nie oznacza przecież związku przyczynowo-skutkowego, a współwystępowanie
    Ale jesli wspolwystepowanie moze wynikac tylko ze zwiazku przyczynowo-skutkowego, to uznaje sie rzeczony za udowodniony.
    Tu zawadzamy o problem Hume'a i w ogole zagadnienie rozumowania indukcyjnego. Dzis bardziej sie poslugujemy Popperem niz Carnapem ale indukcja pozostaje jednym z wazniejszych narzedzi nauki. Ciezko byloby cos bez niej powiedziec w naukach empirycznych.

    Ci Polacy, co po raz kolejny uwierzyli don Aldowi, maja pamięć złotych rybek i nie potrzebują własnego państwa. Trzy dni po tym, jak je stracą, zapomną, że je kiedyś mieli.
  • Heh, wychodzi trochę bokotemat, ale jak na moją małą głowę to zamieszanie wokół 'big data' i jeszcze starszy 'data mining' to właśnie wielki powrót indukcji.
    Policzyłem jeszcze dla spokoju sumienia PiS i PSL dwoma innymi metodami (tau-b Kendalla i Spearman). Dla PiS utrzymuje się brak istotności ujemnej korelacji, ale dla PSL to już pozwolę sobie zacytować maszynę:
    Korelacja istotna na poziomie 0.01
    Czyli nawet tylko dla ośmiu par liczb (przyrost PSL vs przyrost głosiów nieważnych x 8 województw) korelacja jest tak znacząca, że szansa na przypadkowość jest minimalna (1%). W badaniach sondażowych przyjmuje się najczęściej wartość 5% (niezależnie od błędu pomiaru, słynnych 3% przy próbie n=1000).
    The author has edited this post (w 24.11.2014)
  • Kuba
    Heh, wychodzi trochę bokotemat, ale jak na moją małą głowę to zamieszanie wokół 'big data' i jeszcze starszy 'data mining' to właśnie wielki powrót indukcji.
    Dokladnie.

    Ci Polacy, co po raz kolejny uwierzyli don Aldowi, maja pamięć złotych rybek i nie potrzebują własnego państwa. Trzy dni po tym, jak je stracą, zapomną, że je kiedyś mieli.
  • Dobrze, że Kolega dopisał, to co dopisał, bo inaczey szansa na zrozumienie lapidarnego komunikatu
    "Korelacja istotna na poziomie 0.01" byłaby dla mnie taka raczey epsilonowa, żeby nie powiedzieć - zerowa.
    :D
  • robert.gorgon
    Kuba
    :
    Sprawdziłem dla PiS, dobrze policzone, ale:
    - korelacja nie oznacza przecież związku przyczynowo-skutkowego, a współwystępowanie (choć ad hoc trudno podać inną hipotezę niż fałszowanie).
    - druga sprawa to baza na jakiej wyniki są liczone - to jest dosłownie kilka liczb na partię. Moim skromnym zdaniem dopiero wyniki w powiatach pokażą prawdziwą skalę.
    Na gorąco, bez wgłębiania się i liczenia - w końcu to wyniki w powiatach dały te liczby. Podział na powiaty da więcej liczb, ale czy wyniki przez to będą lepsze, w sensie bardziej wiarygodne? Spodziewam się, że końcowe wnioski się nie zmienią, czyli korelacja wyjdzie na podobnym poziomie.
  • mmaria
    Dobrze, że Kolega dopisał, to co dopisał, bo inaczey szansa na zrozumienie lapidarnego komunikatu
    "Korelacja istotna na poziomie 0.01" byłaby dla mnie taka raczey epsilonowa, żeby nie powiedzieć - zerowa.
    :D
    Prosz... Forum matematyków. Ale stwierdzenie jakiejś cechy na poziomie istotności 1% to dość mocne stwierdzenie.
  • robert.gorgon
    mmaria
    :
    Dobrze, że Kolega dopisał, to co dopisał, bo inaczey szansa na zrozumienie lapidarnego komunikatu
    "Korelacja istotna na poziomie 0.01" byłaby dla mnie taka raczey epsilonowa, żeby nie powiedzieć - zerowa.
    :D
    Prosz... Forum matematyków. Ale stwierdzenie jakiejś cechy na poziomie istotności 1% to dość mocne stwierdzenie.
    Bardzo mocne. Dla mnie to dowod wprost. I przy okazji przeslanka do stwierdzenia, ze w PKWN nie mieli statystyka, coby troche szumu wprowadzil, by fakty nie dawaly tak ostro po oczach.

    Ci Polacy, co po raz kolejny uwierzyli don Aldowi, maja pamięć złotych rybek i nie potrzebują własnego państwa. Trzy dni po tym, jak je stracą, zapomną, że je kiedyś mieli.
  • //zakładka//
  • u mnie % głosów niewaznych wynosił od ok 6 do 8 w zaleznosci od okregu
    jesli ostatnio było 12% głosów nieważnych, z których świdomie nieważnych czyli czystych kart wrzucionych do urn było ponoć 9%, to obecne 20% jest kosmicznym wynikiem
    problem z obecnymi niewaznymi głosami jest chyba tez taki że ponoc PKWN nie nakazał segregowac ich pod wzgledem przyczyny nieważności tylko wszystko do jednego wora w którym wszystko sie zmieści - beszczelny wałek i swiadomy niewazny i pomyłka czy głupota-  a taki podział byłby niezwykle istotny i wiele mówiący

    Boże, użycz mi pogody ducha abym godził się z tym czego nie mogę zmienić, odwagi abym zmieniał to co mogę zmienić i mądrości aby odróżniał jedno od drugiego.
  • Wyobraźmy sobie, że członek komisji fałszuje wybory dopisując krzyżyki na pierwszej stronie. W niektórych komisjach, ze względu na "zmęczenie", część głosów zostaje uznana za ważne i oddane na pezetel bez sprawdzania następnych stron broszury, w innych ktoś odkrywa dodatkowe krzyżyki. W ten sposób lawinowo rośnie liczba głosów nieważnych i wynik PSL, traci głównie PiS, bo podobne przewały dzieją się przede wszystkim na wsi i w małych miastach.
  • 7my
    romeck
    :
    //zakładka//
    /na stronie/ jak tam wyniki w Piekarach ?
    Pat.
    8 mandatów
    PO
    (formalnie od 12 lat komitet bezpartyjnego)
    8 mandatów "TU" lokalny duet palikociarz-and-była-PiSmenka
    7 mandatów
    PiS
    Muszę odnaleźć swój wątek tutaj...
  • los
    robert.gorgon
    :
    Ale stwierdzenie jakiejś cechy na poziomie istotności 1% to dość mocne stwierdzenie.
    Bardzo mocne. Dla mnie to dowod wprost.
    A czy z tą wiedzą (oczywiście, po uzupełnieniu obliczeń do pełnych danych) dalej można coś zrobić, np. wew SN, w odwołaniach do Strasburga itp.?
  • To samo co z dowodami wprost w sprawie smoleńskiej.
    The author has edited this post (w 24.11.2014)

    Ci Polacy, co po raz kolejny uwierzyli don Aldowi, maja pamięć złotych rybek i nie potrzebują własnego państwa. Trzy dni po tym, jak je stracą, zapomną, że je kiedyś mieli.
  • Może jednak niezupełnie.
    Jeżeli teraz wniosek PiS na forum PE przepadł
    http://wpolityce.pl/polityka/223375-prof-krasnodebski-w-pe-wybory-w-polsce-odbyly-sie-niezgodnie-ze-standardami-ktore-przyjmuje-ue
    to po zakończeniu całej procedury odwoławczej w kraju już niekoniecznie. Wtedy taki argument może mieć wagę dowodu.
    Poza tym, sądzę, że wyniki z najbliższej niedzieli będą bardziej zbliżone do prawdy, bo chyba temu miał służyć ten błyskawicznie złożony wniosek.
  • Nie będą nas bardziej traktować jako ludzi niż my sami.

    Ci Polacy, co po raz kolejny uwierzyli don Aldowi, maja pamięć złotych rybek i nie potrzebują własnego państwa. Trzy dni po tym, jak je stracą, zapomną, że je kiedyś mieli.
  • A co z
    correlation doesn't imply causation
    ?
  • O nas samych wypowiedziałam się w innym wątku.
    Czy ktoś tu wie kiedy i w jakich okolicznościach są wysyłani na wybory obserwatorzy OBWE? Np. z wystąpienia Kowala można wnioskować, że brał w tym udział niejeden raz.
    The author has edited this post (w 24.11.2014)
  • polmisiek
    A co z
    correlation doesn't imply causation
    ?
    Beło wyżej.

    Ci Polacy, co po raz kolejny uwierzyli don Aldowi, maja pamięć złotych rybek i nie potrzebują własnego państwa. Trzy dni po tym, jak je stracą, zapomną, że je kiedyś mieli.
  • polmisiek
    A co z
    correlation doesn't imply causation
    ?
    los
    Ale jesli wspolwystepowanie moze wynikac tylko ze zwiazku przyczynowo-skutkowego, to uznaje sie rzeczony za udowodniony.
  • Faktycznie
    :)
  • mmaria
    los
    :
    robert.gorgon
    :
    Ale stwierdzenie jakiejś cechy na poziomie istotności 1% to dość mocne stwierdzenie.
    Bardzo mocne. Dla mnie to dowod wprost.
    A czy z tą wiedzą (oczywiście, po uzupełnieniu obliczeń do pełnych danych) dalej można coś zrobić, np. wew SN, w odwołaniach do Strasburga itp.?
    A może prościej?
    Sądy rejonowe czy tam okręgowe w trybie "normalnego" protestu wyborczego?
    W odróżnieniu od instancji najwyższych istnieje pewna, niezerowa szansa na to, że układ się tu jeszcze nie domknął... i w którymś rejonie czy okręgu trafi się sędzia sprawiedliwy...
    Co sądzą o tym Koledzy Prawnicy?
    Da się z takiej analizy usmażyć sensowny protest wyborczy?
  • robert.gorgon
    Na gorąco, bez wgłębiania się i liczenia - w końcu to wyniki w powiatach dały te liczby. Podział na powiaty da więcej liczb, ale czy wyniki przez to będą lepsze, w sensie bardziej wiarygodne? Spodziewam się, że końcowe wnioski się nie zmienią, czyli korelacja wyjdzie na podobnym poziomie.
    Moim zdaniem kierunek się nie zmieni, pewnie tylko natężenie. Zejście do powiatów da dokładniejsze dane - nie będzie to kilka punktów (jak na przykładach poniżej), tylko cała "chmura". Wyznaczanie prostej (współczynnik korelacji) będzie wiarygodniejsze na większej ilości przypadków, może się też okazać że ujemny wynik dla PiS jest istotny.
    Swoją droga ciekawy przykład - ta sama wartość korelacji przy różnym rozrzucie kropek (par zjawisk).
  • W trzech przypadkach stosowanie liniowej korelacji jako miary czegokolwiek jest niedopuszczalne. W analizie korelacji zakladamy prosty model: liniowa zaleznosc + szum o charakterze zblizonym od bialego. Na rysunkach 2, 3 i 4 widac tzw golym okiem, ze to zalozenie nie jest spelnione. I owszem, sa testy statystyczne testujace owo zalozenie.
    Sw.p. prof. Zielinski zrobil statystykom swietny psikus - zdrukowal sobie mapy nieba, gdzie gwiazdy byly oznaczone kropkami i dal do policzenia jakies miary statystyczne. Metodologia to podstawa.

    Ci Polacy, co po raz kolejny uwierzyli don Aldowi, maja pamięć złotych rybek i nie potrzebują własnego państwa. Trzy dni po tym, jak je stracą, zapomną, że je kiedyś mieli.
  • Ta sama korelacja tych czterech zbiorów?
    Kolega się pomylił. Ten przykład służy do wskazania, że cztery różne zbiory danych mogą mieć te same: średnią, medianę i wariancję. Tu nie było mowy o korelacji.
  • yanusson
    Ta sama korelacja tych czterech zbiorów?
    Kolega się pomylił. Ten przykład służy do wskazania, że cztery różne zbiory danych mogą mieć te same: średnią, medianę i wariancję. Tu nie było mowy o korelacji.
    Kolega ma rację odnośnie średniej itd., jednak ten sam jest również współczynnik korelacji i równanie regresji liniowej.
    Niech już będzie wiki
    http://pl.wikipedia.org/wiki/Kwartet_Anscombe%27a
    The author has edited this post (w 26.11.2014)
Aby napisać komentarz, musisz się zalogować lub zarejestrować.