wtorek, 21 kwietnia 2015

Rozkład dwumianowy a rozkład Poissona

Każdy z nas miał na pewno w szkole rozkład dwumianowy. Ktoś może tego nie pamiętać, ale na pewno zapamiętał próby Bernouliego (z ew. rysowaniem drzewek wyboru). To jest dokładnie to samo.

Rozkład taki powstaje, gdy zadamy sobie następujące pytanie: jakie jest prawdopodobieństwo tego, że zdarzenie o prawdopodobieństwie p wydarzy się dokładnie k razy w ciągu n prób.

Przykładem może być rzut kostką do gry: prawdopodobieństwo wyrzucenia 6 (lub dowolnej innej ścianki) jest równe 1/6. Żeby wyrzucić „generała” musimy wyrzucić 5 jednakowych oczek. Możemy zrównać ze sobą rzut jednocześnie 5 kostkami z 5-krotnym rzutem jedną kostką (z zapamiętywaniem wyników), gdyż i tu i tu rezultaty są od siebie niezależne.

Interesuje nas teraz, jakie jest wyrzucenie owego generała. Innymi słowy mówiąc: jakie jest prawdopodobieństwo zdarzenia o p=1/6 pięć razy pod rząd w ciągu 5 rzutów?

Nie będę się wdawał w wyprowadzanie odpowiednich wzorów i zamiast tego przytoczę od razu wzór gotowy:

P p , n ( k ) = ( n k ) p k ( 1 - p ) ( n - k )

W naszym przypadku p=1/6, n=5 oraz k=5. Podstawiając do wzoru dostajemy:

P 16 , 5 ( 5 ) = ( 5 5 ) ( 16 ) 5 ( 56 ) 0 = 1 * 1 6 5 * 1 = 17776 0,0001286

Dosyć mało - raz na prawie 8 tysięcy .

A teraz najważniejszy cel tego artykułu: jaki jest związek rozkładu dwumianowego z rozkładem Poissona?

Odpowiedź jest prosta (). Przypatrzmy się wartościom p i n (k nie interesuje nas zbytnio, bo się zmienia – niech to będzie nasza zmienna „x).

Jeśli wymnożymy p * n, dostaniemy pewną stałą. Będzie to wartość oczekiwana (średnia). Jeśli przykładowo p = 1/2 (rzut monetą), to wartość oczekiwana będzie zawsze równa połowie ilości rzutów – w miarę intuicyjne, prawda?

Rozkład prawdopodobieństwa dla 10 rzutów monetą. Na osi X liczba sukcesów k, na osi Y prawdopodobieństwo k-sukcesów. Na wartości powyżej 10 nie zwracajcie uwagi – prawdopodobieństwo wynosi wtedy zero (tak naprawdę to nie istnieje), ale dalsza część osi będzie mi potrzebna do dalszych rozważań
Wykonane przeze mnie w OpenOffice Calc i obrobione w GIMPie.

Idźmy dalej. Niech ta wartość oczekiwana, nazwijmy ją λ, będzie stała. Ale zmieńmy sobie ilość rzutów. Co się stanie? Po pierwsze należy zauważyć, że jeśli rośnie n, a λ jest stałe, to p musi zmaleć. Otrzymujemy w ten sposób zupełnie inny rozkład prawdopodobieństwa.

Jeśli wcześniej mieliśmy rzut monetą (p=0,5) dla przykładowo 10 prób, to gdy zwiększymy liczbę prób do 100, p będzie musiało zmaleć do 0,05. Nie jest to już rzut monetą, tylko czymś innym i zgodnie z oczekiwaniem ten rozkład prawdopodobieństwa będzie wyglądał inaczej:

Niebieskie słupki – rozkład dwumianowy dla p=0,05 i n=100 (wartości prawdopodobieństwa dla ilości sukcesów powyżej 13 są tak małe, że nie widać ich na wykresie, więc dla wygody nie pokazałem ich). Szare słupki – rzut monetą pokazany dla porównania.
Wykonane przeze mnie w OpenOffice Calc i obrobione w GIMPie.

Zauważmy, że λ nie zmieniła się. Ciągle oczekiwaną wartością będzie 5. Zmienił się jednak wygląd naszego rozkładu.

A co jeśli zwiększymy n do nieskończoności? Nie da się tego zrobić, ale dzięki matematyce możemy rozważyć pewien obiekt graniczny, gdy n dąży do nieskończoności (p maleje wtedy do zera).

Taki właśnie rozkład graniczny nazywamy rozkładem Poissona.

Niebieskie słupki – rozkład Poissona. Ciemnoszary i jasnoszary – poprzednie dwa rozkłady dla porównania.
Wykonane przeze mnie w OpenOffice Calc i obrobione w GIMPie.

Jak widać na powyższym obrazku rozkład Poissona nie różni się zbytnio od rozkładu dwumianowego dla dużego n. Właściwość tę można od biedy wykorzystać do generowania liczb losowych o tym rozkładzie, jednak jest to podejście naiwne i nie dla wszystkich przypadków może dawać zadowalające rezultaty. Poza tym są lepsze metody (patrz: mój poprzedni artykuł).

Pomimo zrozumienia problemu nie byłem niestety w stanie sam wyprowadzić wzoru na rozkład Poissona ze wzoru na rozkład dwumianowy, a jest to w miarę proste (zainteresowani mogą zerknąć na Wikipedię). Widać zapomniałem już sporo z lat nauki .

Wzór ten ma zaś następującą postać:

P λ ( k ) = λ k e λ k ! P_λ (k) = {λ^k e^{-λ}} over {k!}

Fakt, że przy bardzo małym p i bardzo dużej liczbie prób rozkład dwumianowy może być przybliżany rozkładem Poissona nazywany jest prawem rzadkich zdarzeń. Jest to o tyle ważne spostrzeżenie, że obliczenie rozkładu dwumianowego dla dużych wartości n jest dosyć czasochłonne – rozkład Poissona jest o wiele prostszy obliczeniowo.

Rozkłady Poissona powstają, gdy pewne dyskretne zdarzenia zachodzą niezależnie od siebie ze stałą częstością w określonych przedziałach czasu i/lub przestrzeni. Przykładami takich rozkładów mogą być:

  • liczba połączeń przychodzących do centrali w danym okresie czasu
  • liczba mutacji w danym odcinku DNA po ekspozycji na dawkę promieniowania
  • liczba zarejestrowanych w określonym przedziale czasu rozpadów promieniotwórczych
  • ilość awarii zachodzących w pewnym okresie czasu

Aby oszacować wartość oczekiwaną λ dla rzeczywistych przypadków najprościej jest zsumować wszystkie zmierzone wartości ki i podzielić ją przez ich ilość m.

λ ̂ = 1 m i = 1 m k i hat λ = {1} over {m} sum from{i=1} to{m} k_i

Jak widać, jest to po prostu średnia arytmetyczna. Warto to zapamiętać, gdyż jest to uniwersalny sposób oszacowania wartości oczekiwanej dla każdego rodzaju rozkładu.

I to właściwie wszystko, co o tym rozkładzie mam do powiedzenia. No – może prawie wszystko. W dalszym ciągu tak naprawdę nie rozumiem, dlaczego wyniki biegaczy układają się według tego rozkładu ?

Być może to tylko powierzchowna zbieżność? Ostatecznie wykres ten pasuje także do krzywej Gaussa. Szczególnie że, jak się okazuje, dla dużych wartości oczekiwanych λ rozkład Poissona może być przybliżany rozkładem Gaussa właśnie. Tak że w tej chwili nie wiem, jaka jest prawidłowa odpowiedź na to zagadnienie.

Brak komentarzy:

Prześlij komentarz