Rozkład prawdopodobieństwa

Rozkład prawdopodobieństwa – miara probabilistyczna określona na zbiorze wartości pewnej zmiennej losowej (wektora losowego), przypisująca prawdopodobieństwa wartościom tej zmiennej[1]. Formalnie rozkład prawdopodobieństwa można rozpatrywać bez odwołania się do zmiennych losowych.

Definicja formalna

Rozkład prawdopodobieństwa – to miara probabilistyczna P {\displaystyle P} określona na σ-ciele podzbiorów borelowskich pewnej przestrzeni polskiej Y . {\displaystyle Y.} Dla rozkładów ciągłych jako przestrzeń polską wybiera się:

  • zbiór liczb rzeczywistych R {\displaystyle \mathbb {R} } (dla 1-wymiarowej zmiennej losowej),
  • przestrzeń euklidesowa R n {\displaystyle \mathbb {R} ^{n}} (dla n-wymiarowej zmiennej losowej).

Rozkład prawdopodobieństwa nazywamy jednowymiarowym, jeżeli zmienna losowa jest 1-wymiarowa, a wielowymiarowym, jeżeli zmienna losowa jest n-wymiarowa.

Zastosowanie zmiennych losowych

Przestrzenią probabilistyczną nazywa się trójkę uporządkowaną, złożoną z: a) przestrzeni zdarzeń elementarnych Ω , {\displaystyle \Omega ,} b) określonego na niej σ-ciała F , {\displaystyle {\mathcal {F}},} którego elementy są nazywane zdarzeniami losowymi, c) miary probabilistycznej P , {\displaystyle P,} przyporządkowującej zdarzeniom liczby zwane prawdopodobieństwami.

Tak określone prawdopodobieństwo jest jednak niewygodne do badania, gdy Ω {\displaystyle \Omega } jest zbiorem bez zadanych jakichkolwiek relacji między jego elementami. Dlatego definiuje się funkcję zwaną zmienną losową, która przyporządkowuje elementom przestrzeni Ω {\displaystyle \Omega } elementy jakiejś przestrzeni mierzalnej Y {\displaystyle Y} o pożądanych właściwościach[a]. Najczęściej jako przestrzeń mierzalną wykorzystuje się przestrzeń euklidesową, tj. Y = R n , n N + . {\displaystyle Y=\mathbb {R} ^{n},n\in \mathbb {N} _{+}.} Wtedy zmienną losową nazywa się wektorem losowym.

Przeciwobraz każdego zbioru mierzalnego w Y {\displaystyle Y} jest zdarzeniem losowym. Podzbiory mierzalne przestrzeni Y {\displaystyle Y} tworzą σ-ciało, które oznaczać będziemy symbolem B ( Y ) . {\displaystyle {\mathcal {B}}(Y).} Ponieważ zmienna losowa nie musi być funkcją różnowartościową, więc ten sam zbiór mierzalny A B ( Y ) {\displaystyle A\in {\mathcal {B}}(Y)} można w ogólnym przypadku otrzymać z wielu różnych zdarzeń o różnych prawdopodobieństwach. Aksjomaty σ-ciała zapewniają, że wśród tych zdarzeń jest także ich suma i do niej jest przypisane największe prawdopodobieństwo. Suma ta jest równa przeciwobrazowi zbioru A , {\displaystyle A,} czyli X 1 ( A ) . {\displaystyle X^{-1}(A).}

Rozkład zmiennej losowej X {\displaystyle X} – to funkcja P X {\displaystyle P_{X}} określona na sigma ciele B ( Y ) {\displaystyle {\mathcal {B}}(Y)} taka że prawdopodobieństwo zdarzenia A B ( Y ) {\displaystyle A\in {\mathcal {B}}(Y)} jest równe prawdopodobieństwu przypisanemu przeciwobrazowi X 1 ( A ) {\displaystyle X^{-1}(A)} zdarzenia A : {\displaystyle A{:}}

P X ( A ) = P ( X 1 ( A ) ) . {\displaystyle P_{X}(A)=P(X^{-1}(A)).}

Rozkład P X {\displaystyle P_{X}} jest nową miarą probabilistyczną. Jest on w przestrzeni stanów Y {\displaystyle Y} odpowiednikiem miary probabilistycznej P . {\displaystyle P.}

Uwaga 1:

Zapis P X {\displaystyle P_{X}} gdzie X {\displaystyle X} jest zdarzeniem, a nie zmienną losową jest stosowany na oznaczenie prawdopodobieństwa warunkowego.

Uwaga 2:

Niżej omówiono rozkłady ciągłe i dyskretne. Oprócz nich istnieją także rozkłady nie mieszczące się w żadnej z tych kategorii – na przykład rozkład o dystrybuancie Cantora.

Rozkład ciągły

Jeżeli istnieje funkcja f : Y [ 0 , ) , {\displaystyle f\colon Y\to [0,\infty ),} taka że

P ( A ) = A   f ( x ) d x {\displaystyle P(A)=\int \limits _{A}~f(x)dx}

(całka Lebesgue’a) dla dowolnego zbioru borelowskiego A B ( Y ) , {\displaystyle A\in {\mathcal {B}}(Y),} to funkcję tę nazywa się gęstością rozkładu prawdopodobieństwa (funkcją gęstości prawdopodobieństwa).

Nazwa pochodzi od intuicji fizycznych (zob. gęstość masy). O rozkładzie P {\displaystyle P} mającym gęstość mówi się, że jest ciągły (lub typu ciągłego).

Powyższa definicja jest poprawna dla dowolnych rozkładów prawdopodobieństwa, także wielowymiarowych – wówczas x {\displaystyle x} jest wektorem.

Rozkład P X {\displaystyle P_{X}} zmiennej losowej X {\displaystyle X} spełniający powyższe warunki definiuje się analogicznie. O zmiennej losowej również mówi się wówczas, iż jest ciągła (lub typu ciągłego).

Rozkład dyskretny

Rozkład P {\displaystyle P} nazywa się dyskretnym, jeśli jest skupiony na zbiorze przeliczalnym, tzn. istnieje zbiór (co najwyżej) przeliczalny S Y {\displaystyle S\subseteq Y} dla którego P ( S ) = 1. {\displaystyle P(S)=1.} Jeżeli

S = { s i : i I } {\displaystyle S=\{s_{i}\colon i\in I\}} oraz p i = P ( { s i } ) {\displaystyle p_{i}=P(\{s_{i}\})} dla każdego i I , {\displaystyle i\in I,}

to dla dowolnego zbioru borelowskiego A {\displaystyle A}

P ( A ) = P ( A S ) = i I   p i 1 A ( s i ) , {\displaystyle P(A)=P(A\cap S)=\sum _{i\in I}~p_{i}{\boldsymbol {1}}_{A}(s_{i}),}

gdzie 1 A {\displaystyle {\boldsymbol {1}}_{A}} to indykator (funkcja charakterystyczna) zbioru A . {\displaystyle A.}

Zatem zbiór par { ( s i , p i ) : i I } {\displaystyle \{(s_{i},p_{i})\colon i\in I\}} jednoznacznie wyznacza rozkład P . {\displaystyle P.} Stąd dowolny zbiór tej postaci, gdzie p i > 0 {\displaystyle p_{i}>0} oraz p i = 1 {\displaystyle \sum p_{i}=1} (co wynika z własności rozkładu), nazywa się czasami rozkładem (dyskretnym). Odwzorowanie s i p i , {\displaystyle s_{i}\mapsto p_{i},} oznaczane pmf ( s i ) = p i , {\displaystyle \operatorname {pmf} (s_{i})=p_{i},} nosi nazwę funkcji masy prawdopodobieństwa i jest ono dyskretnym odpowiednikiem gęstości prawdopodobieństwa.

Dyskretna zmienna losowa X {\displaystyle X} to zmienna losowa o rozkładzie dyskretnym. Wówczas można go zdefiniować podobnie jak wyżej równością

P X ( { x i } ) = P ( X 1 ( A ) ) , {\displaystyle P_{X}(\{x_{i}\})=P(X^{-1}(A)),}

jednakże w tym wypadku zachodzi dodatkowo

P ( X 1 ( A ) ) = P ( { ω Ω : X ( ω ) = x i } ) =   o z n P ( X = x i ) =   o z n pmf X ( x i ) , {\displaystyle P(X^{-1}(A))=P(\{\omega \in \Omega \colon X(\omega )=x_{i}\}){\overset {\underset {\mathrm {ozn} }{\ }}{=}}P(X=x_{i}){\overset {\underset {\mathrm {ozn} }{\ }}{=}}\operatorname {pmf} _{X}(x_{i}),}

gdzie { x i } i I {\displaystyle \left\{x_{i}\right\}_{i\in I}} jest zbiorem wszystkich wartości przyjmowanych przez zmienną X . {\displaystyle X.}

Dystrybuanta rozkładu jednowymiarowego

 Osobny artykuł: dystrybuanta.

Dystrybuantą jednowymiarowego rozkładu prawdopodobieństwa P {\displaystyle P} nazywa się funkcję F P : R R , {\displaystyle F_{P}\colon \mathbb {R} \to \mathbb {R} ,} zdefiniowana wzorem:

F P ( t ) = P ( ( , t ] ) . {\displaystyle F_{P}(t)=P((-\infty ,t]).}

Dystrybuanta rozkładu zmiennej losowej X , {\displaystyle X,} to dystrybuanta F P X , {\displaystyle F_{P_{X}},} oznaczana zwykle symbolem F X , {\displaystyle F_{X},} otrzymana z rozkładu tej zmiennej losowej:

F X ( t ) = P X ( { x : x t } ) {\displaystyle F_{X}(t)=P_{X}(\{x\colon x\leqslant t\})}

Jeśli rozkład P {\displaystyle P} ma gęstość f , {\displaystyle f,} jego dystrubuanta F P {\displaystyle F_{P}} wyraża się wzorem:

F P ( t ) = t   f ( x ) d x . {\displaystyle F_{P}(t)=\int \limits _{-\infty }^{t}~f(x)dx.}

Dystrybuanta w pełni wyznacza rozkład, tzn. dwie zmienne o tej samej dystrybuancie muszą mieć ten sam rozkład; obrazuje to poniższy przykład.

Przykłady

1) Niech Ω 1 = { O , R } {\displaystyle \Omega _{1}=\{\mathrm {O} ,\mathrm {R} \}} będzie przestrzenią zdarzeń elementarnych doświadczenia polegającego na rzucie monetą, które może z jednakowym prawdopodobieństwem dać dwa wyniki: orła i reszkę, tj.

P ( O ) = 1 2 {\displaystyle P(\mathrm {O} )={\tfrac {1}{2}}} oraz P ( R ) = 1 2 . {\displaystyle P(\mathrm {R} )={\tfrac {1}{2}}.}

Jeżeli zmienna X : Ω 1 R {\displaystyle X\colon \Omega _{1}\to \mathbb {R} } jest określona równościami

X ( O ) = 1 {\displaystyle X(\mathrm {O} )=-1} oraz X ( R ) = 1 , {\displaystyle X(\mathrm {R} )=1,}

to jej rozkład P X {\displaystyle P_{X}} jest określony następująco:

P ( X A ) = { 0 , dla  A = R { 1 , 1 } , 1 2 , dla  A = { 1 }  lub  A = { 1 } , 1 , dla  A = { 1 , 1 } , {\displaystyle P(X\in A)={\begin{cases}0,&{\mbox{dla }}A=\mathbb {R} \setminus \{-1,1\},\\{\tfrac {1}{2}},&{\mbox{dla }}A=\{-1\}{\mbox{ lub }}A=\{1\},\\1,&{\mbox{dla }}A=\{-1,1\},\end{cases}}}

a funkcja masy prawdopodobieństwa ma postać:

P ( X = x ) = { 0 , dla  x 1    i      x 1 , 1 2 , dla  x = 1  lub  x = 1. {\displaystyle P(X=x)={\begin{cases}0,&{\mbox{dla }}x\neq -1\ {\mbox{ i }}\ \ x\neq 1,\\{\tfrac {1}{2}},&{\mbox{dla }}x=-1{\mbox{ lub }}x=1.\end{cases}}}

Oznacza to, że zmienna losowa X {\displaystyle X} odwzorowuje zdarzenia

Ω 1 O 1 R X ( O ) = 1 , {\displaystyle \Omega _{1}\ni \mathrm {O} \mapsto -1\in \mathbb {R} \iff X(\mathrm {O} )=-1,}
Ω 1 R     1 R X ( R ) =     1 {\displaystyle \Omega _{1}\ni \mathrm {R} \mapsto \,\ \ 1\in \mathbb {R} \iff X(\mathrm {R} )=\,\ \ 1}

oraz zachowuje prawdopodobieństwo określone na ( Ω 1 , F ) {\displaystyle (\Omega _{1},{\mathcal {F}})} przekształcając je w rozkład określony na ( R , B ( R ) ) . {\displaystyle (\mathbb {R} ,{\mathcal {B}}(\mathbb {R} )).}

Z definicji dystrybuanty wynika, iż prawdopodobieństwo zdarzenia

A = { ω Ω : a < X ( ω ) b } =   o z n { a < X b } {\displaystyle A=\{\omega \in \Omega \colon a<X(\omega )\leqslant b\}{\overset {\underset {\mathrm {ozn} }{\ }}{=}}\{a<X\leqslant b\}}

dane jest wzorem

P ( X A ) = P ( a < X b ) = F X ( b ) F X ( a ) . {\displaystyle P(X\in A)=P(a<X\leqslant b)=F_{X}(b)-F_{X}(a).}

Dystrybuanta zmiennej X {\displaystyle X} to funkcja F X : R [ 0 , 1 ] {\displaystyle F_{X}\colon \mathbb {R} \to [0,1]} określona wzorem

F X ( t ) = { 0 , dla  t 1 , 1 2 , dla  1 < t 1 , 1 , dla  t > 1. {\displaystyle F_{X}(t)={\begin{cases}0,&{\mbox{dla }}t\leqslant -1,\\{\tfrac {1}{2}},&{\mbox{dla }}-1<t\leqslant 1,\\1,&{\mbox{dla }}t>1.\end{cases}}}

2) Niech Ω 2 = { O , R , K } {\displaystyle \Omega _{2}=\{\mathrm {O} ,\mathrm {R} ,\mathrm {K} \}} będzie przestrzenią zdarzeń elementarnych rzutu monetą, wyżej opisanego, przy czym dodatkowo uwzględnimy upadek na kant, który prawie na pewno się nie zdarzy. Jeżeli

P ( O ) = P ( R ) = 1 2 {\displaystyle P(\mathrm {O} )=P(\mathrm {R} )={\tfrac {1}{2}}} oraz P ( K ) = 0 , {\displaystyle P(\mathrm {K} )=0,}

to zmienna losowa Y : Ω 2 R {\displaystyle Y\colon \Omega _{2}\to \mathbb {R} } określona równościami

Y ( O ) = 1 , Y ( R ) = 1 {\displaystyle Y(\mathrm {O} )=-1,Y(\mathrm {R} )=1} oraz Y ( K ) = 7 , {\displaystyle Y(\mathrm {K} )=7,}

ma taki sam rozkład P Y {\displaystyle P_{Y}} (oraz funkcję masy) co zmienna X {\displaystyle X} określona wyżej, mimo iż są one różne.

Także dystrybuanta F Y {\displaystyle F_{Y}} zmiennej Y {\displaystyle Y} dana jest tym samym wzorem co dystrybuanta F X {\displaystyle F_{X}} zmiennej X . {\displaystyle X.}

Dystrybuanta rozkładu wielowymiarowego

 Osobny artykuł: dystrybuanta.

Jeśli X {\displaystyle X} jest wektorem losowym, tzn. X : Ω R n , {\displaystyle X\colon \Omega \to \mathbb {R} ^{n},} to rozważa się wówczas przedziały wielowymiarowe, tzn. zbiory będące iloczynami kartezjańskimi przedziałów, mające postać

( , t 1 ] × ( , t 2 ] × × ( , t n ] . {\displaystyle (-\infty ,t_{1}]\times (-\infty ,t_{2}]\times \ldots \times (-\infty ,t_{n}].}

Dystrybuanta F P : R n R {\displaystyle F_{P}\colon \mathbb {R} ^{n}\to \mathbb {R} } ma postać

F P ( t 1 , t 2 , , t n ) = P ( ( , t 1 ] × ( , t 2 ] × × ( , t n ] ) . {\displaystyle F_{P}(t_{1},t_{2},\dots ,t_{n})=P((-\infty ,t_{1}]\times (-\infty ,t_{2}]\times \ldots \times (-\infty ,t_{n}]).}

Stosuje się następujący zapis dystrybuanty rozkładu zmiennej losowej:

F X ( t 1 , t 2 , , t n ) = P ( { X : X 1 t 1 X 2 t 2 X n t n } ) , {\displaystyle F_{X}(t_{1},t_{2},\dots ,t_{n})=P(\{X\colon X_{1}\leqslant t_{1}\wedge X_{2}\leqslant t_{2}\wedge \ldots \wedge X_{n}\leqslant t_{n}\}),}

gdzie X = ( X 1 , X 2 , , X n ) . {\displaystyle X=(X_{1},X_{2},\dots ,X_{n}).}

Oznaczając t = ( t 1 , t 2 , , t n ) {\displaystyle t=(t_{1},t_{2},\dots ,t_{n})} powyższy wzór można zapisać w skrócie

F X ( t ) = P ( X t ) . {\displaystyle F_{X}(t)=P(X\leqslant t).}

Jeśli rozkład wielowymiarowy P {\displaystyle P} ma gęstość f , {\displaystyle f,} jego dystrybuanta F P {\displaystyle F_{P}} wyraża się za pomocą całki Lebesgue’a:

F P ( t ) = ( , t 1 ] × ( , t 2 ] × × ( , t n ] f ( t ) d t , {\displaystyle F_{P}(t)\qquad \,=\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\int \limits _{(-\infty ,t_{1}]\times (-\infty ,t_{2}]\times \ldots \times (-\infty ,t_{n}]}\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!\!f(t)dt,}

co można zapisać w prostszej wersji (ale tylko wtedy, gdy całkę Lebesgue’a da się rozbić w poniższy sposób):

F P ( t ) = t 1 t 2 t n f ( t 1 , t 2 , , t n ) d t n d t 2 d t 1 . {\displaystyle F_{P}(t)=\int \limits _{-\infty }^{t_{1}}\int \limits _{-\infty }^{t_{2}}\ldots \int \limits _{-\infty }^{t_{n}}f(t_{1},t_{2},\dots ,t_{n})dt_{n}\ldots dt_{2}dt_{1}.}

Rozkład osobliwy

Df. Zmienna losowa X {\displaystyle X} ma rozkład osobliwy (singularny), jeśli ma ciągłą dystrybuantę oraz istnieje zbiór A R , {\displaystyle A\subseteq \mathbb {R} ,} taki że ma on zerową miarę Lebesgue’a λ ( A ) {\displaystyle \lambda (A)} i jednostkowy rozkład prawdopodobieństwa P ( A ) , {\displaystyle P(A),} tzn.

λ ( A ) = 0 {\displaystyle \lambda (A)=0} oraz P ( A ) = 1. {\displaystyle P(A)=1.}

Rozkład arytmetyczny

Df. Rozkładami arytmetycznymi nazywa się rozkłady skoncentrowane na zbiorze punktów postaci k c , {\displaystyle kc,} gdzie k Z . {\displaystyle k\in \mathbb {Z} .}

Tw. To, iż rozkład P {\displaystyle P} jest skupiony na zbiorze { 2 π k t : k Z } {\displaystyle \left\{{\tfrac {2\pi k}{t}}\colon k\in \mathbb {Z} \right\}} jest równoważne temu, iż jego funkcja charakterystyczna φ {\displaystyle \varphi } ma okres równy t {\displaystyle t} bądź φ ( t ) = 1 {\displaystyle \varphi (t)=1} dla pewnego t 0. {\displaystyle t\neq 0.}

Analizując funkcje charakterystyczne można stwierdzić, że arytmetyczne są rozkłady:

geometryczny, Bernoulliego i Poissona.

Rozkłady jedno- i dwupunktowe są przesuniętymi rozkładami arytmetycznymi.

Popularne rozkłady

Rozkłady ciągłe

Wybrane rozkłady gęstości prawdopodobieństwa:
f N ( x ) {\displaystyle f_{N}(x)} rozkład normalny,
f E ( x ) {\displaystyle f_{E}(x)} rozkład wykładniczy,
f R ( x ) {\displaystyle f_{R}(x)} rozkład jednostajny,
f T ( x ) {\displaystyle f_{T}(x)} rozkład trójkątny,
f D ( x ) {\displaystyle f_{D}(x)} – rozkład delty Diraca dla zmiennej pewnej.

Rozkłady dyskretne

Pozostałe

Statystyka

Jeśli mamy na myśli rzeczywiste prawdopodobieństwa wystąpienia danej wartości cechy w populacji, to mówimy o rozkładzie w populacji. Jeśli mamy na myśli prawdopodobieństwa wystąpienia danej cechy wyznaczone podczas badania statystycznego, to mówimy o rozkładzie empirycznym.

Zobacz też

Zobacz galerię związaną z tematem: Rozkład prawdopodobieństwa

Uwagi

  1. Ściślej musi to być funkcja F / B ( Y ) {\displaystyle {\mathcal {F}}/{\mathcal {B}}(Y)} -mierzalna, gdzie B ( Y ) {\displaystyle {\mathcal {B}}(Y)} jest rodziną podzbiorów borelowskich przestrzeni Y . {\displaystyle Y.} Jako Y {\displaystyle Y} zwykle wybiera się jedną z tzw. przestrzeni polskich, do których zaliczają się w szczególności przestrzenie euklidesowe.

Przypisy

  1. Rozkład zmiennej losowej, [w:] Encyklopedia PWN [dostęp 2021-07-22] .
  • LCCN: sh85038545
  • GND: 4121894-2
  • NDL: 00564751
  • BnF: 119780901
  • BNCF: 36328
  • NKC: ph125263
  • J9U: 987007557953805171
  • PWN: 3969261
  • SNL: fordeling_-_statistikk