본문 바로가기
Mathematics/통계학

[통계학] 3.5 음이항 분포, 기하 분포 Negative Binomial Distribution, Geometric Distribution

by 피그티 2020. 7. 31.

성공 확률이 \(p\) 인 실험을 \(n\) 번 실행하였을 때, 성공 횟수의 분포가 이항 분포[각주:1]라고 한다면, 음이항 분포는 \(r\) 번의 성공을 얻기 위하여 실행한 실험 횟수의 분포이다.


#Negative Binomial Distribution

\(k \ge r\) 일 때, \(k\) 번째의 실험에서 \(r\) 번째의 성공을 얻기 위해서는 \(k-1\) 번째 실험까지 \(r-1\) 번의 성공이 있어야 한다. 이항 분포와 마찬가지로, \(k-1\) 번째 실험까지 \(r-1\) 번의 성공이 있을 확률은

\[ \left( \begin{array}{c} k-1 \\ r-1 \end{array} \right) p^{r-1} (1-p)^{k-r} \]

이고 \(k\) 번째 실험에서 성공할 확률은 \(p\) 이므로, \(r\) 번의 성공을 얻기 위해 실험을 \(k\) 번 행할 확률은

\[ P_X(k) = \left( \begin{array}{c} k-1 \\ r-1 \end{array} \right) p^{r} (1-p)^{k-r} ~~~~~~ \text{where } ~k=r,(r+1),\cdots \]

이 된다. 또는 다른 방식으로, 랜덤 변수 \(Y\) 를 \(r\) 번의 성공을 얻기 위해 실패한 횟수로 정의하면, \(Y=y\) 이면, \(r+y\) 번째 실험에 \(r\) 번의 성공을 얻은 것과 같으므로 \(X=r+y\) 와 같다. 즉,

\[ \begin{align*} P_Y(y) &= P_X(r+y) & \text{where } ~y=0,1,2,\cdots \\ &= \left( \begin{array}{c} r+y-1 \\ r-1 \end{array} \right) p^{r} (1-p)^{y} \\ &= \left( \begin{array}{c} r+y-1 \\ y \end{array} \right) p^{r} (1-p)^{y} \end{align*} \]

이러한 pmf \(P_X\) , \(P_Y\) 를 negative binomial \((r,p)\) distribution(음이항 분포)라고 부른다. 이 pmf를 음이항 분포라고 부르는 이유를 알기 위하여 다음을 정의하자.


DEFINITION            Binomial Coefficient


임의의 수 \(x\) , 음이 아닌 정수 \(y\) 에 대하여,

\[ \left( \begin{array}{c} x \\ y \end{array} \right) = \frac{x(x-1)(x-2)\cdots(x-y+1)}{y!} \]


\(x\) 가 자연수인 경우에는 binomial coefficient는 고등학교 확률의 combination과 같다. \(x\) 가 자연수 일 때, \(y>x\) 인 binomial coefficient는 정의에서 분자에 0이 곱해지기 때문에 0이 됨을 확인할 수 있다. 같은 방식으로 \(x\) 가 자연수인 binomial coefficient의 성질은 위 정의에도 그대로 적용된다. \(x\) 값으로 음수 뿐만이 아니라 분수, 실수 심지어는 복소수도 가능하다.


이제 pmf의 binomial coefficient를

\[ \begin{align*} \left( \begin{array}{c} r+y-1 \\ y \end{array} \right) &= \frac{(r+y-1)(r+y-2)(r+y-3)\cdots(r+1)(r)}{y!} \\ &= (-1)^y\frac{(-r-y+1)(-r-y+2)(-r-y+3)\cdots(-r-1)(-r)}{y!} \\ &= (-1)^y \left( \begin{array}{c} -r \\ y \end{array} \right) \end{align*} \]

이므로

\[ P_Y(y) = (-1)^y \left( \begin{array}{c} -r \\ y \end{array} \right) p^r (1-p)^y \]

Binomial distribution[각주:2]과 비교하면 negative binomial distribution이라고 부르는 이유를 바로 알 수 있다.


또한 위 정의를 이용하면, binomial theorem가 복소수 지수까지 확장된다.


THEOREM            Binomial Theorem (generalized)

\[(x+y)^r = \sum_{i=0} ^\infty \left( \begin{array}{c} r \\ i \end{array} \right) x^{r-i} y^{i} \]


예를 들어, \(r=\frac{1}{2}\) 이면,

\[ \begin{align*} (1+x)^{\frac{1}{2}} &= \sum_{i=0} ^\infty \left( \begin{array}{c} \frac{1}{2} \\ i \end{array} \right) 1^{\frac{1}{2}-i} x^{i} \\ &= \left( \begin{array}{c} \frac{1}{2} \\ 1 \end{array} \right) 1^{\frac{1}{2}} x^{0} + \left( \begin{array}{c} \frac{1}{2} \\ 1 \end{array} \right) 1^{\frac{1}{2}-1}x^1 + \left( \begin{array}{c} \frac{1}{2} \\ 2 \end{array} \right) 1^{\frac{1}{2}-2}x^2 + \left( \begin{array}{c} \frac{1}{2} \\ 3 \end{array} \right) 1^{\frac{1}{2}-3}x^3 + \cdots \\ &= 1+\frac{1}{2}x - \frac{1}{8}x^2 + \frac{1}{16}x^3 - \frac{5}{128}x^4 + \frac{7}{256}x^5 - \cdots \end{align*} \]

Binomial theorem을 이용하면 negative binomial distribution의 pmf 총합이 1임을 확인할 수 있다.

\[ \begin{align*} (1-p)^{-r} &= \sum_{i=0} ^\infty \left( \begin{array}{c} r \\ i \end{array} \right) (-p)^i \\ &= \sum_{i=0} ^\infty (-1)^i \left( \begin{array}{c} r \\ i \end{array} \right) p^i \end{align*} \]

이므로 좌변을 이항하면 우변은 pmf의 총합이 된다. 랜덤 변수 \(Y\) 가 negative binomial \((r,p)\) distribution을 따른다는 것을 다음과 같이 표현한다.

\[ Y \sim \mathrm{NB}(r,p) \]


#Mean of Negative Binomial Distribution

평균을 정의로부터 쉽게 구할 수 있다.

\[ \begin{align*} E[Y] &= \sum_{y=0} ^\infty y \left( \begin{array}{c} r+y-1 \\ y \end{array} \right) p^r (1-p)^y \\ &= \sum_{y=1} ^\infty y \left( \begin{array}{c} r+y-1 \\ y \end{array} \right) p^r (1-p)^y & & {\scriptstyle \leftarrow ~ \text{omit }y=0} \\ &= \sum_{y=1} ^\infty y \frac{(r+y-1)!}{y!(r-1)!} p^r (1-p)^y \\ &= \sum_{y=1} ^\infty \frac{(r+y-1)!}{(y-1)!(r-1)!} p^r (1-p)^y \\ &= \sum_{y=1} ^\infty r\frac{(r+y-1)!}{(y-1)!r!} p^r (1-p)^y \\ &= \sum_{y=1} ^\infty r\left( \begin{array}{c} r+y-1 \\ y \end{array} \right) p^r (1-p)^y \\ &= \sum_{z=0} ^\infty r\left( \begin{array}{c} r+z \\ z \end{array} \right) p^r (1-p)^{z+1} & & {\scriptstyle \leftarrow ~ \text{substitute } z=y-1} \\ &= \sum_{z=0} ^\infty r\frac{1-p}{p}\left( \begin{array}{c} (r+1)+(z-1) \\ z \end{array} \right) p^{r+1} (1-p)^{z} \end{align*} \]

이 때 마지막 sum은 negative binomial \((r+1,p)\) distribution의 합이므로 1이다. 따라서

\[ E[Y] = r\frac{1-p}{p} \]


#Variance of Negative Binomial Distribution

같은 방식으로 분산을 구할 수 있다.

\[ \mathrm{Var}(Y) = r\frac{1-p}{p^2} \]


#Geometric Distribution

\(r=1\) 인 경우 negative binomial distribution의 의미는 성공할 때까지 시행한 시험의 횟수가 된다. 이 distribution을 geometric distribution(기하 분포)라고 한다.

\[ P_X (k) = p(1-p)^{k-1} \]

geometric distribution의 의미를 Poisson process와 연관지어 생각해보면, 성공할 때까지 기다린 시간이다. Geometric distribution에 Poisson process에서 논의한 memoryless 성질[각주:3]이 있음을 확인할 수 있다. \(P(X>n)\) 는 \(n\) 번 실행동안 성공이 없을 확률이므로 \(P(X>n) = (1-p)^n\) 이다. 따라서, \(s>t\) 일 때,

\[ \begin{align*} P(X>s | X>t) &= \frac{P(X>s ~\text{and }X>t)}{P(X>t)} \\ &= \frac{P(X>s)}{P(X>t)} \\ &= (1-p)^{s-t} \\ &= P(X>s-t) \end{align*} \]