성공 확률이 \(p\) 인 실험을 \(n\) 번 실행하였을 때, 성공 횟수의 분포가 이항 분포라고 한다면, 음이항 분포는 \(r\) 번의 성공을 얻기 위하여 실행한 실험 횟수의 분포이다. 1
#Negative Binomial Distribution
\(k \ge r\) 일 때, \(k\) 번째의 실험에서 \(r\) 번째의 성공을 얻기 위해서는 \(k-1\) 번째 실험까지 \(r-1\) 번의 성공이 있어야 한다. 이항 분포와 마찬가지로, \(k-1\) 번째 실험까지 \(r-1\) 번의 성공이 있을 확률은
\[ \left( \begin{array}{c} k-1 \\ r-1 \end{array} \right) p^{r-1} (1-p)^{k-r} \]
이고 \(k\) 번째 실험에서 성공할 확률은 \(p\) 이므로, \(r\) 번의 성공을 얻기 위해 실험을 \(k\) 번 행할 확률은
\[ P_X(k) = \left( \begin{array}{c} k-1 \\ r-1 \end{array} \right) p^{r} (1-p)^{k-r} ~~~~~~ \text{where } ~k=r,(r+1),\cdots \]
이 된다. 또는 다른 방식으로, 랜덤 변수 \(Y\) 를 \(r\) 번의 성공을 얻기 위해 실패한 횟수로 정의하면, \(Y=y\) 이면, \(r+y\) 번째 실험에 \(r\) 번의 성공을 얻은 것과 같으므로 \(X=r+y\) 와 같다. 즉,
\[ \begin{align*} P_Y(y) &= P_X(r+y) & \text{where } ~y=0,1,2,\cdots \\ &= \left( \begin{array}{c} r+y-1 \\ r-1 \end{array} \right) p^{r} (1-p)^{y} \\ &= \left( \begin{array}{c} r+y-1 \\ y \end{array} \right) p^{r} (1-p)^{y} \end{align*} \]
이러한 pmf \(P_X\) , \(P_Y\) 를 negative binomial \((r,p)\) distribution(음이항 분포)라고 부른다. 이 pmf를 음이항 분포라고 부르는 이유를 알기 위하여 다음을 정의하자.
DEFINITION Binomial Coefficient
임의의 수 \(x\) , 음이 아닌 정수 \(y\) 에 대하여,
\[ \left( \begin{array}{c} x \\ y \end{array} \right) = \frac{x(x-1)(x-2)\cdots(x-y+1)}{y!} \]
\(x\) 가 자연수인 경우에는 binomial coefficient는 고등학교 확률의 combination과 같다. \(x\) 가 자연수 일 때, \(y>x\) 인 binomial coefficient는 정의에서 분자에 0이 곱해지기 때문에 0이 됨을 확인할 수 있다. 같은 방식으로 \(x\) 가 자연수인 binomial coefficient의 성질은 위 정의에도 그대로 적용된다. \(x\) 값으로 음수 뿐만이 아니라 분수, 실수 심지어는 복소수도 가능하다.
이제 pmf의 binomial coefficient를
\[ \begin{align*} \left( \begin{array}{c} r+y-1 \\ y \end{array} \right) &= \frac{(r+y-1)(r+y-2)(r+y-3)\cdots(r+1)(r)}{y!} \\ &= (-1)^y\frac{(-r-y+1)(-r-y+2)(-r-y+3)\cdots(-r-1)(-r)}{y!} \\ &= (-1)^y \left( \begin{array}{c} -r \\ y \end{array} \right) \end{align*} \]
이므로
\[ P_Y(y) = (-1)^y \left( \begin{array}{c} -r \\ y \end{array} \right) p^r (1-p)^y \]
Binomial distribution과 비교하면 negative binomial distribution이라고 부르는 이유를 바로 알 수 있다. 2
또한 위 정의를 이용하면, binomial theorem가 복소수 지수까지 확장된다.
THEOREM Binomial Theorem (generalized)
\[(x+y)^r = \sum_{i=0} ^\infty \left( \begin{array}{c} r \\ i \end{array} \right) x^{r-i} y^{i} \]
예를 들어, \(r=\frac{1}{2}\) 이면,
\[ \begin{align*} (1+x)^{\frac{1}{2}} &= \sum_{i=0} ^\infty \left( \begin{array}{c} \frac{1}{2} \\ i \end{array} \right) 1^{\frac{1}{2}-i} x^{i} \\ &= \left( \begin{array}{c} \frac{1}{2} \\ 1 \end{array} \right) 1^{\frac{1}{2}} x^{0} + \left( \begin{array}{c} \frac{1}{2} \\ 1 \end{array} \right) 1^{\frac{1}{2}-1}x^1 + \left( \begin{array}{c} \frac{1}{2} \\ 2 \end{array} \right) 1^{\frac{1}{2}-2}x^2 + \left( \begin{array}{c} \frac{1}{2} \\ 3 \end{array} \right) 1^{\frac{1}{2}-3}x^3 + \cdots \\ &= 1+\frac{1}{2}x - \frac{1}{8}x^2 + \frac{1}{16}x^3 - \frac{5}{128}x^4 + \frac{7}{256}x^5 - \cdots \end{align*} \]
Binomial theorem을 이용하면 negative binomial distribution의 pmf 총합이 1임을 확인할 수 있다.
\[ \begin{align*} (1-p)^{-r} &= \sum_{i=0} ^\infty \left( \begin{array}{c} r \\ i \end{array} \right) (-p)^i \\ &= \sum_{i=0} ^\infty (-1)^i \left( \begin{array}{c} r \\ i \end{array} \right) p^i \end{align*} \]
이므로 좌변을 이항하면 우변은 pmf의 총합이 된다. 랜덤 변수 \(Y\) 가 negative binomial \((r,p)\) distribution을 따른다는 것을 다음과 같이 표현한다.
\[ Y \sim \mathrm{NB}(r,p) \]
#Mean of Negative Binomial Distribution
평균을 정의로부터 쉽게 구할 수 있다.
\[ \begin{align*} E[Y] &= \sum_{y=0} ^\infty y \left( \begin{array}{c} r+y-1 \\ y \end{array} \right) p^r (1-p)^y \\ &= \sum_{y=1} ^\infty y \left( \begin{array}{c} r+y-1 \\ y \end{array} \right) p^r (1-p)^y & & {\scriptstyle \leftarrow ~ \text{omit }y=0} \\ &= \sum_{y=1} ^\infty y \frac{(r+y-1)!}{y!(r-1)!} p^r (1-p)^y \\ &= \sum_{y=1} ^\infty \frac{(r+y-1)!}{(y-1)!(r-1)!} p^r (1-p)^y \\ &= \sum_{y=1} ^\infty r\frac{(r+y-1)!}{(y-1)!r!} p^r (1-p)^y \\ &= \sum_{y=1} ^\infty r\left( \begin{array}{c} r+y-1 \\ y \end{array} \right) p^r (1-p)^y \\ &= \sum_{z=0} ^\infty r\left( \begin{array}{c} r+z \\ z \end{array} \right) p^r (1-p)^{z+1} & & {\scriptstyle \leftarrow ~ \text{substitute } z=y-1} \\ &= \sum_{z=0} ^\infty r\frac{1-p}{p}\left( \begin{array}{c} (r+1)+(z-1) \\ z \end{array} \right) p^{r+1} (1-p)^{z} \end{align*} \]
이 때 마지막 sum은 negative binomial \((r+1,p)\) distribution의 합이므로 1이다. 따라서
\[ E[Y] = r\frac{1-p}{p} \]
#Variance of Negative Binomial Distribution
같은 방식으로 분산을 구할 수 있다.
\[ \mathrm{Var}(Y) = r\frac{1-p}{p^2} \]
#Geometric Distribution
\(r=1\) 인 경우 negative binomial distribution의 의미는 성공할 때까지 시행한 시험의 횟수가 된다. 이 distribution을 geometric distribution(기하 분포)라고 한다.
\[ P_X (k) = p(1-p)^{k-1} \]
geometric distribution의 의미를 Poisson process와 연관지어 생각해보면, 성공할 때까지 기다린 시간이다. Geometric distribution에 Poisson process에서 논의한 memoryless 성질이 있음을 확인할 수 있다. \(P(X>n)\) 는 \(n\) 번 실행동안 성공이 없을 확률이므로 \(P(X>n) = (1-p)^n\) 이다. 따라서, \(s>t\) 일 때, 3
\[ \begin{align*} P(X>s | X>t) &= \frac{P(X>s ~\text{and }X>t)}{P(X>t)} \\ &= \frac{P(X>s)}{P(X>t)} \\ &= (1-p)^{s-t} \\ &= P(X>s-t) \end{align*} \]
'Mathematics > 통계학' 카테고리의 다른 글
[통계학] 3.7-① 표준 정규 분포 Standard Normal Distribution (0) | 2020.10.07 |
---|---|
[통계학] 3.7 정규 분포 Normal Distribution (0) | 2020.09.29 |
[통계학] 3.6 균등 분포 Uniform Distribution (0) | 2020.08.17 |
[통계학] 3.4 초기하 분포 Hypergeometric Distribution (0) | 2020.07.25 |
[통계학] 3.3 푸아송 분포, 푸아송 프로세스 Poisson Distributions, Poisson Process (0) | 2020.07.24 |
[통계학] 3.2 베르누이 분포, 이항 분포 Bernoulli Distribution, Binomial Distribution (2) | 2020.07.24 |