한 상자에 \(N\) 개의 공이 들어있다. 이 중에 \(K\) 개의 공은 빨간색, \(N-K\) 개의 공은 파란색이라고 하자. 이제 \(n\) 개의 공을 꺼냈을 때, 빨간색 공이 몇 개들어 있는지에 대한 문제는 초기하 분포를 따른다. Binomial distribution는 \(n\) 개의 공을 꺼낼 때, 하나 꺼낼 때마다 확인하고 다시 집어 넣을 때의 분포가 되고, 초기하 분포는 한번에 \(n\) 개의 공을 꺼냈을 때의 분포가 된다. 이번 페이지에서는 초기하 분포에 대하여 살펴본다. 1
#Hypergeometric Distribution
상자에서 \(n\) 개의 공을 꺼낼 모든 경우의 수는 2
\[ \left( \begin{array}{c} N \\ n \end{array} \right) = \frac{N!}{n!(N-n+1)!} \]
이고, 꺼낸 \(n\) 개의 공 중에서 \(x\) 개의 공이 빨간색 공일 경우의 수는 '\(K\) 개의 빨간색 공 중에서 \(x\) 개 꺼낼 경우의 수'와 '\(N-K\) 개의 파란색 공 중에서 \(n-x\) 개 꺼낼 경우의 수'를 곱한 것이므로
\[ \left( \begin{array}{c} K \\ x \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right) \]
랜덤 변수 \(X\) 를 꺼낸 공 중에서 빨간색 공의 수라고 정의하면, \(x\) 개의 공이 빨간색 공일 확률은
\[ P(X=x) = \frac{\left( \begin{array}{c} K \\ x \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N \\ n \end{array} \right)} ~~~~~~ \text{where } x=0,1,2,\cdots,K \]
이 분포를 hypergeometric \((N,K,n)\) distribution이라고 한다. 랜덤 변수 \(X\) 가 hypergeometric \((N,K,x)\) distribution을 따른다는 것을 다음과 같이 표기한다.
\[ X \sim \mathrm{Hypergeometric}(N,K,n) \]
\(P(X=x) \) 함수가 실제로 pmf인지 확인하기 위해서는 총합이 1이어야 한다. 이는 다음과 같이 압축된다.
THEOREM Vandermonde's Identity
\[ \left( \begin{array}{c} m+n \\ r \end{array} \right) = \sum _{k=0} ^r \left( \begin{array}{c} m \\ k \end{array} \right) \left( \begin{array}{c} n \\ r-k \end{array} \right) \]
(증명)
\[ \begin{align*} \sum _{r=0} ^{m+n} \left( \begin{array}{c} m+n \\ r \end{array} \right) x^r &= (1+x)^{m+n} \\ \\ &= (1+x)^m (1+x)^n \\ \\ &= \left[ \sum _{i=0} ^m \left( \begin{array}{c} m \\ i \end{array} \right) x^i \right] \left[ \sum_{j=0} ^n \left( \begin{array}{c} n \\ j \end{array} \right) x^j \right] \end{align*} \]
이 때, 2개의 다항식의 곱을 전개하면 다음과 같이 정리된다.
\[ \left( \sum _{i=0} ^m a_i x^i \right) \left( \sum _{j=0} ^n b_j x^j \right) = \sum _{r=0} ^{m+n} \left( \sum _{k=0} ^r a_k b_{r-k} \right) x^r \]
이를 그대로 마지막 줄에 적용하면,
\[ \sum _{r=0} ^{m+n} \left( \begin{array}{c} m+n \\ r \end{array} \right) x^r = \sum_{r=0} ^{m+n} \left[ \sum_{k=0} ^r \left( \begin{array}{c} m \\ k \end{array} \right) \left( \begin{array}{c} n \\ r-k \end{array} \right) \right] x^r \]
따라서 계수 비교법에 의해,
\[ \left( \begin{array}{c} m+n \\ r \end{array} \right) = \sum _{k=0} ^r \left( \begin{array}{c} m \\ k \end{array} \right) \left( \begin{array}{c} n \\ r-k \end{array} \right) \]
(증명끝)
#Mean of Hypergeometric Distribution
평균을 구하기 위해서는 다음의 식들이 필요하다
\[ x \left( \begin{array}{c} K \\ x \end{array} \right) = x \frac{K!}{x!(K-x-1)!} = \frac{K\cdot (K-1)!}{(x-1)!((K-1)-(x-1)-1)!} = K \left( \begin{array}{c} K-1 \\ x-1 \end{array} \right) \]
\[ \left( \begin{array}{c} N \\ n \end{array} \right) = \frac{N!}{n!(N-n-1)!} = \frac{N}{n} \frac{(N-1)!}{(n-1)!((N-1)-(n-1)-1)!} = \frac{N}{n} \left( \begin{array}{c} N-1 \\ n \end{array} \right) \]
이제 평균을 구하면
\[ \begin{align*} E[X] &= \sum _{x=0} ^K x\frac{\left( \begin{array}{c} K \\ x \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N \\ n \end{array} \right)} \\ &= \sum _{x=1} ^K x\frac{\left( \begin{array}{c} K \\ x \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N \\ n \end{array} \right)} & & {\scriptstyle \leftarrow~ \text{omit } x=0} \\ &= \sum _{x=1} ^K \frac{K \left( \begin{array}{c} K-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\frac{N}{n} \left( \begin{array}{c} N-1 \\ n-1 \end{array} \right)} \\ &= \frac{Kn}{N} \sum _{x=1} ^K \frac{\left( \begin{array}{c} K-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right)} \\ &= \frac{Kn}{N} \sum _{y=0} ^{K-1} \frac{\left( \begin{array}{c} K-1 \\ y \end{array} \right) \left( \begin{array}{c} (N-1)-(K-1) \\ (n-1)-y \end{array} \right)}{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right)} & & {\scriptstyle \leftarrow ~ \text{substitute }y=x-1} \end{align*} \]
이 때 마지막 sum은 Hypergeometric \((N-1,K-1,n-1)\) distribution의 합이므로 1이다. 따라서
\[ E[X] = n\frac{K}{N} \]
#Variance of Hypergeometric Distribution
분산을 구하기 위해서 \(E[X^2]\)을 구하자.
\[ \begin{align*} E[X^2] &= \sum _{x=0} ^K x^2 \frac{\left( \begin{array}{c} K \\ x \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N \\ n \end{array} \right)} \\ &= \sum_{x=1} ^K x^2 \frac{\left( \begin{array}{c} K \\ x \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N \\ n \end{array} \right)} \\ &= \sum_{x=1} ^K x\frac{Kn}{N} \frac{\left( \begin{array}{c} K-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right)} \\ &= \sum_{x=1} ^K \frac{Kn}{N} (x-1) \frac{\left( \begin{array}{c} K-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right)} + \sum_{x=1} ^K \frac{Kn}{N} \frac{\left( \begin{array}{c} K-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right)} \\ &= \frac{Kn}{N} \frac{(K-1)(n-1)}{N-1} \sum_{x=1} ^K \frac{\left( \begin{array}{c} K-2 \\ x-2 \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N-2 \\ n-2 \end{array} \right)} + \frac{Kn}{N} \sum_{x=1} ^K \frac{\left( \begin{array}{c} K-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right)} \end{align*} \]
이 때 마지막 줄의 첫번째 sum은 hypergeometric \((N-2,K-2,n-2)\) distribution의 합, 두번째 sum은 Hypergeometric \((N-1,K-1,n-1)\) distribution의 합이므로 1이다.
\[ E[X^2] = \frac{Kn}{N}\left( \frac{(K-1)(n-1)}{N-1} +1 \right) \]
따라서 분산은
\[ \mathrm{Var}(X) = n\frac{K}{N}\frac{(N-K)}{N}\frac{N-n}{N-1} \]
- 고등학교 수학에서 복원, 비복원 문제로 구별한 것과 같다. 복원 문제는 binomial distribution, 비복원 문제는 초기하 분포가 된다. [본문으로]
- 고등학교 수학에서 combination \\(_NC_n\\) 과 같다. [본문으로]
- 3.2 베르누이 분포, 이항 분포 Bernoulli Distribution, Binomial Distribution 참고. [본문으로]
'Mathematics > 통계학' 카테고리의 다른 글
[통계학] 3.7 정규 분포 Normal Distribution (0) | 2020.09.29 |
---|---|
[통계학] 3.6 균등 분포 Uniform Distribution (0) | 2020.08.17 |
[통계학] 3.5 음이항 분포, 기하 분포 Negative Binomial Distribution, Geometric Distribution (0) | 2020.07.31 |
[통계학] 3.3 푸아송 분포, 푸아송 프로세스 Poisson Distributions, Poisson Process (0) | 2020.07.24 |
[통계학] 3.2 베르누이 분포, 이항 분포 Bernoulli Distribution, Binomial Distribution (2) | 2020.07.24 |
[통계학] 3.1 이산 균등 분포 Discrete Uniform Distribution (0) | 2020.07.24 |