본문 바로가기
Mathematics/통계학

[통계학] 3.4 초기하 분포 Hypergeometric Distribution

by 피그티 2020. 7. 25.

한 상자에 \(N\) 개의 공이 들어있다. 이 중에 \(K\) 개의 공은 빨간색, \(N-K\) 개의 공은 파란색이라고 하자. 이제 \(n\) 개의 공을 꺼냈을 때, 빨간색 공이 몇 개들어 있는지에 대한 문제는 초기하 분포를 따른다. Binomial distribution는 \(n\) 개의 공을 꺼낼 때, 하나 꺼낼 때마다 확인하고 다시 집어 넣을 때의 분포가 되고, 초기하 분포는 한번에 \(n\) 개의 공을 꺼냈을 때의 분포가 된다.[각주:1] 이번 페이지에서는 초기하 분포에 대하여 살펴본다.


#Hypergeometric Distribution

상자에서 \(n\) 개의 공을 꺼낼 모든 경우의 수는[각주:2]

\[ \left( \begin{array}{c} N \\ n \end{array} \right) = \frac{N!}{n!(N-n+1)!} \]

이고, 꺼낸 \(n\) 개의 공 중에서 \(x\) 개의 공이 빨간색 공일 경우의 수는 '\(K\) 개의 빨간색 공 중에서 \(x\) 개 꺼낼 경우의 수'와 '\(N-K\) 개의 파란색 공 중에서 \(n-x\) 개 꺼낼 경우의 수'를 곱한 것이므로

\[ \left( \begin{array}{c} K \\ x \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right) \]

랜덤 변수 \(X\) 를 꺼낸 공 중에서 빨간색 공의 수라고 정의하면, \(x\) 개의 공이 빨간색 공일 확률은

\[ P(X=x) = \frac{\left( \begin{array}{c} K \\ x \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N \\ n \end{array} \right)} ~~~~~~ \text{where } x=0,1,2,\cdots,K \]

이 분포를 hypergeometric \((N,K,n)\) distribution이라고 한다. 랜덤 변수 \(X\) 가 hypergeometric \((N,K,x)\) distribution을 따른다는 것을 다음과 같이 표기한다.

\[ X \sim \mathrm{Hypergeometric}(N,K,n) \]

\(P(X=x) \) 함수가 실제로 pmf인지 확인하기 위해서는 총합이 1이어야 한다. 이는 다음과 같이 압축된다.


THEOREM            Vandermonde's Identity

\[ \left( \begin{array}{c} m+n \\ r \end{array} \right) = \sum _{k=0} ^r \left( \begin{array}{c} m \\ k \end{array} \right) \left( \begin{array}{c} n \\ r-k \end{array} \right) \]


(증명)

Binomial theorem[각주:3]로부터

\[ \begin{align*} \sum _{r=0} ^{m+n} \left( \begin{array}{c} m+n \\ r \end{array} \right) x^r &= (1+x)^{m+n} \\ \\ &= (1+x)^m (1+x)^n \\ \\ &= \left[ \sum _{i=0} ^m \left( \begin{array}{c} m \\ i \end{array} \right) x^i \right] \left[ \sum_{j=0} ^n \left( \begin{array}{c} n \\ j \end{array} \right) x^j \right] \end{align*} \]

이 때, 2개의 다항식의 곱을 전개하면 다음과 같이 정리된다.

\[ \left( \sum _{i=0} ^m a_i x^i \right) \left( \sum _{j=0} ^n b_j x^j \right) = \sum _{r=0} ^{m+n} \left( \sum _{k=0} ^r a_k b_{r-k} \right) x^r \]

이를 그대로 마지막 줄에 적용하면,

\[ \sum _{r=0} ^{m+n} \left( \begin{array}{c} m+n \\ r \end{array} \right) x^r = \sum_{r=0} ^{m+n} \left[ \sum_{k=0} ^r \left( \begin{array}{c} m \\ k \end{array} \right) \left( \begin{array}{c} n \\ r-k \end{array} \right) \right] x^r \]

따라서 계수 비교법에 의해,

\[ \left( \begin{array}{c} m+n \\ r \end{array} \right) = \sum _{k=0} ^r \left( \begin{array}{c} m \\ k \end{array} \right) \left( \begin{array}{c} n \\ r-k \end{array} \right) \]

(증명끝)


#Mean of Hypergeometric Distribution

평균을 구하기 위해서는 다음의 식들이 필요하다

\[ x \left( \begin{array}{c} K \\ x \end{array} \right) = x \frac{K!}{x!(K-x-1)!} = \frac{K\cdot (K-1)!}{(x-1)!((K-1)-(x-1)-1)!} = K \left( \begin{array}{c} K-1 \\ x-1 \end{array} \right) \]

\[ \left( \begin{array}{c} N \\ n \end{array} \right) = \frac{N!}{n!(N-n-1)!} = \frac{N}{n} \frac{(N-1)!}{(n-1)!((N-1)-(n-1)-1)!} = \frac{N}{n} \left( \begin{array}{c} N-1 \\ n \end{array} \right) \]

이제 평균을 구하면

\[ \begin{align*} E[X] &= \sum _{x=0} ^K x\frac{\left( \begin{array}{c} K \\ x \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N \\ n \end{array} \right)} \\ &= \sum _{x=1} ^K x\frac{\left( \begin{array}{c} K \\ x \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N \\ n \end{array} \right)} & & {\scriptstyle \leftarrow~ \text{omit } x=0} \\ &= \sum _{x=1} ^K \frac{K \left( \begin{array}{c} K-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\frac{N}{n} \left( \begin{array}{c} N-1 \\ n-1 \end{array} \right)} \\ &= \frac{Kn}{N} \sum _{x=1} ^K \frac{\left( \begin{array}{c} K-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right)} \\ &= \frac{Kn}{N} \sum _{y=0} ^{K-1} \frac{\left( \begin{array}{c} K-1 \\ y \end{array} \right) \left( \begin{array}{c} (N-1)-(K-1) \\ (n-1)-y \end{array} \right)}{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right)} & & {\scriptstyle \leftarrow ~ \text{substitute }y=x-1} \end{align*} \]

이 때 마지막 sum은 Hypergeometric \((N-1,K-1,n-1)\) distribution의 합이므로 1이다. 따라서

\[ E[X] = n\frac{K}{N} \]


#Variance of Hypergeometric Distribution

분산을 구하기 위해서 \(E[X^2]\)을 구하자.

\[ \begin{align*} E[X^2] &= \sum _{x=0} ^K x^2 \frac{\left( \begin{array}{c} K \\ x \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N \\ n \end{array} \right)} \\ &= \sum_{x=1} ^K x^2 \frac{\left( \begin{array}{c} K \\ x \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N \\ n \end{array} \right)} \\ &= \sum_{x=1} ^K x\frac{Kn}{N} \frac{\left( \begin{array}{c} K-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right)} \\ &= \sum_{x=1} ^K \frac{Kn}{N} (x-1) \frac{\left( \begin{array}{c} K-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right)} + \sum_{x=1} ^K \frac{Kn}{N} \frac{\left( \begin{array}{c} K-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right)} \\ &= \frac{Kn}{N} \frac{(K-1)(n-1)}{N-1} \sum_{x=1} ^K \frac{\left( \begin{array}{c} K-2 \\ x-2 \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N-2 \\ n-2 \end{array} \right)} + \frac{Kn}{N} \sum_{x=1} ^K \frac{\left( \begin{array}{c} K-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-K \\ n-x \end{array} \right)}{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right)} \end{align*} \]

이 때 마지막 줄의 첫번째 sum은 hypergeometric \((N-2,K-2,n-2)\) distribution의 합, 두번째 sum은 Hypergeometric \((N-1,K-1,n-1)\) distribution의 합이므로 1이다.

\[ E[X^2] = \frac{Kn}{N}\left( \frac{(K-1)(n-1)}{N-1} +1 \right) \]

따라서 분산은

\[ \mathrm{Var}(X) = n\frac{K}{N}\frac{(N-K)}{N}\frac{N-n}{N-1} \]



  1. 고등학교 수학에서 복원, 비복원 문제로 구별한 것과 같다. 복원 문제는 binomial distribution, 비복원 문제는 초기하 분포가 된다. [본문으로]
  2. 고등학교 수학에서 combination \\(_NC_n\\) 과 같다. [본문으로]
  3. 3.2 베르누이 분포, 이항 분포 Bernoulli Distribution, Binomial Distribution 참고. [본문으로]