본문 바로가기
Mathematics/통계학

[통계학] 3.4 초기하 분포 Hypergeometric Distribution

by 피그티 2020. 7. 25.

한 상자에 N 개의 공이 들어있다. 이 중에 K 개의 공은 빨간색, NK 개의 공은 파란색이라고 하자. 이제 n 개의 공을 꺼냈을 때, 빨간색 공이 몇 개들어 있는지에 대한 문제는 초기하 분포를 따른다. Binomial distribution는 n 개의 공을 꺼낼 때, 하나 꺼낼 때마다 확인하고 다시 집어 넣을 때의 분포가 되고, 초기하 분포는 한번에 n 개의 공을 꺼냈을 때의 분포가 된다.[각주:1] 이번 페이지에서는 초기하 분포에 대하여 살펴본다.


#Hypergeometric Distribution

상자에서 n 개의 공을 꺼낼 모든 경우의 수는[각주:2]

(Nn)=N!n!(Nn+1)!

이고, 꺼낸 n 개의 공 중에서 x 개의 공이 빨간색 공일 경우의 수는 'K 개의 빨간색 공 중에서 x 개 꺼낼 경우의 수'와 'NK 개의 파란색 공 중에서 nx 개 꺼낼 경우의 수'를 곱한 것이므로

(Kx)(NKnx)

랜덤 변수 X 를 꺼낸 공 중에서 빨간색 공의 수라고 정의하면, x 개의 공이 빨간색 공일 확률은

P(X=x)=(Kx)(NKnx)(Nn)      where x=0,1,2,,K

이 분포를 hypergeometric (N,K,n) distribution이라고 한다. 랜덤 변수 X 가 hypergeometric (N,K,x) distribution을 따른다는 것을 다음과 같이 표기한다.

XHypergeometric(N,K,n)

P(X=x) 함수가 실제로 pmf인지 확인하기 위해서는 총합이 1이어야 한다. 이는 다음과 같이 압축된다.


THEOREM            Vandermonde's Identity

(m+nr)=k=0r(mk)(nrk)


(증명)

Binomial theorem[각주:3]로부터

r=0m+n(m+nr)xr=(1+x)m+n=(1+x)m(1+x)n=[i=0m(mi)xi][j=0n(nj)xj]

이 때, 2개의 다항식의 곱을 전개하면 다음과 같이 정리된다.

(i=0maixi)(j=0nbjxj)=r=0m+n(k=0rakbrk)xr

이를 그대로 마지막 줄에 적용하면,

r=0m+n(m+nr)xr=r=0m+n[k=0r(mk)(nrk)]xr

따라서 계수 비교법에 의해,

(m+nr)=k=0r(mk)(nrk)

(증명끝)


#Mean of Hypergeometric Distribution

평균을 구하기 위해서는 다음의 식들이 필요하다

x(Kx)=xK!x!(Kx1)!=K(K1)!(x1)!((K1)(x1)1)!=K(K1x1)

(Nn)=N!n!(Nn1)!=Nn(N1)!(n1)!((N1)(n1)1)!=Nn(N1n)

이제 평균을 구하면

E[X]=x=0Kx(Kx)(NKnx)(Nn)=x=1Kx(Kx)(NKnx)(Nn) omit x=0=x=1KK(K1x1)(NKnx)Nn(N1n1)=KnNx=1K(K1x1)(NKnx)(N1n1)=KnNy=0K1(K1y)((N1)(K1)(n1)y)(N1n1) substitute y=x1

이 때 마지막 sum은 Hypergeometric (N1,K1,n1) distribution의 합이므로 1이다. 따라서

E[X]=nKN


#Variance of Hypergeometric Distribution

분산을 구하기 위해서 E[X2]을 구하자.

E[X2]=x=0Kx2(Kx)(NKnx)(Nn)=x=1Kx2(Kx)(NKnx)(Nn)=x=1KxKnN(K1x1)(NKnx)(N1n1)=x=1KKnN(x1)(K1x1)(NKnx)(N1n1)+x=1KKnN(K1x1)(NKnx)(N1n1)=KnN(K1)(n1)N1x=1K(K2x2)(NKnx)(N2n2)+KnNx=1K(K1x1)(NKnx)(N1n1)

이 때 마지막 줄의 첫번째 sum은 hypergeometric (N2,K2,n2) distribution의 합, 두번째 sum은 Hypergeometric (N1,K1,n1) distribution의 합이므로 1이다.

E[X2]=KnN((K1)(n1)N1+1)

따라서 분산은

Var(X)=nKN(NK)NNnN1



  1. 고등학교 수학에서 복원, 비복원 문제로 구별한 것과 같다. 복원 문제는 binomial distribution, 비복원 문제는 초기하 분포가 된다. [본문으로]
  2. 고등학교 수학에서 combination \(_NC_n\) 과 같다. [본문으로]
  3. 3.2 베르누이 분포, 이항 분포 Bernoulli Distribution, Binomial Distribution 참고. [본문으로]