본문 바로가기
Mathematics/통계학

[통계학] 5.2-(3) F 분포 F-distribution

by 피그티 2021. 8. 17.

많은 영역에서, 어떤 특징을 설명해주는 값이 A 집단과 B 집단에서 어떻게 되는지 비교하는 경우가 발생한다. 예를 들어 건물 전면에서 나오는 광고의 주 배경이 빨강일 때와 파랑일 때 광고 효과에 대해서 비교하고 싶을 수 있다. 이렇게 여러 집단 간의 비교 할 때, 분산이 결과 해석에 있어 중요한 역할을 한다.[각주:1] 이번 페이지에서는 이러한 분산에 대해서 중요한 위치를 차지하고 있는 F 분포에 대해서 살펴본다.

 

#Snedecor's F Distribution

5.2-(1) Example: 정규 분포에서의 샘플 평균, 샘플 분산 Sample mean and Sample variance of Random sample from Normal Distribution에서 \(\mathcal{N}(\mu,\sigma^2)\) 에서 샘플링한 경우, sample mean과 sample variance는 각각

\[ \begin{align*} \overline{X} &\sim \mathcal{N}\left(\mu,\frac{\sigma^2}{n}\right) &,&& (n-1)\frac{S^2}{\sigma^2} &\sim\chi_{n-1} ^2 \end{align*} \]

임을 살펴보았다.

 

이제 \(\mathcal{N}(\mu_X,\sigma_X ^2)\) 에서 \(X_1\), ..., \(X_n\) 이렇게 \(n\) 개를 샘플링하고, \(\mathcal{N}(\mu_Y, \sigma_Y ^2)\) 에서 \(Y_1\), ..., \(Y_m\) 이렇게 \(m\) 개를 샘플링했다고 하자. 그러면

\[ \begin{align*} (n-1)\frac{S_X ^2}{\sigma_X ^2} &\sum \chi_{n-1} ^2 &, && (m-1)\frac{S_Y ^2}{\sigma_Y ^2} &\sim \chi_{m-1} ^2 \end{align*} \]

이므로, 두 모분산의 비율 \(\frac{\sigma_X ^2}{\sigma_Y ^2}\) 의 값을

\[ \frac{ S_X^2 / \sigma_X ^2}{S_Y ^2 / \sigma_Y ^2} \sim \frac{\chi_{n-1} ^2 / (n-1)}{\chi_{m-1} ^2 / (m-1)} \]

의 분포를 이용해 추정, 분석할 수 있다. 이 때, 이 분포를 F-distribution이라고 한다.

 

DEFINITION          F-distribution

Random variable \(X\) 가 다음 pdf를 따르는 경우, \(X\) 가 degree of freedom \(d_1\), \(d_2\) 인 Snedecor's F distribution을 따른다고 부른다. Snedecor's F distribution 대신 줄여서 간단히 F-distribution이라고도 부른다.
\[ \begin{align*} f(x) &= \frac{\sqrt{\frac{(d_1 x)^{d_1} d_2 ^{d_2}}{(d_1 x + d_2) ^{d_1 + d_2}}}}{xB\left(\frac{d_1}{2},\frac{d_2}{2}\right)} \\ \\ &= \frac{1}{B\left(\frac{d_1}{2}, \frac{d_2}{2}\right)} \left(\frac{d_1}{d_2}\right) ^{\frac{d_1}{2}} x^{\frac{d_1}{2}-1} \left( 1+ \frac{d_1}{d_2}x\right) ^{-\frac{d_1+d_2}{2}} \end{align*} \]
\(X\) 가 degree of freedom \(d_1\), \(d_2\) 인 F-distribution을 따른다는 것을 기호로 다음과 같이 표현한다.
\[ X \sim F(d_1,d2)\]

 

F-distribution의 pdf는 다음과 같은 그래프를 가진다.

 

F-distribution pdf

IkamusumeFan, CC BY-SA 4.0, via Wikimedia Commons

 

#Basic Properties

1. Mean of F-distribution

\[ E[X] = \frac{d_2}{d_2-2} \text{ if } d_2 > 2 \]

 

(증명)

pdf로부터 직접 계산하기보다는 아래에서 chi-squared distribution과의 관계를 이용하여 구하자. Random variable \(U \sim \chi _{d_1} ^2\), \(V \sim \chi _{d_2} ^2\) 가 서로 independent이면,

\[ X=\frac{U/d_1}{V/d_2} \sim F(d_1,d_2) \]

이므로, independence의 성질[각주:2]을 이용하여

\[ E[X] = \frac{1}{d_1} E[U] \times d_2 E\left[\frac{1}{V}\right] \]

가 된다. 먼저 \(E[U]\) 는 chi-squared distribution[각주:3]의 mean이므로

\[ E[U] = d_1 \]

그리고 \(E\left[\frac{1}{V}\right]\) 를 구하면,

\[ \begin{align*} E\left[ \frac{1}{V} \right] &= \int _0 ^\infty \frac{1}{v} f_V(v)~dv \\ \\ &= \frac{1}{2^{d_2/2}\Gamma\left(\frac{d_2}{2}\right)} \int _0 ^\infty v^{\frac{d_2}{2}-2}e^{-\frac{v}{2}} ~dv \end{align*} \]

이 때 마지막 적분은 chi-squared distribution \(\chi_{d_2-2} ^2\) 의 적분과 같으므로

\[ 2^{\frac{d_2}{2}-1} \Gamma\left(\frac{d_2}{2}-1\right) \]

와 같다. 따라서

\[ E\left[ \frac{1}{V} \right] = \frac{2^{d_2/2 - 1} \Gamma\left( \frac{d_2}{2}-1 \right)}{2^{d_2/2}\Gamma\left(\frac{d_2}{2}\right)} = \frac{1}{d_2-2} \]

단, 위 식은 \(d_2 > 2\) 일 때만 성립한다. 그러므로 

\[ E[X] = \frac{d_2}{d_2-2} \]

(증명 끝)

 

2. Variance of F-distribution

\[ \text{Var}(X) = \frac{2d_2 ^2 (d_1+d_2 -2)}{d_1(d_2-2)^2 (d_2-4)} \text{ if } d_2 > 4 \]

 

(증명)

1번과 같은 방식으로

\[ E\left[ X^2 \right] = E \left[ \left( \frac{U/d_1}{V/d_2} \right)^2 \right] \]

다시, \(U\) 와 \(V\) 는 서로 independent하므로

\[ E\left[ X^2 \right] = \frac{1}{d_1 ^2} E\left[U^2\right] \times d_2 ^2 E\left[ \frac{1}{V^2}\right] \]

그리고

\[ \begin{align*} E\left[ U^2 \right] &= d_1(d_1+2) \\ \\ E\left[ \frac{1}{V^2} \right] &= \int _0 ^\infty \frac{1}{v^2} f_V(v) ~dv \\ \\ &= \frac{1}{2^{d_2/2}\Gamma\left(\frac{d_2}{2}\right)} \int _0 ^\infty v^{\frac{d_2}{2}-3} e^{-\frac{d_2}{2}}~dv \end{align*} \]

이 때, 마지막 적분은 \(\chi _{d_2-4} ^2\) 의 적분과 같으므로

\[ 2^{\frac{d_2}{2}-2}\Gamma\left(\frac{d_2}{2}-2\right) \]

가 된다. 따라서

\[ E\left[ \frac{1}{V^2} \right] = \frac{1}{(d_2-2)(d_2-4)} \]

단, 이 식은 \(d_2 > 4\) 일 때만 유효하다. 이를 이용하면,

\[ \text{Var}(X) = E\left[ X^2 \right] - \left( E[X] \right)^2 = \frac{2d_2 ^2 (d_1+d_2 -2)}{d_1(d_2-2)^2 (d_2-4)} \]

(증명 끝)

 

 

#Related Distributions

1. Distribution of Sample Variances from Normal Distributions

이제 처음에 논의한 내용을 살펴보자.

 

THEOREM

Random variable \(U_1\) 이 degree of freedom \(d_1\) 인 chi-squared distribution[각주:4]이고, \(U_2\) 가 degree of freedom \(d_2\) 인 chi_squared distribution이라고 하자. 또한, \(U_1\) 과 \(U_2\) 는 서로 independent하다고 하자. 그러면
\[ X = \frac{U_1/d_1}{U_2/d_2} \sim F(d_1,d_2) \]

 

(증명)

\(U_1\) 과 \(U_2\) 는 서로 독립이므로 joint pdf는

\[ f_{U_1,U_2} (u_1,u_2) = \frac{1}{2^{d_1/2}\Gamma\left(\frac{d_1}{2}\right)}\frac{1}{2^{d_2/2}\Gamma\left(\frac{d_2}{2}\right)}u_1^{\frac{d_1}{2}-1} u_2 ^{\frac{d_2}{2}-1} e^{-\frac{u_1}{2}}e^{-\frac{u_2}{2}} \]

이제, tranform \(X=\frac{U_1/d_1}{U_2/d_2}\), \(Y=U_2\) 를 적용하면, Inverse Jacobian determinant는 \(\frac{d_1}{d_2}y\) 이므로

\[ \begin{align*} f_X(x) &= \int _0 ^\infty f_{X,Y}(x,y) ~dy \\ \\ &= \int _0 ^\infty f_{U,V}\left( \frac{d_1}{d_2}xy, y\right) ~dy \\ \\ &= \frac{1}{2^{\frac{d_1+d_2}{2}}\Gamma\left(\frac{d_1}{2},\frac{d_2}{2}\right)} \int _0 ^\infty \left( \frac{d_1}{d_2}xy\right)^{\frac{d_1}{2}-1} y^{\frac{d_2}{2}-1} e^{-\frac{1}{2}\frac{d_1}{d_2}xy} e^{-\frac{y}{2}}\frac{d_1}{d_2}y~dy \\ \\ &= \frac{1}{2^{\frac{d_1+d_2}{2}}} \frac{1}{\Gamma\left(\frac{d_1}{2}\right)\Gamma\left(\frac{d_2}{2}\right)} \left( \frac{d_1}{d_2} \right)^{\frac{d_1}{2}} x^{\frac{d_1}{2}-1} \int _0 ^\infty y ^{\frac{d_1+d_2}{2}-1} e^{-\left(\frac{d_1}{2d_2}x+\frac{1}{2}\right)y}~dy \end{align*} \]

이 때, 적분 부분은 gamma distribution에서 적분과 같으므로

\[ \left(1+\frac{d_1}{d_2}x\right) ^{-\frac{d_1+d_2}{2}} 2^{\frac{d_1+d_2}{2}} \Gamma\left(\frac{d_1+d_2}{2}\right) \]

가 되어

\[ f_X(x) = \frac{1}{B\left(\frac{d_1}{2},\frac{d_2}{2}\right)} \left(\frac{d_1}{d_2}\right)^{\frac{d_1}{2}} x^{\frac{d_1}{2}-1} \left(1+\frac{d_1}{d_2}x\right) ^{-\frac{d_1+d_2}{2}} \]

즉, \(F(d_1,d_2)\) 의 pdf를 얻는다.

(증명 끝)

 

2. Beta Distribution

THEOREM

Random variable \(X \sim F(d_1,d_2)\) 일 때,[각주:5]
\[ \frac{(d_1/d_2)X}{1+(d_1/d_2)X} \sim \text{Beta}\left(\frac{d_1}{2},\frac{d_2}{2}\right) \]

 

(증명)

\(x > 0\) 인 영역에서 transform \(W=\frac{(d_1/d_2)X}{1+(d_1/d_2)X}\) 는 1대1 대응이므로, transform된 pdf를 구하면,

\[ \begin{align*} f_W(w) &= f_x\left( \frac{d_2}{d_1}\frac{w}{1-w} \right) \times \frac{d_2}{d_1}\frac{1}{(1-w)^2} \\ \\ &= \frac{1}{B\left(\frac{d_1}{2},\frac{d_2}{2}\right)} \left( \frac{d_1}{d_2} \right)^{\frac{d_1}{2}} \left( \frac{d_2}{d_1}\frac{w}{1-w}\right)^{\frac{d_1}{2}-1} \left( 1+ \frac{w}{1-w} \right) ^{-\frac{d_1+d_2}{2}} \frac{d_2}{d_1}\frac{1}{(1-w)^2} \\ \\ &= \frac{1}{B\left(\frac{d_1}{2},\frac{d_2}{2}\right)} \left( \frac{w}{1-w} \right) ^{\frac{d_1}{2}-1} \left( \frac{1}{1-w} \right) ^{-\frac{d_1+d_2}{2}} \frac{1}{(1-w)^2} \\ \\ &= \frac{1}{B\left(\frac{d_1}{2},\frac{d_2}{2}\right)} w^{\frac{d_1}{2}-1} \left(1-w\right) ^{\frac{d_2}{2}-1} \end{align*} \]

즉, \(\text{Beta}\left(\frac{d_1}{2},\frac{d_2}{2}\right)\) 의 pdf를 얻는다.

(증명 끝)

 

3. F-distribution

THEOREM

Random variable \(X \sim F(d_1,d_2)\) 일 때,
\[ \frac{1}{X} \sim F(d_2,d_1) \]

 

(증명)

Transform \(Y=\frac{1}{X}\) 는 1대1 대응이므로, transform된 pdf를 구하면,

\[ \begin{align*} f_Y(y) &= f_X\left(\frac{1}{y}\right) \\ \\ &= \frac{1}{B\left(\frac{d_1}{2},\frac{d_2}{2}\right)} \left(\frac{d_1}{d_2}\right) ^{\frac{d_1}{2}} y ^{1-\frac{d_1}{2}} \left( 1+ \frac{d_1}{d_2} \frac{1}{y} \right) ^{-\frac{d_1+d_2}{2}} \times \frac{1}{y^2} \\ \\ &= \frac{1}{B\left(\frac{d_1}{2},\frac{d_2}{2}\right)} \left(\frac{d_1}{d_2}\right) ^{\frac{d_1}{2}} y ^{-\frac{d_1}{2}-1} \frac{(d_2 y + d_1) ^{-\frac{d_1+d_2}{2}}}{(d_2y)^{-\frac{d_1+d_2}{2}}} \\ \\ &= \frac{1}{B\left(\frac{d_2}{2},\frac{d_1}{2}\right)} d_1 ^{\frac{d_1}{2}} d_2 ^{\frac{d_2}{2}} y^{\frac{d_2}{2}-1} (d_2y + d_1) ^{-\frac{d_1+d_2}{2}} \\ \\ &= \frac{1}{B\left(\frac{d_2}{2},\frac{d_1}{2}\right)} d_2 ^{\frac{d_2}{2}} y^{\frac{d_2}{2}-1} d_1 ^{\frac{d_1}{2}} d_1 ^{\frac{d_1+d_2}{2}} \left(1+ \frac{d_2}{d_1}\right) ^{\frac{d_2+d_1}{2}} \\ \\ &= \frac{1}{B\left(\frac{d_2}{2},\frac{d_1}{2}\right)} \left( \frac{d_2}{d_1}\right) ^{\frac{d_2}{2}} y^{\frac{d_2}{2}-1} \left(1+ \frac{d_2}{d_1}\right) ^{\frac{d_2+d_1}{2}} \end{align*} \]

즉, \(F(d_2,d_1)\) 의 pdf를 얻는다.

(증명 끝)

 

4. Student's t-distribution

THEOREM[각주:6]

Random variable \(X \sim t_n\) 일 때,
\[ \begin{align*} X^2 &\sim F(1,n) \\ \\ X^{-2} &\sim F(n,1) \end{align*} \]

 

 

  1. 자세한 내용은 ...analysis of variance,intro... 참고 [본문으로]
  2. 4.3 서로 독립인 두 개의 랜덤 변수 Bivariate Independent Random Variables 참고 [본문으로]
  3. ...chi-squared distribution... 참고 [본문으로]
  4. chi-squared distribution에 대해서는 ...chi-squared... 참고 [본문으로]
  5. beta distribution에 대해서는 ...beta distribution... 참고 [본문으로]
  6. 증명은 5.2-(2) 스튜던트 t 분포 Student's t-distribution참고 [본문으로]