본문 바로가기
Mathematics/통계학

[통계학] 5.2-(1) Example: 정규 분포에서의 샘플 평균, 샘플 분산 Sample mean and Sample variance of Random sample from Normal Distribution

by 피그티 2021. 8. 11.

이번 페이지에서는 기초 통계학에서 가장 중요하게 활용되는, 정규 분포에서 샘플링을 했을 때 얻어지는 몇 가지 결론들에 대하여 살펴본다. 여기에서 나오는 결론들은 앞으로 나오게 될 Z-test, t-test 등에서 계속 사용하게 될 것이다.

 

#Distribution of Sample mean and Sample Variance

지난 페이지에서 sample mean과 sample variance가 random variable이다는 것을 살펴보았다. 따라서 sample mean과 sample variance는 특정한 확률 분포를 가지고 있을 것인데, 특히 모분포가 정규 분포인 경우에는 다음과 같은 분포를 따르게 된다.

 

THEOREM          Sampling from Normal Distribution

\(X_1\), ..., \(X_n\) 을 normal distribution[각주:1] \(\mathcal{N}(\mu,\sigma^2)\) 에서 추출한 \(n\) 개의 random sample이라고 하자. 또한 \(\overline{X}\), \(S^2\) 을 각각 sample mean, sample variance라고 하자. 그러면 다음이 성립한다.

1. \(\overline{X}\) 과 \(S^2\) 는 서로 independent이다.

2. \(\overline{X}\) 는 \(\mathcal{N}(\mu, \frac{\sigma^2}{n})\) 분포를 따른다.

3. \((n-1)S^2 / \sigma^2\) 는 \(\chi _{n-1} ^2 \) 분포를 따른다.[각주:2]

 

증명하기에 앞서 이 정리의 가정에 대하여 언급하고 넘어가자. 이 정리의 결과는 정규 분포에서 샘플링을 한 경우에만 성립한다. 또한 이 정리의 결과는 sample mean과 sample variance의 분포에 대한 설명이다. 이 사실을 이해하는 것이 이후 페이지에서 소개되는 통계적 도구들이 왜 그런 형태가 되어야 하는가에 대한 논리적 기초가 된다는 것을 명심하기 바란다.

 

1번 내용 증명

Sample variance 정의로부터

\[ \begin{align*} S^2 &= \frac{1}{n-1} \sum _{n=1} ^n \left( X_i - \overline{X} \right) ^2 \\ \\ &= \frac{1}{n-1} \left[ \left(X_1 - \overline{X} \right) ^2 + \sum _{i=1} ^n \left( X_i - \overline{X} \right) ^2 \right] \end{align*} \]

이 때, 

\[ \sum _{i=1} (X_1 - \overline{X}) = \left( X_1 - \overline{X} \right) + \sum _{i=2} ^n \left( X_i - \overline{X} \right) = 0 \]

이므로 

\[ S^2 = \frac{1}{n-1} \left[ \left\{ \sum _{i=2} ^n \left(X_i - \overline{X}\right) \right\}^2 + \sum _{i=2} ^n \left( X_i \overline{X} \right) ^2 \right] \]

따라서 \(S^2\) 은 \((X_2 - \overline{X}, \cdots, X_n - \overline{X})\) 의 함수임을 알 수 있다. 이제 이 변수들이 \(\overline{X}\) 과 independent임을 보이면, 그 함수인 \(S^2\) 도 당연히 independent가 될 것이다. Random sample의 joint pdf

\[ f(x_1,\cdots, x_n) = \frac{1}{(2\pi \sigma^2 ) ^{\frac{n}{2}}} e^{-\frac{1}{2\sigma^2} \sum _{i=1} ^n (x_i - \mu) ^2} \]

을 transform

\[ \begin{align*} y_1 &= \overline{x} \\ \\ y_2 &= x_2 - \overline{x} \\ &\vdots \\ y_n &= x_n - \overline{x} \end{align*} \]

을 이용하여 변환하면,[각주:3]

\[ f(y_1, \cdots, y_n) = \frac{n}{(2\pi\sigma^2) ^{\frac{n}{2}}} \exp{\left[ \frac{1}{2\sigma^2}\left\{ \left(y_1-\sum_{i=2} ^n y_i -\mu \right)^2 + \sum _{i=2} ^n \left(y_i + y_1 - \mu \right)^2 \right\} \right]} \]

이 때,

\[ \begin{align*} \left(y_1-\sum_{i=2} ^n y_i -\mu \right)^2 &+ \sum _{i=2} ^n \left(y_i + y_1 - \mu \right)^2 \\ \\ &= y_1 ^2 + \left(\sum_{i=2} ^n y_i\right) ^2 + \mu^2 - 2 y_1 \sum_{i=2} ^n y_i - 2 y_1 \mu + 2\mu \sum _{i=2} ^n y_i \\ \\ &~~~~~~ + \sum _{i=2} ^n y_i ^2 + (n-1)y_1 ^2 + (n-1) \mu ^2 + 2 y_1 \sum _{i=2} ^n y_i - 2 \mu \sum _{i=2} ^n y_i  - (n-1)y_1 \mu \\ \\ & = n y_1 ^2 - (n+1)\mu y + \left( \sum _{i=2} ^n y_i \right) ^2 + \mu ^2 + \sum _{i=2} ^n y_i ^2 + (n-1) \mu ^2 \end{align*} \]

따라서

\[ \begin{align*} f(y_1, \cdots, y_n) &= \left[ \left( \frac{n}{2\pi\sigma^2} \right) ^{1/2} \exp{ \left\{ -\frac{1}{2\sigma^2}(ny_1 ^2 - (n+1)\mu y) \right\} } \right] \\ \\ &~~~~~~ \times \left[ \frac{n^{1/2}}{(2\pi\sigma^2)^{(n-1)/2}} \exp{ \left\{ -\frac{1}{2\sigma^2}\left( \left(\sum _{i=2} ^n y_i \right)^2 + \mu^2 + \sum _{i=2} ^n y_i ^2 + (n-1) \mu ^2 \right) \right\} } \right] \end{align*} \]

즉, joint pdf가 \(Y_1\) 만의 함수와 나머지 변수들의 함수의 곱으로 표현되므로 \(Y_1\) 은 나머지 변수들과 독립이다.[각주:4] 따라서, 나머지 변수들만의 함수로 표현되는 \(S^2\) 역시 \(Y_1\) 즉, \(\overline{X}\) 와 독립이다.

 

2번 내용 증명

2번 내용을 증명하기 위해서는 다음 정리가 필요하다.

 

THEOREM

\(X_1\), ..., \(X_n\) 을 mgf[각주:5] \(M_X(t)\) 로 하는 분포에서 추출한 \(n\) 개의 random sample이라고 하자. 그러면 sample mean의 mgf는 다음과 같다.
\[ M_{\overline{X}} (t) = \left[ M_X \left( \frac{t}{n} \right) \right] ^n \]

 

(증명)

random sample들은 서로 mutually independent 그리고 identically distributed하다는 점과 mgf의 특징으로부터

\[ M_{\overline{X}} (t) = M_{\sum_{i=1} ^n X_i} \left( \frac{t}{n} \right) = \left[ M_X \left( \frac{t}{n} \right) \right]^n \]

(증명 끝)

 

Normal distribution의 mgf는

\[ M_{X} (t) = e^{\mu t + \frac{\sigma^2 t^2}{2}} \]

이므로 위의 정리를 적용하면,

\[ \begin{align*} M_{\overline{X}} (t) &= \left[ M_X \left( \frac{t}{n} \right) \right]^n \\ \\ &= \left[ e^{\mu \frac{t}{n} + \frac{\sigma^2 t^2}{2n^2}} \right] ^n \\ \\ &= e^{\mu t + \frac{(\sigma^2/n) t^2}{2}} \end{align*} \]

그리고 이 mgf는 \(\mathcal{N}\left(\mu, \frac{\sigma^2}{n} \right)\) 의 mgf와 동일하므로, mgf의 유일성으로부터 \(\overline{X}\) 는 \(\mathcal{N}\left(\mu, \frac{\sigma^2}{n} \right)\) 의 분포를 가진다.

 

3번 내용 증명

계산의 편의를 위하여, \(\mu=0\), \(\sigma^2 = 1\) 인 경우를 살펴본다.[각주:6]

 

Lemma

\(n\) 개의 random sample \(X_1\), ..., \(X_n\) 에 대하여, sample mean을 \(\overline{X}_n\), sample variance를 \(S_n ^2\) 라고 하자. 여기에 새로운 random sample \(X_{n+1}\) 을 추가한 sample mean을 \(\overline{X}_{n+1}\), sample variance를 \(S _{n+1} ^2\) 이라고 하면, 다음이 성립한다.

1. \( \overline{X}_{n+1} = \frac{X_{n+1} + n \overline{X}_n}{n+1} \)

2. \( nS_{n+1} ^2 = (n-1) S_n ^2 + \frac{n}{n+1} \left( X_{n+1} - \overline{X} \right)^2 \)

 

(증명)

1.

\[ \overline{X}_{n+1} = \frac{1}{n+1} \left( X_{n+1} + X_n + \cdots + X_1 \right) \]

로부터 직접 얻어진다.

 

2.

\[ nS_{n+1} ^2 = \left( X_1 - \overline{X}_{n+1} \right)^2 + \cdots + \left( X_{n+1} - \overline{X}_{n+1} \right)^2 \]

에서 1번 성질을 이용하면,

\[ \begin{align*} nS_{n+1} ^2 &= \left( X_1 - \frac{X_{n+1} + n \overline{X}_n}{n+1} \right)^2 + \cdots + \left( X_n - \frac{X_{n+1} + n \overline{X}_n}{n+1} \right)^2 + \left( X_{n+1} - \frac{X_{n+1} + n \overline{X}_n}{n+1} \right)^2 \\ \\ &= \sum _{i=1} ^n \left( X_i - \overline{X}_n + \frac{1}{n+1} \overline{X}_n - \frac{1}{n+1}X_{n+1} \right) ^2 + \left( \frac{n}{n+1} \right) ^2 \left( X_{n+1} - \overline{X}_n \right) ^2 \\ \\ &= \sum _{i=1} ^n \left[ \left( X_i - \overline{X}_n \right) ^2 + \frac{1}{(n+1)^2} \left( X_{n+1} - \overline{X}_n \right) ^2 + \frac{2}{n+1} \left( X_i - \overline{X}_n \right) \left( \overline{X}_n - X_{n+1} \right) \right] + \left( \frac{n}{n+1} \right)^2 \left( X_{n+1} - \overline{X}_n \right) ^2 \end{align*} \]

이 때, \(\sum _{i=1} ^n \left( X_i - \overline{X}_n \right) = 0 \) 이므로,

\[ \begin{align*} nS_{n+1} ^2 &= \sum _{i=1} ^n \left( X_i - \overline{X}_n \right) ^2 + \frac{n}{(n+1)^2} \left( X_{n+1} - \overline{X}_n \right) ^2 + \frac{n^2}{(n+1)^2} \left( X_{n+1} - \overline{X}_n \right) ^2 \\ \\ &= (n-1) S _n ^2 + \frac{n}{n+1} \left( X_{n+1} - \overline{X}_n \right) ^2 \end{align*} \]

(증명 끝)

 

이제 3번 성질을 증명하기 위하여 수학적 귀납법을 이용하자.

 

먼저 \(n=2\) 일 때, \(0 \times S_1 ^2 = 0\) 이므로, \(S _2 ^2 = \frac{1}{2} \left( X_2 - X_1 \right) ^2 \) 이다. 또한, \(X_1\) 과 \(X_2\) 가 서로 독립이고, 각각 \(\mathcal{N}(0,1)\) 분포를 따르므로 random variable \((X_2 - X_1) / \sqrt{2} \) 는 \(\mathcal{N}(0,1)\) 분포를 따르게 된다.[각주:7] 따라서, \((X_2 - X_1) / \sqrt{2} \) 의 제곱은 자유도가 1인 chi-square distribution이 된다. 따라서

\[ (2-1)S _2 ^2 \sim \chi _1 ^2 \]

 

이제 \(n=k\) 일 때, \((k-1) S _k ^2 \sim \chi _{k-1} ^2 \) 이 성립한다고 가정하자. 이 가정 하에서 \(n=k+1\) 일 때, \( S _{k+1} ^2 \sim \chi _k ^2\) 가 성립함을 보이면, 수학적 귀납법에 의해 \(n \ge 2\) 인 경우 항상 성립, 즉 3번 성질을 증명하는 것이 된다. 위 lemma의 2번 성질을 이용하면,

\[ k S_{k+1} ^2 = (k-1) S_k ^2 + \frac{k}{k+1} \left( X_{k+1} - \overline{X}_k \right) ^2 \]

이고, \(X_{k+1}\) 은 \(\mathcal{N}(0,1)\), \(\overline{X}_k\) 는 2번 성질에 의하여 \(\mathcal{N}(0,\frac{1}{n})\) 이므로, random variable \(\left(X_{k+1} - \overline{X}_k\right)\) 는 \(\mathcal{N}(0,\frac{k+1}{k})\) 확률 분포를 따르고, \(\sqrt{\frac{k}{k+1}} \left( X_{k+1} - \overline{X}_k \right)\) 는 \(\mathcal{N}(0,1)\), 따라서 \(\frac{k}{k+1} \left( X_{k+1} - \overline{X}_k \right)\) 는 자유도가 1인 chi-square distribution이 된다. 즉, 위 식은 \(k S_{k+1} ^2\) 가 \(\chi _{n-1} ^2 \) 과 \(\chi _1 ^2\) 의 합의 분포를 따른다는 것을 표현한다. Chi-square distribtion의 성질[각주:8]에 의해, \(\chi _{n-1} ^2 \) 과 \(\chi _1 ^2\) 의 합은 \(\chi _n ^2\) 을 따르므로

\[ k S_{k+1} ^2 \sim \chi _n ^2 \]

 

 

  1. normal distribution에 대해서는 3.7 정규 분포 Normal Distribution 참고 [본문으로]
  2. chi square distribution에 대해서는 ...chi square distribution... 참고 [본문으로]
  3. 이 transform의 inverse Jacobian determinant 값은 \\(n\\) 이다. pdf의 transform에 대한 자세한 내용은 4.4 랜덤 변수의 변환 (2) Transformations of Random Variables (2) 참고 [본문으로]
  4. 4.3 서로 독립인 두 개의 랜덤 변수 Bivariate Independent Random Variables 참고 [본문으로]
  5. mgf에 대한 내용은 2.3 분산, 모멘트 생성 함수 Variance, Moment Generating Functions 참고 [본문으로]
  6. 일반적인 값의 경우 normal distribution이 exponential family이므로 동등하게 성립한다. [본문으로]
  7. normal distribution의 뺄셈에 대해서는 4.4-(2) Example: 서로 독립인 정규 분포의 덧셈과 차 참고 [본문으로]
  8. ...chi-square distribution... 참고 [본문으로]