데이터 분석이나 통계 분석을 할 때, 측정이나 실험을 위한 샘플을 추출한 후, 측정을 하고나면 가장 먼저 구하는 것이 측정치의 평균과 분산일 것이다. 우리가 통계 분석을 하면서 이렇게 평균과 분산을 구하는 이유는 샘플들의 측정값들은 양이 많기 때문에 샘플, 더 나아가서 모집단을 특징지을 수 있는 몇 개의 수들로 표현하고자 함이다. 이렇게 모집단을 특징지을 수 있는 몇 개의 수들은 통계학에서 statistic이라는 개념으로 정의된다. 이번 페이지에서는 statistic의 정의를 살펴보고, 그 예로써 샘플 평균과 샘플 분산에 대하여 알아보자.
#Statistic
DEFINITION Statistic
\(X_1\), ..., \(X_n\) 을 모집단에서 추출한 \(n\) 개의 random sample이라고 하자. 또한, \(T(x_1,\cdots,x_n)\) 을 \((X_1,\cdots,X_n)\) 의 sample space에 정의되는 실수 함수 또는 벡터 함수라고 하자. 그러면 random sample의 함수로 정의되는 random variable \(Y=T(X_1,\cdots,X_n)\) 을 statistic(통계치)라고 부른다. 이 때, statistic \(Y\) 의 probability distribution을 \(Y\) 의 sampling distribution이라고 부른다.
위 정의에 의하면 statistic도 random sample처럼 random variable이며 random sample들의 그 어떤 함수형태도 가능하다. 예를 들어
\[ T(X_1,\cdots,X_n) = 1 \]
도 statistic이 된다. (다만, 이 경우에는 모집단에 대하여 어떠한 정보도 주지 않는 statsitic일 뿐이다.) Statistic의 유일한 제한은 매개 변수의 함수가 아니라는 것 뿐이다. 또 다른 statistic의 예로는 random sample 중에서 가장 작은 값도 있다. 1
\[ T(X_1,\cdots,X_n) = \min{(X_1, \cdots, X_n)} \]
당연히 statistic은 random variable이기 때문에 probability distribution이 존재한다. 또한 statistic의 expected value, variance 등을 구할 수 있다. 즉, statistic 역시 앞에서 논의했던 확률 이론들을 적용하여 해석할 수 있다.
Statistic의 자세한 예제로써 샘플 평균과 샘플 분산에 대해서 살펴보고, 이들의 expected value, variance 등을 구해보자.
#Sample Mean and Sample Variance
DEFINITION Sample Mean
Random sample \(X_1\), ..., \(X_n\) 에 대하여, 다음의 값을 sample mean(샘플 평균)이라고 부른다.
\[ \overline{X} = \frac{X_1 + \cdots + X_n}{n} = \frac{1}{n} \sum _{i=1} ^n X_i \]
DEFINITION Sample Variance
Random sample \(X_1\), ..., \(X_n\) 과 이들의 sample mean \(\overline{X}\) 에 대하여, 다음의 값을 sample variance(샘플 분산)이라고 부른다. 2
\[ S^2 = \frac{1}{n-1} \sum _{i=1} ^n \left( X_i - \overline{X} \right)^2 \]
그리고 sample variance의 제곱근 \(S\) 를 sample standard deviation이라고 부른다.
Statistic의 정의처럼 sample mean, sample variance도 random sample의 함수이기 때문에 \(\overline{X}(X_1, \cdots,X_n)\) 과 같이 표현해야 하겠지만, 보통 \(\overline{X}\) 나 \(S^2\) 로 쓰는 것이 일반적인 표현 방법이다.
Sample mean, sample variance의 가장 중요한 성질로 다음 정리를 살펴보자.
THEOREM
Random sample \(X_1\), ..., \(X_n\) 을 모평균 \(\mu\), 모분산 \(\sigma^2\)을 가지는 모집단에서 추출했다고 하자. 그러면 sample mean과 sample variance에 대하여 다음이 성립한다.
1. \[ \begin{equation} E \left[ \overline{X} \right] = \mu \label{exbar} \end{equation} \]
2. \[ \begin{equation} \text{Var}\left(\overline{X}\right) = \frac{\sigma^2}{n} \label{varxbar} \end{equation} \]
3. \[ \begin{equation} E\left[ S^2 \right] = \sigma^2 \label{essquare} \end{equation} \]
sample mean에 expected value나 variance가 계산된다는 것이 처음에는 이상하게 생각될 수 있지만, 다시 한번 sample mean과 sample variance는 random variable 중에 하나로 확률 분포가 존재한다는 것을 기억하자. 반대로 모평균(population mean)과 모분산(population variance)은 확률 분포에 expectation을 계산한 결과값으로 하나의 고정된 수라는 것과 혼동하지 않도록 하자. 우리가 계산하는 sample mean과 sample variance의 값은 statistic의 realization이다. 우리가 샘플링을 할 때마다 sample mean과 sample variance의 값이 변하는데, 그것은 이 개념들이 random variable이기 때문에 확률 분포에 따라 값이 결정되기 때문이다. 이후 여러 페이지를 걸쳐서 실제 sample mean과 sample variance의 확률 분포에 대하여 살펴보게 될 것이다. 3
식 \((\ref{exbar})\)와 식 \((\ref{essquare})\)에 따르면 sample mean과 sample variance의 expected value는 모분포의 평균과 분산과 같다. Expected value를 무한히 많은 횟수를 반복했을 때 평균적으로 얻을 수 있는 값으로 해석한다면, 무한히 많은 횟수의 샘플링을 통해 얻을 수 있는 sample mean과 sample variance의 평균적인 값이 각각 모분포의 평균과 분산과 같다고 해석할 수 있다. 만약 sample variance의 정의에서 분모가 \(n-1\) 대신 \(n\) 이라고 한다면, expected value는 모분포의 분산 \(\sigma^2\) 가 아니라 \(\frac{n-1}{n}\sigma^2\) 가 될 것이다. 4
위 정리를 증명하기 위해서 다음을 먼저 살펴보자.
THEOREM
임의의 수 \(x_1\), ..., \(x_n\) , 그리고 \(\overline{x}=\frac{x_1+\cdots+x_n}{n}\) 에 대하여 다음이 성립한다.
1.
\[ \min_a{\sum_{i=1} ^n (x_i -a)^2} = \sum_{i=1} ^n \left(x_i - \overline{x} \right)^2 \]
2.
\[ \begin{equation} (n-1)s^2 = \sum _{i=1} ^n \left(x_i - \overline{x}\right)^2 = \sum _{i=1} ^n x_i ^2 - n\overline{x}^2 \label{lemma2} \end{equation} \]
(증명)
1.
\[ \begin{align*} \sum _{i=1} ^n (x_i -a)^2 &= \sum _{i=1} ^n \left( x_i - \overline{x} + \overline{x} - a \right)^2 \\ \\ &= \sum _{i=1} ^n \left[ \left( x_i - \overline{x} \right)^2 + 2 \left( x_i- \overline{x} \right) \left(\overline{x} -a\right) + \left(\overline{x}-a\right)^2 \right] \\ \\ &= \sum _{i=1} ^n \left( x_i - \overline{x} \right)^2 + 2 \left( \overline{x} - a \right) \sum _{i=1} ^n \left( x_i - \overline{x} \right) + \sum _{i=1} ^n \left( \overline{x} -a \right)^2 \end{align*} \]
이 때,
\[ \sum _{i=1} ^n \left( x_i - \overline{x} \right) = \sum _{i=1} ^n x_i - n\overline{x} = \sum _{i=1} ^n x_i - \sum _{i=1} ^n x_i = 0 \]
따라서
\[ \sum _{i=1} ^n (x_i - a)^2 = \sum _{i=1} ^n \left( x_i - \overline{x} \right)^2 + \sum _{i=1} ^n \left( \overline{x} - a \right)^2 \]
이 때, 우변이 최소가 되기 위해서는 \(a=\overline{x}\) 이어야 한다. 그리고 이 때의 최소값은 \(\sum_{i=1} ^n \left( x_i - \overline{x} \right)^2\) 가 된다.
2.
바로 위 식에서 \(a=0\) 을 대입하면 얻을 수 있다.
(증명 끝)
THEOREM
\(X_1\), ..., \(X_n\) 을 random sample이라고 하고, 함수 \(g(x)\) 에 대하여 \(E[g(X_1)]\), \(\text{Var}(g(X_1))\) 이 존재한다고 하자. 그러면 다음이 성립한다.
1.
\[ \begin{equation} E \left[ \sum_{i=1} ^n g(X_i) \right] = nE\left[ g(X_1) \right] \label{lemma3} \end{equation}\]
2.
\[ \begin{equation} \text{Var}\left( \sum_{i=1} ^n g(X_i) \right) = n \text{Var}\left(g(X_1)\right) \label{lemma4} \end{equation} \]
(증명)
1. Expected value의 성질로부터
\[ E \left[ \sum _{i=1} ^n g(X_i) \right] = \sum _{i=1} ^n E\left[ g(X_i) \right] \]
이 때, \(X_i\) 들은 random sample의 정의상 identically distributed이므로, \(E\left[ g(X_i) \right] = E\left[ g(X_1) \right]\) 따라서
\[ E \left[ \sum _{i=1} ^n g(X_i) \right] = \sum _{i=1} ^n E\left[ g(X_1) \right] = n E\left[ g(X_1) \right] \]
2. Variance의 정의로부터
\[ \begin{align*} \text{Var}\left( \sum _{i=1} ^n g(X_i) \right) &= E \left[ \left\{ \sum _{i=1} ^n g(X_i) - E\left[ \sum _{i=1} ^n g(X_i) \right] \right\}^2 \right] \\ \\ &= E\left[ \left\{ \sum _{i=1} ^n g(X_i) - \sum _{i=1} ^n E\left[ g(X_i) \right] \right\}^2 \right] \\ \\ &= E\left[ \left\{ \sum _{i=1} ^n \left( g(X_i) - E\left[ g(X_i) \right] \right) \right\}^2 \right] \\ \\ &= E\left[ \sum _{i=1} ^n \left\{ g(X_i) - E\left[ g(X_i) \right] \right\} ^2 + 2 \sum _{1\le i < j \le n} \left\{ g(X_i) - E\left[ g(X_i) \right] \right\} \left\{ g(X_j) - E\left[ g(X_j) \right] \right\} \right] \\ \\ &= \sum _{i=1} ^n E\left[ \left\{ g(X_i) - E\left[ g(X_i) \right] \right\} ^2 \right] + 2 \sum _{1\le i < j \le n} E\left[ \left\{ g(X_i) - E\left[ g(X_i) \right] \right\} \left\{ g(X_j) - E\left[ g(X_j) \right] \right\} \right] \\ \\ &= \sum _{i=1} ^n \text{Var}\left(g(X_i) \right) + 2 \sum _{1\le i < j \le n} \text{Cov}\left( g(X_i), g(X_j) \right) \end{align*} \]
이 때 random sample의 정의상 mutually independent이므로 \(\text{Cov}\left( g(X_i), g(X_j) \right)\), 또, identically distributed이므로 \(\text{Var}\left(g(X_i)\right) = \text{Var}\left(g(X_1)\right)\) 이다. 따라서
\[ \text{Var}\left( \sum _{i=1} ^n g(X_i) \right) = n \text{Var} \left(g(X_1) \right) \]
(증명 끝)
이 정리들을 이용하여 식 \((\ref{exbar})\), \((\ref{varxbar})\), \((\ref{essquare})\)를 증명해보자.
(증명)
1. \[ \begin{align*} E\left[ \overline{X} \right] &= E\left[ \frac{1}{n} \sum _{i=1} ^n X_i \right] \\ \\ &= \frac{1}{n} E\left[ \sum_{i=1} ^n X_i \right] \end{align*} \]
여기에 식 \((\ref{lemma3})\)를 적용하면 식 \((\ref{exbar})\)을 얻는다.
\[ \begin{align*} \text{Var}\left( \overline{X} \right) &= \text{Var} \left( \frac{1}{n} \sum _{i=1} ^n X_i \right) \\ \\ &= \frac{1}{n^2} \text{Var} \left( \sum _{i=1} ^n X_i \right) \end{align*} \]
여기에 식 \((\ref{lemma4})\)를 적용하면 식 \((\ref{varxbar})\)을 얻는다.
3. 식 \((\ref{lemma2})\)에서 시작하자.
\[ \begin{align*} E \left[ S^2 \right] &= \frac{1}{n-1} E \left[ \sum _{i=1} ^n X_i ^2 - n \overline{X} ^2 \right] \\ \\ &= \frac{1}{n-1} \left( E \left[ \sum _{i=1} ^n X_i ^2 \right] - n E\left[ \overline{X} ^2 \right] \right) \end{align*} \]
여기에서 식 \((\ref{exbar})\), \((\ref{varxbar})\)로부터
\[ E\left[ \overline{X} ^2 \right] = \text{Var}\left( \overline{X} \right) + \left\{ E\left[ \overline{X} \right] \right\} ^2 = \frac{\sigma^2}{n} + \mu^2 \]
과 식 \((\ref{lemma2})\)를 대입하여 6
\[ \begin{align*} E \left[ S^2 \right] &= \frac{1}{n-1} \left( n(\sigma^2 + \mu^2 ) + n \left( \frac{\sigma^2}{n} + \mu^2 \right) \right) \\ \\ &= \sigma^2 \end{align*} \]
(증명 끝)
- 이렇게 random sample들의 값들의 크기 순서로 만들어지는 statistic에 대한 내용은 ...order statistic... 참고 [본문으로]
- sample variance의 분모가 sample mean과는 다르게 \(n-1\)로 정의되는 이유는 아래의 정리 참고 [본문으로]
- random sample의 realization에 대한 것은 5.1 무작위 추출 Random Samples 참고 [본문으로]
- 이렇게 expected value가 모분포에서 알고자 하는 특성값과 일치하는 것을 unbiased하다고 부른다. 반대로 약간 차이가 나는 경우에는 biased라고 부른다. 즉, sample variance는 unbiased이고 분모가 n이 되면 biased가 된다. 자세한 내용은 ...unbiased estimator... 참고 [본문으로]
- 자세한 내용은 4.5 공분산, 상관계수 Covariance, Correlation 참고 [본문으로]
- 위와 같은 방식으로 \\(E\\left[ X_1 ^2 \\right] = \\sigma^2 + \\mu ^2\\) 임을 구할 수 있음 [본문으로]
'Mathematics > 통계학' 카테고리의 다른 글
[통계학] 5.2-(3) F 분포 F-distribution (0) | 2021.08.17 |
---|---|
[통계학] 5.2-(2) 스튜던트 t 분포 Student's t-distribution (0) | 2021.08.16 |
[통계학] 5.2-(1) Example: 정규 분포에서의 샘플 평균, 샘플 분산 Sample mean and Sample variance of Random sample from Normal Distribution (0) | 2021.08.11 |
[통계학] 5.1 무작위 추출 Random Samples (0) | 2021.08.10 |
[통계학] 4.6 다변량 분포 Multivariate Distributions (0) | 2021.08.10 |
[통계학] 4.5-(2) Example: 이변량 정규 분포 Bivariate Normal Distribution (1) | 2021.08.09 |