본문 바로가기
Mathematics/통계학

[통계학] 5.1 무작위 추출 Random Samples

by 피그티 2021. 8. 10.

지금까지 여러 페이지를 통해 확률과 확률 분포에 대한 기초적인 수학 개념들을 살펴보았다. 그러나 이 내용들을 현실에 그대로 적용하기에는 어려움이 따른다. 가장 큰 어려움은 개별 event들이 얼마만큼의 비중으로 존재하는지 완벽히 파악하는 것이 거의 불가능에 가깝다는 것이다. 이렇게 모든 event들에 대한 정보를 완벽히 파악할 수 없을 때 사용할 수 있는 방법이 바로 통계적 방법론들이다. 이 페이지부터는 통계학에서 사용하는 개념들을 살펴보고 이에 대한 예제들을 살펴보도록 하자.

 

#Random Samples

흔히 어떤 실험이나 측정에 대하여 통계적인 계산을 하려고 한다면, 샘플을 추출하고 측정을 한 후, 평균이나 분산을 구하는 등의 계산을 할 것이다. 이러한 프로세스의 첫 단계인 샘플을 추출하는 작업을 수학적으로 엄밀히 정의해보자.

 

DEFINITION          Independent and Identically Distributed Random Variables

Random variable \(X_1\), \(X_2\), ..., \(X_n\) 이 mutually independent[각주:1]이고, 각각의 marginal pmf (또는 marginal pdf)가 \(f(x)\) 로 동일한 경우[각주:2], \(X_1\), \(X_2\), ..., \(X_n\) 은 서로 independent and identically distributed(줄여서 iid)라고 부르고 다음과 같이 표현한다.
\[ X_1, X_2, \cdots, X_n \stackrel{\text{iid}}{\sim} f(x) \]
DEFINITION          Random Samples

Random variable \(X_1\), ..., \(X_n\) 이 pmf (또는 pdf) \(f(x)\) 에 iid인 경우 \(X_1\), ..., \(X_n\) 을 \(f(x)\)에서 추출한 n개의 random sample이라고 부른다.

 

위의 정의에 의하면, random sample은 random variable의 일종이다. 샘플을 추출한다고 하면, 흔히 데이터 값을 떠올리기 쉬운데, 데이터 값은 측정이나 실험이 이루어지고 난 다음에 나타나는 값이다. 개념적으로 샘플은 확률 분포에서 임의로 추출하는 것이기 때문에, 측정을 하기 전까지는 확률 분포에 따라 어떤 값들이 될 확률이 있는 것이지 어떤 값으로 결정되는 것이 아니다. "확률 분포에 따라 어떤 값들이 될 확률이 있는 수학적 오브젝트"를 표현하는 개념이 바로 random variable이므로 random sample은 random variable로 정의된다.[각주:3] 측정이나 실험을 통해 실제로 얻어지는 값들은 random sample의 realization이라고 부른다. 예를 들어 아령의 무게를 통계적으로 알고자 할 때, 추출한 아령 1번의 무게 random sample은 random variable \(X_1\) 이 되고, 실제로 측정을 해보니 5.03kg이 나왔다고 한다면, \(X_1\) 의 realization이 5.03kg이 되는 것이다.

 

Mutually independent라는 점과 identically distributed라는 점을 이용하여, random sample들의 joint distribution을 구할 수 있다. \(f(x)\) 에서 추출한 \(n\) 개의 random sample \(X_1\), ..., \(X_n\) 의 joint distribution은 다음과 같다.

\[ f(x_1,\cdots,x_n) = f(x_1)f(x_2)\cdots f(x_n) = \prod _{i=1} ^n f(x_i) \]

보통 marginal distribution으로 매개변수를 이용하는 경우가 많다. 예를 들어, normal distribution의 경우 \(\mu\) 와 \(\sigma^2\) 을 매개변수로 하여 \(\mathcal{N}(\mu,\sigma^2)\) 가 되는데, 이렇게 매개 변수를 강조하기 위하여 \(f(x)\) 대신, \(f\left(x|\mu, \sigma^2\right)\) 와 같이 | 뒤쪽에 매개변수를 써주는 것이 일반적인 표현 방법이다. 다만 주의할 것은 여기에서 | 는 조건부 확률을 이야기하는 것이 아니라 단순히 매개변수의 값을 표현하기 위한 것이므로 혼동하지 않도록 하자.

 

Example 1

Standard normal distribution \(\mathcal{N}(0,1)\)[각주:4] 에서 \(n\) 개의 random sample \(X_1\), ... ,\(X_n\) 을 추출하였다고 하자. 이 random sample들의 joint pdf를 구해보자. 먼저 standard normal distribution의 pdf는

\[ f(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} \]

이므로 random sample들의 joint pdf는

\[ f(x_1, \cdots, x_n) = \prod _{i=1} ^n \frac{1}{\sqrt{2\pi}}e^{-\frac{x_i ^2}{2}} = \left(\frac{1}{2\pi}\right)^{\frac{n}{2}} e^{-\frac{1}{2}\sum_{i=1} ^n x_i ^2} \]

 

Example 2

이번엔 Poisson (\(\lambda\)) distribution[각주:5]에 대하여 \(n\) 개의 random sample을 추출하였을 때, joint pmf가 어떻게 되는지 살펴보자. 먼저 Poisson distribution의 pmf는

\[ f(x|\lambda) = e^{-\lambda} \frac{\lambda^x}{x!} \]

이므로 random sample들의 joint pmf는

\[ f(x_1, \cdots, x_n |\lambda) = \prod _{i=1} ^n f(x_i|\lambda) = e^{-n\lambda}\frac{\lambda^{x_1+\cdots+x_n}}{x_1!\cdots x_n!} \]

 

#Simple Random Sampling

위의 random sample 정의는 흔히 simple random sampling이라고 하는 방법이다. 중학교, 고등학교 수학에서 확률 단원에 나오는 "상자에서 공을 뽑아 색을 관찰하고 다시 상자에 집어넣는" 샘플링 방법을 의미한다. 이러한 샘플링은 계산이 보다 단순해지기 때문에 상대적으로 자료를 분석하기 쉽다는 장점이 있다. 그러나 실제 유한한 모집단을 가지는 현실 세계에서, 특히 모집단의 전체 수가 작을 수록 모집단의 특성을 잘못 반영하게 되는 단점이 존재한다.

 

이 카테코리의 목적이 통계학에 대한 기본 개념과 도구들에 대한 이해에 있으므로 계산과 분석의 편의를 위하여 이하의 페이지에서도 위의 random sample 정의를 계속 사용할 것이다.

 

 

  1. mutually independent에 대한 내용은 4.6 다변량 분포 Multivariate Distributions 참고 [본문으로]
  2. identically distributed에 대한 자세한 내용은 1.5 누적 분포 함수 Cumulative Distribution Functions 참고 [본문으로]
  3. random variable에 대한 자세한 내용은 1.4 랜덤 변수 Random Variables 참고 [본문으로]
  4. standard normal distribution에 대해서는 3.7-① 표준 정규 분포 Standard Normal Distribution 참고 [본문으로]
  5. Poisson distribution에 대해서는 3.3 푸아송 분포, 푸아송 프로세스 Poisson Distributions, Poisson Process 참고 [본문으로]