본문 바로가기
Mathematics/통계학

[통계학] 5.3-(1) 확률 변수의 수렴 Convergence of Random Variables

by 피그티 2022. 3. 2.

우리가 통계학적 도구를 사용하는 이유는 전체 분포를 알 수 없기 때문에 적당한 샘플링을 통해 전체 분포의 특징을 알아내기 위함이다. 이러한 방법이 작동하는 것은 샘플링해서 얻은 분포가 전체 분포와 비슷할 때일 것이다. 보통 샘플의 개수가 많아질 수록, 샘플로부터 얻은 값들이 모분포의 값으로 "수렴"해 간다는 것을 전제한다.

그러나 확률 변수가 어떤 확률 변수로 수렴해 간다는 미적분학에서 살펴보던 수열의 수렴과는 조금 양상이 다르다. 예를 들어, 보통 많이 사용하는 통계량인 샘플 평균에 대해서 생각해보자. A은 1,2,3,4,5의 카드 중에서 무작위로 계속 뽑고, B는 3의 카드만 계속 뽑는 경우에 카드를 계속하여 뽑을 수록 A의 샘플 평균은 B의 샘플 평균은 3에 점점 수렴하게 될 것이다. 하지만 A가 마주하게될 분포는 시간이 지나더라도 B의 분포와 비슷하게 될 수 없다. 즉, A의 샘플 평균이 B의 샘플 평균에 점점 수렴한다고 해서 B의 분포를 통해 A의 분포를 알수는 없다.

이번 페이지에서는 확률 변수의 수렴에 대한 몇가지 개념들을 살펴본다. 미적분학이나, 해석학에 익숙하지 않다면 다음으로 넘어가도 무방하다. 이하에서는 \(X_1\), \(X_2\), … 이 random sample처럼 iid하기 보다는 점점 어떤 것으로 수렴해 가는 수열로 가정할 것이다.

 

#Convergence in Distribution

가장 생각하기 쉬운 수렴 개념은, \(X_1\), \(X_2\), … 의 분포들이 직접 어떤 분포로 수렴해 가는 것이다. 아래의 정의를 살펴보자.

 

DEFINITION     Convergence in Distribution

Random variable의 수열 \(X_1\), \(X_2\), … 의 cdf가 모든 \(x\) 에 대하여,
\[ \lim _{n\to \infty} F_{X_{n}}(x) = F_X(x) \]
인 경우, \(X_1\), \(X_2\), ... 이 \(X\) 로 converge in distribution라고 부르고 \(X_n \xrightarrow{d} X\) 로 표기한다.

 

간단히, \(x\) 고정했을 때 \(F_{X_{1}}(x)\), \(F_{X_{2}}(x)\), ... 값들이 \(F_{X}(x)\) 라는 값에 수렴한다는 것이다. 모든 \(x\) 에 대해서 이렇게 수렴하므로 \(F_{X_{n}}\) 이라는 함수 자체가 수렴한다고 생각할 수 있고, 이 함수가 cdf이므로 결국 random variable 자체가 random variable \(X\) 에 수렴하는 것으로 이해할 수 있다.

 

#Convergence in Probability

이 수렴의 기본 아이디어는 \(X_n\)과 \(X\)이 확률 변수이므로, \(n\)이 커졌을 때 \(X_n\)이 산출하는 값과 \(X\)가 산출하는 값이 차이가 너무 크게 나는 확률이 작아진다면 수렴한다고 볼 수 있다는 개념이다. 다음 정의를 살펴보자.

 

DEFINITION     Convergence in Probability

Random variable의 수열 \(X_1\), \(X_2\), ... 가 모든 양수 \(\epsilon\) 에 대하여,
\[ \lim _{n\to \infty} P\left( \left| X_n - X \right| > \epsilon \right) = 0 \]
이면, \(X_1\), \(X_2\), ... 이 \(X\) 로 converge in probability라고 부르고, \(X_n \xrightarrow{p} X\) 로 표기한다.

 

\(\lim\) 안쪽을 보면, \(P\left( \left| X_n - X \right| > \epsilon \right)\) 는 \(X_n\) 과 \(X\) 의 차이가 어떤 양수 \(\epsilon\) 보다 클 확률이다. 만약 양수 \(\epsilon\) 값을 어떻게 잡더라도 이 확률이 0 이라면, \(X_n\) 과 \(X\) 는 확률을 살펴봤을 때 차이가 없다고 할 수 있을 것이다. 반대로 \(P\left( \left| X_1 - X \right| > \epsilon \right)\), \(P\left( \left| X_2 - X \right| > \epsilon \right)\), ... 의 확률 값들이 0은 아니지만 \(n\) 이 커질수록 점점 작아져 0에 수렴하게 된다면, \(X_1\), \(X_2\), ... 들이 \(n\) 이 커질수록 \(X\) 와 확률 관점에서 차이가 점점 줄어들어 결국 수렴하게 된다는 것으로 이해할 수 있다.

 

Convergence in probability는 convergence in distribution보다 더 강한 조건인데, 이 사실은 다음 정리로부터 알 수 있다.

 

THEOREM

Random variable의 수열 \(X_1\), \(X_2\), ... 이 \(X_n \xrightarrow{p} X\) 이면 \(X_n \xrightarrow{d} X\) 이다.

 

(증명)

여기에서는 1차원 random variable에 대해서만 살펴본다. 일반적인 random vector의 경우 이 결과를 응용하여 쉽게 얻을 수 있다. 먼저 다음 보조 정리가 필요하다.

 

Lemma

임의의 random variable \(X\), \(Y\), 실수 \(a\), 양수 \(\epsilon\) 에 대하여,
\[ P(Y \le a) ~\le~ P(X\le a+\epsilon) + P(|Y-X| > \epsilon) \]

 

보조 정리를 이용하면

\[ \begin{align*} P(X_n \le a) ~~&\le~~ P(X\le a+\epsilon) + P(|X_n -X| > \epsilon) \\ \\ P(X\le a-\epsilon) ~~&\le~~ P(X_n\le a) + P(|X_n - X| > \epsilon) \end{align*} \]

따라서

\[ P(X\le a-\epsilon) - P(|X_n -X| > \epsilon) ~~\le~~ P(X_n\le a) ~~\le~~ P(X \le a+\epsilon) + P(|X_n-X| > \epsilon) \]

이제 \(\lim\) 을 적용하면

\[ F_{X}(a-\epsilon) ~~\le~~ \lim _{n\to \infty} F_{X_n}(a) ~~\le~~ F_X(a+\epsilon) \]

cdf가 almost everywhere에서 continuous이므로, 모든 양수 \(\epsilon\) 에 대하여 위 식이 성립한 다는 것은

\[ \lim _{n\to \infty} F_{X_n}(a) = F_X(a) \]

(증명 끝)

 

왜 convergence in probability와 같은 개념들이 따로 필요할까? 일반적으로 cdf의 수렴이 pdf의 수렴을 의미하지는 않는다. 예를 들어, pdf \(f_{X_n}(x) = (1-\cos{(2\pi nx)}) \mathbf{1}_{(0,1)}\) 를 생각해보면, cdf는 Uniform(0,1) 에 수렴하지만, pdf는 수렴하지 않는다. 그러나 위 정리로부터 pdf가 convergence in probability일 때는 convergence in distribution를 만족한다. weak law of large numbers와 같이 많은 유형의 근사들이 convergence in probability임을 살펴볼 것이다.

 

#Almost Sure Convergence

이 수렴의 기본 아이디어는 probability function이 event space의 measure라는 관점에서 접근하는 것이다.[각주:1] 확률 변수 역시 event space의 함수이므로 \(X_n\)이라는 함수가 \(X\)에 수렴하는 event의 크기가 1, 즉 확률이 1이라는 관점으로 생각하는 것이다.

 

DEFINITION     Almost Sure Convergence

Random variable의 수열 \(X_1\), \(X_2\), ... 가 random variable \(X\) 에 대하여,
\[ P\left( \lim _{n\to \infty} X_n = X \right) = 1 \]
이면, \(X_1\), \(X_2\), ... 이 \(X\) 로 almost sure converge한다고 부르고, \(X_n \xrightarrow{a.s.} X\) 로 표기한다.

 

위 정의를 event space \(\Omega\) 의 measure라는 관점에서 다시 정리하면 다음과 같다.

\[ P\left( \omega \in \Omega ~:~ \lim _{n\to\infty} X_n(\omega) = X(\omega) \right) = 1 \]

Random variable이 event를 하나의 숫자로 변환하는 함수이므로, 결국 \(X_n\)으로 변환된 값이 \(X\)로 변환된 값에 수렴하는 event들이 event space에서 크기가 1이라는 뜻이다. 반대로, 수렴하지 않는 event들은 event space에서 크기가 0이라는 뜻이다.

 

Convergence almost surely가 convergence in probability보다 더 강한 조건인 것은 다음과 같이 정리된다.

 

THEOREM

Random variable의 수열 \(X_1\), \(X_2\), ... 이 \(X_n \xrightarrow{as} X\) 이면 \(X_n \xrightarrow{p} X\) 이다.

 

(증명)

Almost sure convergence을 limit infimum의 개념을 통해 정리하면, 임의의 양수 \(\epsilon\) 에 대하여

\[ P \left( \lim \inf \{ \omega \in \Omega : | X_n (\omega) - X(\omega) | < \epsilon \} \right) = 1 \]

이므로, Fatou's lemma를 적용하면 곧바로 convergence in probability를 얻을 수 있다.

(증명 끝)

 

Convergent in probability이면 convergent in distribtuion이므로, convergent almost surely이면 convergent in distribution이다.

 

Example 1.

닫힌 구간 \([0,1]\) 에서 정의되는 random variable \(X_n (x) = x + x^n\)의 수열을 생각해보자. \(x\)의 값이 0부터 1사이의 값인 경우에는 \(x^n \to 0\)이므로 \(X_n(x) \to x\)이다. 그러나 \(x=1\)인 경우 \(x^n \to 1\)이므로 \(X_n(1) \to 2\)가 된다. 따라서 random variable \(X(x)=x\) 라고 정의하면, \(X_n\)은 \(X\)에 converge하지 않는다. 그러나 \(X_n \ne X\)인 \(x\)를 찾아보면 \(x=1\)이 유일하고, \(P(x=1)=0\)[각주:2] 따라서, \(P(\lim_{n\to\infty} X_n=X)=1 - P(s=1) = 1\), 즉, \(X_n\)은 \(X\)에 almost sure converge한다.

 

 

 
  1. -- Lebesgue, measure 참고-- [본문으로]
  2. 점에 해당하는 event의 확률은 0이다. 자세한 내용은 1.6 확률 질량 함수, 확률 밀도 함수 Probability Mass Function, Probability Density Function 참고. [본문으로]