본문 바로가기
Mathematics/통계학

[통계학] 4.2-(1) Example: 두 개의 랜덤 변수에서 조건부 최적 예측

by 피그티 2021. 2. 21.

이번 페이지의 목표는 다음 식의 증명이다.

 

\(x\) 의 모든 함수 \(g(x)\) 에 대하여,
\[ \begin{equation} \min _{g(x)} E\left[ (Y-g(X))^2 \right]=E\left[ (Y-E(Y|X))^2 \right] \label{reg} \end{equation} \]

 

#Mean Squared Error, MSE

증명에 앞서 이 식의 의미를 파악해보자. 이 식은 단일 랜덤 변수에서

\[ \begin{equation} \min _{k \in \mathbb{R}} E\left[ (Y-k)^2 \right] = E\left[ (Y-E[Y])^2 \right] \label{reg1d} \end{equation} \]

의 일반화된 식이다. 식 \(\eqref{reg1d}\)에서 \((Y-k)^2\) 은 랜덤 변수 \(Y\) 와 특정한 값 \(k\) 의 squared error라고 부른다. Squared error가 표현하는 것은 이름 그대로, 랜덤 변수 \(Y\) 와 고정된 값 \(k\) 의 차이를 표현한다. 예를 들어, 랜덤 변수 \(Y\) 가 실제 실험에서 5, 2, 7, 10, 4로 측정이 되었을 때, \(k=3\) 의 squared error는 각각

\[ \begin{align*} (Y_1 - k)^2 &= (5-3)^2 = 4 \\ (Y_2 - k)^2 &= (2-3)^2 = 1 \\ (Y_3 - k)^2 &= (7-3)^2 = 16 \\ (Y_4 - k)^2 &= (10-3)^2 = 49 \\ (Y_5 -k)^2 &= (4-3)^2 = 1 \end{align*} \]

이 된다. 만약 \(k\) 값이 랜덤 변수 \(Y\) 값과 완전히 같다고 한다면, squared error는 이론적으로 0이 되어야 하지만 랜덤 변수의 확률성 때문에 값이 고정되지 않으므로, 어떤 고정된 수 \(k\) 가 \(Y\) 와 완전히 같아질 수는 없다. 대신, 고정된 수 \(k\) 가 랜덤 변수 \(Y\) 와 거의 비슷하다면 각 실험에서 squared error가 작은 값들을 가지게 되어 평균적으로도 squared error가 작은 값이 될 것이다. 이 때 squeared error의 평균 (또는 기대값)을 mean squared error(MSE)라고 부른다. 이러한 관점에서, MSE가 최소가 되는 고정된 수 \(k\) 를 찾는 것은 머신 러닝과 같은 분야의 기초가 된다. 그리고 식 \(\eqref{reg1d}\) 가 표현하는 것은 MSE를 최소로 만들어 주는 \(k\) 값은 \(E[Y]\) 라는 의미이다.

 

식 \(\eqref{reg}\) 는 식 \(\eqref{reg1d}\) 의 일반화된 식으로, MSE 관점에서 랜덤 변수 \(Y\) 와 가장 비슷하다고 할 수 있는 \(X\)의 함수는 \(E[Y|X]\) 라는 것이다. 식 \(\eqref{reg1d}\) 에서 \(Y\) 와 비슷한 고정된 값을 이야기했는데 왜 여기에서는 \(X\)의 함수를 이야기 해야하는 것일까? 4.2 다중 랜덤 변수에서 조건부 확률 Conditional Probability Distributions of Multiple Random Variables에서 살펴본 것과 같이, \(Y\) 는 \(X\) 가 어떤 값이 나오느냐에 따라 \(Y\) 의 값들이 다른 확률로 나오게 된다. 따라서 \(E[Y|X]\) 가 \(Y\) 와 가장 비슷하다고 하는 것은, \(X\) 가 어떤 값이냐에 따라 \(Y\) 와 가장 비슷한 값을 한번에 함수로 표현한 것으로 이해하면 된다. 예를 들어, \(X=1\) 인 경우에는 \(Y\) 와 가장 비슷한 값은 \(E[Y|1]\) 이 된다는 뜻이다.

 

경우에 따라 \(E[Y|X]\) 를 "\(Y\) 의 조건부 regression" 또는 "\(Y\) 의 조건부 최적 예측치"라고 부르기도 한다.

 

Proof

식 \(\eqref{reg}\) 의 좌변을 다음과 같이 정리하자.

\[ \begin{align*} E\left[ (Y-g(X))^2 \right] &= E\left[ ~(Y-E[Y|X] +E[Y|X] - g(X))^2 ~ \right] \\ &= E\left[ ~(Y-E[Y|X])^2 + (E[Y|X]-g(X))^2 + 2(Y-E[Y|X])(E[Y|X)-g(X)) ~\right] \end{align*} \]

Expected value의 성질을 이용하여

\[ E\left[ (Y-g(X))^2 \right] = E\left[ (Y-E[Y|X])^2 \right] + E\left[ (E[Y|X]-g(X))^2 \right] + 2E\left[ ~(Y-E[Y|X])(E[Y|X]-g(X))~ \right] \]

 

이제, 가장 마지막 항을 expected value 정의를 이용하여 전개해보자.

\[ \begin{align*} E\left[ ~(Y-E[Y|X])(E[Y|X]-g(X))~\right] &= \sum _x \sum_y \left( y-E[Y|x] \right) \left( E[Y|x] -g(x) \right) f(x,y) \\ &= \sum_x \sum_y y\left( E[Y|x] - g(x) \right) f(x,y) - \sum_x \sum_y E[Y|x] \left( E[Y|x] - g(x) \right) f(x,y) \\ &= \sum_x \sum_y y\left( E[Y|x] - g(x) \right) f(x,y) - \sum_x \left(E[Y|x] - g(x) \right) E[Y|x] \sum_y f(x,y) \end{align*} \]

이 때, conditional expected value 정의

\[ E[Y|x] = \sum _{y'} y' f(y'|x) = \sum _{y'} y' \frac{f(x,y')}{f_X(x)} = \frac{\sum _{y'} y'f(x,y')}{\sum_y f(x,y)} \]

이므로 맨 마지막 부분에서

\[ E[Y|x] \sum_y f(x,y) = \sum _{y'} y'f(x,y') \]

가 된다. 결국 식을 정리하면 \(E\left[ ~(Y-E[Y|X])(E[Y|X]-g(X))~\right] = 0\) 이 된다. Random vector가 continuous인 경우 \(\sum\) 을 적분으로 변경하면 똑같이 성립한다.

 

따라서,

\[ E\left[ (Y-E[Y|X])^2 \right] \ge E\left[ (Y-E[Y|X])^2 \right] \]

이고, 등호는 \(g(x)=E[Y|x]\) 일 때, 성립한다.

 

(END OF PROOF)