본문 바로가기
Mathematics/통계학

[통계학] 2.3 분산, 모멘트 생성 함수 Variance, Moment Generating Functions

by 피그티 2020. 7. 24.

랜덤 변수의 분포를 나타내는 지표로서 평균은 랜덤 변수의 대표적인 값을 의미한다. 이에 더해, 랜덤 변수가 대표값으로부터 얼마나 떨어져 있냐는 것도 중요한 지표가 된다. 이러한 역할을 해주는 값으로 variance(분산)를 정의한다. 이번 페이지에서는 variance에 대하여 살펴보고, variance를 얻기 위해 도입되는 moment, 그리고 moment generating function에 대하여 살펴본다.


#Variance

Random variable의 variance를 다음과 같이 정의한다.


DEFINITION            Variances of Random Variables


Random variable \(X\) 에 대하여 \(E[(X-E[X])^2]\) 을 \(X\) 의 variance라고 하고, \(\mathrm{Var}(X)\) 로 쓴다. Variance의 루트를 \(X\)의 standard deviation(표준편차)라고 부른다.


Variance의 정의를 잘 살펴보면, \(E[X]\) 는 평균이므로, \(X-E[X]\) 는 평균으로부터 얼마나 떨어져있느냐의 척도가 된다. 다만, \(X-E[X]\) 는 부호가 있기 때문에 기대값을 취하면 0이 되어 의미가 없어지므로, 부호를 제거하기 위해 제곱을 하여 기대값을 구한 것이 variance가 된다. 따라서 Variance는 랜덤 변수의 분포가 평균으로부터 얼마나 떨어져 있는지를 나타내는 지표가 된다. \(X-E[X]\) 의 부호를 제거하기 위하여 제곱을 취하는 대신 절대값을 이용할 수도 있다. 즉, \(E[|X-E[X]|]\) 역시 평균으로부터 떨어진 정도의 척도가 된다. 실제로 deep learning 분야에서는 실제값과 예상값의 차이를 절대값으로 계산하는 함수인 Mean Absolute Error(MAE) loss function을 사용한다.


Variance는 \(X-E[X]\) 의 제곱을 구하기 때문에 단위가 있는 랜덤 변수의 경우 variance의 단위는 원래의 제곱이 된다. 따라서 단위를 맞추기 위해 variance의 루트를 취하여 standard deviation을 이용한다.


Expected value의 성질[각주:1]로부터 variance는 다음과 같은 성질을 얻을 수 있다.


THEOREM            Properties of Variances


Random variable \(X\), 상수 \(a\), \(b\)에 대하여,

\[ \mathrm{Var}(aX+b) = a^2 \mathrm{Var}(X) \]


(증명)

\[ \begin{align*} \mathrm{Var}(aX+b) &= E[\{(aX + b) - E[aX+b]\}^2] \\ &= E[(aX - aE[X])^2] & \leftarrow {\scriptstyle \text{the linearlity of expected value}}\\ &= E[a^2(X-E[X])^2] \\ &= a^2E[(X-E[X])^2] & \leftarrow {\scriptstyle \text{the linearlity of expected value}} \\ &= a^2 \mathrm{Var}(X) \end{align*} \]

(증명끝)


또한, expected value의 성질을 이용하면 variance를 다음과 같은 방식으로 계산할 수도 있다.


THEOREM

\[ \mathrm{Var}(X) = E[X^2] - (E[X])^2 \]


(증명)

\[ \begin{align*} \mathrm{Var}(X) &= E[(X-E[X])^2] \\ &= E[X^2 - 2X\cdot E[X] + (E[X])^2] \\ &= E[X^2] - 2(E[X])^2 + (E[X])^2 & \leftarrow {\scriptstyle \text{the linearlity of expected value, } E[X] ~\text{is a constant}} \\ &= E[X^2] - (E[X])^2 \end{align*} \]

(증명끝)


Examples

1. Poisson Distribution


주어진 \(\lambda>0\) 에 대하여, discrete random variable의 pmf가 다음과 같을 때, 이를 Poisson distribution이라고 부른다.

\[ f_X(x) = \frac{e^{-\lambda}\lambda^x}{x!} ~~~~~ \text{where } x= 0,1,2,... \]

먼저 mean을 구하면,

\[ \begin{align*} E[X] &= \sum _{x=0} ^\infty x \frac{e^{-\lambda}\lambda^x}{x!} \\ &= \sum _{x=1} ^\infty x\frac{e^{-\lambda}\lambda^x}{x!} \\ &= e^{-\lambda}\lambda \sum_{x=1} ^\infty \frac{\lambda^{x-1}}{(x-1)!} \\ &= e^{-\lambda}\lambda \sum_{t=0} ^\infty \frac{\lambda^t}{t!} \\ &= \lambda \end{align*} \]

같은 방식으로

\[ \begin{align*} E[X^2] &= \sum _{x=0} ^\infty x^2 \frac{e^{-\lambda}\lambda^x}{x!} \\ &= \sum _{x=1} ^\infty x^2\frac{e^{-\lambda}\lambda^x}{x!} \\ &= e^{-\lambda}\lambda \sum_{x=1} ^\infty x\frac{\lambda^{x-1}}{(x-1)!} \\ &= e^{-\lambda}\lambda \left[\sum_{x=1} ^\infty (x-1)\frac{\lambda^{x-1}}{(x-1)!} + \sum_{x=1} ^\infty \frac{\lambda^{x-1}}{(x-1)!} \right] \\ &= e^{-\lambda}\lambda^2 \sum_{x=2} ^\infty \frac{\lambda^{x-2}}{(x-2)!} + e^{-\lambda}\lambda \sum_{x=1} ^\infty \frac{\lambda^{x-1}}{(x-1)!} \\ &= e^{-\lambda}\lambda^2 \sum_{t=0} ^\infty \frac{\lambda^{t}}{t!} + e^{-\lambda}\lambda \sum_{t=0} ^\infty \frac{\lambda^{t}}{t!} \\ &= \lambda^2 + \lambda \end{align*} \]

따라서 \(\mathrm{Var}(X) = E[X^2] - (E[X])^2 = \lambda\) 를 얻을 수 있다.



2. Standard Normal Distribution


Random variable의 pdf가 다음과 같을 때, 이를 standard normal distribution이라고 부른다.

\[ f_X(x) = \frac{e^{-\frac{x^2}{2}}}{\sqrt{2\pi}} ~~~~~ \text{where } -\infty < x < \infty \]

먼저 mean을 구하면,

\[ E[X] = \frac{1}{\sqrt{2\pi}} \int _{-\infty} ^\infty xe^{-\frac{x^2}{2}} ~dx = \left. -\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} \right| _{-\infty} ^\infty = 0 \]

그리고

\[ E[X^2] = \frac{1}{\sqrt{2\pi}} \int _{-\infty} ^\infty x^2 e^{-\frac{x^2}{2}} ~dx = \left. -\frac{1}{\sqrt{2\pi}} xe^{-\frac{x^2}{2}} \right| _{-\infty} ^\infty + \frac{1}{\sqrt{2\pi}} \int _{-\infty} ^\infty e^{-\frac{x^2}{2}} ~dx = 1 \]

따라서 \(\mathrm{Var}(X) = E[X^2] - (E[X])^2 = 1\)을 얻을 수 있다.


#Moments #Moment Generating Functions

Random variable의 분포를 특징짓는 값인 mean은 \(E[X]\) 이고, variance는 계산과정에서 \(E[X]\) 와 \(E[X^2]\) 가 필요하다. 만약 여기에 더해 \(E[X^3]\), \(E[X^4]\), ...을 얻을 수 있다면 random variable을 더 자세히 파악할 수 있을 것이다. 이를 일반화하면 moment의 개념이 등장한다.


DEFINITION            Moments of Random Variables


Random variable \(X\) 에 대하여, \(E[X^n]\) 을 \(X\) 의 n번째 moment라고 부른다. 또한 \(E[(X-E[X])^n]\) 을 \(X\) 의 n번째 central moment라고 부른다.


위의 정의로부터 mean은 1번째 moment, variance는 2번째 central moment임을 정의로부터 바로 확인할 수 있다. 이러한 moment 값을 moment generating function(mgf)를 이용하여 구할 수 있다.


DEFINITION            Moment Generating Function


Random variable \(X\) 에 대하여,

\[ M_X(t) = E[e^{tX}] \]

가 정의되는 \(|t| < h\) 가 존재하는 경우[각주:2], \(M_X(t)\) 를 \(X\) 의 moment generating function이라고 부른다. 만약 \(M_X(t)\)가 정의되는 \(|t|<h\) 영역이 존재하지 않는 경우, moment generating function은 존재하지 않는다고 부른다.


mgf가 정의된 경우, mgf를 \(t\) 에 대하여 미분하면[각주:3]

\[ \begin{align*} \frac{d}{dt} M_X(t) &= \frac{d}{dt} \int _{-\infty} ^\infty e^{tx} f_X(x) ~dx \\ &= \int _{-\infty} ^\infty \left( \frac{d}{dt} e^{tx} \right) f_X(x) ~dx \\ &= \int _{-\infty} ^\infty xe^{tx}f_X(x) ~dx \\ &= E[Xe^{tX}] \end{align*} \]

이므로 미분한 결과에 \(t=0\) 을 대입하면 \(E[X]\) 를 얻는다. 같은 방식으로, mgf를 \(t\)에 대하여 2번 미분하면

\[ \frac{d^2}{dt^2} M_X(t) = E[X^2 e^{tX}] \]

여기에 \(t=0\) 을 대입하면 \(E[X^2]\) 를 얻는다. 이러한 결과를 일반화하면 다음 식을 얻는다.


THEOREM            


Random variable \(X\) 에 대하여 mgf \(M_X(t)\)가 존재하는 경우

\[ E[X^n] = \left. \frac{d^n}{dt^n} M_X(t) \right| _{t=0} \]


Expected value의 성질로 부터 다음과 같은 mgf의 성질을 얻을 수 있다.


THEOREM            


상수 \(a\), \(b\) 에 대하여,

\[ M_{aX+b} (t) = e^{bt}M_X(at) \]


Examples

1. Gamma Distributions


주어진 양수 \(\alpha\), \(\beta\) 에 대하여 random variable의 pdf가 다음과 같을 때, 이를 gamma distribution이라고 부른다.

\[ f(x) = \frac{1}{\Gamma(\alpha) \beta^\alpha} x^{\alpha -1} e^{-\frac{x}{\beta}} ~~~~~ \text{where } 0< x < \infty \]

이 때, \(\Gamma(\alpha)\) 는 gamma function이라는 적분값이다.[각주:4]

\[ \Gamma(\alpha) = \int _0 ^\infty t^{\alpha -1} e^{-t} ~dt \]

먼저, gamma distribution의 적분값은 1이라는 것을 확인하자.

\[ \int _0 ^\infty f(x) ~dx = \frac{1}{\Gamma(\alpha) \beta^\alpha} \int _0 ^\infty x^{\alpha -1} e^{-\frac{x}{\beta}} ~dx \]

이 때 적분 자체가 gamma function의 정의로부터 \(\Gamma(\alpha) \beta^\alpha\) 이므로 gamma distribution의 적분값은 1이 된다. 이제 mgf를 구해보면

\[ \begin{align*} M_X(t) &= \frac{1}{\Gamma(\alpha) \beta^\alpha} \int _0 ^\infty e^{tx} x^{\alpha -1} e^{-\frac{x}{\beta}} ~dx \\ &= \frac{1}{\Gamma(\alpha) \beta^\alpha} \int _0 ^\infty e^{tx} x^{\alpha -1} e^{-x\left(\frac{1}{\beta} -t \right)} ~dx \end{align*} \]

이 때 적분은 gamma function의 정의로부터 \(\Gamma(\alpha) \left(\frac{1}{\beta}-t\right)^\alpha\) 이므로

\[ M_X(t) = \frac{1}{\Gamma(\alpha) \beta^\alpha} \Gamma(\alpha) \left(\frac{1}{\beta}-t\right)^\alpha = \left( \frac{1}{1-\beta t}\right)^\alpha \]

여기에서 주의해야 할 것은 mgf가 성립하는 범위이다. 적분 내부에서 exponential의 계수가 음수이어야 하므로 \(t< \frac{1}{\beta}\) 의 영역에서 위식이 성립한다는 것을 알 수 있다. 만약 \(t \ge \frac{1}{\beta}\) 영역에서는 exponential이 발산하므로 적분불가능이다.



2. Binomial Distributions


주어진 자연수 \(n\) 과 \(0\le p\le 1\) 에 대하여, discrete random variable이 다음의 pmf를 만족하는 경우 binomial distribution이라고 한다.

\[ f_X(x) = \sum_{x=0} ^n \left( \begin{array}{c} n \\ x \end{array} \right) p^x (1-p)^{n-x} \]

이 distribution의 mgf를 구하면

\[ M_X(t) = E[e^{tX}] = \sum _{x=0} ^n e^{tx} \left( \begin{array}{c} n \\ x \end{array} \right) p^x (1-p)^{n-x} = \sum _{x=0} ^n \left( \begin{array}{c} n \\ x \end{array} \right) (pe^t)^x(1-p)^{n-x} \]

binomial theorem에 의해[각주:5]

\[ M_X(t) = \{ pe^t + (1-p) \} ^n \]


#Advanced Topics

1. Laplace Transform


mgf의 정의는 적분론 관점에서 \(f_X(x)\)의 Laplace transform이다. 따라서 mgf의 여러 특성들은 Laplace transform의 특성을 공유한다. 가장 중요한 성질은 Laplace transform의 uniqueness이다. 이로부터 identically distributed[각주:6]의 중요한 시각을 제공해준다. 1번째 moment가 mean, 2번째 central moment가 variance인 것처럼, moment들이 random variable의 distribution을 특징지운다. 그러면 모든 moment들을 알고 있으면 하나의 distribution으로 결정할 수 있을까? 2개의 random variable의 모든 moment들이 같은 경우, 그 두 random variable은 identically distributed일까? 아쉽게도 moment들이 distribution을 특징짓지만, 모든 moment들을 가지고 있다고 하더라도 하나의 distribution으로 결정할 수 없다. 즉, 2개의 random variable의 모든 moment들이 같아도 identically distribution하지 않을 수 있다. 그러나 mgf가 같은 경우에는 Laplace transofmr의 uniqueness로부터 identically distributed하게 된다.


THEOREM            


두 random variable \(X\), \(Y\)에 대하여 mgf가 존재하고, 모든 t에 대하여, \(M_X(t) = M_Y(t)\) 를 만족하는 0의 neighborhood가 존재하는 경우 \(X\)와 \(Y\)는 identically distributed되어 있다.


또한 Laplace transform의 uniqueness로부터 mgf의 convergence가 distribution의 convergence로 연결된다.


THEOREM            


Random variable \(X_1\), \(X_2\), ... 의 mgf를 \(M_{X_1}\), \(M_{X_2}\), ... 이라고 하자. 또한 이 mgf들이 함수 \(M_X(t)\) 에 수렴한다고 하자.

\[ \lim _{i\to \infty} M_{X_i} (t) = M_X(t) \]

그러면, cdf가 다음을 만족하는 \(F_X(x)\), mgf가 \(M_X(t)\) 가 되는 random variable \(X\)가 존재한다.

\[ \lim _{i\to \infty} F_{X_i} (x) = F_X(x) \]



2. Characteristic Functions


mgf는 분포에 따라 존재하지 않을 수도 있지만, \(f(x)\)의 Fourier transform

\[ \phi_X (t) = E[e^{itX}] = \int _{-\infty} ^\infty e^{itx}f(x) ~dx \]

는 항상 존재하고, \(L^2\) 에서 Fourier transform의 uniqueness에 의해 distribution을 수치적으로 완전히 결정한다. 이 함수를 characteristic function이라고 부른다. pdf, mgf는 분포에 따라서 존재하지 않을 수 있지만, cdf, characteristic function은 반드시 존재한다.



  1. 2.2 기대값 Expected Values 참고. [본문으로]
  2. topology의 언어로 '\\(t=0\\) 의 neighborhood가 존재하는 경우' [본문으로]
  3. 이 과정에서 미분과 적분의 순서가 바뀌는데, 엄밀히는 Lebesgue's monotone convergence theorem 또는 Lebesgue's dominated convergence theorem 조건을 체크해야 한다. 자세한 내용은 --Lebesgue,LMCT-- 참고. [본문으로]
  4. Gamma function에 대한 자세한 내용은 --gamma distribution-- 참고. [본문으로]
  5. \\( (a+b)^n = \\sum_{t=0} ^n \\left( \\begin{array}{c} n \\\\ t \\end{array} \\right)a^t b^{n-t} \\) [본문으로]
  6. 1.5 누적 분포 함수 Cumulative Distribution Functions 참고. [본문으로]