본문 바로가기
Mathematics/통계학

[통계학] 2.3 분산, 모멘트 생성 함수 Variance, Moment Generating Functions

by 피그티 2020. 7. 24.

랜덤 변수의 분포를 나타내는 지표로서 평균은 랜덤 변수의 대표적인 값을 의미한다. 이에 더해, 랜덤 변수가 대표값으로부터 얼마나 떨어져 있냐는 것도 중요한 지표가 된다. 이러한 역할을 해주는 값으로 variance(분산)를 정의한다. 이번 페이지에서는 variance에 대하여 살펴보고, variance를 얻기 위해 도입되는 moment, 그리고 moment generating function에 대하여 살펴본다.


#Variance

Random variable의 variance를 다음과 같이 정의한다.


DEFINITION            Variances of Random Variables


Random variable X 에 대하여 E[(XE[X])2]Xvariance라고 하고, Var(X) 로 쓴다. Variance의 루트를 Xstandard deviation(표준편차)라고 부른다.


Variance의 정의를 잘 살펴보면, E[X] 는 평균이므로, XE[X]평균으로부터 얼마나 떨어져있느냐의 척도가 된다. 다만, XE[X] 는 부호가 있기 때문에 기대값을 취하면 0이 되어 의미가 없어지므로, 부호를 제거하기 위해 제곱을 하여 기대값을 구한 것이 variance가 된다. 따라서 Variance는 랜덤 변수의 분포가 평균으로부터 얼마나 떨어져 있는지를 나타내는 지표가 된다. XE[X] 의 부호를 제거하기 위하여 제곱을 취하는 대신 절대값을 이용할 수도 있다. 즉, E[|XE[X]|] 역시 평균으로부터 떨어진 정도의 척도가 된다. 실제로 deep learning 분야에서는 실제값과 예상값의 차이를 절대값으로 계산하는 함수인 Mean Absolute Error(MAE) loss function을 사용한다.


Variance는 XE[X] 의 제곱을 구하기 때문에 단위가 있는 랜덤 변수의 경우 variance의 단위는 원래의 제곱이 된다. 따라서 단위를 맞추기 위해 variance의 루트를 취하여 standard deviation을 이용한다.


Expected value의 성질[각주:1]로부터 variance는 다음과 같은 성질을 얻을 수 있다.


THEOREM            Properties of Variances


Random variable X, 상수 a, b에 대하여,

Var(aX+b)=a2Var(X)


(증명)

Var(aX+b)=E[{(aX+b)E[aX+b]}2]=E[(aXaE[X])2]the linearlity of expected value=E[a2(XE[X])2]=a2E[(XE[X])2]the linearlity of expected value=a2Var(X)

(증명끝)


또한, expected value의 성질을 이용하면 variance를 다음과 같은 방식으로 계산할 수도 있다.


THEOREM

Var(X)=E[X2](E[X])2


(증명)

Var(X)=E[(XE[X])2]=E[X22XE[X]+(E[X])2]=E[X2]2(E[X])2+(E[X])2the linearlity of expected value, E[X] is a constant=E[X2](E[X])2

(증명끝)


Examples

1. Poisson Distribution


주어진 λ>0 에 대하여, discrete random variable의 pmf가 다음과 같을 때, 이를 Poisson distribution이라고 부른다.

fX(x)=eλλxx!     where x=0,1,2,...

먼저 mean을 구하면,

E[X]=x=0xeλλxx!=x=1xeλλxx!=eλλx=1λx1(x1)!=eλλt=0λtt!=λ

같은 방식으로

E[X2]=x=0x2eλλxx!=x=1x2eλλxx!=eλλx=1xλx1(x1)!=eλλ[x=1(x1)λx1(x1)!+x=1λx1(x1)!]=eλλ2x=2λx2(x2)!+eλλx=1λx1(x1)!=eλλ2t=0λtt!+eλλt=0λtt!=λ2+λ

따라서 Var(X)=E[X2](E[X])2=λ 를 얻을 수 있다.



2. Standard Normal Distribution


Random variable의 pdf가 다음과 같을 때, 이를 standard normal distribution이라고 부른다.

fX(x)=ex222π     where <x<

먼저 mean을 구하면,

E[X]=12πxex22 dx=12πex22|=0

그리고

E[X2]=12πx2ex22 dx=12πxex22|+12πex22 dx=1

따라서 Var(X)=E[X2](E[X])2=1을 얻을 수 있다.


#Moments #Moment Generating Functions

Random variable의 분포를 특징짓는 값인 mean은 E[X] 이고, variance는 계산과정에서 E[X]E[X2] 가 필요하다. 만약 여기에 더해 E[X3], E[X4], ...을 얻을 수 있다면 random variable을 더 자세히 파악할 수 있을 것이다. 이를 일반화하면 moment의 개념이 등장한다.


DEFINITION            Moments of Random Variables


Random variable X 에 대하여, E[Xn]Xn번째 moment라고 부른다. 또한 E[(XE[X])n]Xn번째 central moment라고 부른다.


위의 정의로부터 mean은 1번째 moment, variance는 2번째 central moment임을 정의로부터 바로 확인할 수 있다. 이러한 moment 값을 moment generating function(mgf)를 이용하여 구할 수 있다.


DEFINITION            Moment Generating Function


Random variable X 에 대하여,

MX(t)=E[etX]

가 정의되는 |t|<h 가 존재하는 경우[각주:2], MX(t)Xmoment generating function이라고 부른다. 만약 MX(t)가 정의되는 |t|<h 영역이 존재하지 않는 경우, moment generating function은 존재하지 않는다고 부른다.


mgf가 정의된 경우, mgf를 t 에 대하여 미분하면[각주:3]

ddtMX(t)=ddtetxfX(x) dx=(ddtetx)fX(x) dx=xetxfX(x) dx=E[XetX]

이므로 미분한 결과에 t=0 을 대입하면 E[X] 를 얻는다. 같은 방식으로, mgf를 t에 대하여 2번 미분하면

d2dt2MX(t)=E[X2etX]

여기에 t=0 을 대입하면 E[X2] 를 얻는다. 이러한 결과를 일반화하면 다음 식을 얻는다.


THEOREM            


Random variable X 에 대하여 mgf MX(t)가 존재하는 경우

E[Xn]=dndtnMX(t)|t=0


Expected value의 성질로 부터 다음과 같은 mgf의 성질을 얻을 수 있다.


THEOREM            


상수 a, b 에 대하여,

MaX+b(t)=ebtMX(at)


Examples

1. Gamma Distributions


주어진 양수 α, β 에 대하여 random variable의 pdf가 다음과 같을 때, 이를 gamma distribution이라고 부른다.

f(x)=1Γ(α)βαxα1exβ     where 0<x<

이 때, Γ(α) 는 gamma function이라는 적분값이다.[각주:4]

Γ(α)=0tα1et dt

먼저, gamma distribution의 적분값은 1이라는 것을 확인하자.

0f(x) dx=1Γ(α)βα0xα1exβ dx

이 때 적분 자체가 gamma function의 정의로부터 Γ(α)βα 이므로 gamma distribution의 적분값은 1이 된다. 이제 mgf를 구해보면

MX(t)=1Γ(α)βα0etxxα1exβ dx=1Γ(α)βα0etxxα1ex(1βt) dx

이 때 적분은 gamma function의 정의로부터 Γ(α)(1βt)α 이므로

MX(t)=1Γ(α)βαΓ(α)(1βt)α=(11βt)α

여기에서 주의해야 할 것은 mgf가 성립하는 범위이다. 적분 내부에서 exponential의 계수가 음수이어야 하므로 t<1β 의 영역에서 위식이 성립한다는 것을 알 수 있다. 만약 t1β 영역에서는 exponential이 발산하므로 적분불가능이다.



2. Binomial Distributions


주어진 자연수 n0p1 에 대하여, discrete random variable이 다음의 pmf를 만족하는 경우 binomial distribution이라고 한다.

fX(x)=x=0n(nx)px(1p)nx

이 distribution의 mgf를 구하면

MX(t)=E[etX]=x=0netx(nx)px(1p)nx=x=0n(nx)(pet)x(1p)nx

binomial theorem에 의해[각주:5]

MX(t)={pet+(1p)}n


#Advanced Topics

1. Laplace Transform


mgf의 정의는 적분론 관점에서 fX(x)의 Laplace transform이다. 따라서 mgf의 여러 특성들은 Laplace transform의 특성을 공유한다. 가장 중요한 성질은 Laplace transform의 uniqueness이다. 이로부터 identically distributed[각주:6]의 중요한 시각을 제공해준다. 1번째 moment가 mean, 2번째 central moment가 variance인 것처럼, moment들이 random variable의 distribution을 특징지운다. 그러면 모든 moment들을 알고 있으면 하나의 distribution으로 결정할 수 있을까? 2개의 random variable의 모든 moment들이 같은 경우, 그 두 random variable은 identically distributed일까? 아쉽게도 moment들이 distribution을 특징짓지만, 모든 moment들을 가지고 있다고 하더라도 하나의 distribution으로 결정할 수 없다. 즉, 2개의 random variable의 모든 moment들이 같아도 identically distribution하지 않을 수 있다. 그러나 mgf가 같은 경우에는 Laplace transofmr의 uniqueness로부터 identically distributed하게 된다.


THEOREM            


두 random variable X, Y에 대하여 mgf가 존재하고, 모든 t에 대하여, MX(t)=MY(t) 를 만족하는 0의 neighborhood가 존재하는 경우 XY는 identically distributed되어 있다.


또한 Laplace transform의 uniqueness로부터 mgf의 convergence가 distribution의 convergence로 연결된다.


THEOREM            


Random variable X1, X2, ... 의 mgf를 MX1, MX2, ... 이라고 하자. 또한 이 mgf들이 함수 MX(t) 에 수렴한다고 하자.

limiMXi(t)=MX(t)

그러면, cdf가 다음을 만족하는 FX(x), mgf가 MX(t) 가 되는 random variable X가 존재한다.

limiFXi(x)=FX(x)



2. Characteristic Functions


mgf는 분포에 따라 존재하지 않을 수도 있지만, f(x)의 Fourier transform

ϕX(t)=E[eitX]=eitxf(x) dx

는 항상 존재하고, L2 에서 Fourier transform의 uniqueness에 의해 distribution을 수치적으로 완전히 결정한다. 이 함수를 characteristic function이라고 부른다. pdf, mgf는 분포에 따라서 존재하지 않을 수 있지만, cdf, characteristic function은 반드시 존재한다.



  1. 2.2 기대값 Expected Values 참고. [본문으로]
  2. topology의 언어로 '\(t=0\) 의 neighborhood가 존재하는 경우' [본문으로]
  3. 이 과정에서 미분과 적분의 순서가 바뀌는데, 엄밀히는 Lebesgue's monotone convergence theorem 또는 Lebesgue's dominated convergence theorem 조건을 체크해야 한다. 자세한 내용은 --Lebesgue,LMCT-- 참고. [본문으로]
  4. Gamma function에 대한 자세한 내용은 --gamma distribution-- 참고. [본문으로]
  5. \( (a+b)^n = \sum_{t=0} ^n \left( \begin{array}{c} n \\ t \end{array} \right)a^t b^{n-t} \) [본문으로]
  6. 1.5 누적 분포 함수 Cumulative Distribution Functions 참고. [본문으로]