본문 바로가기
Mathematics/통계학

[통계학] 3.7 정규 분포 Normal Distribution

by 피그티 2020. 9. 29.

이번 페이지에서는 이론적으로 가장 중요한 분포인 normal distribution(정규 분포)에 대하여 알아본다. 또 다른 이름으로 Gauss distribution(가우스 분포), Gaussian distribution(가우시안 분포), Laplace-Gauss distribution(라플라스-가우스 분포) 등의 이름으로 부른다. normal distribution의 응용 범위는 자연과학, 공학, 사회과학의 모든 영역에 걸쳐 있을 정도로 광범위 하므로 이 페이지에서 모든 것을 다루는 것은 불가능하다. 이 페이지에서는 normal distribution의 정의와 pdf, 평균, 분산 등만 살펴보도록 한다.

 

#Normal Distribution

실수 μ, 양수 σ 에 대하여, 연속적인 랜덤 변수 X 가 다음의 pdf를 가지는 경우 이를 '(parameter가 μσ2인) normal distribution'이라고 한다.[각주:1]

fX(x)=12πσe(xμ)22σ2      -<x<

랜덤 변수 X 가 normal distribution을 따른다는 것을 줄여서 다음과 같이 표현한다.

XN(μ,σ2)

 

#Gaussian Integral

실제로 fX 가 pdf이기 위해서는 다음의 2가지 조건을 만족해야 한다.[각주:2]

 

  1. fX(x)0

  2. fX(x) dx=1

첫번째 조건은 확률이 음수가 될 수 없다는 의미이고, 두번째 조건은 모든 확률을 더하면 1이 된다는 뜻이다. exponential 함수는 양수 함수이므로 첫번째 조건은 자연스럽게 만족된다. 두번째 조건을 만족하기 위해서는 다음을 보여야 한다.

12πσe(xμ)22σ2 dx=1

적분을 간단히 하기 위해서 새로운 변수 t=xμ2σ 를 정의하면, dt=12σdx 이므로, 위 식은 다음과 같이 압축된다.

 

 

THEOREM            Gaussian Integral

et2dt=π

 

가장 이해하기 쉬운 증명은 극좌표를 이용한 것이다.

 

먼저 식 (???) 의 좌변을 I 라고 정의하고 I 값을 구하기 위해 다음을 생각해보자.

I2=(ex2dx)(ey2dy)=e(x2+y2)dxdy

이 적분은 좌표평면 전체에 대한 적분이 된다.  dxdy 가 적분을 하는 방식은 (x,y) 에서 가로의 길이가 dx, 세로의 길이가 dy인 직사각형 만들어, 먼저 x방향으로 부터 까지 쌓고, 이를 다시 y방향으로 쌓는 것이다.[각주:3]

 

이를 극좌표로 다시 나타내보자. (r,θ) 에서 r 방향으로 dr , θ 방향으로 dθ 만큼 커졌을 때 생기는 넓이는 drdθ 가 매우 작기 때문에, 직사각형으로 근사할 수 있고 넓이는 r dθdr 가 된다.

 

이 기본 단위를 먼저 θ 방향으로 쌓고, 이를 다시 r 방향으로 쌓아서 좌표평면 전체를 나타낼 수 있다.

 

그리고 직교좌표와 극좌표의 관계

x=rcosθ

y=rsinθ

를 이용하면, e(x2+y2)=er2 이 된다. 따라서 식 (???)

I2=002πer2r dθdr

r2=t 로 치환하면,

I2=2π012etdt=π

이므로

I=π

 

변수를 치환하여 다음과 같은 결론을 얻을 수 있다.

 

COROLLARY            

eat2dt=πa       a>0

 

#Moment Generating Function of Normal Distribution

Normal distribution에서 mgf를 구하는 것이 크게 어렵지 않으므로, 이를 이용해 평균과 분산을 구하도록 하자. Mgf는 정의[각주:4]로부터

MX(t)=E[etX]=12πσetxe(xμ)22σ2 dx=12πσe(xμ)22σ2+tx dx

이 때,

(xμ)22σ+tx=12σ2[(x22μx+μ22σ2tx]=12σ2[x22(μ+σ2t)x+μ2]=12σ2[x22(μ+σ2t)x+(μ+σ2t)2(μ+σ2t)2+μ2]=12σ2[{x(μ+σ2t)}22μσ2tσ4t2]=[x(μ+σ2t)]22σ2+μt+σ2t22

이므로, 식 (???)

MX(t)=eμt+σ2t22 12πe[x(μ+σ2t)]22σ2 dx

이고, 마지막 적분은 Gaussian integral이므로

MX(t)=eμt+σ2t22

을 얻을 수 있다.

 

#Mean of Normal Distribution

Mgf를 t 에 대하여 한번 미분하면

ddtMX(t)=(μ+tσ2)eμt+σ2t22

이므로

E[X]=ddtMX(t)|t=0=μ

따라서 normal distribution의 평균은 parameter μ 임을 알 수 있다.

 

#Variance of Normal Distribution

Mgf를 t 에 대하여 두번 미분하면

ddtMX(t)=(μ+tσ2)2eμt+σ2t22+σ2eμt+σ2t22

이므로

E[X2]=d2dt2MX(t)|t=0=μ2+σ2

따라서 normal distribution의 분산은

(X)=E[X2]E[X]2=σ2

임을 알 수 있다.

 

#Graph of Normal Distribution

(???)를 살펴보면, exponential의 지수에 마이너스가 붙어있으므로 지수가 0일 때, 즉 x=μ 일 때 최대값을 가진다는 것을 알 수 있다. xμ 에서 벗어나면서, μ 보다 더 커지거나 아니면 작아지거나 상관없이, μ 에서 얼마나 떨어져 있는지에 따라 함수값이 점점 작아짐을 알 수 있다. μ 값이 normal distribution의 평균이므로, 결국 평균에서 벗어나면 벗어날 수록 점점더 함수값이 작아진다는 것을 알 수 있다. 이를 랜덤 변수 X 로 해석하면, normal distribution을 따르는 랜덤 변수 X 의 실제값을 측정했을 때, 평균 근처의 값이 나올 확률이 높고, 평균에서 많이 벗어나 있는 값이 나올 확률은 낮다는 뜻이 된다.

 

다른 parameter σ 는 확률과 확률 분포에 어떤 영향을 줄까? 같은 평균 μ 를 가지지만 다른 parameter 값 σ1<σ2 을 가지는 두 분포를 비교해보자. 먼저 x=μ 일 때 함수값은 각각 12πσ112πσ2 이므로 더 낮은 σ1 분포에서 함수값이 더 높다는 것을 알 수 있다. 즉, 더 낮은 σ 값을 가질 수록, 평균 근처의 값이 나올 확률이 높다. 이제, xμ 에서 1만큼 벗어난 곳에서는 평균에서 함수값에 비해 얼마나 낮아지는지 살펴보자. 평균에서 함수값에 비하여, 함수값이 e12σ2 배가 되므로, σ 값이 더 낮은 경우 함수값이 상대적으로 더 빨리 감소함을 알 수 있다. 즉, 더 낮은 σ 값을 가질 수록, 평균에서 많이 벗어나 있는 값이 나올 확률이 빠르게 감소한다.

 

이러한 사실들을 그래프에서 직접 확인할 수 있다.

 

Normal Distribution PDF

Inductiveload / Public domain via Wikimedia

 

같은 μ 값을 가지는 파란색, 빨간색, 오렌지색을 비교해보면, 가장 낮은 σ 값을 가지는 파란색이 평균 근처에서 가장 높은 확률을 가지지만, 평균에서 벗어날 수록 가장 빠르게 확률이 감소하고, 가장 높은 σ 값을 가지는 오렌지색이 평균 근처에서 가장 낮은 확률을 가지지만, 평균에서 벗어나도 감소하는 정도가 덜하다.

 

 

  1. 여러 normal distribution을 다룰때는 혼동되지 않도록 parameter를 명시해 주는것이 좋다. [본문으로]
  2. 1.6 확률 질량 함수, 확률 밀도 함수 Probability Mass Function, Probability Density Function 참고. [본문으로]
  3. 정적분은 구분구적법의 극한이다. [본문으로]
  4. 2.3 분산, 모멘트 생성 함수 Variance, Moment Generating Functions 참고. [본문으로]