본문 바로가기
Mathematics/통계학

[통계학] 1.5 누적 분포 함수 Cumulative Distribution Functions

by 피그티 2020. 7. 14.

랜덤 변수 \(X\)에 대한 확률이 정의되면, cumulative distribution function(누적 분포 함수)을 구할 수 있게 된다. 누적 분포 함수는 랜덤 변수가 특정 값보다 작거나 같을 확률을 나타내는 함수이다. '누적'이라는 이름은 특정 값보다 작은 값들의 확률을 모두 누적해서 구한다는 의미에서 붙여진 이름이다.


DEFINITION            Cumulative Distribution Functions


랜덤 변수 \(X\)에 대하여 정의된 확률을 \(P_X\)라고 할 때, 다음과 같이 정의되는 함수 \(F_X(x)\)를 \(X\)의 cumulative distribution function이라고 부른다. (간단히 cdf라고 표현하기도 한다.)

$$ F_X(x) = P_X (X\le x) $$


예제를 살펴보자.



1. 동전 던지기 실험


동전을 던져서 앞면이 나올 때까지 몇 번이나 걸리는지 확인하는 실험을 생각해보자. 앞면이 나올 확률을 \(p\), 뒷면이 나올 확률을 \((1-p)\)라고 하고, 랜덤 변수 \(X\)를 앞면이 나올 때까지 걸린 횟수라고 정의하면, \(x\)번 던져 앞면이 나올 확률은

$$ P_X(X=x) = (1-p)^{x-1} p $$

이다. 이제, 이 실험에 대하여 cumulative distribution function을 구하면

$$ F_X(x) = P_X(X\le x) = \sum _{t=1} ^x (1-p)^{t-1} p $$

등비수열의 합 공식을 이용하면,

$$ F_X(x) = \frac{1-(1-p)^x}{1-(1-p)}p = 1-(1-p)^x ~~~x=1,2,3,\cdots$$

예를 들어, 앞면이 나올 확률과 뒷면이 나올 확률이 1/2로 같다면 \(F_X(x) = 1 - \frac{1}{2^x}\)로 이름처럼, \(x\)가 커질수록 \(F_X\)가 증가함을 알 수 있다.


이 문제에서 \(F_X(3.5)\)와 같은 값은 어떻게 정의되는 것일까? 정의로부터

$$ F_X(3.5) = P_X (X \le 3.5) = P_X (X=1) + P_X(X=2) + P_X(X=3) = P_X(X \le 3) = F_X(3) $$

임을 알 수 있다. 이를 floor function으로 표현하면 \(F_X(3.5) = F_X(\lfloor 3.5 \rfloor)\)로 나타낼 수 있다. 이런 식으로, cumulative distribution function은 discrete random variable에 대해서도 모든 값에 함수 값을 가진다.

$$ \begin{equation*} F_X(x) = \left\{  \begin{array}{cl} 0 & \text{if } x<1 \\ 1-(1-p)^{\lfloor x \rfloor} & \text{if } x\ge 1 \end{array} \right. \end{equation*} $$


image by Wolfram Mathematica (\(p=1/2\))


그래프에서 볼 수 있듯이 cdf는 항상 continuous한 것은 아니다. 그러나 discrete random variable에서도 floor function을 이용해 모든 실수 값에 함수를 정의할 수 있으므로, floor function의 특성상 right-continuous하다는 것을 알 수 있다. 이를 종합하면 다음과 같이 정리할 수 있다.


THEOREM            


함수 \(F\)가 cumulative distribution function이면 다음을 만족한다.


   ① \(\lim _{x\to -\infty} F(x) = 0\)


   ② \(\lim _{x\to \infty} F(x) = 1\)


   ③ \(F(x)\)는 nondecreasing


   ④ \(F(x)\)는 right-continuous, 즉 \(\lim _{x\to a^-} F(x) = F(a)\)


반대로 어떤 함수 \(F\)가 위의 조건을 모두 만족하면 \(F\)는 어떤 랜덤 변수의 cdf가 된다.



2. Logistic Function


Logistic regression에서 사용되는 logistic function

$$ F(x) = \frac{1}{1+e^{-x}} $$

역시 cumulative distribution function이다. Deep learning 분야에서는 sigmoid function으로 알려져 있으며, 데이터를 학습하여 2 종류의 카테고리로 분류하는 알고리즘의 activation function으로 사용된다. (자세한 내용은 --logistic regression-- 참고) Logistic function이 위의 조건을 모두 만족하는지 살펴보자. 


   ① \(x \to -\infty\)인 경우 \(e^{-x} \to \infty\)이므로 분모가 매우 커지므로 \(F(x) \to 0\)


   ② \(x \to \infty\)인 경우 \(e^{-x} \to 0\)이므로 분모가 1에 수렴하므로 \(F(x) \to 1\)


   ③ 지수함수 \(e^{-x}\)는 decreasing function이므로 분모는 \(x\)가 커질 수록 작아진다. 따라서 \(F(x)\)는 increasing function


   ④ 지수함수 \(e^{-x}\)는 모든 실수에 대하여 continuous하고 -1이 될 수 없으므로 \(F(x)\)는 모든 실수에 대하여 continuous


따라서 위의 조건을 모두 만족함을 알 수 있다.



3. 동전 던지기 실험 2


앞면이 나올 확률과 뒷면이 나올 확률이 똑같이 1/2인 동전을 3번 던졌을 때 앞면이 나온 횟수를 랜덤 변수 \(X\), 뒷면이 나온 횟수를 랜덤 변수 \(Y\)라고 하자. 모든 경우의 수에 대하여 \(X\)와 \(Y\)는 다음과 같은 값을 가진다.


case

X

Y

(뒤,뒤,뒤)

0

3

(앞,뒤,뒤)  (뒤,앞,뒤)  (뒤,뒤,앞)

1

2

(뒤,앞,앞)  (앞,뒤,앞)  (앞,앞,뒤)

2

1

(앞,앞,앞)

3

0


위의 표에서 보는 바와 같이 한 사건에 대하여 \(X\)와 \(Y\)는 다른 값을 가진다. 그러나

$$ \begin{align*} P(X=0) = P(Y=0) = \frac{1}{8} \\ P(X=1) = P(Y=1) = \frac{3}{8} \\ P(X=2) = P(Y=2) = \frac{3}{8} \\ P(X=3) = P(Y=3) = \frac{1}{8} \end{align*} $$

이렇게 같은 랜덤 변수의 값에 대하여 확률이 같은 두 랜덤 변수를 서로 identically distributed 되었다고 부른다.


DEFINITION            Identically Distributed Random Variables


두 랜덤 변수 \(X\)와 \(Y\)가 임의의 event에 대하여 \(P(X\in A) = P(Y\in A)\)이면 identically distributed 되었다고 한다.


다시 한번 언급하지만, identically distributed 되었다는 것이 \(X=Y\)를 의미하는 것은 아니다. identically distributed는 어떤 값을 가질 확률이 같다는 뜻이지, 한 사건에 대하여 똑같은 값을 가진다는 뜻이 아니다. 방금 예제의 경우 한 사건에 대하여 \(X\)와 \(Y\)가 같은 값을 가지는 경우는 한 번도 없었다.


THEOREM            


두 랜덤 변수 \(X\)와 \(Y\)가 identically distributed 되면 cdf는 \(F_X(x) = F_Y(y)\)이다. 반대로 cdf가 \(F_X(x) = F_Y(x)\)이면 두 랜덤 변수는 identically distributed 되어있다.