본문 바로가기
Mathematics/통계학

[통계학] 1.6 확률 질량 함수, 확률 밀도 함수 Probability Mass Function, Probability Density Function

by 피그티 2020. 7. 14.

Cumulative distribution function \(F_X\)는 random variable \(X\)의 확률에 대한 정보를 담고 있지만, '누적'이라는 이름처럼, 특정값의 확률이 아닌, 특정값보다 작거나 같을 확률이기 때문에 특정값의 확률을 나타내는 probability mass function(확률 질량 함수, 줄여서 pmf), probability density function(확률 밀도 함수, 줄여서 pdf)를 더 많이 사용한다. 이번 페이지에서는 pmf와 pdf에 대하여 살펴본다.


#Probability Mass Functions

pmf는 불연속적인 random variable이 특정값을 가질 확률을 나타내는 함수이다. 1.2 확률 Probability에서 유한한 sample space의 확률을 정의한 것으로부터 random variable이 특정값을 가질 확률 직접 표현하는데 크게 문제가 없다. (무한하지만 불연속인 경우도 같은 방식)


DEFINITION            Probability Mass Functions


불연속적인 random variable \(X\)에 대하여 다음 함수 \(f_X\)를 \(X\)의 probability mass function(pmf)라고 한다.

$$ f_X(x) = P(X=x) $$

\(X\)가 \(f_X\)를 pmf로 가지는 경우 \(X \sim f_X\)로 표현한다.


pmf로부터 \(X\)가 \(a\)에서 \(b\) 사이에 있을 확률은

$$ P(a \le X \le b) = \sum _{a \le i \le b} f_X(i) $$

로 구할 수 있다. 같은 방식으로 pmf로부터 cdf를 구할 수 있다.

$$ F_X(x) = P(X \le x) = \sum_{i \le x} f_X(i) $$


1. 동전 던지기 실험


동전을 던져서 앞면이 나오는데 몇 번이나 걸리는지 확인하는 실험에서 앞면이 나올 확률을 \(p\), 뒷면이 나올 확률을 \((1-p)\), random variable \(X\)를 앞면이 나올 때까지 던진 횟수로 정의하면, \(x\)번 던져 처음으로 앞면이 나올 확률

$$ P(X=x) = (1-p)^{x-1} p $$

가 pmf가 된다. 처음으로 앞면이 나오기까지 던진 횟수가 2~5 사이가 될 확률은

$$ P(2 \le X \le 5) = \sum _{i=2} ^5 (1-p)^{i-1}p $$

로 구할 수 있다.


#Probability Density Functions

연속적인 random variable이 특정값을 가질 확률을 나타내는 개념이 pdf이다. 그러나 pmf와 같이 정확히 \(X=x\) 일 때의 확률을 정의할 수 없다. 만약 연속적인 random variable에서 \(P(X=x)\)가 0이 아니라면, countable additivity에 의해 전체 sample space의 확률은 무한대가 되어버린다. 더 정확히 살펴보면 \(\epsilon > 0\)에 대하여 \(\{X=x\} \subset \{x-\epsilon < X \le x\}\)이므로

$$ P(X=x) \le P(x-\epsilon < X \le x) = F_X(x) - F_X(x-\epsilon) $$

따라서

$$ 0 \le P(X=x) \le \lim _{\epsilon \to 0+} [F_X(x) - F_X(x-\epsilon)] $$

이 때, random variable이 continuous하므로 \(F_X\)도 continuous, 즉, 마지막 항은 0이므로 \(P(X=x)=0\) 이라는 결론을 얻는다.


불연속적인 random variable의 경우 pmf와 cdf의 관계

$$ F_X(x) = \sum _{i \le x} f_X(i) $$

인 것처럼 연속적인 random variable의 pdf와 cdf의 관계도 비슷해야 한다. 불연속적인 random variable의 \(\sum\)이 연속적인 경우에는 \(\int ~dt\)가 된다고 한다면,

$$ F_X(x) = \int _{-\infty} ^x f_X(t) ~dt $$

적분식의 \(f_X\)가 불연속적인 random variable의 pmf 역할을 한다고 할 수 있다.


DEFINITION            Probability Density Functions


Cumulative distribution function가 \(F_X\)인 연속적 random variable \(X\)에 대하여, 다음을 만족하는 \(f_X\)가 존재하는 경우, \(f_X\)를 \(X\)의 probability density function이라고 부른다.

$$ F_X(x) = \int _{-\infty} ^x f_X(t) ~dt $$

\(X\)가 \(f_X\)를 pdf로 가지는 경우 \(X\sim f_X\)로 표현한다.


'다음을 만족하는 \(f_X\)가 존재하는 경우' 와 같이 복잡한 조건이 붙는 이유는 모든 cdf에 대하여 적분 조건을 만족하는 \(f_X\)가 존재하지 않기 때문이다. 즉, random variable에 대하여 cdf는 항상 존재하지만, pdf는 없을 수도 있다.


pmf와 마찬가지로 \(X\)가 \(a\)에서 \(b\) 사이에 있을 확률은

$$ P(a < X < b) = \int _a ^b f_X(t) ~dt $$

로 구할 수 있다. 위에서 본 것처럼 특정값의 확률 \(P(X=a)\) 는 0이므로 연속적인 random variable의 경우 \(P(a < X)\) 와 \(P(a \le X)\)는 구별되지 않는다.

$$ P(a < X < b) = P (a \le X < b) = P(a < X \le b) = P(a \le X \le b) $$


2. Logistic Probability


Logistic function \(F_X(x) = \frac{1}{1+e^{-x}}\)의 pdf는

$$ f_X(x) = \frac{dF_X}{dx} = \frac{e^{-x}}{(1+e^{-x})^2} $$

가 된다. Deep learning 분야에서는

$$ \begin{align*} f_X(x) &= \frac{e^{-x}}{(1+e^{-x})^2} \\ &= \frac{1}{1+e^{-x}}\frac{e^{-x}}{1+e^{-x}} \\ &= \frac{1}{1+e^{-x}}\left(1-\frac{1}{1+e^{-x}}\right) \\ \\ &= F_X(x) [1-F_X(x)] \end{align*} $$

와 같은 형태로 사용한다.



cdf와 같이 pmf, pdf도 다음과 같은 성질을 만족한다.


THEOREM            


함수 \(f(x)\)가 어떤 random variable의 pmf (또는 pdf)이면 다음을 만족한다.


   ① \(f\)는 nonnegative, 즉 \(f(x) \ge 0\)


   ② \(\sum_x f(x) = 1\) (또는 \(\int _{-\infty} ^\infty f(x)~dx =1\))


반대로 위 조건을 만족하는 함수 \(f\)는 어떤 random variable의 pmf( 또는 pdf)가 된다.


임의의 nonnegative function \(h(x)\)가 integrable이라면 적분값

$$ K = \int _{-\infty} ^\infty h(x) ~dx < \infty $$

를 이용하여 위의 조건을 모두 만족하는 \(f(x)=\frac{1}{K}h(x)\)를 만들 수 있다. 따라서, 임의의 integrable nonnegative function은 적당한 상수를 곱해줌으로써 pdf가 될 수 있다.