본문 바로가기
Mathematics/통계학

[통계학] 1.2 확률 Probability

by 피그티 2020. 6. 29.

어떤 사건들에 대한 확률을 정의할 때, 각 개별 원소마다 나올 수 있는 확률이 똑같다는 성질로부터 시작하는 경우가 많다. 그러나 6면체 주사위라도 정육면체가 아니라면 각 숫자가 나올 확률을 1/6으로 할 수 없다. 우리의 목표는 확률을 부여하는 물리적, 상황적 타당성과 무관하게, 확률 시스템이라면 공통적으로 만족해야 하는 성질들을 파악하는 것이다.


#Axioms of Probability Functions

확률은 수학적으로 다음과 같이 정의한다.


DEFINITION            Probability Functions


Sample space \(S\)의 부분 집합(즉, event) \(A\)를 받아 0부터 1 사이의 값을 내놓는 함수 \(P\)가


ⓐ Non-negativity

$$ P(A) \ge 0 $$

ⓑ Probability of entire sample space

$$ P(S) = 1 $$

ⓒ Countable additivity: event \(A_1\), \(A_2\), ... 이 pairwise disjoint이면, 다음을 만족한다.

$$ P\left( \bigcup _{i=1} ^\infty A_i \right) = \sum _{i=1} ^\infty P(A_i) $$


이러한 3가지 성질을 만족하는 모든 함수를 probability 또는 probability function이라고 부른다. 이러한 정의는 함수 \(P\)가 정확히 어떤 상황에서 어떻게 되어야 한다고 말하지 않는다. 예를 들어 6면체 주사위에 대하여 모든 숫자가 1/6의 확률을 가지는 함수도 probability가 되고, 숫자 1은 1/2, 숫자 2는 1/3, 나머지 숫자는 모두 1/24의 확률을 가지는 함수도 probability가 된다.


Countable addivite는 복잡해보이지만 고등학교 확률과 통계에서 배운 '합의 법칙'과 동일하다. 즉, 겹치지 않는 사건들의 확률은 서로 더한 값과 같다는 뜻이다.


Examples

위의 정의에 대한 간단한 예를 살펴보자.



1. 유한한 개수의 원소를 가진 sample space의 경우


주사위와 같이, sample space\(S\)의 원소의 개수가 유한한 경우, 보통 확률을 정의하는 방법은, event \(A\)의 확률을

$$ P(A) = \frac{(\text{the number of elements in } A)}{(\text{the number of elements in } S)} $$

로 정의하는 것이다. 이러한 방법이 위의 정의를 만족하는지 살펴보자.


  ⓐ 원소의 개수는 항상 0보다 크거나 같으므로 \(P(A) \ge 0\)을 만족한다.


  ⓑ \(S\)의 원소의 개수는 \(n\)이므로 \(P(S) = \frac{n}{n} = 1\)을 만족한다.


  ⓒ event \(A\), \(B\)가 pairwise disjoint이면, \(A \cup B\)의 원소의 개수는 \(A\)의 원소의 개수 + \(B\)의 원소의 개수이므로 (sample space가 유한한 경우 pairwise disjoint한 부분집합의 최대 개수도 유한하므로, 무한에 대해서는 고려할 필요 없음)

$$ P(A \cup B) = \frac{(\text{the number of elements in } A) + (\text{the number of elements in } B)}{(\text{the number of elements in } S)} = P(A) + P(B) $$

따라서 \(P\)는 probability function이다.



2. 무한한 개수의 원소를 가진 sample space의 경우의 예


다음과 같은 양궁 과녁에 대하여, 맞출 수 있는 곳은 모든 점이므로 무한히 많은 경우가 있다고 할 수 있다. (즉, sample space가 무한한 개수의 원소를 가짐.) 이 sample space를 그림처럼 10개의 동심원으로 나누어서 각 영역의 확률을 넓이의 비율


WA 80 cm archery target
Alberto Barbati / CC BY-SA via Wikimedia

$$ P(A) = \frac{(\text{the area of } A)}{(\text{the area of entire circle})} $$

로 정의하였을 때, 위의 정의를 만족하는지 살펴보자. 만약 전체 반지름을 \(10r\), 각 영역의 간격을 \(r\)이라고 하면, i번째 영역에 맞을 확률은

$$ P(i \text{th area}) = \frac{\pi r^2 \{i^2 - (i-1)^2\}}{100\pi r^2} = \frac{1+2i}{100} $$

이 된다.


  ⓐ 넓이는 항상 0보다 크거나 같으므로 \(P(A) \ge 0\)을 만족한다.


  ⓑ 정의로부터 \(P(S)=1\)을 만족한다.


  ⓒ 겹치지 않는 영역 \(A\)와 \(B\)의 넓이의 합은 단순 덧셈이므로 자연스럽게 countable additivity를 만족한다.


#Properties of Probability Functions

Probability function은 다음과 같은 성질을 가진다. 이 성질은 확률을 결정할 때 고려한 물리적 상황과는 독립적으로 순전히 위의 공리로부터 유도된다는 점을 기억하자. 즉, 확률 시스템이라면 다음은 상황에 관계없이 무조건 만족한다는 뜻이다.


THEOREM            Properties of Probability Functions

 

  ① \(P(\emptyset ) = 0 \)


  ② \(P(A) \le 1\)


  ③ \(P(A^c) = 1- P(A)\)


  ④ \(P(A\cap B^c) = P(A) - P(A\cap B)\)


  ⑤ \(P(A \cup B) = P(A) + P(B) - P(A\cap B)\)


  ⑥ \(A \subset B\) 이면, \(P(A) \le P(B)\)



벤 다이어그램을 그려서 생각하면 증명 방법을 쉽게 생각해 낼 수 있다.


(증명)

① \(S \cup \emptyset = S\) 이고, \(S \cap \emptyset = \emptyset\) 즉, pairwise disjoint이므로 정의 ⓒ로부터 \(P(S) = P(S\cup \emptyset) = P(S) + P(\emptyset)\) 따라서, \(P(\emptyset)=0\)


② \(S = A \cup A^c\) 이고, \(A \cap A^c = \emptyset\) 즉, pairwise disjoint이므로 정의 ⓒ로부터 \(P(S) = P(A) + P(A^c)\) 따라서 \(P(A) = P(S) - P(A^c)\) 정의 ⓐ와 정의 ⓑ를 이용하면, \(P(A) = 1- P(A^c) \le 1\)


③ ②에서 \(A\) 대신 \(A^c\)를 넣으면 증명 중간에 증명됨.


④ \(A = A \cap S = A \cap (B \cup B^c) = (A\cap B) \cup (A\cap B^c)\) 이고, \((A\cap B) \cap (A\cap B^c) = A \cap (B \cap B^c) = A \cap \emptyset = \emptyset\) 즉, pairwise disjoint이므로 정의 ⓒ로부터 \(P(A) = P(A\cap B) + P(A \cap B^c)\) 이항하면 ④를 얻는다.


⑤ \(A \cup B = (A \cap S) \cup (S \cap B) = (A \cap (B \cup B^c)) \cup ((A\cup A^c)\cap B)\)를 분배법칙으로 풀고 겹치는 것을 정리하면, \(A \cup B = (A \cap B^c) \cup (A^c \cap B) \cup (A \cap B)\) 이들은 pairwise disjoint이므로 정의 ⓒ로부터 \(P(A \cup B) = P(A \cap B^c) + P(A^c \cap B) + P(A\cap B) = P((A \cap B^c) \cup (A \cap B)) + P((A^c \cap B) \cup (A \cap B)) - P(A\cap B)\)


⑥ \(A \subset B\)이므로 \(A \cap B = A\) 정의 ⓒ로부터 \(P(B) = P(A\cap B) + P(A^c \cap B) = P(A) + P(A^c \cap B)\) 따라서 \(P(A) = P(B) - P(A^c \cap B)\) 정의 ⓐ를 이용하면 \(P(A) \le P(B)\) 

(증명 끝)


성질 ⑤를 이용하면, 높은 확률을 가진 event들에 대하여 유용한 부등식을 얻을 수 있다. \(P(A\cup B) \le 1\)이므로

$$ P(A\cap B) \ge P(A) + P(B) -1 $$

만약 \(A\)의 확률이 0.95이고, \(B\)의 확률이 0.9이면, \(A \cap B\)의 확률은 최소한 0.85 이상이어야 한다. 이를 Bonferroni's Inequality라고 부른다. 더 많은 수의 집합으로 확장하면 다음과 같다.


THEOREM            Bonferroni's Inequality

$$ P\left( \bigcap _{i=1} ^n A_i \right) \ge \sum_{i=1} ^n P(A_i) - (n-1) $$


몇몇 증명과정에서 PRE. Basic Set Thoery에서 정의한 partition을 사용하는 경우 유용한 성질들이 있다.


THEOREM            


⑦ partition \(C_1\), \(C_2\), ... 에 대하여

$$ P(A) = \sum_{i=1} ^\infty P(A\cap C_i) $$

⑧ Bool's Inequality:

$$ P\left( \bigcup _{i=1} ^\infty A_i \right) \le \sum_{i=1} \infty P(A_i) $$


(증명)

⑦ partition의 정의로부터, \(A=\bigcup _{i} (A\cap C_i)\)이고, \(A\cap C_i\)는 pairwise disjoint이므로 정의 ⓒ로부터 증명됨.


⑧ \(A_1 '=A_1\), \(A_i '= A_i \backslash \left(\bigcup_{j=1} ^{i-1} A_j\right) = A_i \cap \left(\bigcup_{j=1} ^{i-1} A_j\right)^c\)로 정의하면 (책에 따라 \(A\backslash B\) 대신 \(A-B\)로 쓰기도 한다)

$$ \bigcup _{i=1} ^n A_i = \bigcup _{i=1} ^n A_i ' $$

이고 \(A_i '\)은 pairwise disjoint이므로 정의 ⓒ로부터

$$ P\left( \bigcup _{i=1} ^\infty A_i \right) = \sum _{i=1} ^\infty P(A_i ') $$

그리고 \(A_i' \subset A_i\)이므로 ⑥으로부터 \(P(A_i ' ) \le P(A_i)\) 따라서

$$ P\left( \bigcup _{i=1} ^\infty A_i \right) = \sum _{i=1} ^\infty P(A_i ') \le \sum _{i=1} ^\infty P(A_i) $$

(증명 끝)


#Advanced Topics

이하의 내용은 확률론에 대한 수학적인 논의이므로 어렵다고 생각되면 넘어가도 상관없다.


1. \(\sigma\)-Algebra


Probability function의 정의를 잘 보면 probability function이 적분론의 measure의 일종이라는 것을 알 수 있다.[각주:1] 따라서 적분론의 논의가 probability function에 그대로 적용된다. 가장 기본적으로 문제가 되는 것은, non-measurable set이 존재하는 것처럼, sample sapce의 모든 subset에 대하여 확률을 정의할 수는 없다. 즉, 확률을 정의할 수 있는 event들이 있고, 확률을 부여할 수 없는 event들이 있는데, 정의할 수 있는 event들의 모임을 \(\sigma\)-algebra라고 부른다.[각주:2]


DEFINITION            \(\sigma\)-Algebras


Sample space \(S\)에 대하여, 다음을 만족하는, \(S\)의 부분집합들의 모임 \(\mathcal{B}\)를 \(\sigma\)-algebra라고 부른다.


   1. \(\emptyset \in \mathcal{B}\)


   2. \(A \in \mathcal{B}\) 이면, \(A^c \in \mathcal{B}\)이다.


   3. \(A_1\), \(A_2\), ... \(\in~ \mathcal{B}\) 이면, \(\bigcup _{i=1} ^\infty A_i ~\in~ \mathcal{B}\)이다.



2. Alternative Axioms of Probability Functions


위에서 설명한 probability function의 정의가 유일한 정의는 아니다. 특히 countable additivity의 경우 무한 급수의 문제 때문에 직관적으로 받아들이기 어렵다. 따라서 countable additivity를 finite additivity로 대체하여 정의하는 경우도 있다.

$$ P(A\cup B) = P(A) + P(B) ~~~~\text{for every } A \cap B = \emptyset $$

분명히 countable addivity이면 finite additivity이지만, finite addivity를 만족한다고 countable addivity를 만족하는 것은 아니다. countable addivity를 만족하기 위해서는 finite addivity에 더해 한 가지 조건이 더 필요한데 이를 continuity axiom이라고 부른다.


Continuity Axiom : 집합 \(A_1 \supset A_2 \supset A_3 \supset \cdots\)이고, \(\bigcap _i A_i = \emptyset\)이면

$$ P(A_n) \to 0 $$