평균의 비슷한 개념으로 최빈값과 중앙값이 있다. 이번 페이지에서는 최빈값과 중앙값의 정의에 대하여 살펴본다.

#Mode
간단히 최빈값은 가장 빈번하게 나타날 수 있는 값을 의미한다.
DEFINITION Modes of Distributions
Random variable
만약 random variable이 discrete한 경우에는 pmf가 바로 그 값이 될 확률이므로,
#Median
중앙값은 확률 분포에서 빈도상 정가운데 있는 값을 의미한다.
DEFINITION Medians of Distributions
Random variable
Random variable이 continuous인 경우에 위 식은
가 된다.
Example
다음 분포에 대해서 최빈값과 중앙값을 구해보자.
pdf가 증가함수이므로 당연히
중앙값을 구하기 위해서 직접 적분을 계산하면,
이므로
#Comments
- 평균, 최빈값, 중앙값 모두 어떤 랜덤 변수의 대표값으로 사용할 수 있다. 특히 랜덤 변수의 분포가 대칭에 가까운 경우 이 세 값들은 비슷한 값을 나타낸다. 그러나 대칭에서 많이 벗어난 경우 세 값들 사이는 큰 차이가 있기 때문에 랜덤 변수의 대표로 어떤 것을 선택할지는 목적에 맞게 선택해야 한다. 다음 그림은 이 세 값의 차이를 나타낸다.

- Random variable이 연속인 경우,
가 최소가 되도록 하는 는 중앙값이 된다.
이를 증명하기 위해서, expected value의 정의로부터
이므로, 에 대한 미분
에 대하여 생각해보자. 일단, random variable의 support가 유한한 경우, 가 continuous이므로 미분과 적분의 순서를 바꾸는데 문제가 없다. support가 유한하지 않은 경우에는, 적분
가 uniformly convergent하면, 미분과 적분의 순서를 바꿀 수 있다. 여기에서는 위의 적분이 uniformly convergent하다고 가정한다. 따라서, 의 각 항의 적분과 미분의 순서를 바꿔 계산하면,
이고, 전체 확률은 1이라는 점을 이용하여
를 대입하면,
이다. 최소가 되는 에서는 위의 값이 0이어야 하므로,
즉, 값은 중앙값이어야 한다. 이 값에서 최소인지 확인하기 위해서 에 대한 2계 미분을 살펴보면,
이므로 최소임을 알 수 있다. - 평균은 (존재하는 경우) 유일하지만, 최빈값과 중앙값은 유일하지 않을 수 있다. 예를 들어, pdf가
인 경우, 최빈값은 0~1, 2~3의 모든 실수가 되고, 중앙값은 1~2의 모든 실수가 된다.
'Mathematics > 통계학' 카테고리의 다른 글
[통계학] 4.2-(1) Example: 두 개의 랜덤 변수에서 조건부 최적 예측 (0) | 2021.02.21 |
---|---|
[통계학] 4.2 두 개의 랜덤 변수에서 조건부 확률 Conditional Probability Distributions of Two Random Variables (0) | 2021.02.21 |
[통계학] 4.1 다중 랜덤 변수 Multiple Random Variables (0) | 2021.02.15 |
[통계학] 3.7-① 표준 정규 분포 Standard Normal Distribution (0) | 2020.10.07 |
[통계학] 3.7 정규 분포 Normal Distribution (0) | 2020.09.29 |
[통계학] 3.6 균등 분포 Uniform Distribution (0) | 2020.08.17 |