본문 바로가기
Mathematics/통계학

[통계학] 2.2-(1) 최빈값, 중앙값 Mode, Median

by 피그티 2021. 2. 13.

평균의 비슷한 개념으로 최빈값과 중앙값이 있다. 이번 페이지에서는 최빈값과 중앙값의 정의에 대하여 살펴본다.

 

Cmglee  /  CC BY-SA

 

#Mode

간단히 최빈값은 가장 빈번하게 나타날 수 있는 값을 의미한다.

 

DEFINITION            Modes of Distributions

 

Random variable X 에 대하여 fX(x) 가 최대가 되는 값을 Xmode(최빈값) 이라고 한다.

 

만약 random variable이 discrete한 경우에는 pmf가 바로 그 값이 될 확률이므로, X 가 나올 확률이 가장 높은 x 값이라고 할 수 있다. continuous의 경우에는 Xx~x+dx 의 값이 나올 확률이 가장 높은 x 값이라고 해석 할 수 있다.

 

#Median

중앙값은 확률 분포에서 빈도상 정가운데 있는 값을 의미한다.

 

DEFINITION            Medians of Distributions

 

Random variable X에 대하여, P(Xm)=P(Xm)=12mXmedian(중앙값)이라고 한다.

 

Random variable이 continuous인 경우에 위 식은

mf(x) dx=mf(x) dx=12

가 된다.

 

Example

다음 분포에 대해서 최빈값과 중앙값을 구해보자.

fX(x)=3x2     where 0x1
pdf가 증가함수이므로 당연히 x=1 에서 fX 가 최대가 된다. 즉, 최빈값은 1이다.

중앙값을 구하기 위해서 직접 적분을 계산하면,
0m3x2 dx=m3
m13x2 dx=1m3
이므로 m=123 이 중앙값이 된다.

 

#Comments

  • 평균, 최빈값, 중앙값 모두 어떤 랜덤 변수의 대표값으로 사용할 수 있다. 특히 랜덤 변수의 분포가 대칭에 가까운 경우 이 세 값들은 비슷한 값을 나타낸다. 그러나 대칭에서 많이 벗어난 경우 세 값들 사이는 큰 차이가 있기 때문에 랜덤 변수의 대표로 어떤 것을 선택할지는 목적에 맞게 선택해야 한다. 다음 그림은 이 세 값의 차이를 나타낸다.

Cmglee  /  CC BY-SA

  • Random variable이 연속인 경우,
    E[|Xa|]
    가 최소가 되도록 하는 a 는 중앙값이 된다.

    이를 증명하기 위해서, expected value의 정의로부터
    E[|Xa|]=|xa| f(x) dx=a(xa)f(x) dx+a(ax)f(x) dx
    이므로, a 에 대한 미분
    ddaa(xa)f(x) dx
    에 대하여 생각해보자. 일단, random variable의 support가 유한한 경우, (xa)f(x) 가 continuous이므로 미분과 적분의 순서를 바꾸는데 문제가 없다. support가 유한하지 않은 경우에는, 적분
    aa(xa)f(x) dx
    가 uniformly convergent하면, 미분과 적분의 순서를 바꿀 수 있다. 여기에서는 위의 적분이 uniformly convergent하다고 가정한다. 따라서, ddaE[|Xa|] 의 각 항의 적분과 미분의 순서를 바꿔 계산하면,
    ddaE[|Xa|]=af(x) dx+af(x) dx
    이고, 전체 확률은 1이라는 점을 이용하여
    af(x) dx=1af(x) dx
    를 대입하면,
    ddaE[|Xa|]=2af(x) dx1
    이다. 최소가 되는 a 에서는 위의 값이 0이어야 하므로,
    af(x) dx=12
    즉, a 값은 중앙값이어야 한다. 이 값에서 최소인지 확인하기 위해서 a 에 대한 2계 미분을 살펴보면,
    d2da2E[|xa|]=f(a)+f(a)0
    이므로 최소임을 알 수 있다.

  • 평균은 (존재하는 경우) 유일하지만, 최빈값과 중앙값은 유일하지 않을 수 있다. 예를 들어, pdf가
    fX(x)={12if 0x112if 2x30otherwise
    인 경우, 최빈값은 0~1, 2~3의 모든 실수가 되고, 중앙값은 1~2의 모든 실수가 된다.