통계 모델을 세우고 무작위 샘플링을 할 때, 경우에 따라서는 가장 작은 값이나 가장 큰 값, 또는 딱 중간 위치에 있는 값들에 대하여 관심이 있을 수 있다. 예를 들어, 가스가 분출되는 관을 설계를 할 때, 가스가 분출되는 가장 큰 압력을 견딜 수 있도록 설계하기 위해서는 실험의 최대값에 대하여 관심이 있을 것이다. 또한 분포가 상당히 비대칭적인 경우 이러한 분포를 대표하는 값으로 평균 대신 사용하는 중앙값이 중간 위치에 있는 샘플링 결과라고 할 수 있다. 이번 페이지에서는 이렇게 샘플링 값의 순서에 대한 값인 order statustics에 대하여 살펴본다.
# Order Satstistics
DEFINITION Order Statistics
Random sample, , ..., 을 크기 순으로 다시 정리한 random sample을 , , ..., 의 ordered statistics라고 부른다. 작은 순서부터 , , ..., 로 표기한다.
즉,
1. Sample Range
random sample 중 가장 큰 값과 가장 작은 값의 차이로 샘플들이 얼마나 멀리 분산되어 있는지를 표현하는 하나의 지표가 될 수 있다. 1
2. Sample Median
random sample 중 크기 순위가 정중앙에 있는 값이다. 다만,
3. Sample Midrange
random sample 중 가장 큰 값과 가장 작은 값의 평균값이다. sample median과 마찬가지로 분포를 대표하는 값으로 생각할 수 있다.
4. Sample Percentile
다음의 값을th sample percentile이라고 부른다. ( 는 의 반올림)
흔히 '75% 백분위'와 같이 부르는 statistics이다. 예를 들어 random sample의 개수가 10개인 경우, 75th sample percentile은,

아래 그래프는 최소값 154, lower quartile 345, median 410, upper quartile 484, 최대값 924인 분포를 표현한다.
© Schlurcher From Wikimedia Commons
#Distribution of Order Statistics
Order statistics도 statistics이기 때문에 random variable, 즉, 어떤 정해진 값이 아니라 확률분포를 가지는 값이다. 샘플링을 통해 하나의 값으로 결정되는 과정은 이러한 random variable이 realization되는 것이라는 것을 기억하자. 그렇다면 주어진 모분포에서 무작위 샘플링을 했을 때, order statistics의 분포를 구할 수 있을까? 다음 정리를 살펴보자.
THEOREM, , ..., 을 discrete population 에서 추출한 random sample이라고 하고 를 pmf에서 가능한 값을 순서대로 나열한 것이라고 하자. 또한 다음의 값들을 정의하자.
그러면 ordered statistics의 분포는 다음과 같이 구할 수 있다.
(증명)
먼저
이제 event
1.
2.
⁞
3. 모두
가 될 것이다. 즉,
1. j개의 sample만
2. j+1개의 sample만
⁞
3. n개의 sample이
가 된다. 따라서 이 event의 확률은
그리고 이 확률은
(증명 끝)
같은 방식으로 continuous distribution에 대해서도 구할 수 있다.
THEOREM, , ..., 을 pdf , cdf 로 가지는 continuous population에서 추출한 random sample이라고 하자. 그러면 의 pdf는 다음과 같이 구할 수 있다.
(증명)
전체적인 논리는 discontinuous 경우와 동일하다. 다만, k번째 sample
그리고 이 확률은
를 이용하여 얻을 수 있다.
(증명 끝)
Example
0부터 1사이의 uniform distribution에서 99개의 random sample을 추출하였을 때, 크기 순으로 50번째에 있는 sample의 분포를 구해보자. 이 분포의 pdf는
즉, beta(50,50) 분포가 된다. 이 분포의 expectation은
(예제 끝)
위 정리를 증명했던 논리를 조금 변형하면, order statistics의 joint pdf도 구할 수 있다.
THEOREM, , ..., 을 pdf , cdf 로 가지는 continuous population에서 추출한 random sample이라고 하자. 일 때, , 의 joint pdf는
(단,)
- 이런 설명들을 만났을 때 항상 명심해야 할 것은, 이 값이 원래 표현하고자 하는 사실을 나타내는 유일한 지표가 아니라는 것이다. 샘플들이 얼마나 멀리 분산되어 있는지 표현하는 지표는 sample range 외에도 여러가지가 가능하며 각자의 장단점이 있기 때문에 목적과 상황에 맞는 것을 선택해서 사용해야 한다. [본문으로]
- 3.2 베르누이 분포, 이항 분포 Bernoulli Distribution, Binomial Distribution 참고 [본문으로]
'Mathematics > 통계학' 카테고리의 다른 글
[통계학] 5.3-(2) 큰 수의 법칙 Law of Large Numbers (1) | 2022.04.27 |
---|---|
[통계학] 5.3-(1) 확률 변수의 수렴 Convergence of Random Variables (0) | 2022.03.02 |
[통계학] 5.2-(3) F 분포 F-distribution (0) | 2021.08.17 |
[통계학] 5.2-(2) 스튜던트 t 분포 Student's t-distribution (0) | 2021.08.16 |
[통계학] 5.2-(1) Example: 정규 분포에서의 샘플 평균, 샘플 분산 Sample mean and Sample variance of Random sample from Normal Distribution (0) | 2021.08.11 |
[통계학] 5.2 통계량, 샘플 평균, 샘플 분산 Statistic, Sample Mean and Sample Variance (0) | 2021.08.11 |