본문 바로가기

Mathematics/통계학39

[통계학] 5.3-(2) 큰 수의 법칙 Law of Large Numbers 주사위를 몇번 던졌을 때 샘플 평균은 실제로 주사위 값이 얼마가 나왔느냐에 따라서 다르겠지만, 수천번, 수만번 던졌을 때 샘플 평균이 어떻게 될것 같나고 물어본다면 아마 3.5 정도 될 것이라고 말할 것이다. 다음 그림은 주사위를 500번 던졌을 때까지 샘플 평균을 시뮬레이션 해본 그래프이다. 주사위를 던진 횟수를 약 10만번까지 시뮬레이션해보면 샘플 평균은 대부분 3.497~3.51 사이 값을 가진다. 따라서 주사위의 샘플 평균은 던진 횟수가 커질수록 3.5에 수렴한다고 할 수 있다. 그렇다면 3.5라는 값은 어디에서 나온 것일까? 아마 대부분 이렇게 생각했을 것이다. "1이 나올 확률은 1/6, 2가 나올 확률은 1/6, ..., 6이 나올 확률은 1/6이므로 평균은 1ⅹ1/6 + 2ⅹ1/6 + .... 2022. 4. 27.
[통계학] 5.3-(1) 확률 변수의 수렴 Convergence of Random Variables 우리가 통계학적 도구를 사용하는 이유는 전체 분포를 알 수 없기 때문에 적당한 샘플링을 통해 전체 분포의 특징을 알아내기 위함이다. 이러한 방법이 작동하는 것은 샘플링해서 얻은 분포가 전체 분포와 비슷할 때일 것이다. 보통 샘플의 개수가 많아질 수록, 샘플로부터 얻은 값들이 모분포의 값으로 "수렴"해 간다는 것을 전제한다. 그러나 확률 변수가 어떤 확률 변수로 수렴해 간다는 미적분학에서 살펴보던 수열의 수렴과는 조금 양상이 다르다. 예를 들어, 보통 많이 사용하는 통계량인 샘플 평균에 대해서 생각해보자. A은 1,2,3,4,5의 카드 중에서 무작위로 계속 뽑고, B는 3의 카드만 계속 뽑는 경우에 카드를 계속하여 뽑을 수록 A의 샘플 평균은 B의 샘플 평균은 3에 점점 수렴하게 될 것이다. 하지만 A가 .. 2022. 3. 2.
[통계학] 5.2-(4) Example: 순서 통계량 Order Statistics 통계 모델을 세우고 무작위 샘플링을 할 때, 경우에 따라서는 가장 작은 값이나 가장 큰 값, 또는 딱 중간 위치에 있는 값들에 대하여 관심이 있을 수 있다. 예를 들어, 가스가 분출되는 관을 설계를 할 때, 가스가 분출되는 가장 큰 압력을 견딜 수 있도록 설계하기 위해서는 실험의 최대값에 대하여 관심이 있을 것이다. 또한 분포가 상당히 비대칭적인 경우 이러한 분포를 대표하는 값으로 평균 대신 사용하는 중앙값이 중간 위치에 있는 샘플링 결과라고 할 수 있다. 이번 페이지에서는 이렇게 샘플링 값의 순서에 대한 값인 order statustics에 대하여 살펴본다. # Order Satstistics DEFINITION Order Statistics Random sample \(X_1\), \(X_2\), ... 2022. 3. 1.
[통계학] 5.2-(3) F 분포 F-distribution 많은 영역에서, 어떤 특징을 설명해주는 값이 A 집단과 B 집단에서 어떻게 되는지 비교하는 경우가 발생한다. 예를 들어 건물 전면에서 나오는 광고의 주 배경이 빨강일 때와 파랑일 때 광고 효과에 대해서 비교하고 싶을 수 있다. 이렇게 여러 집단 간의 비교 할 때, 분산이 결과 해석에 있어 중요한 역할을 한다. 이번 페이지에서는 이러한 분산에 대해서 중요한 위치를 차지하고 있는 F 분포에 대해서 살펴본다. #Snedecor's F Distribution 5.2-(1) Example: 정규 분포에서의 샘플 평균, 샘플 분산 Sample mean and Sample variance of Random sample from Normal Distribution에서 \(\mathcal{N}(\mu,\sigma^2)\.. 2021. 8. 17.
[통계학] 5.2-(2) 스튜던트 t 분포 Student's t-distribution 5.2-(1) Example: 정규 분포에서의 샘플 평균, 샘플 분산 Sample mean and Sample variance of Random sample from Normal Distribution에서 정규 분포에서 샘플링을 한 경우, 샘플 평균과 샘플 분산은 다음과 같은 분포를 따른다는 것을 살펴보았다. \[ \begin{array}{ccc} \overline{X} & \sim & \mathcal{N}(\mu, \frac{\sigma^2}{n}) \\ \\ (n-1)\frac{S^2}{\sigma^2} & \sim & \chi _{n-1} ^2 \end{array} \] 특히 하나의 random sample \(X_i \sim \mathcal{N}(\mu, \sigma^2)\) 와 샘플 평균을 비교.. 2021. 8. 16.
[통계학] 5.2-(1) Example: 정규 분포에서의 샘플 평균, 샘플 분산 Sample mean and Sample variance of Random sample from Normal Distribution 이번 페이지에서는 기초 통계학에서 가장 중요하게 활용되는, 정규 분포에서 샘플링을 했을 때 얻어지는 몇 가지 결론들에 대하여 살펴본다. 여기에서 나오는 결론들은 앞으로 나오게 될 Z-test, t-test 등에서 계속 사용하게 될 것이다. #Distribution of Sample mean and Sample Variance 지난 페이지에서 sample mean과 sample variance가 random variable이다는 것을 살펴보았다. 따라서 sample mean과 sample variance는 특정한 확률 분포를 가지고 있을 것인데, 특히 모분포가 정규 분포인 경우에는 다음과 같은 분포를 따르게 된다. THEOREM Sampling from Normal Distribution \(X_1\), .. 2021. 8. 11.
[통계학] 5.2 통계량, 샘플 평균, 샘플 분산 Statistic, Sample Mean and Sample Variance 데이터 분석이나 통계 분석을 할 때, 측정이나 실험을 위한 샘플을 추출한 후, 측정을 하고나면 가장 먼저 구하는 것이 측정치의 평균과 분산일 것이다. 우리가 통계 분석을 하면서 이렇게 평균과 분산을 구하는 이유는 샘플들의 측정값들은 양이 많기 때문에 샘플, 더 나아가서 모집단을 특징지을 수 있는 몇 개의 수들로 표현하고자 함이다. 이렇게 모집단을 특징지을 수 있는 몇 개의 수들은 통계학에서 statistic이라는 개념으로 정의된다. 이번 페이지에서는 statistic의 정의를 살펴보고, 그 예로써 샘플 평균과 샘플 분산에 대하여 알아보자. #Statistic DEFINITION Statistic \(X_1\), ..., \(X_n\) 을 모집단에서 추출한 \(n\) 개의 random sample이라고 하.. 2021. 8. 11.
[통계학] 5.1 무작위 추출 Random Samples 지금까지 여러 페이지를 통해 확률과 확률 분포에 대한 기초적인 수학 개념들을 살펴보았다. 그러나 이 내용들을 현실에 그대로 적용하기에는 어려움이 따른다. 가장 큰 어려움은 개별 event들이 얼마만큼의 비중으로 존재하는지 완벽히 파악하는 것이 거의 불가능에 가깝다는 것이다. 이렇게 모든 event들에 대한 정보를 완벽히 파악할 수 없을 때 사용할 수 있는 방법이 바로 통계적 방법론들이다. 이 페이지부터는 통계학에서 사용하는 개념들을 살펴보고 이에 대한 예제들을 살펴보도록 하자. #Random Samples 흔히 어떤 실험이나 측정에 대하여 통계적인 계산을 하려고 한다면, 샘플을 추출하고 측정을 한 후, 평균이나 분산을 구하는 등의 계산을 할 것이다. 이러한 프로세스의 첫 단계인 샘플을 추출하는 작업을 수.. 2021. 8. 10.