본문 바로가기

Mathematics/통계학39

[통계학] 4.3 서로 독립인 두 개의 랜덤 변수 Bivariate Independent Random Variables 지난 페이지에서 랜덤 변수가 \(X\), \(Y\), 이렇게 2개일 때, \(X\) 의 값에 따라 \(Y\) 가 어떻게 분포하는지는 conditional pdf \[ f(y|x) = \frac{f(x,y)}{f_X(x)} \] 로 정의된다는 것을 살펴보았다. 경우에 따라서는 conditional pdf \(f(y|x)\) 가 \(x\) 가 무엇인지에 상관없이 항상 똑같은 경우가 있을 수 있다. 즉, 랜덤 변수 \(Y\) 의 확률 분포는 다른 랜덤 변수 \(X\) 가 무엇이와 상관없이 '독립적'이라고 할 수 있다. 이번 페이지에서는 2개의 랜덤 변수가 어떤 경우에 서로 독립이라고 하는지 살펴보고, 서로 독립일 때 분포에는 어떤 특징들이 나타나는지 살펴보도록 한다. #Independent Random Var.. 2021. 2. 26.
[통계학] 4.2-(1) Example: 두 개의 랜덤 변수에서 조건부 최적 예측 이번 페이지의 목표는 다음 식의 증명이다. \(x\) 의 모든 함수 \(g(x)\) 에 대하여, \[ \begin{equation} \min _{g(x)} E\left[ (Y-g(X))^2 \right]=E\left[ (Y-E(Y|X))^2 \right] \label{reg} \end{equation} \] #Mean Squared Error, MSE 증명에 앞서 이 식의 의미를 파악해보자. 이 식은 단일 랜덤 변수에서 \[ \begin{equation} \min _{k \in \mathbb{R}} E\left[ (Y-k)^2 \right] = E\left[ (Y-E[Y])^2 \right] \label{reg1d} \end{equation} \] 의 일반화된 식이다. 식 \(\eqref{reg1d}\).. 2021. 2. 21.
[통계학] 4.2 두 개의 랜덤 변수에서 조건부 확률 Conditional Probability Distributions of Two Random Variables 여러 측정값을 가지는 통계 실험에서, 특정한 측정값이 고정된 상태에서 어떤 변수가 어떻게 분포하는지 관심을 가지는 경우가 많다. 예를 들어, 경기 지역에서 부동산 가격이 4억으로 고정된 상태에서 부동산 크기의 분포가 어떻게 되는지 관심을 가질 수 있다. 이러한 내용은 1.3 조건부 확률, 독립 사건 Conditional Probability, Independent Events에서 정의한 조건부 확률의 개념을 이용하여 표현할 수 있다. 이번 페이지에서는 다중 랜덤 변수(즉, random vector)에서 조건부 확률을 살펴본다. 이하에서는 먼저 개념 정의 복잡함을 피하기 위하여 \(n\)-차원 random vector 대신 2차원 random vector \((X,Y)\) 를 사용한다. 2차원 random.. 2021. 2. 21.
[통계학] 4.1 다중 랜덤 변수 Multiple Random Variables 지금까지 cdf, pmf, pdf 그리고 expected value, mgf 등에 대하여 살펴보았다. 모든 가능한 결과의 집합인 sample space에서 pdf, expected value 등은 실험값에 해당하는 random variable 개념을 정의하는데서 시작했다. 현실적으로, 어떤 통계 조사나 실험을 수행할 때, 하나의 측정값만 존재하는 경우는 거의 없을 것이다. 예를 들어, 어떤 도시에 사는 사람들의 건강에 대하여 조사하는 경우, "나이는 20~30이고, 키는 170~180cm, 몸무게는 70~80인 인구는 얼마나 되는가"와 같은 질문을 하고 이에 대한 분포를 나타낼 수 있다. 이번 페이지에서는 이렇게 여러 가지 random variable을 이용하여 sample space의 분포를 표현하는 .. 2021. 2. 15.
[통계학] 2.2-(1) 최빈값, 중앙값 Mode, Median 평균의 비슷한 개념으로 최빈값과 중앙값이 있다. 이번 페이지에서는 최빈값과 중앙값의 정의에 대하여 살펴본다. #Mode 간단히 최빈값은 가장 빈번하게 나타날 수 있는 값을 의미한다. DEFINITION Modes of Distributions Random variable \(X\) 에 대하여 \(f_X(x)\) 가 최대가 되는 값을 \(X\)의 mode(최빈값) 이라고 한다. 만약 random variable이 discrete한 경우에는 pmf가 바로 그 값이 될 확률이므로, \(X\) 가 나올 확률이 가장 높은 \(x\) 값이라고 할 수 있다. continuous의 경우에는 \(X\)가 \(x\)~\(x+dx\) 의 값이 나올 확률이 가장 높은 \(x\) 값이라고 해석 할 수 있다. #Median 중앙.. 2021. 2. 13.
[통계학] 3.7-① 표준 정규 분포 Standard Normal Distribution 평균 \(\mu\) 가 0이고 표준편차 \(\sigma\) 가 1인 normal distribution \(\mathcal{N}(0,1)\) 을 특별히 standard normal distribution(표준 정규 분포)라고 부른다. \[ \begin{equation} f(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \label{pdf:snd} \end{equation} \] 모든 normal distribution은 비슷한 모양을 가지고 있어서, 하나의 normal distribution을 정확히 알고 있으면, 다른 값의 평균과 표준편차를 가지는 normal distribution을 쉽게 구할 수 있다. 따라서 standard normal distribution만 .. 2020. 10. 7.
[통계학] 3.7 정규 분포 Normal Distribution 이번 페이지에서는 이론적으로 가장 중요한 분포인 normal distribution(정규 분포)에 대하여 알아본다. 또 다른 이름으로 Gauss distribution(가우스 분포), Gaussian distribution(가우시안 분포), Laplace-Gauss distribution(라플라스-가우스 분포) 등의 이름으로 부른다. normal distribution의 응용 범위는 자연과학, 공학, 사회과학의 모든 영역에 걸쳐 있을 정도로 광범위 하므로 이 페이지에서 모든 것을 다루는 것은 불가능하다. 이 페이지에서는 normal distribution의 정의와 pdf, 평균, 분산 등만 살펴보도록 한다. #Normal Distribution 실수 \(\mu\), 양수 \(\sigma\) 에 대하여, .. 2020. 9. 29.
[통계학] 3.6 균등 분포 Uniform Distribution 지금까지 대표적인 불연속적 분포에 대해서 살펴보았다. 이 페이지부터 연속적인 분포에 대하여 살펴본다. 가장 먼저, 나올 수 있는 범위 내에 확률이 균등한 분포인 uniform distribution부터 살펴본다. #Uniform Distribution주어진 범위 \(a \le x \le b\) 에 대하여, 연속적인 랜덤 변수 \(X\) 가 다음의 pdf를 가질 때 이를 uniform \((a,b)\) distribution이라고 한다.\[ f_X(x) = \left\{ \begin{array}{cl} \frac{1}{b-a} & \text{if } a \le x \le b \\ \\ 0 & \text{otherwise} \end{array} \right. \]당연히 주어진 범위에서 pdf를 적분하면 전체.. 2020. 8. 17.