본문 바로가기

Category200

[통계학] 4.4-(1) Example: 계층적 확률 모델링 다음과 같은 질문을 생각해보자. 한 꿀벌 집단에서 하나 밖에 없는 여왕벌은 한번 산란할 때 약 100~5000개의 알을 낳는다. 정상적으로 부화하는 경우에는 산란된지 약 21일 쯤에 벌이 성장하여 알을 뚫고 나오게 된다. 그러나 어떤 알들은 부화되지 못하고 그냥 썩게된다. 그렇다면 여왕벌이 한번 산란할 때 평균적으로 얼마나 많은 알들이 부화할까? 이 질문을 확률론적으로 생각해보면, 여왕벌이 산란한 알의 개수도 100~5000개 사이에 있는 랜덤 변수가 되고, 부화한 알의 개수도 랜덤 변수가 된다. 따라서 이 질문을 다음과 같이 확률 모델로 바꿀 수 있다. 랜덤 변수 \(X\)를 부화한 알의 개수, \(Y\)를 산란한 알의 개수라고 하자. \(Y\)가 \(f_Y(y)\) 분포를 따르고, 주어진 \(Y\)에.. 2021. 7. 4.
[통계학] 4.4 랜덤 변수의 변환 (2) Transformations of Random Variables (2) 2.1 랜덤 변수의 변환 (1) Transformations of Random Variables (1)에서 랜덤 변수 1개에 대한 확률 분포의 변환에 대하여 살펴보았다. 이번 페이지에서는 랜덤 변수 2개에 대한 확률 분포의 변환에 대하여 살펴보자. #Basic Idea 2차원 랜덤 벡터 \((X,Y)\) 에 대하여, 다음과 같이 정의되는 새로운 2차원 랜덤 벡터 \((U,V)\) 를 생각해보자. \[ \begin{align*} U &= g_1(X,Y) \\ \\ V &= g_2(X,Y) \end{align*} \] 우리가 원하는 것은 관심이 있는 \((U,V)\) 의 사건 \(B\) 의 확률을 기존에 알고 있는 랜덤 벡터 \((X,Y)\) 의 확률로 표현하는 것이다. \((U,V)\) 가 사건 \(B\).. 2021. 3. 2.
[통계학] 4.3-(1) 서로 독립인 두 개의 정규 분포의 덧셈 서로 독립인 랜덤 변수 \(X\) 와 \(Y\) 가 각각 정규 분포를 따른다고 하자. 새로운 랜덤 변수 \(Z=X+Y\) 를 정의했을 때 \(Z\) 는 어떤 분포를 따르게 될까? 예를 들어 평균적으로 전류 2A가 흐르는 전자기기 A와 전류 3A가 흐르는 전자기기 B를 하나의 멀티탭에 연결하면, 멀티탭에 평균적으로 흐르는 전류는 5A로 예측할 수 있다. 하지만 더 구체적으로, 전류가 4.9A~5.0A 사이에 있을 확률은? 7A 이상으로 전류가 흐를 확률은? 이런 질문에 대답하기 위해서는 총 전류의 확률 분포, 즉, [A기기의 전류 + B기기의 전류]의 확률 분포에 대하여 이야기 할 수 있어야 한다. 이번 페이지에서는 독립적인 2개의 정규 분포를 따르는 랜덤 변수의 덧셈으로 정의되는 랜덤 변수의 확률 분포에.. 2021. 2. 27.
[통계학] 4.3 서로 독립인 두 개의 랜덤 변수 Bivariate Independent Random Variables 지난 페이지에서 랜덤 변수가 \(X\), \(Y\), 이렇게 2개일 때, \(X\) 의 값에 따라 \(Y\) 가 어떻게 분포하는지는 conditional pdf \[ f(y|x) = \frac{f(x,y)}{f_X(x)} \] 로 정의된다는 것을 살펴보았다. 경우에 따라서는 conditional pdf \(f(y|x)\) 가 \(x\) 가 무엇인지에 상관없이 항상 똑같은 경우가 있을 수 있다. 즉, 랜덤 변수 \(Y\) 의 확률 분포는 다른 랜덤 변수 \(X\) 가 무엇이와 상관없이 '독립적'이라고 할 수 있다. 이번 페이지에서는 2개의 랜덤 변수가 어떤 경우에 서로 독립이라고 하는지 살펴보고, 서로 독립일 때 분포에는 어떤 특징들이 나타나는지 살펴보도록 한다. #Independent Random Var.. 2021. 2. 26.
[통계학] 4.2-(1) Example: 두 개의 랜덤 변수에서 조건부 최적 예측 이번 페이지의 목표는 다음 식의 증명이다. \(x\) 의 모든 함수 \(g(x)\) 에 대하여, \[ \begin{equation} \min _{g(x)} E\left[ (Y-g(X))^2 \right]=E\left[ (Y-E(Y|X))^2 \right] \label{reg} \end{equation} \] #Mean Squared Error, MSE 증명에 앞서 이 식의 의미를 파악해보자. 이 식은 단일 랜덤 변수에서 \[ \begin{equation} \min _{k \in \mathbb{R}} E\left[ (Y-k)^2 \right] = E\left[ (Y-E[Y])^2 \right] \label{reg1d} \end{equation} \] 의 일반화된 식이다. 식 \(\eqref{reg1d}\).. 2021. 2. 21.
[통계학] 4.2 두 개의 랜덤 변수에서 조건부 확률 Conditional Probability Distributions of Two Random Variables 여러 측정값을 가지는 통계 실험에서, 특정한 측정값이 고정된 상태에서 어떤 변수가 어떻게 분포하는지 관심을 가지는 경우가 많다. 예를 들어, 경기 지역에서 부동산 가격이 4억으로 고정된 상태에서 부동산 크기의 분포가 어떻게 되는지 관심을 가질 수 있다. 이러한 내용은 1.3 조건부 확률, 독립 사건 Conditional Probability, Independent Events에서 정의한 조건부 확률의 개념을 이용하여 표현할 수 있다. 이번 페이지에서는 다중 랜덤 변수(즉, random vector)에서 조건부 확률을 살펴본다. 이하에서는 먼저 개념 정의 복잡함을 피하기 위하여 \(n\)-차원 random vector 대신 2차원 random vector \((X,Y)\) 를 사용한다. 2차원 random.. 2021. 2. 21.
[통계학] 4.1 다중 랜덤 변수 Multiple Random Variables 지금까지 cdf, pmf, pdf 그리고 expected value, mgf 등에 대하여 살펴보았다. 모든 가능한 결과의 집합인 sample space에서 pdf, expected value 등은 실험값에 해당하는 random variable 개념을 정의하는데서 시작했다. 현실적으로, 어떤 통계 조사나 실험을 수행할 때, 하나의 측정값만 존재하는 경우는 거의 없을 것이다. 예를 들어, 어떤 도시에 사는 사람들의 건강에 대하여 조사하는 경우, "나이는 20~30이고, 키는 170~180cm, 몸무게는 70~80인 인구는 얼마나 되는가"와 같은 질문을 하고 이에 대한 분포를 나타낼 수 있다. 이번 페이지에서는 이렇게 여러 가지 random variable을 이용하여 sample space의 분포를 표현하는 .. 2021. 2. 15.
[통계학] 2.2-(1) 최빈값, 중앙값 Mode, Median 평균의 비슷한 개념으로 최빈값과 중앙값이 있다. 이번 페이지에서는 최빈값과 중앙값의 정의에 대하여 살펴본다. #Mode 간단히 최빈값은 가장 빈번하게 나타날 수 있는 값을 의미한다. DEFINITION Modes of Distributions Random variable \(X\) 에 대하여 \(f_X(x)\) 가 최대가 되는 값을 \(X\)의 mode(최빈값) 이라고 한다. 만약 random variable이 discrete한 경우에는 pmf가 바로 그 값이 될 확률이므로, \(X\) 가 나올 확률이 가장 높은 \(x\) 값이라고 할 수 있다. continuous의 경우에는 \(X\)가 \(x\)~\(x+dx\) 의 값이 나올 확률이 가장 높은 \(x\) 값이라고 해석 할 수 있다. #Median 중앙.. 2021. 2. 13.