본문 바로가기

통계17

[통계학] 4.4-(1) Example: 계층적 확률 모델링 다음과 같은 질문을 생각해보자. 한 꿀벌 집단에서 하나 밖에 없는 여왕벌은 한번 산란할 때 약 100~5000개의 알을 낳는다. 정상적으로 부화하는 경우에는 산란된지 약 21일 쯤에 벌이 성장하여 알을 뚫고 나오게 된다. 그러나 어떤 알들은 부화되지 못하고 그냥 썩게된다. 그렇다면 여왕벌이 한번 산란할 때 평균적으로 얼마나 많은 알들이 부화할까? 이 질문을 확률론적으로 생각해보면, 여왕벌이 산란한 알의 개수도 100~5000개 사이에 있는 랜덤 변수가 되고, 부화한 알의 개수도 랜덤 변수가 된다. 따라서 이 질문을 다음과 같이 확률 모델로 바꿀 수 있다. 랜덤 변수 \(X\)를 부화한 알의 개수, \(Y\)를 산란한 알의 개수라고 하자. \(Y\)가 \(f_Y(y)\) 분포를 따르고, 주어진 \(Y\)에.. 2021. 7. 4.
[통계학] 4.4 랜덤 변수의 변환 (2) Transformations of Random Variables (2) 2.1 랜덤 변수의 변환 (1) Transformations of Random Variables (1)에서 랜덤 변수 1개에 대한 확률 분포의 변환에 대하여 살펴보았다. 이번 페이지에서는 랜덤 변수 2개에 대한 확률 분포의 변환에 대하여 살펴보자. #Basic Idea 2차원 랜덤 벡터 \((X,Y)\) 에 대하여, 다음과 같이 정의되는 새로운 2차원 랜덤 벡터 \((U,V)\) 를 생각해보자. \[ \begin{align*} U &= g_1(X,Y) \\ \\ V &= g_2(X,Y) \end{align*} \] 우리가 원하는 것은 관심이 있는 \((U,V)\) 의 사건 \(B\) 의 확률을 기존에 알고 있는 랜덤 벡터 \((X,Y)\) 의 확률로 표현하는 것이다. \((U,V)\) 가 사건 \(B\).. 2021. 3. 2.
[통계학] 4.3-(1) 서로 독립인 두 개의 정규 분포의 덧셈 서로 독립인 랜덤 변수 \(X\) 와 \(Y\) 가 각각 정규 분포를 따른다고 하자. 새로운 랜덤 변수 \(Z=X+Y\) 를 정의했을 때 \(Z\) 는 어떤 분포를 따르게 될까? 예를 들어 평균적으로 전류 2A가 흐르는 전자기기 A와 전류 3A가 흐르는 전자기기 B를 하나의 멀티탭에 연결하면, 멀티탭에 평균적으로 흐르는 전류는 5A로 예측할 수 있다. 하지만 더 구체적으로, 전류가 4.9A~5.0A 사이에 있을 확률은? 7A 이상으로 전류가 흐를 확률은? 이런 질문에 대답하기 위해서는 총 전류의 확률 분포, 즉, [A기기의 전류 + B기기의 전류]의 확률 분포에 대하여 이야기 할 수 있어야 한다. 이번 페이지에서는 독립적인 2개의 정규 분포를 따르는 랜덤 변수의 덧셈으로 정의되는 랜덤 변수의 확률 분포에.. 2021. 2. 27.
[통계학] 4.3 서로 독립인 두 개의 랜덤 변수 Bivariate Independent Random Variables 지난 페이지에서 랜덤 변수가 \(X\), \(Y\), 이렇게 2개일 때, \(X\) 의 값에 따라 \(Y\) 가 어떻게 분포하는지는 conditional pdf \[ f(y|x) = \frac{f(x,y)}{f_X(x)} \] 로 정의된다는 것을 살펴보았다. 경우에 따라서는 conditional pdf \(f(y|x)\) 가 \(x\) 가 무엇인지에 상관없이 항상 똑같은 경우가 있을 수 있다. 즉, 랜덤 변수 \(Y\) 의 확률 분포는 다른 랜덤 변수 \(X\) 가 무엇이와 상관없이 '독립적'이라고 할 수 있다. 이번 페이지에서는 2개의 랜덤 변수가 어떤 경우에 서로 독립이라고 하는지 살펴보고, 서로 독립일 때 분포에는 어떤 특징들이 나타나는지 살펴보도록 한다. #Independent Random Var.. 2021. 2. 26.
[통계학] 4.2-(1) Example: 두 개의 랜덤 변수에서 조건부 최적 예측 이번 페이지의 목표는 다음 식의 증명이다. \(x\) 의 모든 함수 \(g(x)\) 에 대하여, \[ \begin{equation} \min _{g(x)} E\left[ (Y-g(X))^2 \right]=E\left[ (Y-E(Y|X))^2 \right] \label{reg} \end{equation} \] #Mean Squared Error, MSE 증명에 앞서 이 식의 의미를 파악해보자. 이 식은 단일 랜덤 변수에서 \[ \begin{equation} \min _{k \in \mathbb{R}} E\left[ (Y-k)^2 \right] = E\left[ (Y-E[Y])^2 \right] \label{reg1d} \end{equation} \] 의 일반화된 식이다. 식 \(\eqref{reg1d}\).. 2021. 2. 21.
[통계학] 4.1 다중 랜덤 변수 Multiple Random Variables 지금까지 cdf, pmf, pdf 그리고 expected value, mgf 등에 대하여 살펴보았다. 모든 가능한 결과의 집합인 sample space에서 pdf, expected value 등은 실험값에 해당하는 random variable 개념을 정의하는데서 시작했다. 현실적으로, 어떤 통계 조사나 실험을 수행할 때, 하나의 측정값만 존재하는 경우는 거의 없을 것이다. 예를 들어, 어떤 도시에 사는 사람들의 건강에 대하여 조사하는 경우, "나이는 20~30이고, 키는 170~180cm, 몸무게는 70~80인 인구는 얼마나 되는가"와 같은 질문을 하고 이에 대한 분포를 나타낼 수 있다. 이번 페이지에서는 이렇게 여러 가지 random variable을 이용하여 sample space의 분포를 표현하는 .. 2021. 2. 15.
[통계학] 1.5 누적 분포 함수 Cumulative Distribution Functions 랜덤 변수 \(X\)에 대한 확률이 정의되면, cumulative distribution function(누적 분포 함수)을 구할 수 있게 된다. 누적 분포 함수는 랜덤 변수가 특정 값보다 작거나 같을 확률을 나타내는 함수이다. '누적'이라는 이름은 특정 값보다 작은 값들의 확률을 모두 누적해서 구한다는 의미에서 붙여진 이름이다. DEFINITION Cumulative Distribution Functions 랜덤 변수 \(X\)에 대하여 정의된 확률을 \(P_X\)라고 할 때, 다음과 같이 정의되는 함수 \(F_X(x)\)를 \(X\)의 cumulative distribution function이라고 부른다. (간단히 cdf라고 표현하기도 한다.)$$ F_X(x) = P_X (X\le x) $$ 예제를.. 2020. 7. 14.
[통계학] 1.3 조건부 확률, 독립 사건 Conditional Probability, Independent Events 신호의 송수신, 샘플 조사 등에서 응용되는 개념인 conditional probability(조건부 확률)은 통계적 추론에서 새로운 정보가 들어왔을 때 어떻게 처리해야 하는지에 대한 개념을 제공해 준다. 이번 페이지에서는 conditional probability와 Bayes' rule(베이즈 법칙)에 대하여 살펴보고 몇 가지 예를 살펴본다. #Conditional ProbabilityConditional probability는 어떤 사건이 일어났을 때(또는 일어나지 않았을 때) 관심있는 사건이 일어날 확률을 나타내는 개념이다. 예를 들어, 주사위 2개를 굴린 결과, 합이 10일 때 두 주사위 모두 짝수일 확률을 구하는 문제에서 사용될 수 있다. 더 복잡한 경우로는, 전파 송신탑으로부터 \(A\)라는 신.. 2020. 6. 29.