4.3 서로 독립인 두 개의 랜덤 변수 Bivariate Independent Random Variables 페이지에서 두 랜덤 변수가 독립인 경우를 다루었다. 하지만 현실에서 측정치나 통계치들은 서로 연관되어 있는 경우가 훨씬 많다. 예를 들어, 한라산에서 각 지점의 고도와 온도를 측정하는 경우, 고도가 높을 수록 온도가 낮게 측정될 것이다. 또 다른 예로 종이의 크기와 무게를 측정하는 경우에도 이 두 값은 서로 연관되어 있다. 이 페이지에서는 이렇게 서로 연관되어 있는 랜덤 변수들이 얼마나 하게 연결되어 있는지를 보여주는 여러 지표 중 공분산과 상관계수에 대하여 살펴볼 것이다.
#Relation Between Random Variables?
먼저 랜덤 변수들이 강한 연관 관계에 있다는 것이 어떤 의미인지에 대하여 생각해보자. 앞에서 예로 든 종이의 크기와 무게는 거의 완벽히 연결되어 있다. 종이가 크면 무게도 무겁고, 종이가 작으면 무게도 가볍다. 종이에 대한 충분한 데이터가 주어진다면 종이의 크기만 알아도 무게를 계산해 낼 수 있고, 반대로 종이의 무게만 알아도 크기를 계산해 낼 수 있을 것이다. 그러나 성인의 키와 몸무게는 서로 연관되어 있지만 강하게 연결되어 있다고 할 수 없다. 보통은 키가 크면 몸무게가 더 나가겠지만, 꼭 키가 큰 사람이 작은 사람보다 몸무게가 더 나가는건 아니다. 따라서 키를 알아낸다고 해서 몸무게를 정확히 계산할 수 없고, 반대로 몸무게를 알아낸다고 해서 키를 정확히 계산해 낼 수는 없다. 즉, 강한 연관 관계인 경우에는 랜덤 변수들이 정확히 함수 관계에 있다고 할 수 있지만, 약한 약한 연관 관계인 경우에는 랜덤 변수들이 대략적으로만 특정 경향성을 가진다고 할 수 있다.
이번 페이지에서는 수식의 가독성을 위하여,
#Covariance, Correlation
DEFINITION
Random variable와 에 대하여, 다음 값을 와 의 covariance(공분산)이라고 부른다.
DEFINITION
Random variable와 에 대하여, 다음 값을 와 의 correlation 또는 correlation coefficient(상관 계수)라고 부른다.
당연히 실제 계산은 joint distribution에서 이루어진다. 예를 들어
보통 covariance를 계산하기 위해 위의 정의를 그대로 사용하기 보다는 다음과 같은 형태로 변형하여 계산한다.
THEOREM
(증명)
(증명 끝)
#Basic Properties of Covariance
Covariance는 다음과 같은 특징들을 갖는다.
THEOREM
Random variable, , , , 상수 , , , 에 대하여 다음이 성립한다.
1.
2.
3.
4.
5.
6.
(증명)
1. variance의 정의와 covariance의 정의로부터 바로 얻어진다.
2. 상수
3. covariance의 정의로부터
4. random variable
6. random variable
(증명 끝)
#Covariance and Correlation of Indepedent Random Variables
왜 covariance와 correlation이 random variable들 사이의 연관 관계를 나타내는 값이라고 할까? 다음 정리를 살펴보자.
THEOREM
Random variable와 가 서로 독립이면, 이다.
(증명)
(증명 끝)
따라서 독립인 경우 correlation도 0이 된다. 위 정리로부터 covariance나 correlation이 0이 아닌 값을 가지는 경우, 두 random variable은 서로 독립이 아니라는 뜻이 된다.
Example 1
다음과 같은 joint pdf에 대하여 covariance와 correlation을 구해보자.
먼저
따라서,
이제 covariance를 계산하기 위하여
식
그리고 correlation의 정의를 이용하여,
비교를 위하여 또 다른 joint pdf에 대하여 똑같은 계산을 해보자.
같은 방식으로 covariance와 correlation을 구해보면
이 두 joint pdf의 support를 좌표평면에서 살펴보면 다음과 같다.


#Linear Relation
covariance와 correlation에서 주의해야 할 것은, 위 정리의 역은 성립하지 않는다는 것이다. 즉, 두 random variable이 독립이면 covariance와 correlation이 0이지만, 반대로 covariance와 correlation이 0이라고 해서 두 random variable이 반드시 독립인건 아니다. 다음의 예제를 살펴보자.
Example 2
Random variable
이 분포는 당연히

이제 이 분포의 covariance를 구해보자.
이 때
위 예제에서
THEOREM
1.
2.을 만족하는 , 가 존재한다.
3.인 경우 2번에서 , 인 경우 .
이 정리에 따르면, 만약
(증명)
1. 다음과 같은 함수
이 함수를
정리하면,
따라서,
2.
이어야 한다. 따라서 중근에서는
가 성립한다. 이를 다시 정리하면,
3.
(증명 끝)
#Advanced Topics
1. Relationship between covariances and inner products
Covariance의 기본 성질들을 살펴보면, inner product의 정의와 일치한다는 것을 알 수 있다. 실제로 연속인 random variable들의 집합을 mean zero를 equivalence relation으로하여 quotient set을 정의하고, second moment가 finite한(즉, variance가 존재하는) random variable만으로 부분 집합을 만들면 이 집합은 vector space가 된고 covariance는 이 vector space의 real-valued 1
다음과 같은 random variable
그러면 covariance의 성질에 의하여,
만약 random variable을 복소수 영역까지 확장시킨다면, inner product의 정의로부터 covariance의 성질
이러한 성질을 만족하도록 covariance를 다음과 같이 재정의할 수 있다.
DEFINITION
Random variable와 에 대하여, 다음 값을 와 의 covariance라고 부른다.
- inner product의 자세한 내용은 (선형대수학) 4.1 Inner Product Space 참고 [본문으로]
- \(\overline{A}\)는 \(A\)의 complex conjugate이다. [본문으로]
'Mathematics > 통계학' 카테고리의 다른 글
[통계학] 4.6 다변량 분포 Multivariate Distributions (0) | 2021.08.10 |
---|---|
[통계학] 4.5-(2) Example: 이변량 정규 분포 Bivariate Normal Distribution (1) | 2021.08.09 |
[통계학] 4.5-(1) Example: 랜덤 변수 덧셈의 분산 Variance of the Addition of Random Variables (0) | 2021.08.09 |
[통계학] 4.4-(2) Example: 서로 독립인 정규 분포의 덧셈과 차 (0) | 2021.08.07 |
[통계학] 4.4-(1) Example: 계층적 확률 모델링 (0) | 2021.07.04 |
[통계학] 4.4 랜덤 변수의 변환 (2) Transformations of Random Variables (2) (2) | 2021.03.02 |