본문 바로가기
Mathematics/통계학

[통계학] 4.5 공분산, 상관계수 Covariance, Correlation

by 피그티 2021. 8. 9.

4.3 서로 독립인 두 개의 랜덤 변수 Bivariate Independent Random Variables 페이지에서 두 랜덤 변수가 독립인 경우를 다루었다. 하지만 현실에서 측정치나 통계치들은 서로 연관되어 있는 경우가 훨씬 많다. 예를 들어, 한라산에서 각 지점의 고도와 온도를 측정하는 경우, 고도가 높을 수록 온도가 낮게 측정될 것이다. 또 다른 예로 종이의 크기와 무게를 측정하는 경우에도 이 두 값은 서로 연관되어 있다. 이 페이지에서는 이렇게 서로 연관되어 있는 랜덤 변수들이 얼마나 하게 연결되어 있는지를 보여주는 여러 지표 중 공분산과 상관계수에 대하여 살펴볼 것이다.

 

#Relation Between Random Variables?

먼저 랜덤 변수들이 강한 연관 관계에 있다는 것이 어떤 의미인지에 대하여 생각해보자. 앞에서 예로 든 종이의 크기와 무게는 거의 완벽히 연결되어 있다. 종이가 크면 무게도 무겁고, 종이가 작으면 무게도 가볍다. 종이에 대한 충분한 데이터가 주어진다면 종이의 크기만 알아도 무게를 계산해 낼 수 있고, 반대로 종이의 무게만 알아도 크기를 계산해 낼 수 있을 것이다. 그러나 성인의 키와 몸무게는 서로 연관되어 있지만 강하게 연결되어 있다고 할 수 없다. 보통은 키가 크면 몸무게가 더 나가겠지만, 꼭 키가 큰 사람이 작은 사람보다 몸무게가 더 나가는건 아니다. 따라서 키를 알아낸다고 해서 몸무게를 정확히 계산할 수 없고, 반대로 몸무게를 알아낸다고 해서 키를 정확히 계산해 낼 수는 없다. 즉, 강한 연관 관계인 경우에는 랜덤 변수들이 정확히 함수 관계에 있다고 할 수 있지만, 약한 약한 연관 관계인 경우에는 랜덤 변수들이 대략적으로만 특정 경향성을 가진다고 할 수 있다.

 

이번 페이지에서는 수식의 가독성을 위하여, X 의 평균을 E[X] 대신 μX, 분산을 Var(X) 대신 σX2 으로 표기한다.

 

#Covariance, Correlation

DEFINITION

Random variable XY 에 대하여, 다음 값을 XY 의 covariance(공분산)이라고 부른다.
Cov(X,Y)=E[(XμX)(YμY)]
DEFINITION

Random variable XY 에 대하여, 다음 값을 XY 의 correlation 또는 correlation coefficient(상관 계수)라고 부른다.
ρXY=Cov(X,Y)σXσY

 

당연히 실제 계산은 joint distribution에서 이루어진다. 예를 들어 XY가 연속인 경우, covariance는 다음과 같이 joint pdf의 적분을 통해 계산할 수 있다.

Cov(X,Y)=(XμX)(YμY)fX,Y(x,y) dxdy

보통 covariance를 계산하기 위해 위의 정의를 그대로 사용하기 보다는 다음과 같은 형태로 변형하여 계산한다.

 

THEOREM

Cov(X,Y)=E[XY]μXμY

 

(증명)

Cov(X,Y)=E[(XμX)(YμY)]=E[XYμYXμXY+μXμY]=E[XY]μYE[X]μXE[Y]+μXμY=E[XY]μXμYμXμY+μXμY=E[XY]μXμY

(증명 끝)

 

#Basic Properties of Covariance

Covariance는 다음과 같은 특징들을 갖는다.

THEOREM

Random variable X, Y, W, V, 상수 a, b, c, d 에 대하여 다음이 성립한다.

1. Cov(X,X)=Var(X)

2. Cov(X,a)=0

3. Cov(X,Y)=Cov(Y,X)

4. Cov(aX,bY)=abCov(X,Y)

5. Cov(X+a,Y+b)=Cov(X,Y)

6. Cov(aX+bY,cW+dV)=acCov(X,W)+adCov(X,V)+bcCov(Y,W)+bdCov(Y,V)

 

(증명)

1. variance의 정의와 covariance의 정의로부터 바로 얻어진다.

 

2. 상수 a 를 random variable처럼 이해하면, a 의 평균은 a 가 되므로 covariance의 정의로부터

Cov(X,a)=E[(XμX)(aa)]=0

 

3. covariance의 정의로부터

Cov(X,Y)=E[(XμX)(YμY)]=E[(YμY)(XμX)]=Cov(Y,X)

 

4. random variable aXbY 의 평균은 각각 aμX, bμY가 되므로

Cov(aX,bY)=E[(aXaμX)(bYbμY)]=E[ab(XμX)(YμY)]=abE[(XμX)(YμY)]=abCov(X,Y)

 

6. random variable aX+bYcW+dV 의 평균은 각각 aμX+bμY, cμW+dμV 이므로

Cov(aX+bY,cW+dV)=E[(aX+bYaμXbμY)(cW+dVcμWdμV)]=E[{a(XμX)+b(YμY)}{c(WμW)+d(VμV)}]=E[ac(XμX)(WμW)]+E[ad(XμX)(VμV)]        +E[bc(YμY)(WμW)]+E[bd(YμY)(VμV)]=acCov(X,W)+adCov(X,V)        +bcCov(Y,W)+bdCov(Y,V)

(증명 끝)

 

#Covariance and Correlation of Indepedent Random Variables

왜 covariance와 correlation이 random variable들 사이의 연관 관계를 나타내는 값이라고 할까? 다음 정리를 살펴보자.

 

THEOREM

Random variable XY 가 서로 독립이면, Cov(X,Y)=0 이다.

 

(증명)

XY 가 서로 독립이면, E[XY]=E[X]E[Y]=μXμY 이므로, 식 (???)로부터 Cov(X,Y)=0.

(증명 끝)

 

따라서 독립인 경우 correlation도 0이 된다. 위 정리로부터 covariance나 correlation이 0이 아닌 값을 가지는 경우, 두 random variable은 서로 독립이 아니라는 뜻이 된다.

 

Example 1

다음과 같은 joint pdf에 대하여 covariance와 correlation을 구해보자.

fX,Y(x,y)=1    , 0<x<1 and x<y<x+1

먼저 μX, σX2, μY, σY2 를 구하기 위해, 각 random variable의 marginal pdf를 구하면,

fX(x)=xx+1fX,Y(x,y) dy=1

fY(y)={0yfX,Y(x,y)dx=ywhen 0<y<1y2fX,Y(x,y)dx=2ywhen 1y<2

따라서,

μX=12σX2=112μY=1σY2=16

이제 covariance를 계산하기 위하여 E[XY] 를 계산하자.

E[XY]=01xx+1xy dydx=712

(???)를 이용하여,

Cov(X,Y)=E[XY]μXμY=112

그리고 correlation의 정의를 이용하여,

ρXY=Cov(X,Y)σXσY=1sqrt2

 

비교를 위하여 또 다른 joint pdf에 대하여 똑같은 계산을 해보자.

gX,Y(x,y)=10    , 0<x<1 andx<y<x+110

같은 방식으로 covariance와 correlation을 구해보면

Cov(X,Y)=112ρXY=100101

이 두 joint pdf의 support를 좌표평면에서 살펴보면 다음과 같다.

왼쪽 그래프가 fX,Y 의 분포, 오른쪽 그래프가 gX,Y 의 분포

fX,YgX,Y 의 분포를 비교해보면, fX,Y 의 경우 Y 가 더 넓게 균등히 분포해 있기 때문에 이 페이지 처음 논의에 의하면, 더 약한 연관 관계에 있다고 할 수 있다. gX,Y 의 경우 X 값을 알게 되면, Y 는 상당한 정확도로 값을 예측할 수 있기 때문에 더 강한 연관 관계라고 할 수 있을 것이다. 그러나 covariance 값은 두 경우 모두 112 로 동일하다. 이는 각 경우 variance가 서로 다르기 때문인데, 이렇게 두 연관 관계를 서로 비교하는 경우에는 covariance의 값을 standard deviation으로 나눈 correlation이 더 유용한 값이라는 것을 알 수 있다.

 

#Linear Relation

covariance와 correlation에서 주의해야 할 것은, 위 정리의 역은 성립하지 않는다는 것이다. 즉, 두 random variable이 독립이면 covariance와 correlation이 0이지만, 반대로 covariance와 correlation이 0이라고 해서 두 random variable이 반드시 독립인건 아니다. 다음의 예제를 살펴보자.

 

Example 2

Random variable X 는 uniform (1,1) distribution을 따르고 X 와 독립인 random variable Z 는 uniform (0,110) distrubution을 따른다고 하자. 여기에서 새로운 random variable Y=X2+Z 를 정의하면, YX=x 로 주어졌을 때, (x2,x2+110) 에 균등하게 분포된다. 이 분포의 joint pdf를 구하면 다음과 같다.

fX,Y(x,y)=5    , 1<x<1 and x2<y<x2+110

이 분포는 당연히 XY 가 서로 독립이지 않다. 오히려 상당히 강한 연관 관계를 가진다.

 fX,Y 의 분포

이제 이 분포의 covariance를 구해보자.

Cov(X,Y)=E[XY]E[X]E[Y]=E[X(X2+Z)]E[X]E[X2+Z]=E[X3+XZ]E[X](E[X2+Z])=E[X3]+E[X]E[Z]E[X]E[X2]E[X]E[Z]

이 때 X는 -1부터 1까지 균등하게 분포되어 있으므로 E[X]=E[X2]=E[X3]=0 이다. 따라서 Cov(X,Y)=0 이다. 

 

위 예제에서 XY 는 상당히 강한 연관 관계인데도 불구하고 covariance와 correlation이 0이 된다. 왜 이렇게 되는 것일까? 그것은 covariance와 correlation은 여러 연관 관계 중 선형 관계만을 표현하는 지표이기 때문이다.

 

THEOREM

1. 1ρXY1

2. |ρXY|=1      P(Y=aX+b)=1 을 만족하는 a0, b 가 존재한다.

3. ρXY=1 인 경우 2번에서 a>0, ρXY=1 인 경우 a<0.

 

이 정리에 따르면, 만약 XY 의 분포가 어떤 직선 y=ax+b 에 몰려있다고 한다면, correlation은 -1 또는 1에 가까운 값이 될 것이다. 그러나 그러한 직선이 존재하지 않는다면, correlation은 0이 될 것이다. 위의 예제는 그러한 직선이 존재하지 않기 때문에 correlation이 0이 된 것으로 해석할 수 있다. Example 1의 경우 fX,YgX,Y 의 correlation을 비교해보면, gX,Y 가 1에 더 가깝다. 분포 그래프에서도 gX,Y 가 더 직선에 가깝게 분포해 있음을 알 수 있다.

 

(증명)

1. 다음과 같은 함수 h(t) 를 정의해보자.

h(t)=E[{(XμX)t+(YμY)}2]

이 함수를 t 로 전개하면,

h(t)=E[(XμX)2]t2+2E[(XμX)(YμY)]t+E[(YμY)2]=σX2t2+2Cov(X,Y)t+σY2

h(t) 는 정의상 random variable의 제곱의 기대값이므로 t의 값과 상관없이 언제나 0보다 크거나 같아야 한다. 따라서 t 에 대한 2차 함수가 t 의 값과 상관없이 언제나 0보다 크거나 같을 조건

(Cov(X,Y))2σX2σY20

정리하면,

σXσYCov(X,Y)σXσY

따라서,

1ρXY1

 

2. |ρXY|=1 이기 위해서는 위의 증명에서 판별식=0 이어야 한다. 즉, h(t)=0 인 점이 중근을 가져야 한다. 그러나 h(t) 는 정의상 random variable의 제곱의 기대값이므로 그 외의 모든 경우 0보다 크다. 따라서

P([(XμX)t+(YμY)]2=0)=1

이어야 한다. 따라서 중근에서는

P((XμX)t+(YμY)=0)=1

가 성립한다. 이를 다시 정리하면,

P(Y=tXμXt+μY)=1

 

3. h(t)=0 일 때, 2차 방정식의 근의 공식으로부터 t=Cov(X,Y)σX2 를 얻는다. 따라서 3번 내용이 성립한다.

(증명 끝)

 

#Advanced Topics

1. Relationship between covariances and inner products

Covariance의 기본 성질들을 살펴보면, inner product[각주:1]의 정의와 일치한다는 것을 알 수 있다. 실제로 연속인 random variable들의 집합을 mean zero를 equivalence relation으로하여 quotient set을 정의하고, second moment가 finite한(즉, variance가 존재하는) random variable만으로 부분 집합을 만들면 이 집합은 vector space가 된고 covariance는 이 vector space의 real-valued L2 inner product가 된다. 이러한 관점에서 식 (???)은 사실상 Cauchy-Schwarz inequality를 적용하는 것과 같다. 따라서 다음과 같이 Cauchy-Schwarz inequality를 증명하는 방식으로도 증명할 수 있다.

 

다음과 같은 random variable Z 를 정의하자.

Z=XCov(X,Y)σY2Y

그러면 covariance의 성질에 의하여,

0σZ2=Cov(Z,Z)=Cov(XCov(X,Y)σY2Y,XCov(X,Y)σY2Y)=σX2(Cov(X,Y))2σY2

 

만약 random variable을 복소수 영역까지 확장시킨다면, inner product의 정의로부터 covariance의 성질 Cov(X,Y)=Cov(Y,X) 는 다음과 같이 수정되어야 한다.[각주:2]

Cov(X,Y)=Cov(Y,X)

이러한 성질을 만족하도록 covariance를 다음과 같이 재정의할 수 있다.

 

DEFINITION

Random variable XY 에 대하여, 다음 값을 XY 의 covariance라고 부른다.
Cov(X,Y)=E[(XμX)(YμY)]

 

 

  1. inner product의 자세한 내용은 (선형대수학) 4.1 Inner Product Space 참고 [본문으로]
  2. \(\overline{A}\)는 \(A\)의 complex conjugate이다. [본문으로]