공분산
공분산(共分散, 영어: covariance)은 2개의 확률변수의 선형 관계를 나타내는 값이다.[1] 만약 2개의 변수중 하나의 값이 상승하는 경향을 보일 때 다른 값도 상승하는 선형 상관성이 있다면 양수의 공분산을 가진다.[2] 반대로 2개의 변수중 하나의 값이 상승하는 경향을 보일 때 다른 값이 하강하는 선형 상관성을 보인다면 공분산의 값은 음수가 된다. 이렇게 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나 2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 상관분석을 통해 정도를 파악하기에는 부적절하다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수로는 그리스 문자 ρ를, 표본상관계수로는 알파벳 s를 사용한다.
정의와 공식
[편집]공분산의 정의는 다음과 같다.
정의 —
여기서 실수값을 지니는 2개의 확률변수 X와 Y에 대해서 공분산의 기댓값
을 사용하고, 기댓값 연산자 E를 정리하면 아래와 같이 나타낼 수 있다.
만약 X와 Y가 독립이라면 공분산은 0이 될 것이고 이 경우 아래와 같이 나타낼 수 있다.
2번째 식을 3번째식에 대입하면 아래과 같은 결과를 얻을 수 있다.
일반적으로 역은 성립하지 않는다. 즉 X와 Y가 독립이 아니라하더라도 공분산의 값은 0이 될 수 있다.
Cov(X, Y)의 단위는 X와 Y의 곱이다. 상관관계는 공분산값을 필요로하며, 선형독립의 무차원수로 볼 수 있다.
공분산이 0인 확률변수를 비상관 확률변수라고 한다.
성질
[편집]만약 X, Y가 실수값인 확률변수이고 a, b상수라면, 공분산에 대해서 아래와 같은 법칙이 성립한다.
확률변수인 X1, ..., Xn 과 Y1, ..., Ym에 대해서 아래와 같은 법칙이 성립한다.
확률변수인 X1, ..., Xn에 대해서 아래와 같은 법칙이 성립한다.
공분산의 많은 성질은 내적이 가지는 성질과 유사하다.:
- (1) 이중선형연산: 상수 a와 b 그리고 확률변수 X, Y, U, Cov(aX + bY, U) = a Cov(X, U) + bCov(Y, U)
- (2) 대칭성: Cov(X, Y) = Cov(Y, X)
- (3) 양수값: Var(X) = Cov(X, X) ≥ 0이고 Cov(X, X) = 0 이란 것은 X가 상수확률변수(K)라는 뜻이다.
공분산은 확률변수들의 벡터 공간 상에서의 내적을 의미한다. 벡터에서 적용되는 벡터합 X + Y 및 aX와 같은 스칼라곱의 성질도 지닌다.
공분산행렬
[편집]열벡터값을 가지는 확률변수X 와 Y 가 각각 μ 와 ν라는 기댓값을 가질 때 공분산m×n 행렬은 아래와 같다.
벡터확률변수를 가지는 Cov(X, Y) 와 Cov(Y, X)는 각각의 전치행렬이다.
공분산은 때때로 2개의 확률변수간의 선형의존성을 나타내는 척도로도 사용된다. 이것은 선형대수에서 의미하는 선형의존성을 말하는 것은 아니다. 공분산을 정규화시키면 상관관계를 보여주는 상관행렬(Correlation_matrix)을 얻을 수 있다. 이로부터 Pearson Coefficient값을 얻을 수 있고 두개의 확률변수의 관계를 최적으로 설명가능한 선형함수를 표현가능하게 해준다. 이러한 점에서 공분산은 독립성의 선형척도로 볼 수 있다.
표본 공분산
[편집]피어슨 상관계수에 사용되는 표본 공분산(sample covariance)은 다음과 같다.
각주
[편집]- ↑ “공분산”. 《수학백과》. 대한수학회. 2021년 2월 27일에 확인함.
- ↑ Weisstein, Eric Wolfgang. “Covariance”. 《Wolfram MathWorld》 (영어). Wolfram Research.