공분산이란?

공분산은 두 개의 확률변수의 선형 관계를 나타는 값입니다. 

 

 

그렇다면 확률 변수란 무엇일까요?

 

확률 변수는 확률함수의 변수로, 예를 들어 동전을 던졌을 때 앞면이나 뒷면이 나오는 것을 의미합니다.

확률변수의 개념이 궁금하시다면 아래 글을 참고하세요.

https://billionaire-hossa.tistory.com/46

 

확률 변수 & 확률 함수

안녕하세요.공분산을 복습하다 보니 확률 변수에 대한 개념이 헷갈려서 다시 정리하려 합니다.기초 개념이 재대로 잡혀있지 않으면 다른 부분을 이해하기 어렵더라고요. 함께 알아보겠습니다.

billionaire-hossa.tistory.com

 

 

예시

 

다음과 같은 데이터가 있다고 가정해 보겠습니다.

 사람 몸무게
A 100 180
B 80 170
C 60 160
D 55 165
E 80 175
F 83 185
평균 76.3 172.5

 

위 표에서 몸무게와 키를 비교해 보면, 몸무게가 높을수록 키도 크다는 것을 알 수 있습니다. 즉, 두 변수 간에는 양의 선형 상관관계가 있다고 할 수 있습니다.

 

 

공분산의 의미

 

공분산은 "공+분산" 입니다. 

두 변수의 분산을 계산하여 그 사이의 상관관계를 파악하는 것입니다.

분산이란 변수가 평균(기댓값)으로부터 얼마나 멀리 퍼져 있는지를 나타내는 값입니다.

아래 값과 같죠. 분산에 대한 자세한 내용은 아래 글을 참고하세요.

 

https://billionaire-hossa.tistory.com/27

 

분산

분산(variance)이란? - 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 말합니다. 분산이 클수록 변수들이 평균으로부터 흩어져 있고, 분산이 작을수록 변수들이 평균에 가깝습니다.

billionaire-hossa.tistory.com

 

 

공분산 계산 방법

 

공분산은 아래와 같이 구할 수 있는데,

  • 평균으로부터 각각의 변수 값을 뺐을 때, 두 값 모두 양수 또는 음수라면 공분산은 양수가 됩니다.
  • 평균으로부터 각각의 변수 값을 뺐을 때, 하나는 양수, 다른 하나는 음수인 경우 공분산은 음수가 됩니다.
  • 값들이 평균을 기준으로 고르게 분포하면 공분산은 0에 가까워지며 상관성이 없다고 할 수 있습니다.

공분산에 따른 해석

 

이제 아래 그래프를 보면 이해가 쉬워집니다.

  • 공분산이 양수이면 두 변수(X, Y)는 양의 선형 상관관계를 가집니다. (X가 증가하면 Y도 증가)
  • 공분산이 음수이면 두 변수는 음의 선형 상관관계를 가집니다. (X가 증가하면 Y는 감소)
  • 공분산이 0에 가까울수록 두 변수는 선형 상관관계가 거의 없습니다.

 

[그림 출처]  https://www.ritchieng.com/machine-learning-anomaly-detection/

 

 

reference

위키백과 "공분산"

https://losskatsu.github.io/statistics/mean-vairance/

 

[기초통계] 평균과 분산의 의미, 개념

평균(mean)과 분산(variance)

losskatsu.github.io

https://seeyapangpang.tistory.com/13

 

공분산 Covariance 란 무엇인가??? [빅공남! 통계 같이 공부해요]

공분산(Covariance)란 무엇인가?는 통계 및 기초통계학 공부를 하는데 있어서 중요한 개념중에 하나 입니다. 빅데이터 분석기사 2과목 빅데이터 탐색에서 중요한 주제인 상관계수를 공부하기 앞서

seeyapangpang.tistory.com

 

https://www.youtube.com/watch?v=RymrCV3K5J8

 

'프로그래밍 > 수학' 카테고리의 다른 글

Hungarian Algorithm (헝가리안 알고리즘이란?)  (2) 2024.03.29
e란 무엇인가?  (0) 2024.02.20
표준편차  (0) 2023.03.15
분산  (0) 2023.03.14
기댓값  (0) 2023.03.13

+ Recent posts