공분산이란?
공분산은 두 개의 확률변수의 선형 관계를 나타는 값입니다.
그렇다면 확률 변수란 무엇일까요?
확률 변수는 확률함수의 변수로, 예를 들어 동전을 던졌을 때 앞면이나 뒷면이 나오는 것을 의미합니다.
확률변수의 개념이 궁금하시다면 아래 글을 참고하세요.
https://billionaire-hossa.tistory.com/46
예시
다음과 같은 데이터가 있다고 가정해 보겠습니다.
사람 | 몸무게 | 키 |
A | 100 | 180 |
B | 80 | 170 |
C | 60 | 160 |
D | 55 | 165 |
E | 80 | 175 |
F | 83 | 185 |
평균 | 76.3 | 172.5 |
위 표에서 몸무게와 키를 비교해 보면, 몸무게가 높을수록 키도 크다는 것을 알 수 있습니다. 즉, 두 변수 간에는 양의 선형 상관관계가 있다고 할 수 있습니다.
공분산의 의미
공분산은 "공+분산" 입니다.
두 변수의 분산을 계산하여 그 사이의 상관관계를 파악하는 것입니다.
분산이란 변수가 평균(기댓값)으로부터 얼마나 멀리 퍼져 있는지를 나타내는 값입니다.
아래 값과 같죠. 분산에 대한 자세한 내용은 아래 글을 참고하세요.
https://billionaire-hossa.tistory.com/27
공분산 계산 방법
공분산은 아래와 같이 구할 수 있는데,
- 평균으로부터 각각의 변수 값을 뺐을 때, 두 값 모두 양수 또는 음수라면 공분산은 양수가 됩니다.
- 평균으로부터 각각의 변수 값을 뺐을 때, 하나는 양수, 다른 하나는 음수인 경우 공분산은 음수가 됩니다.
- 값들이 평균을 기준으로 고르게 분포하면 공분산은 0에 가까워지며 상관성이 없다고 할 수 있습니다.
공분산에 따른 해석
이제 아래 그래프를 보면 이해가 쉬워집니다.
- 공분산이 양수이면 두 변수(X, Y)는 양의 선형 상관관계를 가집니다. (X가 증가하면 Y도 증가)
- 공분산이 음수이면 두 변수는 음의 선형 상관관계를 가집니다. (X가 증가하면 Y는 감소)
- 공분산이 0에 가까울수록 두 변수는 선형 상관관계가 거의 없습니다.
reference
위키백과 "공분산"
https://losskatsu.github.io/statistics/mean-vairance/
https://seeyapangpang.tistory.com/13
https://www.youtube.com/watch?v=RymrCV3K5J8
'프로그래밍 > 수학' 카테고리의 다른 글
Hungarian Algorithm (헝가리안 알고리즘이란?) (2) | 2024.03.29 |
---|---|
자연상수 𝑒(exponential)란 무엇인가요? (0) | 2024.02.20 |
표준편차란? (0) | 2023.03.15 |
분산(variance)이란? (0) | 2023.03.14 |
기댓값 (0) | 2023.03.13 |