공분산이란?

공분산은 두 개의 확률변수의 선형 관계를 나타는 값입니다. 

 

 

그렇다면 확률 변수란 무엇일까요?

 

확률 변수는 확률함수의 변수로, 예를 들어 동전을 던졌을 때 앞면이나 뒷면이 나오는 것을 의미합니다.

확률변수의 개념이 궁금하시다면 아래 글을 참고하세요.

https://billionaire-hossa.tistory.com/46

 

확률 변수 & 확률 함수

안녕하세요.공분산을 복습하다 보니 확률 변수에 대한 개념이 헷갈려서 다시 정리하려 합니다.기초 개념이 재대로 잡혀있지 않으면 다른 부분을 이해하기 어렵더라고요. 함께 알아보겠습니다.

billionaire-hossa.tistory.com

 

 

예시

 

다음과 같은 데이터가 있다고 가정해 보겠습니다.

 사람 몸무게
A 100 180
B 80 170
C 60 160
D 55 165
E 80 175
F 83 185
평균 76.3 172.5

 

위 표에서 몸무게와 키를 비교해 보면, 몸무게가 높을수록 키도 크다는 것을 알 수 있습니다. 즉, 두 변수 간에는 양의 선형 상관관계가 있다고 할 수 있습니다.

 

 

공분산의 의미

 

공분산은 "공+분산" 입니다. 

두 변수의 분산을 계산하여 그 사이의 상관관계를 파악하는 것입니다.

분산이란 변수가 평균(기댓값)으로부터 얼마나 멀리 퍼져 있는지를 나타내는 값입니다.

아래 값과 같죠. 분산에 대한 자세한 내용은 아래 글을 참고하세요.

 

https://billionaire-hossa.tistory.com/27

 

분산

분산(variance)이란? - 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 말합니다. 분산이 클수록 변수들이 평균으로부터 흩어져 있고, 분산이 작을수록 변수들이 평균에 가깝습니다.

billionaire-hossa.tistory.com

 

 

공분산 계산 방법

 

공분산은 아래와 같이 구할 수 있는데,

  • 평균으로부터 각각의 변수 값을 뺐을 때, 두 값 모두 양수 또는 음수라면 공분산은 양수가 됩니다.
  • 평균으로부터 각각의 변수 값을 뺐을 때, 하나는 양수, 다른 하나는 음수인 경우 공분산은 음수가 됩니다.
  • 값들이 평균을 기준으로 고르게 분포하면 공분산은 0에 가까워지며 상관성이 없다고 할 수 있습니다.

공분산에 따른 해석

 

이제 아래 그래프를 보면 이해가 쉬워집니다.

  • 공분산이 양수이면 두 변수(X, Y)는 양의 선형 상관관계를 가집니다. (X가 증가하면 Y도 증가)
  • 공분산이 음수이면 두 변수는 음의 선형 상관관계를 가집니다. (X가 증가하면 Y는 감소)
  • 공분산이 0에 가까울수록 두 변수는 선형 상관관계가 거의 없습니다.

 

[그림 출처]  https://www.ritchieng.com/machine-learning-anomaly-detection/

 

 

reference

위키백과 "공분산"

https://losskatsu.github.io/statistics/mean-vairance/

 

[기초통계] 평균과 분산의 의미, 개념

평균(mean)과 분산(variance)

losskatsu.github.io

https://seeyapangpang.tistory.com/13

 

공분산 Covariance 란 무엇인가??? [빅공남! 통계 같이 공부해요]

공분산(Covariance)란 무엇인가?는 통계 및 기초통계학 공부를 하는데 있어서 중요한 개념중에 하나 입니다. 빅데이터 분석기사 2과목 빅데이터 탐색에서 중요한 주제인 상관계수를 공부하기 앞서

seeyapangpang.tistory.com

 

https://www.youtube.com/watch?v=RymrCV3K5J8

 

'프로그래밍 > 수학' 카테고리의 다른 글

Hungarian Algorithm (헝가리안 알고리즘이란?)  (2) 2024.03.29
자연상수 𝑒(exponential)란 무엇인가요?  (0) 2024.02.20
표준편차란?  (0) 2023.03.15
분산(variance)이란?  (0) 2023.03.14
기댓값  (0) 2023.03.13

표준편차란?


- 자료의 관찰값들이 얼마나 흩어져 있는지 그정도를 하나의 수치로 나타내는 방법입니다. 

- 관찰값에서 평균을 뺀 값을 편차라고 하는데, 이 편차의 평균은 필연적으로 0이 됩니다.

예를 들어 주사위에 관찰값은 1,2,3,4,5,6 이고, 평균은 3.5입니다.

편차는

1) 1-3.5 = -2.5

2) 2-3.5 = -1.5

3) 3-3.5 = -0.5

4) 4-3.5 = 0.5

5) 5-3.5 = 1.5

6) 6-3.5 = 2.5

1)~6)까지의 수를 모두 더하게 되고 이는 0이 됩니다. 이는 평균으로부터 관찰값들이 얼마나 떨어져 있는지 알수 없기에

표준편차라는 개념이 생겨났고, 분산 또안 관찰값들이 얼마나 흩어져 있는지 알수있는 방법으로, 분산의 제곱근 한 것이 표준 편차가 됩니다. 아래 수식에서 V는 분산, 소문자 시그마  σ는 표준편차입니다.

 

Q) 주사위를 던졌을 때, 표준편차는 어떻게 되는가?

값(xi) 1 2 3 4 5 6
확률(pi) 1/6 1/6 1/6 1/6 1/6 1/6

.A) 주사위의 기댓값은 3.5이기 때문에, 분산은 2.917, 표준편차는 1.708입니다.

'프로그래밍 > 수학' 카테고리의 다른 글

Hungarian Algorithm (헝가리안 알고리즘이란?)  (2) 2024.03.29
자연상수 𝑒(exponential)란 무엇인가요?  (0) 2024.02.20
공분산(covariance)이란?  (0) 2023.03.16
분산(variance)이란?  (0) 2023.03.14
기댓값  (0) 2023.03.13

분산(variance)이란?


- 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 말합니다. 

분산이 클수록 변수들이 평균으로부터 흩어져 있고, 분산이 작을수록 변수들이 평균에 가깝습니다.

관측값(x)에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구합니다. 즉 차이값 제곱의 평균! 기댓값과 동일하게 예제를 통해 이해해보도록 하겠습니다.

 

Q) 주사위를 던졌을 때, 분산은 어떻게 되는가?

값(xi) 1 2 3 4 5 6
확률(pi) 1/6 1/6 1/6 1/6 1/6 1/6

.A) 주사위의 기댓값은 3.5이기 때문에, 분산은 2.917, 주사위에서는 변수들은 기댓값으로 부터 2.9정도 떨어져 있다고 보시면 됩니다. 

'프로그래밍 > 수학' 카테고리의 다른 글

Hungarian Algorithm (헝가리안 알고리즘이란?)  (2) 2024.03.29
자연상수 𝑒(exponential)란 무엇인가요?  (0) 2024.02.20
공분산(covariance)이란?  (0) 2023.03.16
표준편차란?  (0) 2023.03.15
기댓값  (0) 2023.03.13

 

기댓값이란?


- 어떤 확률을 무한히 반복했을 때, 얻을 수 있는 값의 평균입니다. 아래 예시를 통해 이해해 보도록 하죠.

Q) 주사위를 던젔을 때, 기댓값은 어떻게 되는가? 

값(xi) 1 2 3 4 5 6
확률(pi) 1/6 1/6 1/6 1/6 1/6 1/6

A) 주사위의 값과 각 면이 나올 기댓값은 3.5, 아래와 같습니다.

 

위의 식은 아래와 같이 E(X)라 표현할 수 있으며, 아래와 같이 정리할 수 있습니다.

 

'프로그래밍 > 수학' 카테고리의 다른 글

Hungarian Algorithm (헝가리안 알고리즘이란?)  (2) 2024.03.29
자연상수 𝑒(exponential)란 무엇인가요?  (0) 2024.02.20
공분산(covariance)이란?  (0) 2023.03.16
표준편차란?  (0) 2023.03.15
분산(variance)이란?  (0) 2023.03.14

+ Recent posts