안녕하세요.

공분산을 복습하다 보니 확률 변수에 대한 개념이 헷갈려서 다시 정리하려 합니다.

기초 개념이 재대로 잡혀있지 않으면 다른 부분을 이해하기 어렵더라고요. 함께 알아보겠습니다.

 

 

확률 변수란? 

 

네이버 지식백과에 따르면, 확률 변수는 다음과 같습니다.

 

"동전을 세 번 던졌을 때 앞면이 나온 횟수라든지, 두 개의 주사위를 던지는 게임에서 두 눈의 수의 합과 같이 확률적 실험에서 실험의 결과보다는 실험의 결과를 수치화한 것에 관심을 가질 때가 있다. 이렇게 실험 결과마다 실수를 대응하는 함수를 확률변수라고 한다."

 

조금 이해가 되시나요? 저는 이해가 잘 안가더라구요. 조금 더 명확히 하기 위해 위키백과의 예시를 가져왔습니다.

 

" 확률 변수는 아직 실제로 나타나지는 않았지만 나타날 가능성이 있는 모든 경우의 수에 해당하는 값을 가질 수 있다. 주사위를 굴리는 등 실제로 무작위적인 시행에 대해서도 쓸 수 있고 ..."

 

이제 이해가 좀 됩니다.  동전을 던졌을때 확률 변수는 나올 수 있는 수 앞면, 뒷면이 될것이고, 주사위를 던졌을 때는 확률 변수가 1,2,3,4,5,6이 됩니다. 즉, 어떤 확률을 갖는 경우의 값을 확률변수라고 할 수 있습니다. 

 

 

확률 변수의 종류

 

추가적으로, 공부를 하다보니 확률변수가 두개로 나뉜다는것을 알 수 있었습니다.

지금까지 이해한 확률 변수는 이산확률변수입니다.

확률 변수는 크게 두 가지로 나뉩니다. 

1. 이산확률변수 : 주사위를 던지거나, 동전을 던지는 등 셀 수 있는 값을 가지는 변수입니다.

2. 연속확률변수 : 키와 같이 특정구간 내에 모든 실수 값을 가질 수 있는 변수입니다. 예를 들어, 171.1cm, 173.05cm 등의 연속적인 값을 갖습니다.

 

 

확률 함수란?

 

그렇다면 확률 함수는 무엇일까요? 확률 함수는 크게 확률 질량함수와 확률 밀도함수로 나뉩니다.

 

1. 확률질량함수(Probability Mass Function)

 

이산 확률 변수를 가지고 그 변수에 대한 사건이 발생할 확률을 갖는 함수입니다.

아래 글을 읽어보시면 이해가 좀 더 쉬울거에요. 

 

이때 다음 두 가지 조건을 만족해야 합니다.

- 조건1 : 모든 확률 값을 더하면 1이 되어야 합니다.

- 조건2 : 모든 확률은 0이상 1이하의 값을 가집니다.

 

위에 예시도 모두 포함하는걸 보실 수 있죠.

- 조건1 : 주사위를 던질 때 나오는 값의 모든 확률을 더하면 1이되는것을 알수 있습니다

               --> P(0)+P(1)+P(2) = 1/4+1/2+1/4 = 1

- 조건2 : 0 <= P(0),P(1),P(2) <= 1

 

 

2. 확률 밀도 함수 (Probability Density Function)

 

연속 확률 변수를 가지고 특정 값에 대한 확률이 아닌 특정 구간에 대해 확률을 나타냅니다.

 

확률 밀도함수는 다음 조건을 따릅니다.

- 조건1 : 전체 확률의 합, 즉 확률 밀도 함수의 전체 넓이는 1이다.

- 조건2 : 연속 확률 변수를 사용하기 때문에 특정구간 내에 모든 값을 갖는다. 

 

 

이렇게 해서 확률 변수와 확률 함수에 대해 간단히 정리해보았습니다. 이해하는 데 큰 도움이 되면 좋겠네요.

 

 

reference

- https://terms.naver.com/entry.naver?docId=3338095&cid=47324&categoryId=47324

 

확률변수

동전을 세 번 던졌을 때 앞면이 나온 횟수라든지, 두 개의 주사위를 던지는 게임에서 두 눈의 수의 합과 같이 확률적 실험에서 실험의 결과보다는 실험의 결과를 수치화한 것에 관심을 가질 때

terms.naver.com

- https://ko.wikipedia.org/wiki/%ED%99%95%EB%A5%A0_%EB%B3%80%EC%88%98

 

확률 변수 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 확률론에서 확률 변수(確率變數, 영어: random variable)는 확률 공간에서 다른 가측 공간으로 가는 가측 함수이다.[1] 시행의 결과에 따라 값이 결정되는 변수를 나

ko.wikipedia.org

 

- https://blog.naver.com/leegoon3000/223509662026

 

이산확률변수와 연속확률변수의 정의 와 차이점

이산확률변수와 확률질량함수 확률변수는 어떤 시행에서 표본공간의 각 원소에 하나의 실수를 대응시킨 함...

blog.naver.com

- https://www.youtube.com/watch?v=AWsB5-SkJXs

공분산이란?

공분산은 두 개의 확률변수의 선형 관계를 나타는 값입니다. 

 

 

그렇다면 확률 변수란 무엇일까요?

 

확률 변수는 확률함수의 변수로, 예를 들어 동전을 던졌을 때 앞면이나 뒷면이 나오는 것을 의미합니다.

확률변수의 개념이 궁금하시다면 아래 글을 참고하세요.

https://billionaire-hossa.tistory.com/46

 

확률 변수 & 확률 함수

안녕하세요.공분산을 복습하다 보니 확률 변수에 대한 개념이 헷갈려서 다시 정리하려 합니다.기초 개념이 재대로 잡혀있지 않으면 다른 부분을 이해하기 어렵더라고요. 함께 알아보겠습니다.

billionaire-hossa.tistory.com

 

 

예시

 

다음과 같은 데이터가 있다고 가정해 보겠습니다.

 사람 몸무게
A 100 180
B 80 170
C 60 160
D 55 165
E 80 175
F 83 185
평균 76.3 172.5

 

위 표에서 몸무게와 키를 비교해 보면, 몸무게가 높을수록 키도 크다는 것을 알 수 있습니다. 즉, 두 변수 간에는 양의 선형 상관관계가 있다고 할 수 있습니다.

 

 

공분산의 의미

 

공분산은 "공+분산" 입니다. 

두 변수의 분산을 계산하여 그 사이의 상관관계를 파악하는 것입니다.

분산이란 변수가 평균(기댓값)으로부터 얼마나 멀리 퍼져 있는지를 나타내는 값입니다.

아래 값과 같죠. 분산에 대한 자세한 내용은 아래 글을 참고하세요.

 

https://billionaire-hossa.tistory.com/27

 

분산

분산(variance)이란? - 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 말합니다. 분산이 클수록 변수들이 평균으로부터 흩어져 있고, 분산이 작을수록 변수들이 평균에 가깝습니다.

billionaire-hossa.tistory.com

 

 

공분산 계산 방법

 

공분산은 아래와 같이 구할 수 있는데,

  • 평균으로부터 각각의 변수 값을 뺐을 때, 두 값 모두 양수 또는 음수라면 공분산은 양수가 됩니다.
  • 평균으로부터 각각의 변수 값을 뺐을 때, 하나는 양수, 다른 하나는 음수인 경우 공분산은 음수가 됩니다.
  • 값들이 평균을 기준으로 고르게 분포하면 공분산은 0에 가까워지며 상관성이 없다고 할 수 있습니다.

공분산에 따른 해석

 

이제 아래 그래프를 보면 이해가 쉬워집니다.

  • 공분산이 양수이면 두 변수(X, Y)는 양의 선형 상관관계를 가집니다. (X가 증가하면 Y도 증가)
  • 공분산이 음수이면 두 변수는 음의 선형 상관관계를 가집니다. (X가 증가하면 Y는 감소)
  • 공분산이 0에 가까울수록 두 변수는 선형 상관관계가 거의 없습니다.

 

[그림 출처]&nbsp; https://www.ritchieng.com/machine-learning-anomaly-detection/

 

 

reference

위키백과 "공분산"

https://losskatsu.github.io/statistics/mean-vairance/

 

[기초통계] 평균과 분산의 의미, 개념

평균(mean)과 분산(variance)

losskatsu.github.io

https://seeyapangpang.tistory.com/13

 

공분산 Covariance 란 무엇인가??? [빅공남! 통계 같이 공부해요]

공분산(Covariance)란 무엇인가?는 통계 및 기초통계학 공부를 하는데 있어서 중요한 개념중에 하나 입니다. 빅데이터 분석기사 2과목 빅데이터 탐색에서 중요한 주제인 상관계수를 공부하기 앞서

seeyapangpang.tistory.com

 

https://www.youtube.com/watch?v=RymrCV3K5J8

 

'프로그래밍 > 수학' 카테고리의 다른 글

Hungarian Algorithm (헝가리안 알고리즘이란?)  (2) 2024.03.29
자연상수 𝑒(exponential)란 무엇인가요?  (0) 2024.02.20
표준편차란?  (0) 2023.03.15
분산(variance)이란?  (0) 2023.03.14
기댓값  (0) 2023.03.13

+ Recent posts