확률과 라이클리후드(Likelihood)는 통계에서 많이 등장하지만, 그 차이를 구분하는 것이 헷갈릴 수 있습니다.

이 글에서는 확률과 라이클리후드의 차이를 쉽게 설명하고, 최대우도추정(MLE)이 무엇인지 알아보겠습니다.

 

 

Likelihood란 무엇인가?

먼저 사전적으로 "Likelihood"는 '어떤 일이 일어날 가능성'을 의미합니다. 하지만 통계에서 likelihood는 조금 다른 의미를 가지고 있습니다. 보통 Probability(확률)과 함께 다뤄지는데, 이 둘을 구분해보겠습니다.

  • 확률 (Probability): 어떤 사건이 일어날 가능성을 말합니다. 예를 들어, 특정 아이가 키가 클 확률 또는 카지노 게임에서 이길 확률을 생각해볼 수 있습니다.
  • 가능도 (Likelihood) : 관측된 사건이 고정된 상태에서 확률 분포가 변화될 때, 확률을 나타냅니다. 즉, 데이터를 바탕으로 여러개의 확률분포를 적용하여 해당 확률 분포가 적합한지를 추정하는 데 사용됩니다. 식은 아래와 같습니다.
  •  

 

 

Likelihood

위의 식을 좀더 쉽게 이해하기 위해, 아래 식을 이해하면 좋습니다.

 

여기서 θ는 확률 분포를 구성하는 parameter(매개변수)를 의미합니다. 

쉽게 말해, 특정 확률 분포의 성질을 정의하는 숫자들이라고 생각하면됩니다.

예를 들어, 확률분포가 정규분포를 따른다면 "θ"는 parameter는 평균 μ와 표준편차 σ가 됩니다.

 

따라서 위의 식은 likelihood는! 데이터 x일 때, 가정한 확률분포(예로 정규분포)의 확률값( P(x∣θ) )을 모두 곱한 값 (Π)이 됩니다.

 

예시 :

아래와 같이 데이터  x = {1,4,5,6,9} 가 주어졌을 때, 우리는 이 데이터를 가장 잘 설명할 수 있는 확률밀도함수(PDF)를 찾고자 합니다. 아래 그림처럼 여러 개의 PDF가 있을 수 있는데, 그 중에서 Likelihood 값이 가장 큰 확률밀도함수가 주황색 그래프입니다. likelihood값이 더 큰 확률밀도함수(PDF)는 주황색이 되겠죠. 

 

출처 https://www.youtube.com/watch?v=XhlfVtGb19c&t=339s

 

이런 식으로, likelihood가 최대가 되는 확률밀도함수를 찾는 방법이 최대우도추정법 ( MLE, Maximum Likelihood Estimation) 입니다.

 

 

 

 

reference

- https://xoft.tistory.com/30

 

[개념 정리] Likelihood 와 Probability

사전에서 Probability를 '확률', Likelihood는 '가능도, 가능성'라고 합니다. 이 단어의 구별이 잘 되지 않습니다. 한국어로 '확률'은 '어떤일이 일어날 가능성'을 나타냅니다. Likelihood도 '어떤일이 일어

xoft.tistory.com

- https://www.youtube.com/watch?v=XhlfVtGb19c&t=339s

 

안녕하세요. 

공분산의 역행렬에 대해 공부하다가 "조건부 종속성"이라는 용어가 이해가 안되어 정리하려고 합니다.

 

혹시 "조건부 종속성"이라는 말 들어보셨나요? 

 

자 오늘은 비오는 날, 우산, 그리고 운동을 예시로 조건부 종속성을 이해해보려고 합니다.

 

 

독립 vs 종속 : 변수들의 관계?

 

먼저, 통계에서 자주 등장하는 변수란 무엇일까요? 간단히 말해, 변할 수 있는 모든 것을 의미합니다.

예를 들어, 오늘의 날씨, 기온, 여러분의 기분 등이 모두 변수가 될수 있습니다.

 

이러한 변수들은 서로 영향을 주고 받는 종속 관계이거나, 전혀 상관없는 독립 관계 일 수 있습니다.

 

- 독립 : 서로 아무런 영향을 주고받지 않는 관계예요. 마치 평행선처럼요! 

   예를 들어, 오늘의 기온 과 여러분이 읽은 책 페이지 수 는 서로 독립적일 가능성이 높겠죠?
- 종속: 서로 영향을 주고받는 관계입니다. 마치 톱니바퀴처럼 얽혀있는 거죠!

   비가 오는 날 (🌧️) 과 우산을 쓰는지 여부 (☂️) 는 서로 종속적인 관계입니다.

   비가 오면 우산을 쓸 확률이 높아지니까요!

 

 

조건부 종속성: 숨겨진 관계?

 

조건부 종속성을 알아볼까요? 🎉 이는 특정 조건 이 주어졌을 때, 

독립적이라고 생각했던 변수들이 종속적인 관계로 변하는 것 을 의미합니다.

 

예를 들어, 평소에는 비 오는 날 (🌧️) 과 운동 여부 (🏃) 사이에 큰 관련이 없다고 생각해 봅시다. 

하지만 여기에 '우산' (☂️) 이라는 새로운 조건을 추가해 볼까요?

 

☂️ 우산을 쓴다면?: 비가 오더라도 우산을 썼기 때문에 밖에 나가 운동할 수 있습니다. 

즉, 비 오는 날 (🌧️) 과 운동 여부 (🏃) 는 독립 에 가까워집니다.

 

🚫 우산이 없다면?: 비가 오는데 우산이 없다면? 밖에 나가 운동하기 쉽지 않겠죠. 

이 경우 비 오는 날 (🌧️) 과 운동 여부 (🏃) 는 종속 관계가 됩니다.

 

결국 '우산' (☂️) 이라는 조건에 따라 비 오는 날 (🌧️) 과 운동 여부 (🏃) 사이의 관계가 달라지는 것을 알 수 있습니다. 

이처럼 조건부 종속성은 숨겨진 변수들의 관계 를 파악하는 데 중요한 역할을 합니다!

 

 

 

 

 

안녕하세요.

공분산을 복습하다 보니 확률 변수에 대한 개념이 헷갈려서 다시 정리하려 합니다.

기초 개념이 재대로 잡혀있지 않으면 다른 부분을 이해하기 어렵더라고요. 함께 알아보겠습니다.

 

 

확률 변수란? 

 

네이버 지식백과에 따르면, 확률 변수는 다음과 같습니다.

 

"동전을 세 번 던졌을 때 앞면이 나온 횟수라든지, 두 개의 주사위를 던지는 게임에서 두 눈의 수의 합과 같이 확률적 실험에서 실험의 결과보다는 실험의 결과를 수치화한 것에 관심을 가질 때가 있다. 이렇게 실험 결과마다 실수를 대응하는 함수를 확률변수라고 한다."

 

조금 이해가 되시나요? 저는 이해가 잘 안가더라구요. 조금 더 명확히 하기 위해 위키백과의 예시를 가져왔습니다.

 

" 확률 변수는 아직 실제로 나타나지는 않았지만 나타날 가능성이 있는 모든 경우의 수에 해당하는 값을 가질 수 있다. 주사위를 굴리는 등 실제로 무작위적인 시행에 대해서도 쓸 수 있고 ..."

 

이제 이해가 좀 됩니다.  동전을 던졌을때 확률 변수는 나올 수 있는 수 앞면, 뒷면이 될것이고, 주사위를 던졌을 때는 확률 변수가 1,2,3,4,5,6이 됩니다. 즉, 어떤 확률을 갖는 경우의 값을 확률변수라고 할 수 있습니다. 

 

 

확률 변수의 종류

 

추가적으로, 공부를 하다보니 확률변수가 두개로 나뉜다는것을 알 수 있었습니다.

지금까지 이해한 확률 변수는 이산확률변수입니다.

확률 변수는 크게 두 가지로 나뉩니다. 

1. 이산확률변수 : 주사위를 던지거나, 동전을 던지는 등 셀 수 있는 값을 가지는 변수입니다.

2. 연속확률변수 : 키와 같이 특정구간 내에 모든 실수 값을 가질 수 있는 변수입니다. 예를 들어, 171.1cm, 173.05cm 등의 연속적인 값을 갖습니다.

 

 

확률 함수란?

 

그렇다면 확률 함수는 무엇일까요? 확률 함수는 크게 확률 질량함수와 확률 밀도함수로 나뉩니다.

 

1. 확률질량함수(Probability Mass Function)

 

이산 확률 변수를 가지고 그 변수에 대한 사건이 발생할 확률을 갖는 함수입니다.

아래 글을 읽어보시면 이해가 좀 더 쉬울거에요. 

 

이때 다음 두 가지 조건을 만족해야 합니다.

- 조건1 : 모든 확률 값을 더하면 1이 되어야 합니다.

- 조건2 : 모든 확률은 0이상 1이하의 값을 가집니다.

 

위에 예시도 모두 포함하는걸 보실 수 있죠.

- 조건1 : 주사위를 던질 때 나오는 값의 모든 확률을 더하면 1이되는것을 알수 있습니다

               --> P(0)+P(1)+P(2) = 1/4+1/2+1/4 = 1

- 조건2 : 0 <= P(0),P(1),P(2) <= 1

 

 

2. 확률 밀도 함수 (Probability Density Function)

 

연속 확률 변수를 가지고 특정 값에 대한 확률이 아닌 특정 구간에 대해 확률을 나타냅니다.

 

확률 밀도함수는 다음 조건을 따릅니다.

- 조건1 : 전체 확률의 합, 즉 확률 밀도 함수의 전체 넓이는 1이다.

- 조건2 : 연속 확률 변수를 사용하기 때문에 특정구간 내에 모든 값을 갖는다. 

 

 

이렇게 해서 확률 변수와 확률 함수에 대해 간단히 정리해보았습니다. 이해하는 데 큰 도움이 되면 좋겠네요.

 

 

reference

- https://terms.naver.com/entry.naver?docId=3338095&cid=47324&categoryId=47324

 

확률변수

동전을 세 번 던졌을 때 앞면이 나온 횟수라든지, 두 개의 주사위를 던지는 게임에서 두 눈의 수의 합과 같이 확률적 실험에서 실험의 결과보다는 실험의 결과를 수치화한 것에 관심을 가질 때

terms.naver.com

- https://ko.wikipedia.org/wiki/%ED%99%95%EB%A5%A0_%EB%B3%80%EC%88%98

 

확률 변수 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 확률론에서 확률 변수(確率變數, 영어: random variable)는 확률 공간에서 다른 가측 공간으로 가는 가측 함수이다.[1] 시행의 결과에 따라 값이 결정되는 변수를 나

ko.wikipedia.org

 

- https://blog.naver.com/leegoon3000/223509662026

 

이산확률변수와 연속확률변수의 정의 와 차이점

이산확률변수와 확률질량함수 확률변수는 어떤 시행에서 표본공간의 각 원소에 하나의 실수를 대응시킨 함...

blog.naver.com

- https://www.youtube.com/watch?v=AWsB5-SkJXs

 

논문을 읽던 중에 헷갈리는 개념이 있어 정리하려고 한다.

 

매번 나올때마다 검색하고 이해하는데, 이번에는 제발 머리속에 남길 바란다...

 

 

내적이란 무엇인가?

 

위키백과에 따르면,

" 유클리드 공간에서 두 벡터로부터 실수 스칼라를 얻는 연산이다. 스칼라곱의 물리학 개념은 주어진 힘이 주어진 변위의 물체에 가한 일을 구하는 문제이다 "

이게 도대체 무슨 말인가... 유튜브를 막 찾아보기시작했다. 

혁펜하임 유튜브에 보면 

두 백터가 얼마나 닮았는지를 표현하는 방법이라고 한다. 즉 값이 클수록 두 벡터는 닮았으며(같은 방향을 갖는다,θ가 같다) 값이 0에 가까워 질수록 (수직방향), -이면 반대방향이라고 생각하면된다. 

 

아직 완벽하게 이해가 안된다. 수학적인 수식부터 천천히 살펴보자

 

 

수학적 수식

 

표기는 "  ⋅ " 으로 하며 두 벡터 사이에 다음과 같이 내적이 표기되면, 두개의 값에 코사인 세타값을 의미한다.

 

 

예시를 들어보면

acosθ는 a로부터 b까지의 수선의 발을 내린 값이며, 즉 b의 값이 된다. 따라서 b의 제곱이 되므로 내적은 16의 값을 갖는다. 

 

내용을 좀 더 심화해보면,

a⋅b = ||a||cosθ||b|| = atb로 표기할 수 있다. 자세한 해석은 아래와 같다.

 

 

 

결론

 

1. 위의 수학적 해석들을 살펴보면 결국, 벡터 a와 b가 방향이 유사할 수록 값이 커짐을 알 수 있다. 

2. 내적(dot product)은 두 벡터 사이의 관계를 나타내는 스칼라 값이다. (위키 백과의 말이 이제 좀 이해가 간다..)  

3. 그리고 a⋅b = ||a||cosθ||b|| = atb 이 식은 잊지 말자!!

 

 

 

 

Reference

- https://www.youtube.com/watch?v=47axVfuf-Q0

-https://ko.wikipedia.org/wiki/%EC%8A%A4%EC%B9%BC%EB%9D%BC%EA%B3%B1

+ Recent posts