Mathematics(수학)/Probability and Statistics (확률과통계)

[확률과통계] 조건부 평균과 공분산

Aumada 2023. 6. 16. 00:30

Conditional Mean

두 변수의 연합확률분포(Joint density)에서 다른 변수가 고정된 상태에서 다른 변수의 평균을 계산하는 방법과 의미를 이해해보자.

우리가 이전 포스팅에서 조건부 평균을 구하고자 할 때, 식은 다음과 같았다.

이처럼 두 개의 확률변수가 조건부 평균을 구하고자 한다면 Joint density로써 접근하면 된다. Y는 고정된 조건에서 X의 대한 평균을 구해보자.

 

분산에 대해서 구해보면,

만약 확률변수가 함수 모양일 때, 그에 대한 평균을 구해보면 어떻게 될까? g(X)라는 함수가 있다고 생각해보자. 이 함수는 확률변수 X가 정해지면 자동으로 함수가 생성된다. g(x) = X^2일 때평균은,

Covariance & Correlation Coefficient

Covariance

공분산과 상관계수에 대해서 알아보자. 공분산은 두 확률변수가 얼마나 관계가 있는지 나타내는 것이다.

상관 계수는 하나의 확률 변수가 변함에 따라 다는 확률 변수가 어떻게 변하는지에 대한 것이다. 범위는 (-1 ~ 1) 이고 1에 근접 할수록 RV X와 Y의 차이가 작다는 것이고, -1에 근접 할수록 차이가 크다는 것이다. 만약 0이면 두 확률변수는 아무 관련이 없다는 것을 뜻한다.

공분산을 식으로 정의하면 다음과 같다.

X와 Y라고 하는 RV끼리 곱한 것에 대한 평균에서 각각의 평균을 구해서 곱한 다음 빼면 된다.

만약 Conv(X,Y) = 0이면 X와 Y가 uncorrelated이다.

uncorrelated & independent

두 가지의 성질의 차이점을 살펴보자. 공분산이 0이면 두 확률 변수가 관련이 없다, 또는 독립적이다 라고 할 수 있지만, 독립적이라고 표현할 때는 두 확률밀도함수의 곱으로 표현할 수 있다. 그래서 uncorrelated하다고 해서 무조건 independent 하다는 것을 아니다.

Correlation Coefficient

상관계수는 두 확률 변수의 상관성을 정의해준다. 즉, Nomalization을 해준다는 것. 식은 다음과 같이 정의된다.

반응형