Mathematics(수학)/Probability and Statistics (확률과통계)

[확률과통계] 드디어 나왔다. 가우시안 분포 (Gaussian Distribution)

Aumada 2023. 6. 16. 00:21

Gaussian Distribution

"우리 세상의 모든 확률 분포는 거의 대부분 가우시안 분포를 따른다고 보면 돼."

 

학부 연구실에 들어 온지 얼마 되지 않았을 때, 연구실 선배와 확률과 인공지능의 관계에 대해 이야기 나누면서 들었던 말이다. 처음에는 이해 하지 못했지만, 확률에 대해서 좀더 생각해보니 왜 그런 말씀을 하셨는지 이해가 간다.

그럼 내가 어떻게 이해했는지 살펴보자.

 

Gaussian Distribution(Normal Distribution) 의 확률 변수는 일반적인 모든 경우들의 연속적인 값으로 정의된다. 대표적인 예로 Noise가 있다. 식으로 나타내면,

로 나타내진다. 여기서 mu_X는 평균을 나타내고, sigma^2_X는 분산을 나타낸다.

간략한 그래프를 보면 알 수 있듯이 평균을 기준으로 좌우 대칭이고 흔히 종 모양이라고 일컫는다.

분산의 의미에 대해 좀더 자세히 말하자면, 분산이란 outcome들의 퍼져 있는 정도를 나타낸다. 만약 분산이 큰 경우에는 평균보다 상대적으로 크거나 작은 값이 나올 확률이 더욱 높아진다는 것을 의미한다.

가우시안 분포를 모든 x값들에 대해서 적분하면 0이 나와야하는 것은 자명하고, Standard Normal Distribution은 다음과 같다.

Approximation of Binomial distribution to Normal dist

이전 포스팅에서 다뤘던 이항 분포에 대해서 생각해보자. 식은 단순히 시행 횟수와 확률로 나타내어진다.

그런데 충분히 많은 n번의 시행을 한다고 하면 Normal distribution으로 나타내진다.

또한 RV X가 특정한 구간이 주어졌을 때의 이항분포에서의 확률은 Combination으로 나타내 질 수 있다고 했다.

그렇다면 이것을 충분히 많은 n번의 시행을 거치면 식이 어떻게 되는지 보자.

위의 식이 의미하는 바는, 실제로는 discrete한 값들이지만 충분히 많은 n번의 시행을 거치면 Gaussian dist에 가까워진다는 것을 의미한다.

반응형