확률변수의 변환에 따른 확률분포의 변환

앞서서, 확률변수의 선형 결합에 따른 평균분산의 변화를 살펴보았습니다.

이제는 확률변수의 변화에 따라 확률분포가 어떻게 바뀌는지를 살펴보려 합니다.

i. 이산형 확률분포


이산형 확률분포와 연속형 확률분포를 다룰 때는 기억해야 할 큰 차이점이 하나 있습니다.

바로, 이산형 확률분포는 그 자체가 확률이라는 것.

연속형 확률분포는 그 자체가 확률을 의미하지는 않는 다는 것이죠. (쉽게 말해, 하나의 확률변수 만을 고려한 연속형확률분포의 경우는 넓이가 확률)

이 차이에 따라 확률변수의 변화에 따라 확률분포가 변화하는 방식도 달라집니다.

하지만, 기본적인 개념은 같은데요.

바로, 확률 변수 x가 변환된 확률변수 Y가 가진 확률(가중치)는 그 Y값을 만들어 내는 X의 확률의 합과 동일하다는 것입니다.

예를 들어, 1에서 6까지 6개의 숫자가 있는 주사위가 있습니다. 주사위의 숫자를 확률 변수 X라 하고, X가 2가 될 확률은 1/6이라고 해보겠습니다. 그리고 확률변수 Y를 확률변수 X에 2를 곱한 수라고 정의해본다면,

확률변수 Y가 4가 될 확률은 얼마가 될까요? Y가 4가 된다는 말은 X가 2가 된다는 말이고, 결국 1/6이 됩니다.

결국, 변환된 특정한 확률변수 Y의 확률은 그에 해당하는 특정한 X가 가진 확률을 그대로 가지게 되지요.



만약, 이산형 확률변수 X가 있고 이 X는 이산형 확률분포 f(x)를 따른 다고 할 때,

확률변수 Y가 있고, X와 아래와 같은 관계가 있다고 생각해봅시다.

\(y = u(x)\)

Y의 확률 분포를 g(y)라 하면, g(y)는 단순하게 다음과 같습니다.

\(\begin{aligned} g(y) = \sum_{x \in \{x: y = w(x)\}}f(x) \end{aligned}\)

말 그대로 표현하면, 그 y가 되는 x의 확률을 더하면 된다는 말이지요.

위처럼 쉽게 새로 변환된 확률변수로 표현된 확률분포를 알 수 있게 됩니다.



ii. 연속형 확률 분포

연속형 확률 분포는 어떻게 다뤄야 할까요?

하나의 확률분포를 다른 하나의 확률 분포로 바꾸는 과정부터 생각해 봅시다.

연속형 확률분포 X가 있고, 연속형 확률분포 f(x)를 따른다고 가정하고,

확률 변수 Y가 있고, X와 아래와 같은 관계가 있다고 생각해봅시다.

\(x = u(y)\)

Y의 확률분포를 g(y)라 하고 1대1 대응이 만족한다면, 쉽게 나타내면 아래와 같이 나타낼 수 있습니다.

\(f(x)dx = g(y)dy\)

\(\begin{aligned} g(y) = f(x)\frac{dx}{dy} = f(x)\frac{du}{dy} = f(x)u' \end{aligned}\)

으로 나타낼 수 있습니다.

이 때, \(u'\) 은 기울기를 의미하므로 음수가 될 수도 있을 것입니다.

그래서, 좀더 정확히 나타낸다면 절댓값을 씌워 아래와 같이 표현 됩니다.

\(g(y) = f(x)|u'|\)

만약 X를 여러 배반인 사상으로 나누어서 Y와 각각 1대1대응을 시킬 수 있다면, 해당 구간에서 각각 위의 식을 써서 합하면 됩니다.(X는 이미 확률분포 f(x)가 구해져 있는 상태임.)

\(\begin{aligned} g(y) = \sum_if(x)|u_i'| \end{aligned}\)



적률생성함수


적률생성함수 (Moment Generating Function)이 있습니다.

이는 함수를 일종의 변환 (Transformation) 시키는 것인데요.
(마치 Fourier Transformation, Laplace Transformation 등)

변화를 시켜, 변화된 형태를 비교함으로써 확률분포를 알아내는데 쓰일 수 있습니다.

먼저 적률이라는 용어를 알아야 하겠죠?

Moment, 모멘트라는 단어는 과학이나 공학을 공부하신 분들께는 매우 익숙한 용어일 것 이라 생각합니다.

확률에서 r차 적률이란 다음과 같습니다.

\(\mu'_{r} = E[X^r]\)

형태를 잘 보면, 1차 적률은 기댓값이 되는 것을 알 수 있습니다.

그러면 적률 생성함수는 무엇일까요?

바로 아래와 같은 변환을 통해 나타낸 함수 입니다.

\(M_{X}(t) = E[e^{tX}]\)

이산형 확률변수의 경우, \(\begin{aligned} \sum_Xe^{tx}f(x) \end{aligned}\)

연속형 확률변수의 경우, \(\begin{aligned} \int_X e^{tx}f(x)dx \end{aligned}\)

여기서 중요한 것은 적률 생성함수 \(M_X(t)\) 가 x에 대한 함수가 아니라, t에 대한 함수라는 것입니다.


그리고 아래 첨자는 어떤 확률변수에 대한 적률생성함수인지를 나타내줍니다.

이제 적률을 생성해볼까요?

적률 생성함수의 변수 t에 0을 넣으면 어떻게 될까요?

0차 적률, 단순 확률분포의 합이 됩니다. (1)

이번엔, 적률 생성함수를 t에 대해 1번 미분하고 0을 넣으면 어떻게 될까요?

\(\int_Xxe^{tx}f(x)dx \space |_{t=0} = \int_Xxf(x)dx\)

1차 적률, 즉 기댓값이 됩니다.

그래서, 적률생성함수와 적률의 관계는 다음과 같습니다.

\(\begin{aligned} \mu'_{r} = \frac{d^rM_X(t)}{dt^r} \space \mid_{t=0}\end{aligned}\)

이제 적률 생성함수를 사용하기 위한 몇 가지 정리를 살펴봅시다.

i. 유일성 정리 (Uniqueness Theorem)

먼저, 유일성 정리입니다. 두 확률 변수의 적률생성함수가 모든 t값에 대해 동일하면, 두 확률 변수의 확률 분포는 같다는 말입니다.

만약, 이 말이 맞다면 대표적인 확률 분포의 적률생성함수를 미리 구해놓은 다음, 새롭게 구한 확률변수의 적률생성함수와 비교해 만족한다면, 같은 확률분포를 가진다고 말하는 것이 가능하겠죠?

이를 증명하는 것은 생각보다 조금 복잡할 수 있으니, 다음으로… 헤헤 다음에 꼭 다루는 걸로.

ii. aX+b의 적률생성함수

\(M_X(t)\) 를 확률변수 X의 적률생성함수라 하면, \(M_{aX+b}(t)\) 는 어떻게 될까요?

크게 다르지 않으니, 연속형 확률변수의 경우에 대해서만 구해봅시다.

\(Y = aX + b\) 라고 하면,

\(\begin{aligned} M_{aX+b}(t) = M_Y(t) = \int_Y e^{ty}g(y)dy \end{aligned}\)

여기서, \(g(y)dy = f(x)dx\) 이기 때문에, 다음과 같이 나타낼 수 있습니다.

\(\begin{aligned} M_Y(t) = \int_X e^{t(ax+b)}f(x)dx = e^{tb}\int_Xe^{tax}f(x)dx = e^{tb}M_X(at) \end{aligned}\)

더해진 상수 b는 \(e^{tb}\) 형태로 곱해지고, 곱해진 상수 a는 적률생성함수의 t에 곱해져있는 형태가 되네요.

iii. 서로 독립인 확률변수들의 합으로 나타낸 적률생성함수

서로 독립인 확률변수의 합에 대해서 생각해봅시다.

확률변수 \(X_1, X_2\) 가 서로 독립이고, 확률분포 \(f_1(x_1), f_2(x_2)\) 를 각각 따른다고 가정할 때,

두 확률변수의 합의 적률생성함수를 구해보면,

\(M_{X_1 + X_2}(t) = \int_{X_1}\int_{X_2}e^{t(x_1+x_2)}f(x_1,x_2)dx_2dx_1\)

두 확률변수는 서로 독립이므로,

\(f(x_1, x_2) = f_1(x_1)f_2(x_2)\) 로 나타낼 수 있고,

\(\begin{aligned} M_{X_1 + X_2}(t) &= \int_{X_1}\int_{X_2}e^{t(x_1+x_2)}f_1(x_1)f_2(x_2)dx_2dx_1 \\ &= \int_{X_1}e^{tx_1}f_1(x_1)dx_1\int_{X_2}e^{tx_2}f_2(x_2)dx_2 \\ & = M_{X_1}(t)M_{X_2}(t)\end{aligned}\)

각각의 적률생성함수의 곱이 됩니다.

서로 독립인 확률변수의 적률생성 함수으로 표현된다~!



이제 이산형과 연속형 확률분포에 어떤 것들이 있는지 확인해복 적률생성함수를 맞춰서 구해보면 좋겠네요.