t분포
t분포에 대해 한 번 씩 들어보셨을 것 같은데요.
일반적으로 모분산을 모를 때 기댓값 검정에 많이 도입됩니다.
알아보도록 하지요.
t-student 분포에 대해 유도하기 전에, 먼저 표본분산의 분포를 다시 살펴봐야 합니다. (Ch3_2 참고)
1부터 n까지 n개의 표본을 뽑을 때,
i번 째 표본의 확률변수를
\(X_1, X_2, X_3, ... , X_n\)
이렇게 나타내면,
표본 평균은 아래와 같고,
\(\begin{aligned} \overline{X} = \frac{1}{n}\sum_{i=1}^nX_i \end{aligned}\)
표본분산
\(S^2\)
은 아래와 같이 나타낼 수 있습니다.
\(\begin{aligned} S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 \end{aligned}\)
또, (Ch3_2)에서 아래의 확률변수는 n-1의 자유도를 가진 카이제곱 분포를 따르는 것을 보았습니다.
\(\begin{aligned} \frac{(n-1)S^2}{\sigma^2} \end{aligned}\)
i. 모분산을 모를 때, 확률변수 t
정규분포를 따르는 집단에서 모평균과 모분산이 알려졌을 때, 표본평균을 표준정규분포를 따르도록 하는 확률변수 Z로 아래와 같이 변환시킬 수 있습니다.
\(\begin{aligned} Z = \frac{\overline{X}-\mu}{\sigma/n} \end{aligned}\)
그렇다면,
만약 모분산을 모를 때, 어떻게 할까요? 일단 표본분산에 제곱근을 씌운 표본표준편차를 대체해서 생각해보게 되면,
\(\begin{aligned} T = \frac{\overline{X}-\mu}{S/\sqrt{n}} \end{aligned}\)
위 처럼, 확률변수 T를 정의할 수 있습니다.
\(\begin{aligned} T = \frac{\overline{X}-\mu}{S/\sqrt{n}} = \frac{(\overline{X}-\mu)/(\sigma/\sqrt{n})}{S/\sigma} = \frac{Z}{\sqrt{S^2/\sigma^2}}\end{aligned}\)
\(\begin{aligned} X = \frac{(n-1)S^2}{\sigma^2} \end{aligned}\)
라 하면,
\(\begin{aligned} T = \frac{Z}{\sqrt{S^2/\sigma^2}} = \frac{Z}{\sqrt{X/(n-1)}}\end{aligned}\)
이 됩니다.
이제 이 확률변수 T의 확률분포를 구해봅시다.
확률변수 T는 확률변수 표준정규분포를 따르는 확률변수 Z와 자유도가 n-1인 카이제곱 분포를 따르는 확률변수 X로 2개의 확률변수로 구성되어 있습니다.
이 경우 확률분포를 구하기 위해서는 조금 다른 방법이 필요한데, 바로 Direc-Delta function
\(\delta(x)\)
을 이용하는 것입니다.
앞으로 편의를 위해 자유도 n-1을
\(\nu = n-1\)
로 나타냅시다.
Direc-delta 함수를 이용해서 t의 확률분포를 나타내면 아래와 같습니다.
\(\begin{aligned} g(t) = \int^{\infty}_{0}\int^{\infty}_{-\infty} \delta(t - \frac{z}{\sqrt{x/\nu}})f(z,x)dzdx \end{aligned}\)
(이렇게 표현될 수 있는 것은 추후에 포스팅을 통해 나눠보겠습니다.)
빨리 확인하고 싶으신 분은,
“Transforming Variables Using the Direc Generalized Function”, Chi Au, Judy Tam
위 논문을 살펴보시기 바랍니다.
이제 위에 표현된 확률변수 T의 분포를 구해봅시다.
먼저,
\(\begin{aligned} y = \frac{z}{\sqrt{x/\nu}} \end{aligned}\)
라고 해봅시다. 그러면,
\(\begin{aligned} g(t) &= \int^{\infty}_{0}\int^{\infty}_{-\infty} \delta(t - \frac{z}{\sqrt{x/\nu}})f(z,x)dzdx \\ \\
&= \int^{\infty}_{0}\int^{\infty}_{-\infty} \delta(t - y)f(z,x)\sqrt{\frac{x}{\nu}}dydx
\end{aligned}\)
\(f(z, x)\)
의 경우 Z와 X가 서로 독립이기 때문에,
(Ch3_2에서 말했듯이 나중에 다른 포스팅을 통해 설명하고자 합니다.) 다음과 같이 단순한 곱으로 표현할 수 있습니다.
\(\begin{aligned} f(z,x) = n(z)\chi^2_{\nu}(x) = \frac{1}{\sqrt{2\pi}}e^{-z^2/2} \frac{1}{2^{\nu/2}\Gamma(\nu/2)}x^{\nu/2-1}e^{-x/2} \end{aligned}\)
위에 대입하여 쭈욱 유도를 해보면,
\(\begin{aligned} g(t) &= \int^{\infty}_{0}\int^{\infty}_{-\infty} \delta(t - y)f(z,x)\sqrt{\frac{x}{\nu}}dydx \\ \\
&= \int^{\infty}_{0}\int^{\infty}_{-\infty} \delta(t - y)n(y\sqrt{\frac{x}{\nu}})\chi^2_{\nu}(x)\sqrt{\frac{x}{\nu}}dydx \\ \\
&= \int^{\infty}_{0}\{\int^{\infty}_{-\infty} \delta(t - y)n(y\sqrt{\frac{x}{\nu}})dy\} \space \chi^2_{\nu}(x)\sqrt{\frac{x}{\nu}} dx \\ \\
&= \int^{\infty}_{0} n(t\sqrt{\frac{x}{\nu}}) \space \chi^2_{\nu}(x)\sqrt{\frac{x}{\nu}} dx \\ \\
&= \int^{\infty}_{0} \frac{1}{\sqrt{2\pi}}e^{-t^2x/(2\nu)} \space \frac{1}{2^{\nu/2}\Gamma(\nu/2)}x^{\nu/2-1}e^{-x/2} \sqrt{\frac{x}{\nu}} dx \\ \\
&= \frac{1}{\sqrt{2\pi\nu}} \frac{1}{2^{\nu/2}\Gamma(\nu/2)} \int^{\infty}_{0} \space x^{(\nu-1)/2}e^{-\frac{x}{2}(1+t^2/\nu)} dx
\end{aligned}\)
여기서, 감마분포 혹시 생각나시나요?
\(\begin{aligned} \frac{1}{\beta^\alpha\Gamma(\alpha)}(x)^{\alpha-1}e^{-x/\beta}
\end{aligned}\)
\(\begin{aligned} \alpha = \frac{\nu+1}{2} \space , \beta = \frac{2}{1+\frac{t^2}{\nu}}\end{aligned}\)
라고 해봅시다.
그러면 위의 식은 아래와 같이 쓸 수 있습니다.
\(\begin{aligned} g(t)
&= \frac{1}{\sqrt{2\pi\nu}} \frac{1}{2^{\nu/2}\Gamma(\nu/2)} \int^{\infty}_{0} \space x^{(\nu-1)/2}e^{-\frac{x}{2}(1+t^2/\nu)} dx \\ \\
&= \frac{1}{\sqrt{2\pi\nu}} \frac{1}{2^{\nu/2}\Gamma(\nu/2)} \int^{\infty}_{0} \space x^{\alpha-1}e^{-x/\beta} dx \\ \\
&= \frac{1}{\sqrt{\pi\nu}} \frac{1}{2^{(\nu+1)/2}\Gamma(\nu/2)} \int^{\infty}_{0} \frac{\beta^\alpha\Gamma(\alpha)}{\beta^\alpha\Gamma(\alpha)} \space x^{\alpha-1}e^{-x/\beta} dx \\ \\
&= \frac{1}{\sqrt{\pi\nu}} \frac{\beta^\alpha\Gamma(\alpha)}{2^{(\nu+1)/2}\Gamma(\nu/2)} \int^{\infty}_{0} \frac{1}{\beta^\alpha\Gamma(\alpha)} \space x^{\alpha-1}e^{-x/\beta} dx \end{aligned}\)
우측의 Integral 항을 보면 감마분포를 확률변수 전 영역에 걸쳐 적분한 형태입니다. 곧 확률 1을 의미하죠.
\(\begin{aligned} g(t)
&= \frac{1}{\sqrt{\pi\nu}} \frac{\beta^\alpha\Gamma(\alpha)}{2^{(\nu+1)/2}\Gamma(\nu/2)} \times 1 \\ \\
&= \frac{1}{\sqrt{\pi\nu}} \frac{1}{2^{(\nu+1)/2}\Gamma(\nu/2)}\Gamma(\frac{\nu+1}{2})(\frac{2}{1+t^2/\nu})^{(\nu+1)/2} \\ \\
&= \frac{1}{\sqrt{\pi\nu}} \frac{\Gamma((\nu+1)2)}{\Gamma(\nu/2)2^{(\nu+1)/2}}2^{(\nu+1)/2}(1+t^2/\nu)^{-(\nu+1)/2} \\ \\
&= \frac{\Gamma((\nu+1)2)}{\sqrt{\pi\nu}\Gamma(\nu/2)}(1+\frac{t^2}{\nu})^{-(\nu+1)/2}
\end{aligned}\)
이렇게 t 분포를 구하게 되었습니다. 식을 살펴보니, 자유도
\(\nu\)
가 남아있습니다.
이렇게 자유도
\(\nu\)
를 가지는 t분포를 구하게 되었습니다.
정리하면,
모분산을 몰라서, 표본의 분산을 대신 넣어 정규화시킨 확률변수
\(\begin{aligned} t = \frac{\overline{X} - \mu}{S/\sqrt{n}} \end{aligned}\)
를 정의하였고, 일련의 과정을 통해, t분포를 유도하였습니다.
모집단의 평균이 주어진 표본이 주어졌을 때, 확률 변수 t를 계산하면, 이 변수는 t분포를 따르게 될 것이라고 생각할 수 있는 것이죠.
기본적으로 정규분포보다 분산이 더 큰 형태를 가지고 있고, 표본의 갯수 n이 증가함에 따라 (
\(\nu\)
이 증가함) 정규분포에 가까워집니다.
t분포 in python
import scipy.stats as sps
## student t distribution
df = 40 # degree of freedom
t = sps.t(df)
#### mean & variance
mean, var = t.mean(), t.var()
#### get some values from t-distribution
some_values = t.rvs(size=10, random_state=12345)