student t 분포 (t분포)

t분포

t분포에 대해 한 번 씩 들어보셨을 것 같은데요.

일반적으로 모분산을 모를 때 기댓값 검정에 많이 도입됩니다.

알아보도록 하지요.

t-student 분포에 대해 유도하기 전에, 먼저 표본분산의 분포를 다시 살펴봐야 합니다. (Ch3_2 참고)

1부터 n까지 n개의 표본을 뽑을 때,

i번 째 표본의 확률변수를 \(X_1, X_2, X_3, ... , X_n\) 이렇게 나타내면,

표본 평균은 아래와 같고,

\(\begin{aligned} \overline{X} = \frac{1}{n}\sum_{i=1}^nX_i \end{aligned}\)

표본분산 \(S^2\) 은 아래와 같이 나타낼 수 있습니다.

\(\begin{aligned} S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 \end{aligned}\)

또, (Ch3_2)에서 아래의 확률변수는 n-1의 자유도를 가진 카이제곱 분포를 따르는 것을 보았습니다.

\(\begin{aligned} \frac{(n-1)S^2}{\sigma^2} \end{aligned}\)

i. 모분산을 모를 때, 확률변수 t

정규분포를 따르는 집단에서 모평균과 모분산이 알려졌을 때, 표본평균을 표준정규분포를 따르도록 하는 확률변수 Z로 아래와 같이 변환시킬 수 있습니다.

\(\begin{aligned} Z = \frac{\overline{X}-\mu}{\sigma/n} \end{aligned}\)

그렇다면,

만약 모분산을 모를 때, 어떻게 할까요? 일단 표본분산에 제곱근을 씌운 표본표준편차를 대체해서 생각해보게 되면,

\(\begin{aligned} T = \frac{\overline{X}-\mu}{S/\sqrt{n}} \end{aligned}\)

위 처럼, 확률변수 T를 정의할 수 있습니다.

\(\begin{aligned} T = \frac{\overline{X}-\mu}{S/\sqrt{n}} = \frac{(\overline{X}-\mu)/(\sigma/\sqrt{n})}{S/\sigma} = \frac{Z}{\sqrt{S^2/\sigma^2}}\end{aligned}\)

\(\begin{aligned} X = \frac{(n-1)S^2}{\sigma^2} \end{aligned}\) 라 하면,

\(\begin{aligned} T = \frac{Z}{\sqrt{S^2/\sigma^2}} = \frac{Z}{\sqrt{X/(n-1)}}\end{aligned}\) 이 됩니다.

이제 이 확률변수 T의 확률분포를 구해봅시다.

확률변수 T는 확률변수 표준정규분포를 따르는 확률변수 Z와 자유도가 n-1인 카이제곱 분포를 따르는 확률변수 X로 2개의 확률변수로 구성되어 있습니다.

이 경우 확률분포를 구하기 위해서는 조금 다른 방법이 필요한데, 바로 Direc-Delta function \(\delta(x)\) 을 이용하는 것입니다.

앞으로 편의를 위해 자유도 n-1을 \(\nu = n-1\) 로 나타냅시다.

Direc-delta 함수를 이용해서 t의 확률분포를 나타내면 아래와 같습니다.

\(\begin{aligned} g(t) = \int^{\infty}_{0}\int^{\infty}_{-\infty} \delta(t - \frac{z}{\sqrt{x/\nu}})f(z,x)dzdx \end{aligned}\)

(이렇게 표현될 수 있는 것은 추후에 포스팅을 통해 나눠보겠습니다.)

빨리 확인하고 싶으신 분은,
“Transforming Variables Using the Direc Generalized Function”, Chi Au, Judy Tam

위 논문을 살펴보시기 바랍니다.

이제 위에 표현된 확률변수 T의 분포를 구해봅시다.

먼저, \(\begin{aligned} y = \frac{z}{\sqrt{x/\nu}} \end{aligned}\) 라고 해봅시다. 그러면,

\(\begin{aligned} g(t) &= \int^{\infty}_{0}\int^{\infty}_{-\infty} \delta(t - \frac{z}{\sqrt{x/\nu}})f(z,x)dzdx \\ \\ &= \int^{\infty}_{0}\int^{\infty}_{-\infty} \delta(t - y)f(z,x)\sqrt{\frac{x}{\nu}}dydx \end{aligned}\)

\(f(z, x)\) 의 경우 Z와 X가 서로 독립이기 때문에,
(Ch3_2에서 말했듯이 나중에 다른 포스팅을 통해 설명하고자 합니다.) 다음과 같이 단순한 곱으로 표현할 수 있습니다.

\(\begin{aligned} f(z,x) = n(z)\chi^2_{\nu}(x) = \frac{1}{\sqrt{2\pi}}e^{-z^2/2} \frac{1}{2^{\nu/2}\Gamma(\nu/2)}x^{\nu/2-1}e^{-x/2} \end{aligned}\)

위에 대입하여 쭈욱 유도를 해보면,

\(\begin{aligned} g(t) &= \int^{\infty}_{0}\int^{\infty}_{-\infty} \delta(t - y)f(z,x)\sqrt{\frac{x}{\nu}}dydx \\ \\ &= \int^{\infty}_{0}\int^{\infty}_{-\infty} \delta(t - y)n(y\sqrt{\frac{x}{\nu}})\chi^2_{\nu}(x)\sqrt{\frac{x}{\nu}}dydx \\ \\ &= \int^{\infty}_{0}\{\int^{\infty}_{-\infty} \delta(t - y)n(y\sqrt{\frac{x}{\nu}})dy\} \space \chi^2_{\nu}(x)\sqrt{\frac{x}{\nu}} dx \\ \\ &= \int^{\infty}_{0} n(t\sqrt{\frac{x}{\nu}}) \space \chi^2_{\nu}(x)\sqrt{\frac{x}{\nu}} dx \\ \\ &= \int^{\infty}_{0} \frac{1}{\sqrt{2\pi}}e^{-t^2x/(2\nu)} \space \frac{1}{2^{\nu/2}\Gamma(\nu/2)}x^{\nu/2-1}e^{-x/2} \sqrt{\frac{x}{\nu}} dx \\ \\ &= \frac{1}{\sqrt{2\pi\nu}} \frac{1}{2^{\nu/2}\Gamma(\nu/2)} \int^{\infty}_{0} \space x^{(\nu-1)/2}e^{-\frac{x}{2}(1+t^2/\nu)} dx \end{aligned}\)

여기서, 감마분포 혹시 생각나시나요?

\(\begin{aligned} \frac{1}{\beta^\alpha\Gamma(\alpha)}(x)^{\alpha-1}e^{-x/\beta} \end{aligned}\)

\(\begin{aligned} \alpha = \frac{\nu+1}{2} \space , \beta = \frac{2}{1+\frac{t^2}{\nu}}\end{aligned}\)
라고 해봅시다.

그러면 위의 식은 아래와 같이 쓸 수 있습니다.

\(\begin{aligned} g(t) &= \frac{1}{\sqrt{2\pi\nu}} \frac{1}{2^{\nu/2}\Gamma(\nu/2)} \int^{\infty}_{0} \space x^{(\nu-1)/2}e^{-\frac{x}{2}(1+t^2/\nu)} dx \\ \\ &= \frac{1}{\sqrt{2\pi\nu}} \frac{1}{2^{\nu/2}\Gamma(\nu/2)} \int^{\infty}_{0} \space x^{\alpha-1}e^{-x/\beta} dx \\ \\ &= \frac{1}{\sqrt{\pi\nu}} \frac{1}{2^{(\nu+1)/2}\Gamma(\nu/2)} \int^{\infty}_{0} \frac{\beta^\alpha\Gamma(\alpha)}{\beta^\alpha\Gamma(\alpha)} \space x^{\alpha-1}e^{-x/\beta} dx \\ \\ &= \frac{1}{\sqrt{\pi\nu}} \frac{\beta^\alpha\Gamma(\alpha)}{2^{(\nu+1)/2}\Gamma(\nu/2)} \int^{\infty}_{0} \frac{1}{\beta^\alpha\Gamma(\alpha)} \space x^{\alpha-1}e^{-x/\beta} dx \end{aligned}\)

우측의 Integral 항을 보면 감마분포를 확률변수 전 영역에 걸쳐 적분한 형태입니다. 곧 확률 1을 의미하죠.

\(\begin{aligned} g(t) &= \frac{1}{\sqrt{\pi\nu}} \frac{\beta^\alpha\Gamma(\alpha)}{2^{(\nu+1)/2}\Gamma(\nu/2)} \times 1 \\ \\ &= \frac{1}{\sqrt{\pi\nu}} \frac{1}{2^{(\nu+1)/2}\Gamma(\nu/2)}\Gamma(\frac{\nu+1}{2})(\frac{2}{1+t^2/\nu})^{(\nu+1)/2} \\ \\ &= \frac{1}{\sqrt{\pi\nu}} \frac{\Gamma((\nu+1)2)}{\Gamma(\nu/2)2^{(\nu+1)/2}}2^{(\nu+1)/2}(1+t^2/\nu)^{-(\nu+1)/2} \\ \\ &= \frac{\Gamma((\nu+1)2)}{\sqrt{\pi\nu}\Gamma(\nu/2)}(1+\frac{t^2}{\nu})^{-(\nu+1)/2} \end{aligned}\)

이렇게 t 분포를 구하게 되었습니다. 식을 살펴보니, 자유도 \(\nu\) 가 남아있습니다.

이렇게 자유도 \(\nu\) 를 가지는 t분포를 구하게 되었습니다.

정리하면,

모분산을 몰라서, 표본의 분산을 대신 넣어 정규화시킨 확률변수 \(\begin{aligned} t = \frac{\overline{X} - \mu}{S/\sqrt{n}} \end{aligned}\)

를 정의하였고, 일련의 과정을 통해, t분포를 유도하였습니다.

모집단의 평균이 주어진 표본이 주어졌을 때, 확률 변수 t를 계산하면, 이 변수는 t분포를 따르게 될 것이라고 생각할 수 있는 것이죠.

기본적으로 정규분포보다 분산이 더 큰 형태를 가지고 있고, 표본의 갯수 n이 증가함에 따라 ( \(\nu\) 이 증가함) 정규분포에 가까워집니다.

t분포 in python

import scipy.stats as sps

## student t distribution

df = 40 # degree of freedom

t = sps.t(df)

#### mean & variance
mean, var = t.mean(), t.var()

#### get some values from t-distribution
some_values = t.rvs(size=10, random_state=12345)