표본평균과 기댓값과 분산

I. 모집단과 표본

모집단은 관측 가능한 값들이 있는 집합이라고 말할 수 있습니다.

중요한 것은 관측 가능한 값. 숫자로 그리고 숫자의 크기 관계로 표현할 수 있다는 말입니다.

표본은 쉽게 말해 모집단의 부분집합입니다.

우리나라 성인 남성의 신장을 알고 싶다고 해봅시다.

관측 가능한 값은 신장일 것이고, 우리 나라 성인 남성 중 1000명을 임의로 뽑았다고 하면,

이 1000명은 우리 나라 전체 성인 남성의 부분집합인 표본이 될 것입니다.

우리나라 성인 남성의 신장을 말할 때 평균이란 값으로 대표하는 것이 하나의 방법일 수 있습니다. 이렇게 해보기로 합시다.

여기서 통계가 하고자 하는 것을 알 수 있습니다. 표본 1000명 에게서 특정한 계산법으로 구한 평균 값이 전체 우리 나라 남성 모집단에 똑같은 계산법을 적용해 나온 값과 일치할까요? 비슷하게 구할 수 있을까요?

이것을 하고자 하는 것이 바로 통계입니다.

여기서 표본 또는 확률표본이라 불리는 집합에 가한 특정한 계산법(위의 예시에서는 ‘평균’)을 통해 나온 값을 통계량 (statistic)이라 합니다. 더 정확히는 그 특정한 계산법 즉, 함수를 통해 나오는 값들을 통계량이라 합니다.

여기서 유의할 점은 통계량도 확률 변수라는 것입니다. 표본에 따라 값이 달라지기 떄문입니다.

또, 표본에서 구한 통계량을 추정량 (estimate)이라고 합니다. 모집단의 값을 추정하는 값이라는 의미이죠.

이제 자주 쓰이며 집합을 대표할만 한 값인(또, 확률변수인) 표본평균과 표본분산에 대해 얘기해봅시다.

II. 표본평균의 기댓값과 표본평균의 분산

평균이 \(\mu\) 분산이 \(\sigma^2\) 인 모집단에서 n개의 표본을 추출해서 임의로 1 ~ n번으로 번호를 지정해봅시다.

\(X_1, X_2, X_3, ... , X_n\)

여기서 \(X_i\) 는 각각 확률변수가 됩니다. 이에 더해, 위 모집단의 평균과 모분산의 가정은 아래 식이 만족한다는 것을 의미합니다.

\(E[X_i] = \mu\)

\(V[X_i] = \sigma^2\)

이제 각각의 확률변수를 결합해서 동일한 가중치로 나누어 표본평균이라는 확률변수를 정의해봅시다.

\(\begin{aligned} \bar{X} = \frac{1}{n}\sum_i^n{X_i} \end{aligned}\)

이 표본평균 \(\bar{X}\) 의 기댓값과 분산을 구해볼까요? (선형결합된 확률변수의 기댓값과 분산 기억나시나요?)

\(E[aX + bY + c] = aE[X] + bE[Y] + c\)

\(V[aX + bY + c] = a^2V[X] + b^2V[Y]\)

위 식을 통해, 표본평균의 평균과 분산을 구해보면,

\(\begin{aligned} E[\bar{X}] = E[\frac{1}{n}\sum_i^nX_i] = \frac{1}{n}\sum_i^nE[X_i] = \frac{1}{n}\sum_i^n\mu =\frac{1}{n}n\mu = \mu \end{aligned}\)

\(\begin{aligned} V[\bar{X}] = V[\frac{1}{n}\sum_i^nX_i] = \frac{1}{n^2}\sum_i^nV[X_i] = \frac{1}{n^2}\sum_i^n\sigma^2 =\frac{1}{n^2}n\sigma^2 = \frac{\sigma^2}{n} \end{aligned}\)

표본평균이라는 확률변수의 기댓값과 분산이 위와 같아짐을 구할 수 있습니다.

여기서 각각의 \(X_i\) 가 동일한 모집단에서 나왔기에, 동일한 모집단의 평균과 분산을 가정했다는 것을 기억해야 합니다.

여기서 한 가지, 짚고 넘어갈만한 것은 표본평균의 기댓값은 모집단의 평균과 같아집니다. 이와 같은 것을 불편 추정량(Unbiased Estimates)라고 합니다.

\(\Theta\) 를 모집단의 특정한 모수라고 한다면, 아래의 관계가 만족하는 X는 \(\Theta\) 의 불편 추정량이라고 부릅니다.

\(E[X] = \Theta\)

모집단의 성질을 기댓값으로 알아낼 수 있는 확률변수(Random Variables)라 이거죠.

III. 모집단이 정규분포라는 가정을 더했을 때 표본평균의 분포

정규분포를 따르고 서로 독립인 확률 변수의 합은 여전히 정규분포를 따르게 됨을 적률생성함수를 이용해 쉽게 알 수 있습니다. (Ch3-1 참조)

결국 표본평균은 \(\begin{aligned} E[\bar{X}] =\mu, V[\bar{X}] = \frac{\sigma^2}{n} \end{aligned}\) 인 정규분포를 따르게 됩니다.

여기서 자연스럽게, 표본평균을 정규화시킨 새로운 확률변수 Z는

\(\begin{aligned} Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \end{aligned}\)

평균이 0 이고 분산이 1인 표준정규분포를 따르게 될 것입니다.

IV. 중심극한정리

방금은 모집단의 정규분포를 가정했는데요. 사실, 실제로는 모집단이 정규분포를 따르는지 아닌지 알기 어렵습니다.

모집단 전체를 조사해 본 것도 아니고, 실재로 분포를 구하기 쉽지 않죠.

그래도 표본의 수 n을 키울 때, 위의 Z는 표준정규분포를 따르게 된다는 것이 중심극한정리입니다.

참 단순하면서 말이 되기도 하면서, 항상 성립하지는 않을 수 있는 말입니다.

다시 정리하면, 모집단이 정규분포를 따른다고 가정하지 않더라도, 표본의 갯수 n을 충분히 크게 한다면, 표본평균(확률 변수)는 정규분포를 따르게 된다고 할 수 있다는 말입니다.

냠냠.. 이제 기본적인 준비가 되었으니, 몇가지 분포를 알아보고 검정으로 넘어가야 겠네요.