I. 모집단과 표본
모집단은 관측 가능한 값들이 있는 집합이라고 말할 수 있습니다.
중요한 것은 관측 가능한 값
. 숫자로 그리고 숫자의 크기 관계로 표현할 수 있다는 말입니다.
표본은 쉽게 말해 모집단의 부분집합입니다.
우리나라 성인 남성의 신장을 알고 싶다고 해봅시다.
관측 가능한 값은 신장일 것이고, 우리 나라 성인 남성 중 1000명을 임의로 뽑았다고 하면,
이 1000명은 우리 나라 전체 성인 남성의 부분집합인 표본이 될 것입니다.
우리나라 성인 남성의 신장을 말할 때 평균
이란 값으로 대표하는 것이 하나의 방법일 수 있습니다. 이렇게 해보기로 합시다.
여기서 통계가 하고자 하는 것을 알 수 있습니다. 표본 1000명 에게서 특정한 계산법으로 구한 평균
값
이 전체 우리 나라 남성 모집단에 똑같은 계산법을 적용해 나온 값과 일치할까요? 비슷하게 구할 수 있을까요?
이것을 하고자 하는 것이 바로 통계입니다.
여기서 표본 또는 확률표본이라 불리는 집합에 가한 특정한 계산법(위의 예시에서는 ‘평균’)을 통해 나온 값을 통계량 (statistic)이라 합니다. 더 정확히는 그 특정한 계산법 즉, 함수를 통해 나오는 값들을 통계량이라 합니다.
여기서 유의할 점은 통계량
도 확률 변수
라는 것입니다. 표본에 따라 값이 달라지기 떄문입니다.
또, 표본에서 구한 통계량을 추정량 (estimate)이라고 합니다. 모집단의 값을 추정하는 값이라는 의미이죠.
이제 자주 쓰이며 집합을 대표할만 한 값인(또, 확률변수인) 표본평균과 표본분산에 대해 얘기해봅시다.
II. 표본평균의 기댓값과 표본평균의 분산
평균이
\(\mu\)
분산이
\(\sigma^2\)
인 모집단에서 n개의 표본을 추출해서 임의로 1 ~ n번으로 번호를 지정해봅시다.
\(X_1, X_2, X_3, ... , X_n\)
여기서
\(X_i\)
는 각각 확률변수가 됩니다. 이에 더해, 위 모집단의 평균과 모분산의 가정은 아래 식이 만족한다는 것을 의미합니다.
\(E[X_i] = \mu\)
\(V[X_i] = \sigma^2\)
이제 각각의 확률변수를 결합해서 동일한 가중치로 나누어 표본평균
이라는 확률변수를 정의해봅시다.
\(\begin{aligned} \bar{X} = \frac{1}{n}\sum_i^n{X_i} \end{aligned}\)
이 표본평균
\(\bar{X}\)
의 기댓값과 분산을 구해볼까요? (선형결합된 확률변수의 기댓값과 분산 기억나시나요?)
\(E[aX + bY + c] = aE[X] + bE[Y] + c\)
\(V[aX + bY + c] = a^2V[X] + b^2V[Y]\)
위 식을 통해, 표본평균의 평균과 분산을 구해보면,
\(\begin{aligned}
E[\bar{X}] = E[\frac{1}{n}\sum_i^nX_i] = \frac{1}{n}\sum_i^nE[X_i] = \frac{1}{n}\sum_i^n\mu =\frac{1}{n}n\mu = \mu
\end{aligned}\)
\(\begin{aligned}
V[\bar{X}] = V[\frac{1}{n}\sum_i^nX_i] = \frac{1}{n^2}\sum_i^nV[X_i] = \frac{1}{n^2}\sum_i^n\sigma^2 =\frac{1}{n^2}n\sigma^2 = \frac{\sigma^2}{n}
\end{aligned}\)
표본평균이라는 확률변수의 기댓값과 분산이 위와 같아짐을 구할 수 있습니다.
여기서 각각의
\(X_i\)
가 동일한 모집단에서 나왔기에, 동일한 모집단의 평균과 분산을 가정했다는 것을 기억해야 합니다.
여기서 한 가지, 짚고 넘어갈만한 것은 표본평균의 기댓값은 모집단의 평균과 같아집니다. 이와 같은 것을 불편 추정량(Unbiased Estimates)라고 합니다.
\(\Theta\)
를 모집단의 특정한 모수라고 한다면, 아래의 관계가 만족하는 X는
\(\Theta\)
의 불편 추정량이라고 부릅니다.
\(E[X] = \Theta\)
모집단의 성질을 기댓값으로 알아낼 수 있는 확률변수(Random Variables)라 이거죠.
III. 모집단이 정규분포라는 가정을 더했을 때 표본평균의 분포
정규분포를 따르고 서로 독립인 확률 변수의 합은 여전히 정규분포를 따르게 됨을 적률생성함수를 이용해 쉽게 알 수 있습니다. (Ch3-1 참조)
결국 표본평균은
\(\begin{aligned} E[\bar{X}] =\mu, V[\bar{X}] = \frac{\sigma^2}{n} \end{aligned}\)
인 정규분포를 따르게 됩니다.
여기서 자연스럽게, 표본평균을 정규화시킨 새로운 확률변수 Z는
\(\begin{aligned} Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \end{aligned}\)
평균이 0 이고 분산이 1인 표준정규분포를 따르게 될 것입니다.
IV. 중심극한정리
방금은 모집단의 정규분포를 가정했는데요. 사실, 실제로는 모집단이 정규분포를 따르는지 아닌지 알기 어렵습니다.
모집단 전체를 조사해 본 것도 아니고, 실재로 분포를 구하기 쉽지 않죠.
그래도 표본의 수 n을 키울 때, 위의 Z는 표준정규분포를 따르게 된다는 것이 중심극한정리입니다.
참 단순하면서 말이 되기도 하면서, 항상 성립하지는 않을 수 있는 말입니다.
다시 정리하면, 모집단이 정규분포를 따른다고 가정하지 않더라도,
표본의 갯수 n을 충분히 크게 한다면, 표본평균(확률 변수)는 정규분포를 따르게 된다고 할 수 있다는 말입니다.
냠냠.. 이제 기본적인 준비가 되었으니, 몇가지 분포를 알아보고 검정으로 넘어가야 겠네요.