-
728x90
통계에서 여러 실험을 해보면, 데이터가 가운데 있는 평균 근처에 많이 분포하고, 평균에서 멀어질수록 적게 분포하기에, 정규분포 형태를 띠는 경우가 많다. 그래서 정규분포를 많이 사용하는데, 단지 정규분포는 표본의 수가 적으면 신뢰도가 낮아진다. 예를 들어 어떠한 실험에서 표본 5개 뽑았는데, 운이 안 좋아서 아래의 그림과 같이 뽑혔다고 해보자. 그럼 표본이 한쪽으로 치우쳐 있기 때문에 실험의 신뢰도는 낮아진다.
물론 신뢰도를 높이기 위해서 표본을 많이 뽑으면 되지만, 현실에서는 시간과 비용의 제약으로 표본을 많이 뽑지 못하는 경우도 있다. 그래서 이에 대한 대응책으로 정규분포보다 한 단계 예측범위가 넓은 분포를 사용하는데, 이것이 바로 t분포이다.(그냥 “티분포”라고 읽으면 된다)
t분포의 그래프는 정규분포와 매우 비슷한 모양을 하고 있는데, 정규분포와 마찬가지로 그래프가 좌우대칭이다. 그런데 t분포는 정규분포의 “표준정규분포”처럼 표준이 되는 그래프는 없다. 대신 표본의 수에 따라서 그래프의 모양이 변하는데, 표본의 수가 많아질수록 그래프는 점점 표준정규분포와 비슷해지고, 표본의 수가 적어질수록 그래프는 점점 옆으로 퍼진다.(표본의 수가 적을수록 실험의 신뢰도는 낮아지기에, 예측범위를 넓히기 위해서 그래프가 점점 옆으로 퍼지는 것이다)
그리고 t분포는 이전까지 다루었던 다른 확률분포와는 달리 확률을 구할 때 사용하지 않고, 나중에 “신뢰구간”이랑 “가설검정”에서 사용한다. 그런데 신뢰구간과 가설검정도 표본의 수가 많아야 신뢰도가 올라가는데, 표본의 수가 적어서 30개 미만일 때, 정규분포 대신 예측범위가 넓은 t분포를 땜빵용으로 사용한다. 대신 t분포는 표본의 수가 30개 이상이면 정규분포와 비슷해지기에, 표본의 수가 30개 이상이면 t분포를 사용하지 않고 정규분포를 사용한다. 참고로 t분포로 신뢰구간을 추정하고 가설검정을 할 때 t값을 알아야 하는데, t값은 그래프의 x축 좌표이다. 그리고 t값은 보통 “t분포표”를 사용해서 구하는데, 다음 글에서는 t분포표에 대해서 알아보자.
728x90