t분포

실제로 t-검정을 실시하는 기술적 절차에 대한 내용은 통계적 방법/분석 문서 참고하십시오.

통계학 Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px"	<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학	기반	실해석학 (측도론) · 선형대수학 · 이산수학
확률론		사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량		평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학	가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
추론통계학	통계적 방법	회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 · 자료 시각화		도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점	}}}}}}}}}

1. 개요2. 역사3. 기본 정보4. 공식 및 쓰임새5. 그래프6. 종류

6.1. 독립표본 t검정6.2. 대응표본 t검정

7. 엑셀로 t-검정 하기8. 기타9. 관련 문서

수식 없이 설명하는 t분포의 의미를 참조

1. 개요

독립적인 표준정규분포 확률 변수 [math(X)]와 자유도가 [math(k)]인 카이 제곱 분포 확률 변수 [math(Y)]에 대해[1] [math(X/\sqrt{Y/k})]가 가지는 분포를 스튜던츠 t 분포(Student’s t-distribution) 또는 t분포라고 한다.

t-분포로 하는 검정(test)은 스튜던츠 t-검정(Student's t-test) 또는 t-검정(t-test)이라고 부른다.

2. 역사

특이하게도 분포 이름이 학생(Student)인데, 이것은 이 분포를 처음 제안한 통계학자인 윌리엄 고셋(William Sealy Gosset)이 1908년에 해당 논문을 낼 때 가명으로 Student를 사용했기 때문이다.

윌리엄 고셋은 기네스 양조 공장에서 일하고 있었는데 적은 샘플에 대한 통계적 추정치가 잘 맞지 않은 점을 착안하여 t 분포를 제안하였다고 한다. 당시 기네스는 자사의 직원이 자사의 제품과 연관이 있는 연구 발표를 금지하고 있었다. 그래서 사측과의 협의하에 가명으로 논문을 내었고, 고셋은 Student라는 이름으로 유명해졌다.

3. 기본 정보

[math(Z\sim N(0,\,1))]이고 [math(U\sim\chi^2_v)]이며 [math(Z)]와 [math(U)]가 독립일 때 t분포를 다음과 같이 정의한다.

[math(T=\dfrac{Z}{\sqrt {U/v}}\sim t_v)]

평균은 [math(E(T)=0\;(v>1))]이고 분산은 [math({\rm Var}(T)=\dfrac{v}{v-2}\;(v>2))]이다. 표준정규분포와 비교했을 때, 평균은 같지만 [math(\dfrac{v}{v-2}>1)]이므로 분산은 t분포가 항상 더 크다. 만약 [math(v)]의 값이 커지면 분산은 갈수록 작아져 1에 근접하며, 표준정규분포와 비슷한 분포를 이루게 된다.

[math(T\sim t_v)]의 확률밀도함수는 다음과 같다.

[math(\Large{f_T(t) = \frac{\Gamma\left(\frac{v+1}{2}\right)}{\Gamma\left(\frac{v}{2}\right) \sqrt{v \pi}} \left(1 + \frac{t^2}{v}\right)^{-\frac{v+1}{2}},\;-\infty < t < \infty})]

4. 공식 및 쓰임새

[math(Z=\dfrac{\bar X-\mu}{\sigma/{\sqrt n}}\sim N(0,\,1))]이고 [math(U=\dfrac{(n-1)s^2}{\sigma^2}\sim \chi^2_{n-1})]이면

[math(\begin{aligned}T&=\dfrac{Z}{\sqrt{U/v}}\sim t_v\\&=\dfrac{\cfrac{\bar X-\mu}{\sigma/\sqrt{n} }}{\sqrt{\cfrac{(n-1)s^2}{\sigma^2}/(n-1)}}\\&=\dfrac{\bar X-\mu}{s/\sqrt{n}}\sim t_{n-1}\end{aligned})]

즉, [math(t)]분포는 표본평균 [math(\bar X)]의 표준화 식에서 모표준편차 [math(\sigma)]를 표본표준편차 [math(s)]로 대체한 것이다.

만약 모표준편차를 안다면 표본평균을 표준화한 표준정규분포로 모평균을 추측하는 것이 더욱 정확하다. 그러나 일반적으로 모표준편차를 잘 알지 못한다. 모표준편차를 알려면 기본적으로 모집단을 전부 조사해야 하는데, 그게 가능하다면 애초에 모평균을 따로 추정할 필요가 없다. 따라서 모표준편차 대신 표본표준편차의 값을 이용한 [math(t)]분포로 모평균을 추측하는 것이다.

5. 그래프


확률 밀도 함수	누적 분포 함수

매개변수: 자유도(실수값) [math(nu)] [math(>0)]

6. 종류

다음과 같이 2종류가 있다.

독립 표본 t-검정(independent samples t-test)
대응 표본(짝지은 표본) t-검정(paired samples t-test, 종속 표본 t-검정, dependent samples t-test)

6.1. 독립표본 t검정

독립 표본 t-검정은 두 개의 집단이 동일한 분산을 가진 경우(등분산, equal variance)와 두 개의 집단이 다른 분산을 가지고 있는 경우(이분산, unequal variance)가 있다.

독립 표본 t-검정은 두 반의 성적 평균 차이가 통계적으로 유의한 차이가 있나 등을 검증할 때 쓴다. F-검정으로 등분산인지 이분산인지 검증해봐서 F-검정의 p-값이 0.05보다 작으면 이분산, 크면 등분산이다. t-검정의 p-값이 0.05보다 작으면 두 반의 성적 차이는 통계적으로 유의미하게 차이가 난다는 의미이다.

SPSS를 활용하여~~(만만한게 spss)~~검정을 수행할 수 있다.

6.2. 대응표본 t검정

두 집단 간의 차이를 비교하는 독립 표본 t-test와는 달리, paired t-test는 같은 집단의 전후 차이를 비교한다. 특정 수업을 들은 전후의 성적 차이나, 약물 복용 후 효과 차이와 같은 것이 있을 수 있다. p-값이 0.05보다 작으면 수업 또는 약물이 효과가 있다는 의미이다.

7. 엑셀로 t-검정 하기

엑셀로 t-검정(t-test) 하기 (독립표본 t-검정)

엑셀로 대응표본 t-검정 (Paired t-test) 하기

엑셀로 통계 분석하는 방법

8. 기타

z-분포와 t분포에서 귀무 가설 [math(H_0)]는 [math(\mu=0)]이나 [math(\mu_1=\mu_2)], 대립 가설 [math(H_1)]은 [math(\mu\neq0)]나 [math(\mu_1\neq\mu_2)]와 같은 것이다. [math(\mu_1=\mu_2)]처럼 변수가 2개인 경우 [math(\mu_1-\mu_2=0)]으로 바꾸고 [math(\mu_1-\mu_2)]를 [math(d)]로 치환하면 [math(d=0)]과 같은 변수가 하나인 식으로 바꿀 수 있다.

또다른 유명 통계 검정인 피셔의 정확검정(Fisher’s exact test)은 로널드 피셔가 홍차와 관련된 통계 실험을 하는 과정에서 개발된 검정이다.[2] 스튜던트(윌리엄 고셋)가 t분포의 개념을 개발한 것이 맥주의 품질을 개선하기 위해서였는데, 이처럼 통계학의 굵직한 방법론들 중에 마실 것과 관련이 있는 것이 둘이나 있다는 점이 재미있다.

9. 관련 문서

확률 분포
정규 분포
표준 정규 분포(z-분포)
F-분포
카이-제곱 분포(χ2 분포)
Microsoft Excel/함수 목록: 간단한 통계학 계산은 엑셀이나 Calc로 할 수 있다.

[1] 즉 [math(X\sim N(0, 1))]이고 [math(Y \sim\chi^2(k))][2] 다름 아니라 한 연구원이 홍차에 우유를 먼저 넣은 밀크티와 우유에 홍차를 넣은 밀크티를 구분할 수 있다고 한 걸 실험해보려 한 것.#

t분포