실제로 t-검정을 실시하는 기술적 절차에 대한 내용은 통계적 방법/분석 문서 참고하십시오.
통계학 Statistics | |||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" | <colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 (측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
수식 없이 설명하는 t분포의 의미를 참조
1. 개요
독립적인 표준정규분포 확률 변수 [math(X)]와 자유도가 [math(k)]인 카이 제곱 분포 확률 변수 [math(Y)]에 대해[1] [math(X/\sqrt{Y/k})]가 가지는 분포를 스튜던츠 t 분포(Student’s t-distribution) 또는 t분포라고 한다.t-분포로 하는 검정(test)은 스튜던츠 t-검정(Student's t-test) 또는 t-검정(t-test)이라고 부른다.
2. 역사
특이하게도 분포 이름이 학생(Student)인데, 이것은 이 분포를 처음 제안한 통계학자인 윌리엄 고셋(William Sealy Gosset)이 1908년에 해당 논문을 낼 때 가명으로 Student를 사용했기 때문이다.윌리엄 고셋은 기네스 양조 공장에서 일하고 있었는데 적은 샘플에 대한 통계적 추정치가 잘 맞지 않은 점을 착안하여 t 분포를 제안하였다고 한다. 당시 기네스는 자사의 직원이 자사의 제품과 연관이 있는 연구 발표를 금지하고 있었다. 그래서 사측과의 협의하에 가명으로 논문을 내었고, 고셋은 Student라는 이름으로 유명해졌다.
3. 기본 정보
[math(Z\sim N(0,\,1))]이고 [math(U\sim\chi^2_v)]이며 [math(Z)]와 [math(U)]가 독립일 때 t분포를 다음과 같이 정의한다.[math(T=\dfrac{Z}{\sqrt {U/v}}\sim t_v)]
평균은 [math(E(T)=0\;(v>1))]이고 분산은 [math({\rm Var}(T)=\dfrac{v}{v-2}\;(v>2))]이다. 표준정규분포와 비교했을 때, 평균은 같지만 [math(\dfrac{v}{v-2}>1)]이므로 분산은 t분포가 항상 더 크다. 만약 [math(v)]의 값이 커지면 분산은 갈수록 작아져 1에 근접하며, 표준정규분포와 비슷한 분포를 이루게 된다.
[math(T\sim t_v)]의 확률밀도함수는 다음과 같다.
[math(\Large{f_T(t) = \frac{\Gamma\left(\frac{v+1}{2}\right)}{\Gamma\left(\frac{v}{2}\right) \sqrt{v \pi}} \left(1 + \frac{t^2}{v}\right)^{-\frac{v+1}{2}},\;-\infty < t < \infty})]
4. 공식 및 쓰임새
[math(Z=\dfrac{\bar X-\mu}{\sigma/{\sqrt n}}\sim N(0,\,1))]이고 [math(U=\dfrac{(n-1)s^2}{\sigma^2}\sim \chi^2_{n-1})]이면[math(\begin{aligned}T&=\dfrac{Z}{\sqrt{U/v}}\sim t_v\\&=\dfrac{\cfrac{\bar X-\mu}{\sigma/\sqrt{n} }}{\sqrt{\cfrac{(n-1)s^2}{\sigma^2}/(n-1)}}\\&=\dfrac{\bar X-\mu}{s/\sqrt{n}}\sim t_{n-1}\end{aligned})]
즉, [math(t)]분포는 표본평균 [math(\bar X)]의 표준화 식에서 모표준편차 [math(\sigma)]를 표본표준편차 [math(s)]로 대체한 것이다.
만약 모표준편차를 안다면 표본평균을 표준화한 표준정규분포로 모평균을 추측하는 것이 더욱 정확하다. 그러나 일반적으로 모표준편차를 잘 알지 못한다. 모표준편차를 알려면 기본적으로 모집단을 전부 조사해야 하는데, 그게 가능하다면 애초에 모평균을 따로 추정할 필요가 없다. 따라서 모표준편차 대신 표본표준편차의 값을 이용한 [math(t)]분포로 모평균을 추측하는 것이다.
5. 그래프
확률 밀도 함수 | 누적 분포 함수 |
매개변수: 자유도(실수값) [math(nu)] [math(>0)]
6. 종류
다음과 같이 2종류가 있다.- 독립 표본 t-검정(independent samples t-test)
- 대응 표본(짝지은 표본) t-검정(paired samples t-test, 종속 표본 t-검정, dependent samples t-test)
6.1. 독립표본 t검정
독립 표본 t-검정은 두 개의 집단이 동일한 분산을 가진 경우(등분산, equal variance)와 두 개의 집단이 다른 분산을 가지고 있는 경우(이분산, unequal variance)가 있다.독립 표본 t-검정은 두 반의 성적 평균 차이가 통계적으로 유의한 차이가 있나 등을 검증할 때 쓴다. F-검정으로 등분산인지 이분산인지 검증해봐서 F-검정의 p-값이 0.05보다 작으면 이분산, 크면 등분산이다. t-검정의 p-값이 0.05보다 작으면 두 반의 성적 차이는 통계적으로 유의미하게 차이가 난다는 의미이다.
SPSS를 활용하여
6.2. 대응표본 t검정
두 집단 간의 차이를 비교하는 독립 표본 t-test와는 달리, paired t-test는 같은 집단의 전후 차이를 비교한다. 특정 수업을 들은 전후의 성적 차이나, 약물 복용 후 효과 차이와 같은 것이 있을 수 있다. p-값이 0.05보다 작으면 수업 또는 약물이 효과가 있다는 의미이다.7. 엑셀로 t-검정 하기
엑셀로 t-검정(t-test) 하기 (독립표본 t-검정)엑셀로 대응표본 t-검정 (Paired t-test) 하기
엑셀로 통계 분석하는 방법
8. 기타
z-분포와 t분포에서 귀무 가설 [math(H_0)]는 [math(\mu=0)]이나 [math(\mu_1=\mu_2)], 대립 가설 [math(H_1)]은 [math(\mu\neq0)]나 [math(\mu_1\neq\mu_2)]와 같은 것이다. [math(\mu_1=\mu_2)]처럼 변수가 2개인 경우 [math(\mu_1-\mu_2=0)]으로 바꾸고 [math(\mu_1-\mu_2)]를 [math(d)]로 치환하면 [math(d=0)]과 같은 변수가 하나인 식으로 바꿀 수 있다.또다른 유명 통계 검정인 피셔의 정확검정(Fisher’s exact test)은 로널드 피셔가 홍차와 관련된 통계 실험을 하는 과정에서 개발된 검정이다.[2] 스튜던트(윌리엄 고셋)가 t분포의 개념을 개발한 것이 맥주의 품질을 개선하기 위해서였는데, 이처럼 통계학의 굵직한 방법론들 중에 마실 것과 관련이 있는 것이 둘이나 있다는 점이 재미있다.
9. 관련 문서
[1] 즉 [math(X\sim N(0, 1))]이고 [math(Y \sim\chi^2(k))][2] 다름 아니라 한 연구원이 홍차에 우유를 먼저 넣은 밀크티와 우유에 홍차를 넣은 밀크티를 구분할 수 있다고 한 걸 실험해보려 한 것.#