통계학 Statistics | |||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" | <colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 (측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 · 독립항등분포 | ||
통계량 | 평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
independent and identically distributed (iid)확률변수가 여러 개 있을 때 (X1 , X2 , ... , Xn) 이들이 상호독립적이며, 모두 동일한 확률분포 f(x)를 가진다면 iid이다.
2. 깨지는 경우
통계학에서는 좋은 가정이 성립되지 않을 때, 추정량에 어떤 악영향이 있으며 어떤 대처를 해야 하는지 다룬다. 많은 사회과학 데이터들은 자연과학의 실험(experimental) 데이터와 다르게 위에서 언급한 좋은 가정들을 만족하지 못 하기 때문에 특히 계량경제학이나 사회통계에서 중요하다.2.1. Heteroskedasticity(이분산성)
만일 오차항(error term)의 공분산 행렬을 안다면, GLS(Generalized Least Square)를 사용하여 여전히 BLUE를 구할 수 있다. 그러나 이 가정은 현실적이지 못한 가정이므로 여러 대안이 나왔다. 그 중 비교적 대세로 자리잡은 것은 White의 robust covariance matrix estimation이다.2.2. Endogeneity(내생성)
사회과학적 중요성이 큰 통계학 문제로, 계량경제학과 통계학 사이에서 주목받는 정도 차이가 유독 큰 분야 중 하나이다. 예를 들어 사교육이 전교석차에 미치는 효과를 알고 싶다. 간단하게 "전교 석차 = α + β·사교육비 + ε"의 식을 세운다고 하자. 사교육비 지출에 영향을 주는 관찰되지 않은 개인별 특성(예: 능력)이 석차에도 영향을 준다면, 통상최소자승(OLS) 추정치에는 bias가 발생한다. 이 특성은 오차항(ε)에 반영되어 있을 것이기 때문이다. 설명변수(X)인 사교육비와 오차항 간에 상관관계가 존재하게 되어[1] OLS 추정량은 bias되어 있고 inconsistent하다. 만약 능력이 높은 학생이 사교육을 많이 받는다면 사교육의 효과는 과대추정될 것이고, 능력이 낮은 학생이 많이 받는다면 과소추정될 것이다. 다른 예로 "일반인 1명이 대학에 갔을 경우 추가로 얻는 기대소득이 얼마일까?" 라는 질문을 생각해보자. 첫번째 아이디어는 대학에 간 사람 100명, 안 간 사람 100명을 비교해서 평균 임금을 비교하는 것이다. 그러나 곧 이 방법이 문제가 있음을 깨닫는다. 대학에 간 사람들은 상대적으로 공부를 잘하고 대학에서 얻을 것이 많은 사람들이기 때문에, 이러한 비교를 하면 대학교의 임금 상승 효과를 과대평가하게 되는 것이다. 이상적인 실험은 사람 200명을 모으고 비슷한 집단 2개로 랜덤하게 나누어서, 한 집단은 대학을 보내고 다른 집단을 그러지 않은 다음에 몇 년 후 두 집단의 임금을 비교하는 것이나, 이는 현실적으로 하기 힘들다. 따라서 이러한 실험 상황을 어떻게든 재현하기 위해, 원인에 따라 통제변수를 추가하거나, 도구변수(IV)를 사용하거나, DiD 모형 등을 이용한다.[2]내생성을 야기하는 요인은 일반적으로 누락변수(omitted variables), 동시성(simultaneity) 및 측정오차(measurement error)의 세 가지 카테고리로 나눌 수 있다[3] 동시성 문제는 시차 변수를 사용해서 해결할 수 있다. 회귀 분석을 했을 때 생기는 누락 변수는 패널 분석을 사용해서 해결할 수 있다.
2.3. Multicollinearity(다중공선성)
공선성을 유발하는 설명변수 제거 또는 차분값, 로그형태 등 추정모형을 변화시켜보거나 거시변수의 경우 명목값이 아닌 실질값을 이용하여 모형을 추정한다.[1] Cov(X,ε)≠0[2] 관련 방법론들은 위에서 언급한 Mostly harmless econometrics에 집중적으로 나와있다.[3] Wooldridge (2002). 50~51쪽 참조.