실제로 회귀분석을 실시하는 기술적 절차에 대한 내용은 통계적 방법/분석/회귀분석 문서 참고하십시오.
통계학 Statistics | |||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" | <colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 (측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 (산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
<nopad> |
1. 개요
回歸分析 / Regression통계학에서 사용하는 자료 분석 방법 중 하나로, 간략히 표현해 여러 자료들 간의 관계성을 수학적으로 추정, 설명한다. 흔히들 통계학의 꽃이라고 한다. 그러나 그만큼 오해(?) 받고 있는 모델이기도 하다. 대표적으로, 회귀분석은 인과관계를 증명하는 방법이 아니라, 인과관계가 상정된 모델을 구현할 수 있는 것에 불과하다.
기업에서도 굉장히 많이 사용한다. 어지간한 기안서를 작성할 때 수요예측을 한다면 회귀분석으로 연관성을 검정한 후 제출하는 게 올바른 기안서 제출이다. 회귀모형의 형태에 따라 하나의 종속변수에 대해 독립변수가 하나인 경우를 단순회귀분석(Simple Regression Analysis), 반면에 하나의 종속변수에 대해 독립변수가 둘 이상인 경우를 다중회귀분석(Multiple Regression Analysis)이라 한다.
회귀분석을 통해 다음을 알 수 있다
- 종속변수와 독립변수 간에 선형관계가 존재하는지 알 수 있다.
- 종속변수에 영향을 미치는 독립변수가 유의 한지와 영향력의 정도를 알 수 있다.
- 추정된 회귀모형을 통해 종속변수의 예측치를 알 수 있다.
2. 역사
회귀분석(regression analysis)은 생물학자 프랜시스 골턴(Francis Galton)이 '평균으로의 회귀'(regression to the mean / regression towards mediocrity) 현상을 증명하기 위해 만든 것으로 알려져 있다. '평균으로의 회귀'는 부모와 아이의 키를 측정했을 때 쉽게 상상할 수 없는 극단적인 값이 되어도, 그 다음에 새로 측정을 했을 때에는 평균에 더 가까워지는 (평균으로 회귀하는) 경향성을 보고 골턴이 일반화하기 위해서 쓴 용어다.골턴은 부모와 그 자식의 키에 대한 자료를 만들어 205명의 부모와 그들의 자식 930명의 키에 대한 자료를 분석하여 회귀계수가 2/3임을 밝혔다. 가우스의 최소제곱법을 쓰지 않고 타원으로 적합시켜 회귀계수가 2/3임을 찾아낸 것이 특이하다. 즉, 키는 유전적인 요소가 강력하게 작용한다는 것을 밝힌 것이다. 골턴은 산점도에 최초로 선형식을 표현하여 오늘날의 회귀분석을 성립하는 데 지대한 공을 세웠다.
현대에 와서는 회귀(regress), 즉 평균으로 돌아간다는 의미는 거의 사라졌다. 요즘에는 독립변수와 종속변수를 설정 [1]하고 이들의 관계를 통계적으로 살펴보는 대부분의 방법론을 다 회귀분석이라고 부르기도 한다. 시계열 데이터를 사용하면 시계열 회귀분석이고 패널 자료를 사용하면 패널 회귀 분석인 식이다.
3. 설명
회귀분석은 주어진 자료들이 어떤 특정한 경향성을 띠고 있다는 아이디어로부터 비롯된다. 회귀분석은 기본적으로 변수들 사이에서 나타나는 경향성을 설명하는 것을 주 목적으로 한다. 즉, 변수들 사이의 함수적인 관련성을 규명하기 위해 어떤 수학적 모형을 가정하고 이 모형을 측정된 변수들의 자료로부터 추정하는 통계적 분석 방법이다. 어떤 관계가 있을지에 대한 여러 가지 가설들을 회귀 '모형'이라 부르며, 회귀모형은 수학적으로 표현했을 때 크게 트렌드를 나타내는 부분과 통제할 수 없는 오차를 나타내는 부분으로 분리된다.'모형'은 간단히 말하면 현실을 간략하게 표현한 것이다. 앞에선 이야기한 여러 가설들을 회귀'모형'이라고 부르는 이유는, 그 모형이 100%까지는 아니라고 하더라도 간단한 가설을 통해 현실의 많은 부분을 설명해줄 수 있기 때문이다. "경제학의 많은 문제는 검증이 불가능하여 가설 설정에 그치기 때문에 모형"이 된다는 설명은, 오히려 수리적으로 모형을 검증하기 위한 실험이나 자료수집 역시 있다는 것을 생각해보면 다소 부적절한 설명이다.
기본적으로는 오차를 가능한 한 작게 만드는 모형이 좋은 모형이기 때문에 오차를 가장 작게 만드는 모형을 찾는 방법들이 만들어졌는데, 가장 일반적으로 접하게 되는 것은 자료와 평균의 오차를 제곱해서 더했을 때, 그 합이 가장 작아지는 모형을 찾아내는 '최소제곱법'이다. 자료와 평균의 오차만 구해서 그대로 더하게 되면, '평균'의 정의로 인해 오차의 합은 반드시 0이 된다. 때문에 일부러 오차를 제곱해서 0보다 큰 수들로 만든 다음에 이 값들을 누적하여 사용하는 것이다.[2]
주어진 자료를 분석하는 작업의 관점에서는 '회귀분석'이라고 부르는 일이 많지만, 이 분석 작업에 사용되는 것은 주어진 자료들 사이의 관계에 대한 모형이라는 점에서 '회귀모형'이라는 말 역시 빠지지 않고 접하게 된다.
자료를 설명해줄 수 있는 중심적인 트렌드를 찾는 것이 회귀분석의 목적이기 때문에, 이를 통해 만들어진 회귀모형은 상당히 활용할 수 있는 여지가 넓다. 예를 들어 (비록 쉽지는 않은 작업이지만) 많은 회귀모형이 '예측'의 맥락에서 사용되기도 한다. 물론 회귀모형을 이용해 알지 못하는 자료의 특징을 '예측'하는 것은 결코 쉽지 않은 일이기는 하지만, 원론적으로 이야기한다면 이런 것에도 써먹을 수 있다는 이야기이다. 그런 의미에서, '회귀분석'이 '결과에서 원인으로의 역산'이라고 이야기하는 것은 회귀분석의 일부분만을 설명하는 것밖에 지나지 않는다.
회귀 방정식은 독립변수 표본의 범위를 벗어나는 값에 대한 예측에 쓰면 안 된다. 여기에서 쓰면 안된다는 것의 의미는 '값을 구할 수는 있지만 그 결과가 그다지 유의한 의미는 없다'는 것이다. 선형추정의 특징 중 하나가 구간추정을 했을 때, 변수들의 표본평균벡터에서 예측구간이 가장 좁고, 그 점에서 멀어질수록 구간이 넓어진다는 것이다. 같은 유의수준 하에서라면 예측구간은 좁을수록 좋다. 그런데 독립변수의 값이 표본의 밖으로 넘어가면 예측 구간이 너무 넓어져서 예측의 의미가 없기 때문이다.
일반적으로 예측된 Y 값과 실제 데이터 사이에는 오차가 존재한다. 오차의 양은 다양하지만 평균적인 오차의 양은 상관관계의 강도와 직접적으로 연관된다.
종속변수의 예측값(predicted value, 혹은 fitted value를 번역하여 맞춤값이라고도 함)과 종속변수 실제값(actual value)의 상관 계수 [3] [4] r의 제곱인 결정 계수(coefficient of determination) R2은 "전체 제곱합 중에서 회귀 제곱합이 설명하는 비중", 즉 "모형의 설명력"이다.
-1 ≤ r ≤ 1
0 ≤ R2 = SSR/SST ≤ 1
총 제곱합(total sum of square)이 SST, 회귀 제곱합(regression sum of square)이 SSR, 잔차 제곱합(residual sum of square)이 SSE이다. 단, 위의 부등식은 절편을 포함한 선형회귀에 대해서만 성립한다.
회귀 분석의 귀무 가설 H0는 "기울기 β1=0이다"같은 것이고, 대립 가설 H1은 "기울기 β1≠0이다"와 같은 것이다. 구체적인 예를 들자면, H0는 "약이 효과가 없다"이고, H1은 "약이 효과가 있다"이다. 회귀 분석에서 절편은 β0라고 하고, 기울기는 β1이라고 한다.
독립 변수가 종속 변수에 얼마나 영향을 끼치는가를 검증할 수 있다. 예를 들어, 공부 시간이 학교 성적에 얼마나 영향을 미치는지, 약물이 얼마나 효과가 좋은지 분석해볼 수 있다. y = β0 + β1 * x 와 같은 형태인데, 독립 변수가 x, 종속 변수가 y이다.
(1) H0: β0 = 0 vs β0 ≠ 0
(2) H0: β1 = 0 vs β1 ≠ 0
1번처럼 절편이 0인지 아닌지와, 2번처럼 기울기가 0인지 아닌지에 대한 검증이다. 많이 쓰는 건 2번이다. β1이 0이 아니라면 공부 시간이나 약물이 성적이나 질병에 효과가 있다는 것이다. p-값이 0.05보다 작으면 독립 변수가 종속 변수에 영향을 준다고 볼 수 있다. 특히, β1이 클수록 공부 시간이나 약물이 성적이나 질병에 효과가 좋다는 의미이다.
기울기 모수에 대한 검정이 보다 일반적인 이유는 회귀분석의 주된 목적이 변수 간의 관계를 알아보는 것이기 때문이다. 다만 연역적으로 유도한 결과 상수항(절편)이 없는 모형이 나왔고, 이 모형의 현실설명력을 실증적으로 검정하고자 할 때에는 β0에 대한 검정도 중요하다.[5] 즉 어떤 가설을 사용할지는 개별 연구의 목적에 따라 달라진다. 그리고 이런 경우에는 독립변수들이 음수와 양수에 폭 넓게 분포해 있어서, 절편에서의 신뢰구간이 좁게 나오는 경우도 많다.
4. 종류
4.1. 선형 모형
사실상 대학교 학부 수준에서 사용하는 통계 분석 방법론은 큰 틀에서는 모두 회귀분석의 형태로 표현될 수 있다고 해도 과언이 아닐 정도로 통계학에서 중요한 축을 담당하고 있다. 여러 변수들 간의 관계가 선형적이라고 가정하는 '선형모형'을 통해 다양한 통계방법론을 수학적으로 기술, 분석할 수 있다. 수학이나 통계학에서 말하는 '선형성'을 일상적인 용어로 설명하면, 어떤 수에 다른 수를 더하거나 곱했을 때 그만큼의 값이 그대로 나온다는 것이다. 단순한 예에 대해서는 계량경제학 문서 참조바람.선형회귀분석에서 가정하는 사항 및 검정하는 법은 다음과 같다
- 선형성: 설명/반응 변수간 관계가 선형 관계인지를 의미한다. 그렇지 않을 시 선형회귀를 포함한 선형모형은 해당 변수를 설명하기 위해 적합한 모형이 아닐 것이다.
- 정규성: 모형의 예측값과 실제값간의 오차인 잔차가 정규분포에 해당하는지 여부를 의미한다. 회귀모형이 정규분포를 가정한 모형임에 따라 정규성 여부를 검정하게된다.
- 등분산성:잔차의 분산이 동일한지를 의미한다.
- 독립성: 잔차간에 상관관계가 없어야한다.[7] 상관관계가 강하게 있을 시 회귀모형의 계수와 p-value가 정확하지 않다.
- 다중공선성: 설명변수 간 상관관계가 클 때를 의미한다.
- 단순회귀분석에서는 설명/반응변수간 Scatter Plot으로 관계를 볼 수 있다.
- 이를 진단하기 위해 QQ Plot을 사용한다.
- 모형 예측값을 x축으로 두고 y축으로 잔차값을 둔 Residual Plot으로 어느정도 심각한지 파악가능하며, 만일 예측 값에 따라 잔차의 분포가 퍼질 때 심각한 이분산 문제가 있다고 여겨진다.[6] https://www.statalist.org/forums/filedata/fetch?id=1405339&d=1502106583&type=full
- 이때 반응변수에 대한 정규화로 완화할 수 있다.
- Durbin Watson 검정으로 자기상관성을 판단할 수 있으나, 등분산성 검정에서와 같이 x축을 시간, y축을 잔차값으로 둔 Plot으로도 어느정도 심각한지를 진단할 수 있다.
- 시계열 데이터에 이런 문제가 흔히 발생하며, 이때는 로그 정규화나 차분 (Differencing)으로 대응할 수 있다.
- Variance Inflation Factor (VIF) 계수로 진단하며, 10을 넘을 때 심각한 다중공선성이 있다고 진단한다. 이때 가설이 허락하는 범위하에 필요성이 낮은 변수를 소거하여 대응할 수 있다. 사전에 다중공선성을 피하기 위해 모형에 사용한 설명변수 간 피어슨 상관관계 분석으로 상관관계의 정도를 파악할 수 있다.
이외에도 중요 변수가 제외된 경우, 과적합 (Overfitting), 외삽법 (Extrapolation), 데이터 누락 등이 있다.
4.2. 비선형 회귀 모형
비선형적인 현상의 전형들인 '시너지'나 '피드백'이라는 말에서도 알 수 있듯, 비선형적인 관계에서는 (비유적으로 이야기한다면) 1+1이 2가 아니라 모종의 이유로 3이나 4가 되기도 한다.비선형 모형은 매우 어렵다. 1960년대에는 사실상 의미있는 결과를 내놓지 못할 정도였다. 예를 들어, 맨 위의 부모의 키와 자식의 키의 상관관계도를 나타낸 그림도, 그려진 도형이 선이 아니라 타원이다. 1970년대 이후 잭나이프법, 부트스트랩법 등이 나오면서 비선형 회귀모형도 점점 활용되게 되었다.
아래 논문(1997)을 참조바람.
통계청『통계분석연구』제2권 제1호(’97. 봄) 143-160, "비선형 회귀모형에서의 붓스트랩에 관한 연구", 강철, 박종태 pdf 파일
5. 자유도
회귀 분석의 자유도(degrees of freedom, df)는 다음과 같이 구한다. 아래는 단순 회귀 분석 기준.[8]요인 | 제곱합 | 자유도 |
회귀 | SSR | 1 |
잔차 | SSE | n-2 |
계 | SST | n-1 |
6. 여담
회귀분석이라는 용어가 많은 사람들에게 생소하고 익숙지 않다보니 이름을 틀리게 적거나 발음하는 경우가 많다. 대표적으로 회기분석과 회계분석...심지어 기자들도 자주 틀린다! 통계학 전공자들의 기분을 오묘하게 만드는 부분. 혹시 회귀분석을 설명할 일이 있다면 회귀의 뜻이 돌아가다라는 뜻의 회귀라는 점을 언급해주자.7. 엑셀로 회귀 분석 하기
엑셀로 회귀분석 하기엑셀로 통계 분석하는 방법
8. 관련 문서
- 분산 분석(analysis of variance, ANOVA)
- F-분포
- 상관 분석(correlation analysis)
- Microsoft Excel/함수 목록: 간단한 통계학 계산은 엑셀이나 Calc로 할 수 있다.
[1] 독립변수와 종속변수를 따로 구분하지 않는 방법은 다변량 분석에서 주로 배운다. 대부분 통계학과 3학년 때 배운다.[2] 입문 수준의 통계학 책에서는 직관적 이해를 돕기 위해 본문과 같이 설명하는 경우가 많다. 하지만 이러한 설명은 좀 부정확하다. 일단 '평균'이라고 했는데, 어떤 변수의 평균을 말하는 것인지에 대한 설명이 없다. 좀 더 정확히 말하면 오차항 e에 대한 가우스-마코프 조건 중 하나인 E(e) = 0 가정에 의해 오차항의 기댓값이 0이라고 말해야한다. 평균과 기댓값을 사실상 같은 말로 취급하는 경우도 있으나 기댓값은 실현값의 확률에 대한 가중평균이기 때문에 평균이라는 표현도 가능하면 기댓값이라고 해주는 것이 더 좋다. 실제 계산에 있어서 오차는 관측이 되지 않기 때문에 논외로 치더라도, 최소제곱법의 1계 조건에 의해 잔차의 합은 0이 될 수 밖에 없다. (1계 조건 중 절편 모수에 대한 편미분결과가 0이 되어야하는 조건) 회귀분석 변수들 사이의 관계를 정확하게 기술하거나 예측을 하려면 이 잔차는 당연히 최소가 되어야 한다.[3] 단순회귀분석에서는 흔히들 사용하는 상관계수의 제곱이 R2와 일치하지만 다중회귀분석에서는 종속변수의 예측값과 실제값의 상관계수임을 명시해야한다. 변수가 여러 개인데 '상관계수'라고 하면 어떤 변수와 어떤 변수의 상관계수인지를 알 수 없기 때문이다.[4] 좀 더 정확히 말하면 종속변수에 대한 독립변수들의 다중상관계수이다.[5] 대표적으로 CAPM 모형[6] Breusch Pagan Test로 검정할 수 있으나, 해당 검정기법은 매우 엄격하여 해당 모형에서는 상당수의 모형이 이분산임으로 진단된다.[7] 독립항등분포 (iid) 문서 참조.[8] 다중 회귀 분석은 요인수를 k로 하자면 회귀의 자유도는 k, 잔차의 자유도는 n-k-1이다.