상관계수

통계학 Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px"	<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학	기반	실해석학 (측도론) · 선형대수학 · 이산수학
확률론		사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 · 독립항등분포
통계량		평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학	가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
추론통계학	통계적 방법	회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 · 자료 시각화		도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점	}}}}}}}}}

1. 개요2. 피어슨 상관계수3. 엑셀로 상관계수 산출하기4. 일반화된 개념5. 관련 문서

1. 개요

相關係數 / Correlation Coefficient

상관관계에도 정도가 있다. 명백하고도 강력한 관계가 나타나는가 하면, 보기에 영 아리까리할 정도로 있는 듯 없는 듯한 상관관계가 나타나기도 한다. 이런 차이들을 나타내기 위해서 통계학자들은 '상관계수'라는 것을 만들었다. 여러 가지 고안된 방법이 있으며, 대표적으로 피어슨 상관계수(Pearson Correlation Coefficient, Pearson's r), 스피어만 상관계수(Spearman Correlation Coefficient), 크론바흐의 알파(Cronbach's Alpha)가 있다. 이 중 피어슨 상관계수가 압도적으로 많이 사용된다.

좌표평면을 펼쳐놓고 x 축은 변인 x 를, y 축은 변인 y 를 나타내게 한 뒤 각각의 관찰값들을 산점도 형태로 찍어놓으면, 그 결과 두 변인이 어떤 관계가 있는지 시각적으로 나타나게 된다. 양(+)의 상관이 나타날 경우 관찰값들은 우상향하는 방향으로 모이게 되고, 음(-)의 상관이 나타날 경우 관찰값들은 우하향하는 방향으로 모이게 된다. 여기서 관찰값들이 더욱 빽빽하게 밀집해서 모이는 경우가 있고, 한편으로는 조금은 흩어져 분포하는 경우가 있다. 전자의 경우 상관계수가 높고, 후자의 경우 상관계수가 낮다. 이 때, 피어슨 상관계수의 값은 코시-슈바르츠 부등식에 의해 반드시 -1에서 1 사이에 위치하게 된다.

절댓값이 1에 가까운 상관계수: 매우 확고한 상관. 순수학문에 가까운 분야에서는 대부분 이 조건을 요구하나, 사회과학에서는 데이터 조작을 한 번쯤은 의심해봐야 하는 수준이다.
절댓값 0.5 정도의 상관계수: 강력한 상관. 상관관계가 있다고 통계적으로 지지받을 수 있는 수준이다.
절댓값 0.2 정도의 상관계수: 미약한(모호한) 상관. 상관관계가 있다고 장담할 수 없으며, 연구가 더 필요한 수준이나, 사회과학에서는 상관관계가 강력한 것으로 본다.
0에 가까운 상관계수 : 대부분의 경우, 상관관계가 없다고 본다. 후속 연구를 통해 뒤집어질 수도 있지만 일단은 회의적이다. 한편, 2차 방정식 그래프와 비슷한 모양이 될 경우 상관관계는 있으나 상관계수는 0에 가깝게 나온다.

참고로 우리가 알고 있는 상식들의 대부분이 절댓값 1에 가까운 상관관계에 속한 것들이다. (예: 다리가 길어지면 키도 커진다.)

[마부작침] 최초 공개! 2016 '전국 범죄지도' ③ 인구밀도의 범죄 방정식
실제 뉴스기사를 통해 상관계수의 값이 갖는 의미를 직접 실습할 수 있다. 각 지역별 범죄율에 강한 상관관계를 보이는 변인들이 무엇인가를 알기 쉽게 설명하고 있고, 상관계수가 공개되어 있으므로 개념을 연습하기에 좋은 사례다.

상관관계를 분석하는 통계적인 기법은 바로 회귀 분석이다. 2개 변인의 일대일 관계만 연구할 수도 있지만, 한번에 다수의 변인을 분석해 볼 수도 있다. 이를 별도로 다중회귀분석이라고 부른다. 이를 통해, 두 변인이 얼마나 강하게 관계를 갖고 있는지를 한눈에 알아볼 수 있다. SPSS 같은 통계분석 프로그램을 돌리면 클릭 몇 번만에 컴퓨터가 금세 데이터를 뽑아내 주니 더욱 편하다. 분산분석(ANOVA)과 함께, 사회과학 연구실에서 자주 사용되는 방법이다. 과학적 방법이 인과관계를 규명하는 것이라면, 상관관계의 규명은 통계학적 검증에 많이 의지하고 있다.

상관관계의 규명에는 크게 두 가지 오류의 가능성이 있는데,[1] 상관관계가 없는데도 있다고 생각하는 오류가 있고, 반대로 있는데도 없다고 생각하는 오류가 있다. 통계학에서는 전자를 '1종 오류(Type Ⅰ Error)'라고 하고, 후자를 '2종 오류(Type Ⅱ Error)'라고 한다. 현실에서는 2종 오류가 위험성이 큰 경우가 많지만,[2] 온갖 미혹과 추측과 혹세무민이 판치는 지식의 세계에서는 1종 오류가 더 큰 잠재적 위험성을 갖고 있다. 그리고 이런 오류는 대체로 "상관관계가 있으니까, 인과관계도 있겠구나!"의 함정까지 빠져서 유사과학을 믿는 상황까지 가게 되는 경우가 많다. 한편, 상관관계가 없다고 판단하고, 실제로도 상관관계가 없지만, 상관관계가 없는 이유가 틀린 경우를 '3종 오류(Type Ⅲ Error)'라고 한다.

거짓 상관관계는 때때로 인지적 착각에 의해서 형성되기도 한다. 심리학에서는 이를 '착각적 상관(Illusory Correlation)'이라고 부른다. 대표적인 착각적 상관의 예는 바로 징크스가 있는데, 이는 엄밀히 말하면 인과관계에서의 착각까지도 포함한다고 해야 할 것이다.

2. 피어슨 상관계수

Pearson Correlation Coefficient 또는 Pearson's r

많은 수의 상관계수가 있지만 가장 널리 쓰이는 것은 피어슨 상관계수다. 심지어 스피어만 상관계수나 파이, r(b)같은 다른 상관계수들도 피어슨 상관계수의 변형이니 말 다했다.[3]이 상관계수는 측정하려는 두 변수의 상관관계가 서로 선형일때, 즉 1차함수로 표현가능할때 유용하다. 그래서 상관관계가 어떤 모양을 그리는지가 중요하다. 만약 상관관계가 직선이 아닌 곡선을 그린다면 η같은 다른 상관계수를 써야 한다.

피어슨 상관계수는 수학적으로 말하면 "'전체 편차' 내에서 '예측치와 평균 간의 차이'가 차지하는 비율"이라고 할 수 있다. 좀 더 풀어서 설명해보자면 통계에서 편차는 다음처럼 두 부분으로 나눌수 있다.

편차 = 평균과 예측값 간의 차이[4] + 예측값과 실제 값의 차이

이때 편차 안에서 후자의 차이가 차지하는 비율이 작다면 그만큼 예측값이 실제 값과 가깝고, 그만큼 예측이 정확하다고 할 수 있다. 예를 들어 편차에서 예측값과 실제 값의 차이가 차지하는 비율이 10%밖에 안된다면, 그 비율이 40%일 때보다 예측이 정확하다고 할 수 있을 것이다. 위에서 말했듯이 예측이 정확할수록 상관 관계가 강하다고 할 수 있으므로 위의 비율을 통해 상관 관계가 강력한지의 여부를 알 수 있다. 그래서 통계학자들은 예측값과 실제 값의 차이 대신 예측값과 평균 간의 차이를 구하고, 이 차이가 전체 편차에서 어느 정도의 비율을 차지하는지 계산하여 상관 관계가 얼마나 강력한지 판단한다.[5]

또 공분산은 X와 Y의 단위에 의존하는 양이므로 단위와는 무관한 측도를 얻기 위하여 공분산을 X와 Y의 표준 편차의 곱으로 나누어서 얻은 값이 상관계수라고 볼 수도 있다. 상관계수는 X와 Y의 선형 관계의 강도에 대한 측도라고 보는 것.

피어슨 상관계수를 구하는 식은 다음과 같다.

[math(\displaystyle r = \frac{\sum_{i=1}^n z_X z_Y}{n-1})]

여기서

[math(n)] :총 변량의 개수
[math(z_X)]: 변수 [math(X)]의 표준점수. 정확히는 표준점수 중에서 z점수(z-score)를 말한다.

위 식은 중간에 변량을 모두 z점수로 변환하는 귀찮은 과정을 거쳐야 하기 때문에 학부에서는 좀더 간단한 아래와 같은 공식도 가르친다. 더 간단하게는 엑셀의 PEARSON함수나 SPSS를 쓰면 된다.

[math(\displaystyle r = \frac{\sum_{i=1}^n X_i Y_i - \frac{\sum_{i=1}^n X_i \sum_{i=1}^{n} Y_i}{n}}{\sqrt{\left( \sum_{i=1}^n X_i^2 - \frac{(\sum_{i=1}^n X_i)^2}{n}\right) \left( \sum_{i=1}^n Y_i^2 - \frac{(\sum_{i=1}^n Y_i)^2}{n}\right) }} )]

이 상관계수 r은 그대로 사용되기보다는 한번 제곱한 상태로 사용되는 경우가 많다. 이를 결정계수(coefficient of determination, R²)라고 한다. 이 값이 상당히 중요한데, 이는 측정하는 상관관계가 실제로 얼마나 큰지 보여주기 때문이다. 무슨 소리냐면 만약 키와 유전자의 상관관계를 연구해서 결정계수 R²이 0.6이 나온다면, 이걸 바로 적용해서 유전자의 측정된 차이가 키의 측정된 차이(변량)의 60%를 설명할 수 있다는 결론을 내릴 수 있다![6]

물론 뒤에서 보겠지만 상관계수는 단순히 상관관계만을 나타내므로 인과관계까지 추리할 수는 없다.

참고로 r을 약간 변형하면 t점수(t score)로 만들 수 있다. 그리고 이렇게 하면 r을 이용해서 가설검정을 할 수 있다.[7] r을 t로 변환하는 식은 다음과 같다.

[math(\displaystyle \frac{r}{\sqrt{\frac{1-r^2}{n-2}}} )]

3. 엑셀로 상관계수 산출하기

=CORREL(첫 번째 변수 범위, 두 번째 변수 범위)

위 내용처럼 엑셀에서 correl 함수를 이용해 간편하게 두 변수 사이의 상관계수를 구할 수 있다.

4. 일반화된 개념

다중상관계수, 정준상관계수 등 일반화된 상관계수가 있다. 흔히들 보는 상관계수는 두 확률벡터 사이에서 정의되는 개념이다.

반면 다중상관계수는 한 확률벡터와 나머지 확률벡터의 선형결합으로 만들어지는 벡터공간 사이의 상관계수다.[8][9]

정준상관계수는 두 그룹으로 확률벡터를 분류한 뒤, 각 그룹의 선형결합으로 이뤄지는 벡터공간 사이의 상관계수다.

5. 관련 문서

상관관계와 인과관계
결정 계수
회귀 분석(regression analysis)
선형 회귀(linear regression)
분산 분석(analysis of variance, ANOVA)
코시-슈바르츠 부등식
Microsoft Excel/함수 목록: 간단한 통계학 계산은 엑셀이나 Calc로 할 수 있다.

[1] 사실 인과관계에서도 마찬가지다.[2] 어떤 건물에서 불이 나서 알람이 울리고 있는데 "누군가가 화재 경보기를 누르고 도망쳤구나."라고 생각하고 불이 나지 않았다고 판단하는 경우가 한 예다. 화재경보기는 이 경우 명백히 실제 화재와 관계가 있었던 것이고, 이 관계를 무시한 결과는 대규모의 인적/물적 손실로 이어지게 마련이다.[3] Pagano, R. R. (2012). Understanding statistics in the behavioral sciences. Cengage Learning.p140[4] 여기서 예측값은 상관 관계를 토대로 만든 회귀직선(regression line)을 통해 예측한 값이다. 그래서 회귀직선이 실제 값을 잘 예측할수록 강한 상관 관계를 가진다고 할 수 있다. 좀 더 자세히 설명하자면, 평균을 이용해 직선을 만들고, 회귀식을 통해 직선을 하나 그으면, 실제 값과 직선 2개가 생기게 된다. 이 중 평균과 값의 차이가 평균으로부터의 편차(SST)이고, 평균과 회귀직선과의 차이는 적합에 기인한 편차(SSR)이며, 회귀식과 실제값과의 차이를 잔차(SSE)라고 부른다. 결정계수는 SSR / SST, 즉 적합에 기인한 편차를 평균으로부터의 편차로 나눈 값으로도 볼 수 있으며, 좀 더 간단하게는 1 - SSE / SST, 즉 1에서 잔차를 편차 나눈 값을 뺀 것으로도 볼 수 있다.[5] Pagano, R. R. (2012). Understanding statistics in the behavioral sciences. Cengage Learning.pp137-9[6] 물론 설명하는 정도를 100% 신뢰하기는 어려운 것이, 잔차에 유의미한 정보가 남아있는 경우가 있기 때문이다.(즉, 회귀식이 완전하지 못할 경우.) 그래서 통계학에서 결정계수를 볼때는 반드시 회귀식의 타당성을 검토한다.[7] Pagano, R. R. (2012). Understanding statistics in the behavioral sciences. Cengage Learning.p346[8] 이 때 상관계수가 최대가 되는 지점을 구하는 방법이 최소제곱법을 활용한 선형회귀분석과 동일하다.[9] 흔히들 말하는 '결졍계수는 상관계수의 제곱이다'의 상관계수는 다중상관계수다. 일반적으로 알려진 상관계수에서는 위의 진술이 단순회귀분석에서만 적용되기 때문이다.