통계학 Statistics | |||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" | <colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 (측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
<colbgcolor=#000> 과학 연구 · 실험 Scientific Research · Experiment | ||||
{{{#!wiki style="margin: 0 -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -6px -1px -11px" | <colbgcolor=#000><colcolor=#fff><rowcolor=#000,#fff> 배경 | 과학적 방법 | ||
기반 | 수학(미적분학 · 선형대수학 · 미분방정식) · 통계학(수리통계학 · 추론통계학 · 기술통계학) | |||
연구·탐구 | 논증(귀납법 · 연역법 · 유추(내삽법 · 외삽법)) · 이론(법칙 · 공리 · 증명 · 정의 · 근거이론 · 이론적 조망) · 가설 · 복잡계(창발) · 모형화(수학적 모형화) · 관측 · 자료 수집 · 교차검증 · 오컴의 면도날 · 일반화 | |||
연구방법론 | 합리주의 · 경험주의 · 환원주의 · 복잡계 연구방법론 · 재현성(연구노트) | |||
통계적 방법 | 혼동행렬 · 회귀 분석 · 메타 분석 · 주성분 분석 · 추론통계학(모형(구조방정식) · 통계적 검정 · 인과관계와 상관관계 · 통계의 함정 · 신뢰도와 타당도) | |||
측정·물리량 | 물리량(물리 상수 · 무차원량) · 차원(차원분석) · 측도 · 단위(단위계(SI 단위계 · 자연 단위계) · 단위 변환) · 계측기구 · 오차(불확도 · 유효숫자 · 과학적 기수법) | |||
실험 | 실험설계 · 정성실험과 정량실험 · 실험군과 대조군 · 변인(독립 변인 · 조작 변인 · 종속 변인 · 변인 통제) · 모의 실험(수치해석) · 맹검법 · 사고실험 · 인체실험 · 임상시험 · 실험 기구 | |||
연구윤리 | 뉘른베르크 강령 · 헬싱키 선언 · 연구투명성 · 연구 동의서 · 연구부정행위 · 표절(표절검사서비스) · 편향 · 문헌오염 · 자기교정성 · 연구윤리위원회 | |||
논문·과학 공동체 | 소논문 · 리포트 · 논문제출자격시험 · 연구계획서 · 형식(초록 · 인용(양식 · 참고문헌) · 감사의 글) · 저자 · 학회 · 세미나 · 학술대회 · 동료평가 · 지표 · 학술 데이터베이스 · 게재 철회 · 학제간 연구 | |||
철학 관련 정보 · 연구방법론 관련 정보 · 수학 관련 정보 · 자연과학 관련 정보 · 물리학 관련 정보 · 통계 관련 정보 · 사회과학 조사연구방법론 | }}}}}}}}} |
1. 들어가기 전에
統計的 方法 / statistical methodology수학과는 사이가 별로 좋지 않은 분들 중 일부는 사회과학을 멋모르고 선택했다가, 문과 출신임에도 다시 수학과의 악연을 이어가야 한다는 사실을 깨닫고 절규하기도 한다. 이 문서에서 다룰 내용은 그들을 울리는 양적 연구방법론 강의에서 가르치는 것과 거의 일치한다.
1950년대 들어서 사회과학의 각종 분야들에서 양적 방법론이 각광을 받기 시작하면서 점점 더 많은 학문들에서 통계적 방법을 그들의 연구방법론으로 수용하고 있으며, 양적 접근법이 각광받는 만큼 통계 데이터를 제대로 수집해서 제대로 처리하고 제대로 해석하는 테크닉도 필수가 되어가고 있다. 그래서 통계를 모르는 사회과학도는 점점 연구를 해내기 힘들어지고 있다.[1] 여러분의 전공이 경영학, 사회학, 행정학, 정치학 등이라면, 이하의 내용을 배우는 것을 피해가기 어렵다. 특히 여러분의 전공이 경제학, 심리학이라면, 축하한다. 사회과학분야 중에는 대학원 공부하려면 통계적 방법뿐만 아니라 이론 수학도 어느 정도 해야 하는 분야도 있다. 대학원 진학 전에 먼저 교수나 조교에게 문의해서 자기 전공분야의 경향을 확인하는 것이 좋다.[2]
세상에는 상관관계와 인과관계가 있다. 과학적 방법은 최선의 인과관계 입증 방법이다. 그런가 하면, 통계적 방법은 최선의 상관관계 검증 방법이다. 입증과 검증은 엄연히 다르다. 상관관계가 존재하는지 아닌지는 수학적인 차원에서 "증명"이 가능하기에 검증이라고 하지만, 인과관계의 존재에 대해서는 반복된 실험결과를 누적시키고 재현성을 확인하여 "입증" 하는 데서 그칠 따름이다. 과학적 방법 밑바닥에는 통계적 방법이라는 단단한 기초가 자리하고 있다. 과학을 제대로 학문(學文)하기 위해서는 통계에 대한 지식이 필요하다.
이 문서는 기본적으로 통계학에 익숙하지 않은 사회과학도 혹은 문과 고등학생들이 대상임을 가정하고 쓰였다. 따라서 엄밀하지 않은 정의[3], 거칠고 억지스러운 비유, 과격한 요약과 압축, 무책임한 설명(!)이 종종 있을 수 있다. 그러나 (r.10 버전 기준으로) 이는 반쯤 의도된 것이며, 지나치게 엄밀한 설명으로 도리어 진입장벽이 높아지지 않도록 한 조치다. 예컨대 표준 편차 얘기가 나오는 단락에 체비셰프 부등식 증명을 한다든가[4] 정규분포를 설명하는 데 모멘트 생성함수를 보여주려고 한다든가 하는 종류의 편집을 말한다. 굳이 엄밀한 증명을 하고 싶다면 각 개념들의 이름으로 표제어를 삼아서 새 문서들을 만들고 거기서 설명할 수도 있을 것이다.[5] 혹시 통계학 전공자분이 이 문서를 접한다면, 의도적으로 가볍게 설명하려 한 점 양해 부탁드린다. 어차피 통계 조교들도 연차가 쌓인 박사과정생이 아니면 엄밀한 내용은 모르는 경우도 많다.[6]
또 나무위키에서 본 내용을 가지고 이거 아니냐 저거 아니냐고 대학원생 수업 조교들에게 물어보는 건 다소 위험할 수 있다. 엄밀한 수학-통계학적 지식을 가진 조교들은 오개념들(주로 직관적으로 설명하려는 과정에서 나온 억지스러운 설명이나 예시)들을 족족 지적하며, 온갖 선형대수, 확률론, 분포이론에 대한 지식을 토해내서 학생들이 더 멘붕하는 경우도 많다. 수업시간에 호기심이 발동되고 공부에 대한 열망이 생기는 학생이라면 다소 어렵더라도 시간을 투자해 통계학과의 2학년 수준의 과목들은 따로 공부하는 것을 추천한다.
그러나 무작정 "나는 사회과학을 하기 위해 수학을 공부하겠어!" 라고 결심하는 것도 공부를 잘못된 길로 이끌 수 있다. 수학을 공부하겠다면 이걸 왜 공부하는지, 내가 사회과학도임에도 이걸 굳이 알아야 할 정도로 이게 중요한지, 정말 중요하다면 내가 어떤 연구를 할 때 필요할 것 같은지를 끊임없이 자문해야 한다. 사회과학에서 통계학을 바라보는 시각은 대충 이렇다. "구체적인 원리나 이치는 우리 알 바 아니고, 이거 어떻게 써먹을까?" 실제로 강의 중인 교수님들에게 "어떻게 그걸 증명할 수 있죠?" 라고 물어보면 진짜로 "그런 건 통계학자들이 연구하게 내버려두고, 우리는 이게 이렇다는 것만 알면 된다" 는 답변이 돌아온다. 그러나 무턱대고 무책임하다고 비난할 수는 없다. 사회과학도들이 알아야 할 것은 통계 데이터를 가지고 주어진 사회현상을 분석하고 설명하는 것이지, 통계 데이터를 이끌어 낸 모든 수학적 도구가 어떤 논리적 증명과정을 거치는지가 아닌 것이다. 선형대수와 확률론에 대해서는 빠삭한데 막상 인간 사회의 현상들에 대해서는 아무런 통찰을 내놓지 못한다면 그 누구도 그런 사회과학도는 환영하지 않으며, 오히려 '쟤는 통계학과나 갈 것이지, 대체 왜 이 연구실 들어왔어?' 라는 조소만 보낼 뿐이다.
따라서 수학 잘 하는 조교가 있다 해도 괜히 멘붕하거나 열폭할 필요가 없다. 그들도 대학원생이며, 심하게 말하면 자기 학문적 포지션 잡는 수준에서 더듬더듬하는, 제 코가 석 자인 처지다. 그들이 방법론을 어렵게 설명한다면, 그것은 오히려 그들 쪽에서 자기 지식이 정리되지 않았기 때문일 수도 있다. 동료평가를 받아 보면 타인의 연구결과와 그 시사점을 제대로 못 읽어내는 리뷰어일수록 쓸데없는 디테일에 트집을 잡는 경향이 있으며, 뭔가 비판이나 지적을 잔뜩 했는데 써먹을 만한 조언이 빈약한 경우도 많다. 유능한 교수나 연구자일수록 문제의 핵심을 이해하고, 자기 학생이 방법론을 쓰다가 어디서 막혔는지도 바로 알아본다. 그러니 문제를 직접 찌르는 조언도 당연히 즉시로 나온다. 물론 온갖 수학적 지식을 토해내면서도 연구 생산성까지 높은 조교가 있을지도 모르나, 수학적 지식과 연구자로서의 역량은 별개다.
물론 이게 기초 수학을 아주 무시해도 된다거나, 사회과학에서 수학적 증명이 무의미하다는 건 결코 아니다. 수학적 증명이 목적은 아니라는 것 뿐이다. 수학에 대한 최소한의 이해도 없이 무작정 덤벼들었다간 통계를 돌리긴 하는데 어째서 이게 이렇게 되는 건지 감을 못 잡는다. 예컨대 확률이 무엇인지에 대한 개념적 기초가 부족한 사람이 통계적 방법을 접하면 초반의 확률 변수 개념에서부터 벌써 알 듯 모를 듯 둥둥 떠다니기만 하는 문제를 겪을 것이다.
그리고 사회과학자가 꼭 통계를 못 하는 것은 아니다. 사회과학도들 중 통계적 방법론으로 박사학위를 받은 사람들은 해외에서 듣도보도 못한 최신 고급 분석기법을 수입해 와서 동료 교수나 박사급 연구원들을 대상으로 방법론 학회를 열기도 한다. 이 사람들은 전공만 교육학, 사회복지학, 사회학 등일 뿐, 이과 박사들까지 모아놓고 통계세미나를 열면서 돈을 버는 굇수들로 통계학 대학원생도 압도할 만큼의 지식을 갖추고 있다. 가령, 계량 마케팅 분야 연구는 거의 교수들에 의해 수행되고 있으며 대학원생은 논문을 쓰지도 못한다.
군대에 비유하자면, "교관님, 엎드려쏴 자세는 잘 이해했습니다만, K2 소총은 어떤 주조 공법으로 만들어지는 겁니까?" 로 뜬금없이 질문하는 훈련병을 생각하면 된다. 훈련병이 해야 할 일은 (A) K2 소총을 가지고 엎드려쏴를 배워서 적을 사살하는 것, (B) 가스조절기가 불량이면 교체한다거나, 총기를 분해해 내부를 손질하고 불량 부품을 교체하는 등 훈련소에서 가르치는 총기분해결합 정도다. 하지만 (C) K2 소총이 어떤 주조 기술을 통해 만들어지는지는 몰라도 된다. 다시 말해 사회과학도들은 (A) 자신이 배운 통계지식으로 당장 자기 논문을 쓰고 남의 논문을 평가하는 것과, (B) 어떤 문제의식에 적합한 통계적 분석 도구들이 갖는 논리를 이해하는 것까지는 필요하지만, (C) 그 통계적 사실들이 어떤 과정을 거쳐 '증명' 되는지에 대한 엄밀한 수리적 방법론이나, 그 결과물을 컴퓨터로 정확하고 빠르게 계산해내는 계산과학적, 전산적 방법론는 몰라도 된다. 그 증명은 수학자들과 통계학자들이 이미 다 해 놓았고, 앞으로도 할 것이며, 해 달라고 우리 사회가 그들에게 연구비를 지원하고 있다. 사회과학자들이 굳이 더 나설 필요가 없는 것이다. 사회과학자들은 그들이 할 수 없는 일, 즉 그들이 고생해서 세워 놓은 통계적 논리를 들고 현장(=전쟁터)에 나가서 어떤 아이디어는 채택하고 어떤 아이디어는 거르기만 하면 된다. 그리고 우리 사회는 사회과학자들에게 그런 활동을 하라면서 연구비를 지원하고 있다.
따라서 어차피 사회과학분야 대학원에 발 들일 거라면 학부 시절에 6~9학점 정도[7] 나무위키에 나오는 내용이나 학부 수업시간을 투자해 빡세게 공부하자. 더불어 이 과정에서 자기 전공에서 많이 쓰이는 통계프로그램을 익혀서 가면 연구실에서 예쁨 받을 수 있다. 예컨대 트렌드에 민감한 대학원일수록 점점 SPSS에서 R로 옮겨가는 경향이 있으니, 진학 전에 미리 준비하는 것도 도움이 된다. 이 정도까지 못 한다면 적어도 고등학교 수준의 확률과 통계라도 책을 곁에 두고 꾸준히 탐독할 필요가 있다.
게다가 연구를 목적으로 하는 게 아니더라도, 통계에 대해서 최소한의 지식이라도 갖추고 있다면 험난한 사회생활 속에서 약팔이들의 거짓 광고나 정치인 지지율에 대한 언론플레이 등에 잘 속아넘어가지 않는다. 아래에서 설명할 "통계적 추론" 파트가 특히 그렇다.
통계적 방법에 대한 막연한 거부감은 그 결과 데이터를 딱 보자마자 느껴지는 난해함과 불편함 때문인 경우가 많다. 이것은 읽는 사람의 잘못이 아니라 분석한 사람의 잘못에 가까운데, 안타깝지만 어느 정도 일부러 조장되어 온 측면이 있다. 모든 통계적 방법의 결과물은 그것을 보고(reporting)한 후에는 그 해석(interpreting)도 반드시 첨부되어 있어야 한다. 논문의 형식에 대응시키자면 이는 각각 결과(results)와 토의(discussion) 파트라고 볼 수 있다. 문제는 복잡한 통계분석 결과표를 (때때로 고의적으로) 읽는 이의 정신을 혼미하게 만들기 위해서 냅다 내던지는 경우가 있다는 것이다.[8] 특히 보고서 등지에서 종종 볼 수 있는데, 물론 가로로 수십 열과 세로로 수십 행짜리 표에 숫자가 까맣게 채워져 있으면 언뜻 대단한 것처럼 보이지만, 절대 잘 만든 보고서가 아니다. 잘 모르는 사람들은 엄지를 치켜세울지 몰라도 조금이라도 학계에서 통계분석을 해 본 사람들은 "이게 어디서 약을 팔아?" 하면서 쓰레기통에 버린다.[9] 통계분석 결과물로 나온 한 아름의 숫자 뭉치들은 말 그대로 그냥 숫자놀음일 뿐이다. 이런 숫자들은 반드시 간명하게 정리해서 보고하고, 이후 의미 있는 방식으로 연결하여 그 숫자들이 왜 중요한지를 해석해야 한다. 그리고 그 거대하고 더러운 표는 맨 마지막에 별첨자료(supplement)로 빼내서 읽을 사람만 읽으라고 하는 게 가장 이상적이다. 요컨대 통계분석 결과 숫자들이 깔끔하고 이해하기 쉬울수록, 그 분석가의 내공이 탄탄하다고 볼 수 있다.
1.1. 공부의 단계
어떤 방법이 있고 각 방법이 어느 정도 어려운 방법인지 이해해야 각 방법에 접근이 가능하다. 초보적 기법에 대해 잘 모르는 상태로 무조건 어려운 기법을 적용하려 하면 기초지식의 문제로 문제가 생기기 쉽다. 따라서 기초부터 차근차근 공부하는 게 필요하다.가장 기초가 되는 부분은 변인이다. 독립변수와 종속변수가 무엇인지 모르면 아무것도 할 수 없기 때문이다. 양적 연구방법론 교재를 펼쳤을 때 다루는 가장 첫 부분은 기술통계학, 통계적 추론이다. 기술통계에 대해서는 평균, 분산, 표준점수, 공분산, 효과크기에 대해 알아야 한다. 가설검정(통계적 추론)에 대해서는 t-검정, 상관분석은 알아야 한다. 그리고 실험설계, 자료수집에 대해서도 알아야 한다. 실제 논문 쓰기는 회귀 분석이나 분산 분석에서부터 시작한다. 종속변수가 연속변수가 아닐 때에는 카이-제곱 분포와 경우에 따라서는 로지스틱 회귀에 대해서까지 알아야 한다. 대학교 전공필수 통계 수업 정도면 여기까지는 충분히 다룬다.
통계적 방법의 중간보스는 탐색적 요인 분석(EFA)[10]과 다범주형 회귀분석에 해당한다. 대학원에서 한 학기 정도 강의를 진행했는데 이 정도까지 알 수 있었다면 강사가 열정적인 케이스고, 여기까지 오지 못하는 강의도 허다하다. 다행히 방학 중에 각 대학원들의 학생회에서 초빙하는 특별 강의 같은 것도 많이 열리고 있고, 이런 곳에서 요인분석이나 대충 중간 정도쯤 가는 다른 방법론들을 부가적으로 가르친다.
물론 통계 강의를 열심히 수강한다고 해서 곧바로 양적 논문을 휘갈겨 쓸 줄 알게 되는 건 절대 아니다. 게다가 강의시간 내내 복잡한 수식 놀음만 하다가 정작 한 학기가 끝나고 나서도 크론바흐의 알파(Cronbach's Alpha)를 언제 어떻게 써먹는지, 그 값은 또 어떻게 구하는지, 자기가 보고하는 F-값이 어떤 의미가 있다는 건지 같은 기본 중의 기본조차 모르게 되는 경우가 태반인 게 사실. SPSS 분석표를 워드에 고스란히 갖다 붙이는 사람들이 바로 이런 쪽이다. 그래서 현장 연구자들 중에는 일선의 통계 강의 커리큘럼 자체의 비효율성에 대해 비판하는 사람들이 많다. 심지어 학부과정 통계 커리큘럼과 대학원 통계 커리큘럼이 완벽하게 똑같은 어처구니없는(…) 상황도 의외로 흔하다. 대학원생들은 당장 논문이라는 매체를 소화해야 하는 특수한 청중인데, 강의가 그런 특수성을 반영하지 못하고 있는 것.
고급단계에는 횡단면 분석, 시계열 분석, 메타 분석, 구조방정식 및 확인적 요인 분석 (CFA), 사회 네트워크 분석, 다층 모형, 생존 분석 등이 들어가며, 최근의 양적 연구방법론은 하나만으로도 어려운 고급 기법들을 이리저리 섞어서 쓰고 있다. 패널 분석 (횡단면 분석+시계열 분석), 진단검사 메타분석, 메타구조방정식 (구조방정식+메타 분석), 네트워크 메타분석(네트워크 분석+메타 분석), 다층구조방정식 (구조방정식+다층 모형), 다층 메타 분석 (다층 모형+메타 분석) 등은 더욱 고급 기법에 속한다. 또한 사회과학 통계의 최신 트렌드 중 하나로서 기존의 통계학을 빈도주의라 하여 비판하고 그 대신에 베이지안을 내세우는 것이 있다. 베이지안이 그들의 세일즈만큼 만능은 아니겠지만 결국 그쪽도 알아야 학계 활동이 가능한 시대가 되었다. 결과적으로 베이지안 다층 구조방정식 (베이지안 통계학+다층 모형+구조방정식), 베이지안 네트워크 메타 분석 (베이지안 통계학+네트워크 분석+메타분석) 같은 것도 나오고 있으니 이들은 가히 최종 보스라 하기에 부족함이 없는 방법론들이라 하겠다.[11]
박사과정으로 갈수록 이런 흔치 않은 방법론을 많이 활용하게 된다. 그럼 박사들은 다들 이런 것에 빠삭하게 알고 있느냐 할 텐데, 학문분야에 따라서 모두가 그런 건 아니지만 일단 알고만 있으면 어느 학문에서나 굉장히 도움이 된다. 한국사회과학자료원(KOSSDA) 같은 곳에서 열리는 방법론 워크숍을 보면 늘 패널데이터나 메타분석, 모델링 따위로 주제가 정해져 있고, 전국에서 사회과학분야 박사과정생들과 연구원들이 구름떼마냥 몰려드는 것을 목격할 수 있다.[12] 물론 박사과정생이라는 신분 자체가 이미 하나라도 더 배우기 위해서 기꺼이 발품을 파는 삶이 몸에 배어 있다는 얘기이니 굳이 사회과학계에서만 볼 수 있는 정경은 아니다.
2. 기술통계와 추론통계
통계학에는 크게 두 가지가 있으며, F-분포를 제시했던 통계학자이자 실험설계에 공헌했던 방법론 연구자였던 로널드 피셔(Ronald Fisher)가 추론통계학의 기초 개념을 창안하면서 연구의 역사가 서로 갈라지게 되었다.- 기술통계학(descriptive statistics): 연구 대상의 전체 또는 일부를 통계하여, 그 대상이 갖고 있는 속성을 다루는 수치를 추출하고, 그 추출 결과를 도표와 그래프로 정리하는 통계학. 일부를 통계하는 경우에는 아래 추론통계학의 작업을 위한 사전 준비과정으로 활용된다.
- 추론통계학(inferential statistics): 자료의 일부만을 관찰한 결과를 토대로 불확실한 사실(전체 관찰 결과, 또는 오지 않은 미래)을 추론 및 예측하는 통계학. 경제학계에서는 통계적 추론(statistical inference)이라는 표현으로 정착되어 있다. 한자어로 더 축약할 경우 추계학(推計學)이라고도 한다.
기술통계학이나 추론통계학이나 쓰임새 자체는 분야에 따라 다 다르다. 그러나 일반적으로 많은 통계학 강의들에서는 추론통계학에 상당한 방점을 찍고 있다. 추론을 해야할 만한 경우가 많고, 이론적인 정교함과 엄밀함도 높기 때문이다. 경제통계학, 인구통계학(demography), 사회학, 사회조사 같은 분야에서는 기술통계학이, 계량경제학, 경영학이나 행정학, 심리학 등의 분야에서는 추론통계학이 쓰인다. 특히나 인구주택총조사와 같은 센서스(census)는 기술통계학의 꽃이라 할 수 있으며, 심리학 등의 분야에서 고작 십수명 앉혀놓고 연구한 결과를 일반화시키는 기예를 선보이는 것은 통계적 추론의 첨단을 달리는 기법이라고 할 수 있다.
통계적 방법을 기술통계학과 추론통계학으로 굳이 나누는 작업부터 시작해야 하는 이유는, 이처럼 통계적 방법에서 둘 다 쓰임새 자체는 많을지라도, 뭔가 배울 만한 건덕지(?)는 추론통계학이 훨씬 더 많기 때문이다. 그리고 추론통계학은 추론을 위한 고유의 논리가 있으며, 그 논리에 맞게 각종 용어들과 기호들이 구분되어서 쓰이고 있다. 기술통계학에서는 단순히 연구자가 관심을 갖는 대상 집단과 그 집단의 수치적 속성만을 보여주면 그만이다. 하지만 추론통계학에서는 좀 더 복잡해진다. 여기서는 자료의 출처가 되는 대상 집단을 표본(sample)이라고 하며, 표본이 갖는 수치적 속성을 통계량(statistic)[13]이라고 한다. 반면, 연구자가 정말로 알고 싶었던 대상, 즉 본래 관심이 있었던 '진짜' 대상 집단은 모집단(population)이라고 달리 부르며, 모집단이 갖는 수치적 속성을 모수(parameter)라고 한다. 통계량은 수식에서 알파벳으로 표기되는 반면, 모수는 수식에서 그리스 문자로 표기된다는 차이가 있다.
물론 '추론' 을 내세우며 입을 터는(?) 추론통계학보다는, 사실을 있는 그대로 담백하게 '기술' 하는 기술통계학이 더 이상적이다. 기술통계학은 표본의 표집 과정에서 발생하는 표집오차(sampling error)의 가능성이 0이기 때문이다.[14] 그러나 연구대상이 너무 거대해서 전수조사가 불가능한 경우가 있고, 전수조사를 하기에는 시간과 예산이 모자라는(…) 경우가 있으며, 연구의 특성상 (ex. 내구성 검사, 수명 검사 등) 전수조사를 하면 안 되는 경우가 있다. 결국 추론통계학은 이상과 현실의 타협점이다. 감당할 수 있을 만큼 오차를 무릅쓰면서, 충분히 높은 정확성을 유지하여 전체 대상을 예측하고, 그러면서 자신이 유발시키는 오차를 정확히 명시하는 것이다. 방법론적인 복잡성은 추론통계학이 한참 더 심할 수밖에 없다.
여기서 오해하면 안 될 것이 있다. 연구자는 그저 모집단의 모수가 궁금할 뿐이지, 표본의 통계량에는 사실 관심이 없다. 단지 그 모수를 직접 얻을 수 없기에 통계량만을 가지고 가늠해 볼 뿐이다. 연구자의 손에 당장 들려 있는 것은 어디까지나 아득바득 긁어모아 얻어낸 한 줌의 통계량이지, 모수가 아니다. 이제 연구자는 이 통계량이 모수에 대해 감을 잡는 데 그럭저럭 도움이 된다고 '믿어야' 한다. 다시 말해, 통계량이 무조건 모수와 정확히 같다고는 그 누구도 확신하지 못한다. 결국 표본을 한없이 늘릴 자신까지는 없는 연구자는 어느 정도의 리스크를 안게 된다. 그리고 자신이 혓바닥을 잘못 놀렸을 가능성(…)만이라도 감당 가능한 수준으로 낮추는 데에 초점을 맞춘다. 결과적으로 통계량은 정확해야 하고(모수에 최대한 가까워야 하고), 표본은 효율적이어야 한다(정확성을 담보하되 최대한으로 작아야 한다). 이것이 바로 추론통계학만이 직면하게 되는 고유의 어려움이다. 통계적 추론 외적으로 표본조사(sampling)의 엄격한 수행이 연구자들에게 이슈가 되는 것도 밀접한 관련이 있다.
2.1. 기술통계: 자료의 요약, 정리, 시각화
자세한 내용은 기술통계학 문서 참고하십시오.2.2. 분포: 확률변수, 확률분포, 정규분포
자세한 내용은 통계적 방법/분포 문서 참고하십시오.2.3. 추론통계: 표본분포, 추정, 검정
자세한 내용은 추론통계학 문서 참고하십시오.3. 자료의 분석과 해석
자세한 내용은 통계적 방법/분석 문서 참고하십시오.4. 관련 개념들
4.1. 자유도
degrees of freedom수식없이 설명하는 자유도
자유도 문서 참조.
5. 통계 소프트웨어
- Microsoft Excel
- LibreOffice Calc
- ISP
- SPSS
- SAS
- R: 통계 자료 중에는 R을 통한 API로만 접근이 가능한 경우가 있다. 이런 사회과학 자료를 얻으려면 R을 배워야 한다.
- Minitab
- STATA
- 스태티스티카(Statistica)
- Python
- Jamovi
5.1. 빅 데이터 프로세싱
빅 데이터 프로세싱5.2. VENSIM
모델링을 구축하여 시뮬레이션을 명령할 때 쓰는 프로그램으로, Ventana Systems 사에서 개발하였다. 학술적인 목적일 경우 이 링크에서 무료 다운로드를 할 수 있다. 이름의 유래는 역시 자기네 회사 이름의 앞글자를 딴 것.
저량(stock)과 유량(flow)의 개념을 활용하여 각종 변인들을 설정할 수 있으며, 초기값을 지정한 후 시뮬레이션 회기를 돌려 보면 그 변화량의 추이가 그래프 형태로 제출된다. 시스템 다이내믹스를 구현하므로 활용 가능성이 꽤 큰 프로그램인데, 경영학에서 재고품을 처리하는 방법을 강구하기 위해, 행정학에서 국민연금의 적립금 추이를 예측하기 위해, 생태학에서 특정 서식지 내 한 종의 개체 수의 추이를 예측하기 위해 모형을 만드는 것이 가능하다. 당장 위의 사례 역시 생태학에서 만든 모형이다.
5.3. GrafEq
수식을 입력하면 그에 맞게 좌표평면 상의 그래프를 출력해 주는 수학 프로그램이다.5.4. AMOS
AMOS는 확인적 요인 분석에 활용되는 모델링 프로그램으로, SPSS와 함께 IBM과 제휴하여 제공되고 있다. SPSS와 마찬가지로 매우 직관적이고 진입장벽이 낮다는 점이 장점이며, 최초 개발자는 심리학자인 J.L.Arbuekle이다. 이름의 유래는 Analysis of Moment Structure의 약자.구조방정식(SEM)을 다루기에 심히 적절해서 오늘날 많은 연구자들의 Must-Have 아이템이 되었지만, 정작 도입된 역사는 매우 짧다는 것이 문제. 국내 전문가로는 이학식, 김계수, 이기종, 우종필, 배병렬 등이 있다. 경쟁 관계인 LISREL[15]이나 MPLUS[16] 같은 다른 프로그램들에 비해 장점이 확실히 많다. LISREL은 진입장벽이 너무 높고, MPLUS는 아는 사람들만 아는 강력한 프로그램이라고 통하고 있지만
파일:external/humanvarietiesdotorg.files.wordpress.com/amos-ses-asvab-achiev-sem-blacks.jpg
모형에서 각각이 의미하는 바를 설명하자면, 사각형 박스는 관찰변인, 타원형 박스는 잠재변인,[17] 일방향 직선 화살표는 인과관계, 쌍방향 곡선 화살표는 상관관계를 의미한다.
사용상의 소소한 팁으로는, “Draw a latent variable” 또는 “Add an indicator to a latent variable”을 쓰면 더 빠른 작업이 가능하다는 것, 텍스트를 많이 포함할 경우 처음부터 큼직한 모형으로 그려야 한다는 것, 복잡하고 큰 모형이 있으면 “Resize the path diagram to fit on a page” 기능을 쓰면 된다는 것, 마지막으로 상관관계 화살표는 좌에서 우로, 우에서 좌로, 상에서 하로, 하에서 상으로 그릴 때마다 모양이 다 달라진다는 것 등이 있다.
6. 관련 문서
7. 둘러보기
🏬 사회과학 조사·연구 방법론 둘러보기 | |||
{{{#!wiki style="margin: 0px -10px -5px; min-height: 26px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -5px -2px -11px" | <colbgcolor=#C1F3FF>📝 서론 | <colbgcolor=#F7FFFF,#191919>사회과학 · 과학적 방법 · 사회조사 · 연구 · 가설 · 이론(이론적 조망) · 연구윤리 | |
🔍 조사방법론 I | 변인 · 정의 · 상관관계와 인과관계 · 실험(실험설계 · 통제 · 통제집단과 실험집단) · 사례연구 | ||
자료 · 자료수집(면접법 · 초점집단면접법 · 질문지법 · 관찰법) · 코딩 | |||
📈 조사방법론 II | 표본조사 · 지표 · 측정 · 신뢰도와 타당도 · 지수 · 척도 | ||
📊 사회통계 | 통계적 방법 · 기술통계학 · 확률 및 분포 · 추론통계학 · SPSS · 분석기법(분산분석 · 회귀분석) | ||
👔 공인 자격증 | 사회조사분석사 · 빅데이터분석기사 · 국가공인 데이터분석 전문가 | ||
📂 메타 문서 | 연구방법론 관련 정보 | ||
상기 문서들은 한국통계진흥원 및 한국산업인력공단의 출제범위에 의거하여 엄격히 망라되어 있으며, 동 기관의 과목별 구분·명명에 의거하여 조사방법론은 2파트로 구분됨 |
[1] 그나마 이중에서도 사회복지학이나 교육학 등은 질적 방법론만 파도 나름 성과를 낼수 있으나 수학 및 통계와 뗄래야 뗄 수 없는 경제학 등은.....[2] 똑같이 통계 많이 써야 한다는 경제학과 심리학임에도, 경제학에서는 모델을 세우는 목적이 예측(prediction)에 있지만, 심리학에서는 모델을 세우는 목적이 설명(explanation)에 있다. 표현을 바꾸자면, 좋은 회귀모델을 수립할 수 있느냐, 매개효과와 상호작용 효과를 얻어낼 수 있느냐 등등, 학문분야마다 자기들이 처한 학문적 처지에 따라서 통계의 목적이 다 다르다. 어느 학문의 통계가 다른 학문의 통계보다 더 어렵다거나, 더 우월하다거나 하는 줄세우기는 사실상 불가능하다.[3] 엄밀한 정의는 측도론에 대한 배경지식이 필요하다. 가령 유리수에서 1, 무리수에서 0인 함수에 대한 기댓값은 이 문서의 수준에서는 설명하기 어렵고 르베그 측도를 도입해야 한다.[4] 사후검증에 쓰이는 그거[5] 더 좋은 의견이 있다면 상단의 토론 탭에서 자유롭게 말씀해 주시기 바란다.[6] 물론 통계학과 학부과정을 충실히 이수한 대학원생이라면 학부 사회조사방법론 전체, 계량경제학 전반부 정도는 커버 가능하다. 선형대수학, 수리통계학, 회귀분석만 충실히 들어도 어지간한 건 다 커버되고 그 외의 내용들도 다변량분석, 시계열분석을 이수하면 커버된다. 시계열 분석이나 패널 분석에서 나오는 추상적인 개념이나 대표본에서의 성질로 들어가면 학부 통계학과 수준을 뛰어넘는 개념이 나올 때도 있긴 하지만[7] 경제학을 예로 들면 선형대수학, 수리통계학, 회귀분석을 단학기만에 끝내는 학교도 있지만 통년과목으로 설정하는 학교도 많다. 예를 들면 수리통계학을 1학기 만에 끝내는 학교도 있지만 수리통계학 1-수리통계학 2 혹은 수리통계학-고급수리통계학으로 커리큘럼이 구성된 학교도 많다. 따라서 자칫하면 18학점 이상으로 늘어날 수도 있다. 한편 사회과학의 다른 분야에서는 조사방법론(대개는 전공선택), 확률과 통계(대개는 전공필수)를 나누어 개설하기도 한다. 이 정도만 해도 사회조사분석사 2급 자격증에서 커버하는 범위의 약 90% 가량이다. 따라서 만일 두 과목을 같은 학기에 수강한다면 내친김에 자격증까지 같이 따는 것도 고려해보자. 자기 이력서에 한 줄 더 들어가는, 인생에 도움이 되는 일이다.[8] 이와 관련하여 과학적 논문의 잘못된 글쓰기 관행을 지적하는 한 문헌에서도 '독자들이 잘 정리되지 않은 근거 자료에 뒤덮이게 만드는 것'(overwhelming the reader with poorly organized supporting materials)을 부적절한 관행으로 비판하고 있다.[9] 그래서 이런 눈앞이 빙빙 도는 표를 접했을 때 무척 좋아하는 상사나, 심지어는 "보니까 어디서는 그런 식으로 보고하던데 왜 우리는 그렇게 안 하냐?" 하면서 멀쩡한 분석결과에다 개악을 시도하는 상사들은 무능력한 상사일 가능성이 높다.[10] 실제로는 많은 사회과학도들은 탐색적 요인분석 중에서도 "주축분해법 + 축소상관행렬 + 직각회전의 콜라보" 정도만 활용한다. 물론 이것만 가지고도 논문이야 쓸 수는 있겠지만 욕 안 먹고 게재에 성공할지는 다른 문제다(…). 자세히 이해하려면 행렬에 대한 심도 있는 지식이 필요하다.[11] 그런데 이 정도까지 방법론의 심연(?)으로 들어가다 보면, 어느 순간부터는 배운 것을 이해하는 건 나중 문제고 자신을 가르쳐 줄 사람을 찾는 것부터 고역이 되기도 한다. 제대로 이해한 사람이 애초에 없다 보니, 심지어는 전 세계에서 단 몇 사람만이 깨작거린 몇 편의 논문 외에는 자신이 참고하고 학습할 교과서가 없는 상황도 발생한다. 물론 이건 많이 극단적인 케이스고, 대체로 학위논문을 쓰는 적잖은 대학원생들은 자기가 점찍어 둔 연구방법에 대한 좋은 교재를 찾지 못해서 답답함을 느낀 경험이 한 번씩은 있다.[12] 참고로 KOSSDA의 워크숍들 중 일부는 무료가입 회원들도 무료 참석이 가능한 경우가 있으니 방법론에 관심이 있다면 체크해두자. 코로나 이전까지만 해도 서울대학교에서 강연이 열리기 때문에 지방의 연구원들은 참석이 어려운 면이 있었으나, 비대면 워크숍이 시작되면서 이 부분은 상당히 해결되었다.[13] 통계학(statistics)이라는 단어와의 차이점에 유의. 마지막에 s가 빠져 있다.[14] 물론 이론적으로는 여기에 대응되는 비표집오차(non-sampling error) 같은 개념도 있다. 이건 전수조사를 할 때 발생하는 통계 외적인 문제(ex. 조사원 숙련도 등)로 발생하는 오차이다. 당연히 통계학적인 의미는 없기 때문에, 그리고 표집오차의 위험성에 대자면 비교 불가능할 만큼 사소하기 때문에 대체로 무시할 뿐이다.[15] 통계학자 K.Joereskag에 의해 개발되었으며, 국내에는 90년대에 소개되었다. 그리스 문자에 기초한 기호를 활용하며, 모든 명령어는 행렬 형태로 코딩된다.[16] 통계학자 B.O.Muthen이 개발했다. 강력하고 경량화된 프로그램으로, 분석 범주가 넓다. 일반 연구자들보다는 통계적 방법론 전문 연구자들이 활용하고 있다고.[17] 잠재변인의 indicator는 측정오차를 갖고 있으며, indicator 중 하나와 1의 관계를 가짐으로써 그 단위가 부여된다.