p-해킹

통계학 Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px"	<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학	기반	실해석학 (측도론) · 선형대수학 · 이산수학
확률론		사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 · 독립항등분포
통계량		평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학	가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 (심슨의 역설) · 그레인저 인과관계 · 신뢰도와 타당도 · 오차 · 잔차 · 편향(확증 편향 · 선택 편향)
추론통계학	통계적 방법	회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 · 자료 시각화		도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점	}}}}}}}}}

1. 개요2. 연구부정행위인가?3. 상세4. p-값 강화 움직임5. 관련 문서6. 외부 링크

1. 개요

p-hacking / data seeking / statistical significance seeking

논문 작성 시 널리 사용되는 통계적 유의확률 p-값과 관련된 문제적 관행.

통계학에서는 영가설(null hypothesis)과 대립가설(alternative hypothesis)을 설정한 뒤, p-값을 통해 영가설이 틀렸을 가능성을 검토한다. p-값은 “영가설이 맞다고 가정할 때, 관측된 데이터 이상의 극단적인 결과가 나올 확률”이며, 값이 작을수록 영가설과 데이터가 일치하지 않는다는 뜻이다.관련 기사

연구자들은 대개 95% 신뢰수준(p < 0.05) 또는 99% 신뢰수준(p < 0.01)을 기준으로 영가설을 기각한다. 이러한 유의수준은 반드시 사전에 정해져야 하며, 기준을 넘는 p-값이 나오면 영가설을 기각해선 안 된다.[1] 유의한 결과에는 종종 애스터리스크 기호가 붙는다.

문제는 데이터가 기준에 아슬아슬하게 미치지 못하는 경우. 이때 연구자는 무의식적으로 p-값을 조작하고 싶은 유혹을 받게 된다. 예를 들어 일부 아웃라이어를 제거하거나, 90개의 관측값 중 15개를 제외한 75개만으로 분석하여 처음부터 그렇게 설계된 실험인 양 발표하는 식이다. 이렇게 얻은 p-값이 0.05 아래로 떨어지면 출판 요건을 충족하게 된다. 이것이 바로 p-해킹이다.

이러한 관행은 파일 서랍장 문제(file drawer problem)로도 알려져 있다. 연구자가 유리한 결과만 남기고 불리한 데이터를 버리는 방식으로, 실제로는 우연히 생길 수도 있는 표본 왜곡을 의도적으로 활용하는 것이다. 이 용어는 1979년 Rosenthal에 의해 처음 제안되었으며, 최근 p-값에 대한 회의와 함께 다시 주목받고 있다.

2. 연구부정행위인가?

이것이 연구부정행위라고 주장하는 경우, 데이터를 버리는 행위 자체가 직관적으로 연구부정행위에 속한다고 판단한다. 대부분의 경우 p-해킹은 소수의 특수한 케이스를 버림으로써 이루어지며, 이 경우 연구부정행위로 인식하기 어려울 수 있지만, 만일 그 숫자를 키워서 생각하면 판단이 달라진다는 것이다. 예컨대, 환자 1만 명에게 신약을 투여해서 7천 명에게는 아무 효과가 없었고, 3천 명에게만 효과가 있었다고 하자. 효과가 없는 환자의 데이터 중 4천 건을 버려서, 총 6천 명에게 투여해서 50%의 환자에게 효과가 있었다고 발표하는 것은 누구라도 연구부정행위라고 인식한다는 것이다.

하지만, 이것이 도의적으로 연구윤리에 위배된다고 판단할지라도, 미국 학계 지침(속칭 FFP rule)이나 교육부 훈령에 비추어볼 때 연구부정행위의 한 종류로 판단하기 어렵다고 주장할 수도 있다. 기존의 가장 광범위한 연구부정행위의 범주는 1) 없는 데이터를 만들거나, 2) 있는 데이터를 고치거나, 3) 남의 데이터나 생각을 자신의 것이라고 속이는 것이다. 이미 갖고 있던 데이터를 버리는 것은 이 중에 속하지 않는다. 하단에 다시 설명되겠지만, 학계에서도 아직까지는 p-해킹에 대해서 "의심스럽다"(questionable)는 표현으로 그치고 있을 따름이다.

데이터 폐기는 정상적이고 양심적인 연구 과정에서도 종종 스크리닝(screening)이라는 이름으로 실시되기도 한다. 특히 소표본일 때 저질의 반응 세트(response set)가 존재하는 설문지는 그냥 버릴 것이 권장될 정도. 예컨대 모든 질문 문항에 대해 전부 "매우 그렇다" 에만 응답하는 경우. 소년원학교나 청소년 보호시설, 교도소 등에서 수행하는 질문지 연구에서 이런 식의 무책임한 응답은 거의 일상이다.

따라서 일반적으로 p-해킹이 문제가 있다고 누구나 생각하게 되는 이유는 결국 그 작위성과 고의성에 있다고 생각해도 될 것이다. 일반적인 스크리닝 절차는 자신의 연구결과에 대한 설득력을 높이고 영가설을 기각하지 못하는 상황을 회피하지 않으려는 반면, p-해킹은 출판 가능성(publishability)을 높이기 위하여 영가설을 기각할 수 있도록 고의적으로 자신이 원하는 표본을 구성하기 때문이다. 이는 동료 연구자들에 대한 기만 행위이며, 해당 연구를 가지고 후속연구를 진행할 후학들에게도 큰 민폐가 된다. 따라서 연구자들은 이것이 비록 법적으로나 관행적으로나 연구부정행위에 해당하지 않더라도, 연구부정행위에 준하는 연구윤리의 중대한 위반이라는 것을 인식하고 경각심을 갖는 것이 바람직하다.

3. 상세

심하게 말하면 p-해킹은 학계의 공공연한 비밀이지만, 정확한 실태 파악이 어렵다는 점이 문제다. 대부분의 경우 심증은 있지만 물증은 없는 상황이며, 지적을 받아도 연구자가 무고한 경우 방어 수단이 마땅치 않다. 이에 따라 명백한 연구부정행위 대신 의심스러운 연구활동(QRP)으로 분류되는 일이 많다. 어느 학술통계 블로그에서는 "결과의 강건성, 사전 설정된 신뢰수준, 재현성을 입증할 수 없다면, 당신을 저격한 사람에게 술 한 잔 대접하라"는 조언도 있다.

학계는 이런 문제에 대응하려 다양한 방법을 모색 중이다. 예를 들어 p-곡선(p-curve)을 그리면 p=0.05 근방에서 논문이 몰려 있는 현상이 자주 나타나는데, 이는 p-해킹의 간접적 증거가 될 수 있다. 과학자사회가 미숙한 국가일수록 이런 유혹에 더 취약하다는 우려도 있다. p-해킹은 전통적 연구윤리 범주는 아니지만, 도의적으로는 중요한 문제다.

또 다른 잘못된 관행은 p>0.05라도 0.07 미만일 경우 'marginally significant' 같은 표현으로 슬쩍 언급하는 것이다. 이런 방식은 엄밀히 말해 통계학적으로 부적절하다. 영가설 검정은 p값이 유의수준 미만인지 여부만으로 해석돼야 하며, 유의수준을 사후에 바꾸는 것은 결과 해석의 신뢰성을 해친다.[2]

p-값은 통계학자들 사이에서도 오래전부터 애증의 대상이었다. 통계적 의미는 무시한 채 출판 여부를 가르는 단순한 기준으로만 쓰이기 때문이다. 1994년 심리학자 제이콥 코헨은 《American Psychologist》에 《The Earth Is Round (p < .05)》라는 제목의 논문을 발표하며 이 문제를 풍자하기도 했다.출처 실제로 심리학은 의학 다음으로 엄격한 연구방법론을 가진 분야로, 관련 문헌의 기여도 크다.

2010년대 이후에는 p-값만으로 연구 타당성을 판단하는 관행을 비판하는 논문들이 다양한 분야의 저널에 쏟아졌으며, 그 대표적 사례가 Simmons, Nelson, & Simonsohn(2011)이다. 미국통계학회(ASA)도 p-값 오남용에 대한 성명서를 발표했다.출처

심지어 일부 저널은 p-값 사용을 전면 금지하기도 했다. 예컨대 Basic and Applied Social Psychology는 p-값뿐만 아니라 t-값, F-값 등의 추론통계량, 심지어 신뢰구간(CI)이 포함된 논문은 아예 심사조차 하지 않고 반송하겠다고 선언했다.사이언스온 Nature News 해당 저널은 이후의 사설에서 강력한 기술통계량과 효과 크기(effect size), 대규모 표본, 빈도분포표 등을 대신 제시할 것을 요구했으며, 베이지안 통계분석의 경우에는 사안마다 다르게 판단하겠다고 밝혔다.

4. p-값 강화 움직임

과거에는 p-value가 0.05 이하면 가설이 기각될 수 있어 논문 출판이 가능했지만, 최근에는 기준을 0.005로 강화해야 한다는 주장이 늘고 있다. [바이오토픽] 유명 통계학자들, '논란 많은 P값'의 대대적 개혁 요구 2017-07-28 하지만 이러한 기준 강화가 논란을 잠재우지는 못하고, 오히려 방법론 연구자들의 강한 반발을 초래하고 있다. 실제로 국내 학술대회에서도 p-값 강화 주장에 대해 비판적으로 다룬 사례가 있다. 실험설계 및 사회연구 특성상 출판 기준을 높이면 오히려 기각해야 할 영가설을 기각하지 못하는 오류가 발생할 수 있으며, 사회과학은 이런 오류를 줄이기 어려운 분야다. 또한 사회과학에서는 통계적 유의성뿐 아니라 기존 문헌과의 실질적(substantive)[3] 연관성도 중요해 통계적 엄격함을 항상 유지하기 어렵다. 따라서 이 논의는 자연과학 분야에서 더 생산적인 영향을 미치며, 사회과학자들은 상대적으로 수용하기 어려운 상황이다.

p-value의 맹신은 연구자가 영가설을 너무 쉽게 기각하거나, 반대로 쉽게 받아들일 때 문제를 일으킨다. p-value는 단지 계수나 차이가 0이 아닐 확률을 통계적으로 제시할 뿐이다. 예를 들어 p=0.051이라도 독립변수가 기존 연구와 상반된 관계를 보이면 중요한 결과일 수 있으며, p=0.0000001이라도 효과 크기가 매우 작다면 실질적 의미는 없을 수 있다. p-value는 관측수가 많을수록 작아지기 때문에[4] 큰 표본에서는 유의미해 보여도 실제로는 영향력이 미미한 경우도 존재한다. 결국 중요한 것은 분석 모형을 뒷받침하는 이론의 참신성과 효과의 방향, 크기다. p-value는 유용한 도구지만 충분치 않으며, 대안으로는 계수의 크기, 한계효과 그래프, 그리고 이론적·실질적 의미에 대한 충실한 설명이 권장된다. 중요한 것은 단순히 "유의하다"로 연구를 끝내는 게 아니라, 인과관계를 이론적으로 의미 있게 설명하는 것이다. 연구의 목적은 별을 얻는 것이 아니라 사회와 자연에 대한 이해를 넓히는 데 있다.

그렇다고 p-값 강화 주장을 단순한 이상주의로 치부하는 것도 무리다. 분산 관점에서 보면 p=0.05는 상당히 관대한 기준이다. 이 기준을 간신히 넘긴 연구는 독립 변인이 설명하는 분산이 매우 작으며, 대부분의 분산은 여전히 설명되지 않은 채 남는다. 확률적으로도 p=0.05는 동전을 4~5번 던져 모두 앞면이 나올 확률 수준에 불과하다. 시뮬레이션을 해보면 이 기준이 얼마나 느슨한지 체감할 수 있다. 결국 이런 기준으로 핵심 가설이 간신히 채택되는 연구는 출판은 될 수 있어도 초라한 결과로 남을 수 있다는 점은 기억할 필요가 있다.

5. 관련 문서

6. 외부 링크

Veritasium 영상(영어): 본문의 p-해킹 및 재현성, 연구투명성, 자기교정성, 초능력 논문 게재 사건까지 한방에 엮어서 설명하고 있다.

[1] 영가설을 “채택”한다고 표현하지는 않는다. 기각하지 못할 뿐이다.[2] 단계적 해석을 원한다면 효과 크기나 베이즈 요인 등 다른 지표를 써야 한다.[3] 방법론 전공 사회과학자들이 이 영어 단어를 사용하면 개념적 근거를 의미한다고 이해하면 된다.[4] 많은 연구자들은 p-값보다 (비)표준화 계수, t값, F값, z값 등을 더 중시한다.