최근 수정 시각 : 2024-03-28 22:39:00

제21대 국회의원 선거/부정선거 음모론/관련 사건/월터 미베인의 주장

파일:Semi_protect2.svg   가입 후 15일이 지나야 편집 가능한 문서입니다.
(~ KST )

파일:상위 문서 아이콘.svg   상위 문서: 제21대 국회의원 선거/부정선거 음모론/관련 사건
이 문서는
이 문단은
토론을 통해 문서 내용에서 극우층이 주장을 주도함을 명시함으로 합의되었습니다. 합의된 부분을 토론 없이 수정할 시 편집권 남용으로 간주되어 제재될 수 있습니다.
아래 토론들로 합의된 편집방침이 적용됩니다. 합의된 부분을 토론 없이 수정할 시 편집권 남용으로 간주되어 제재될 수 있습니다.
[ 내용 펼치기 · 접기 ]
||<table width=100%><table bordercolor=#ffffff,#1f2023><bgcolor=#ffffff,#1f2023><(>토론 - 문서 내용에서 극우층이 주장을 주도함을 명시함으
토론 - 합의사항2
토론 - 합의사항3
토론 - 합의사항4
토론 - 합의사항5
토론 - 합의사항6
토론 - 합의사항7
토론 - 합의사항8
토론 - 합의사항9
토론 - 합의사항10
토론 - 합의사항11
토론 - 합의사항12
토론 - 합의사항13
토론 - 합의사항14
토론 - 합의사항15
토론 - 합의사항16
토론 - 합의사항17
토론 - 합의사항18
토론 - 합의사항19
토론 - 합의사항20
토론 - 합의사항21
토론 - 합의사항22
토론 - 합의사항23
토론 - 합의사항24
토론 - 합의사항25
토론 - 합의사항26
토론 - 합의사항27
토론 - 합의사항28
토론 - 합의사항29
토론 - 합의사항30
토론 - 합의사항31
토론 - 합의사항32
토론 - 합의사항33
토론 - 합의사항34
토론 - 합의사항35
토론 - 합의사항36
토론 - 합의사항37
토론 - 합의사항38
토론 - 합의사항39
토론 - 합의사항40
토론 - 합의사항41
토론 - 합의사항42
토론 - 합의사항43
토론 - 합의사항44
토론 - 합의사항45
토론 - 합의사항46
토론 - 합의사항47
토론 - 합의사항48
토론 - 합의사항49
토론 - 합의사항50
||


파일:대한민국 투표 도장 문양(흰색 테두리).svg 제21대 국회의원 선거
{{{#!wiki style="margin: 0 -10px -5px; min-height: 26px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -6px -1.5px -13px"
사전투표일 : KST 2020년 4월 10일 ~ 11일 (매일 6시 ~ 18시)
투표일 : KST 2020년 4월 15일 6시 ~ 18시
진행
선거구 획정 (과정) 주요 이슈 후보자
선거방송 출구조사 · 예측조사 투표율 공약 · 토론
선거 광고 }}}
{{{#!wiki style="margin: -18px -11px -11px;"
여론조사
서울 · 인천 · 경기 · 강원 · 충청권 (대전 · 세종 · 충북 · 충남) · 전라권 (광주 · 전북 · 전남) · 영남권 (부산 · 대구 · 울산 · 경북 · 경남) · 제주
개표
지역구 (서울 · 부산 · 대구 · 인천 · 광주 · 대전 · 울산 · 세종 · 경기 · 강원 · 충북 · 충남 · 전북 · 전남 · 경북 · 경남 · 제주) · 비례대표 (후보)
결과 분석
정당별 <colbgcolor=#ffffff,#1f2023> 더불어민주당 · 미래통합당 · 민생당 · 정의당 · 국민의당 · 열린민주당 · 민중당
지역별 서울 · 부산 · 대구 · 인천 · 광주 · 대전 · 울산 · 세종 · 경기 · 강원 · 충북 · 충남 · 전북 · 전남 · 경북 · 경남 · 제주
선거기간 중 사건사고
차명진 세월호 유가족 망언 파동 · 대진연의 미래통합당 선거 운동 방해 사건
부정선거 음모론
주장과 반박 · 관련 반응 · 관련 사건 (월터 미베인의 주장)
관련 문서
제21대 국회 · 제21대 국회의원 }}}
대한민국의 주요선거
}}}}}}


1. 개요2. 주장의 내용3. 전문가 지적
3.1. 박원호, 이병태의 지적3.2. 유경준의 반박문
4. 주장의 해체
4.1. 통계 방법론4.2. 용어의 정의4.3. 주의사항4.4. 수치들4.5. 연구가 담지 못한 변수들4.6. 통계 모델상의 문제4.7. 참고 데이터의 신뢰도 문제
5. 정리
5.1. 5월 9일판 평가5.2. 5월 13일판 평가
6. 이후: 2024년 3월

1. 개요

제21대 국회의원 선거 결과를 두고 사전투표가 조작되었다는 음모론과 관련된 월터 미베인의 주장이 서술된 문서. 해당 주장에 대해 주로 제기된 문제들은 아래와 같다.
  • 기본가정과 통계연구 과정에서 치명적인 오류들이 지적되었으나 이는 무시한 채 자신의 원래 주장(선거 데이터 조작 가능성)을 반복하여 강화하고 있다는 점.
  • 합리적인 근거는 전혀 없음에도 'fraud'라는 용어를 사용하였다는 점.
  • 한국의 선거제도에 대한 검토는 전혀 없이 자신의 편견(한국에서는 당연히 부정선거가 가능하며 이를 감시하는 눈도 없으리라는)에 기반한 주장이라는 점. (터키, 러시아, 콩고, 이라크와 같은 연구방법론을 사용하였다.)
  • 자신이 개발한 소위 'R패키지' 컨설팅을 세일즈하기 위한 의도가 상당히 의심된다는 점.

2. 주장의 내용

4월 28일, 미국 미시건대 정치학과 교수인 월터 미베인[1]은 일본 와세다대학 정치경제학부 준교수 정훈[2]의 요청을 받아 자신의 연구 방법론으로 4월 총선을 분석한 글을 개인 홈페이지에 업로드했다.[3] 제목마저 Frauds in the Korea 2020 Parliamentary Election으로 해서 이것이 음모론을 주장한 우한 마이너 갤러리나 극우 유튜브 채널들의 새로운 근거로 부상하는 듯했다.

그러나 이 '글'은 출처를 들어가 보면 알겠지만 우리가 흔히 생각하는 그런 논문(journal article)이 아니다.[4] 미베인 교수가 정훈 교수에게 넘겨받은 자료를 자기가 만든 R 패키지로 분석했고 그 결과를 정리해서 답장하기 위해 교내에 업로드해 놓은 보고서에 가깝다. 일반적으로는 원고(manuscript)라고 부르며 혹은 일부 분야들에서 출판전 논문(preprint)이라고 부르는 것이 이와 유사하다. 논문이 되려면 반드시 동료평가(peer review)를 거쳐야 하고 게재를 승인한 저널명과 그 저널의 발행호, 발행권, 페이지 수 등의 서지정보가 모두 학술 데이터베이스 상에서 확인되어야 하지만 그런 정보는 없다. 문제의 원고는 4월 28일에 작성되었음을 밝히고 있는데, 글이 작성된 지 1~2일만에 게재를 승인하는 '제대로 된' 학술저널은 없다.

또 원고 전반에 있어 통계만으로는 선거조작의 증거로 기능할 수 없다고 명시되어 있다. 무엇보다 원고 결론부에 통계적인 자료 하나만으로는 선거에 무슨 일이 있었는지에 대한 확실한 증거가 될 수 없다. 라고 확실하게 규정하고 있다. 즉 미베인 교수 스스로도 이 원고가 4월 총선에 조작이 있었다는 결정적인 증거가 될 수 없다고 말하고 있다.

5월 7일 YTN영상 인터뷰를 했다. 자신의 분석에 일부 오류가 있었음을 인정하고, '부정'(fraud)라는 용어는 단지 분석 모델에서 쓰는 학술용어이지 실제 부정선거가 있었다는 뜻은 아니라고 해명했다. ## 그러나 정작 가로세로연구소에게 보낸 영상으로는 모델의 오류가 있다 하더라도 그것이 부정선거가 이루어졌는지에 대한 판단에 영향을 미칠 정도는 아니라면서 수개표[5]를 하는 것이 좋겠다는 YTN 인터뷰 때와는 정반대의 견해를 보였다.

5월 9일, 미베인 교수의 글이 수정 게시되었다. 우한 마이너 갤러리 유저가 보낸 이병태 교수의 반박문을 받고 이를 근거로 다시 수정한 것이다. 우한 갤러리의 해당 글 원본과 달라진 부분은 아래 항목 참조.

5월 13일 새 버전이 업로드되었다. Appendix에 데이터 산출값이 포함되었다. 박원호 교수와 한국인으로 추정되는 일반인의 지적 및 도움이 있었다는 내용이 추가되었다. 여기서 미베인 교수는 그의 연구방식을 비판한 박원호 교수와 이병태 교수의 조언에 따라 상기한 부분을 고쳤다고 밝혔다. 관련평가는 후술.

3. 전문가 지적

3.1. 박원호, 이병태의 지적

서울대학교 정치학과 박원호 교수[6]Garbage In, Garbage Out(쓰레기를 넣으면 쓰레기가 나온다)[7]이라는 문장을 사용해 본 연구결과의 무가치성을 힐난했다. 그는 월터 미베인 교수가 한국의 정치환경에 무지한 탓에 이런 결론을 내렸다며 반박 자료를 올렸다. 아울러 이 자료를 근거로 선거부정론을 퍼트린 이들에게도 유감임을 표명했다. 또한 월터 미베인 교수에게 이 사실을 알리고 재분석을 권유할 것이라고도 밝혔다. 카이스트 경영공학부 이병태[8] 교수 역시 미베인의 Input Data 오해에서 비롯된 Garbage In, Garbage Out으로 평가절하했다. 사전 투표에 대한 숫자를 잘못 이해해서 잘못된 통계 결과를 유도했다고 한다.

이후 박원호 교수는 정훈 교수와의 페이스북 상의 교신을 통해서 ① 미베인 교수가 타국의 선거제도와 그 맥락을 알지 못한 상태에서 'fraud' 라는 과격한 단어를 사용했다는 점, 그리고 ② 정훈 교수가 충분히 이성적인 검토를 할 수 있는 국내 학자들을 두고서 굳이 (타국의 선거제도와 그 맥락을 모르는) 외국 학자에게 데이터만 달랑 던져주고 분석을 의뢰했다는 점의 두 가지를 비판했다. 더불어 전세계적으로 사전투표라는 것은 먼저 선거등록(registration)의 과정을 늘 거치기 때문에 미베인 교수가 정의하는 선거권자(eligibles)가 비로소 도출될 수 있는 것인데 국내에서는 주민등록제도 등으로 인해 사전투표제에 선거등록 과정이 불필요하게 되므로 이러한 선거제도의 차이로 인해서 분석의 핵심변수가 누락된 것이라고 부연했다. 이상의 지적에 대해 정훈 교수 역시 인정하고 물러섰다.

댓글로 정훈 교수는 모델에 대한 이야기를 했으나 박원호 교수는 계속해서 데이터 오류임을 지적하며 정훈 교수에게 "직접 통계 돌려보라"고 답했다. 정훈 교수는 일반인 유저와 박원호 교수 등에게 의문점을 묻고 답하는 형식으로 해소해 가는 모습을 보였다. 이때 미국 위스콘신-밀워키대 정치학과 석좌교수 허욱[9]은 박원호 교수의 페이스북에서 나타난 논의를 토대로 미베인 교수에게 새로운 분석을 요청하자고 제안하기도 했다.

미베인 교수가 제공하는 코드 파일은 뜯어볼 수 없고 제대로 작동하지 않는 관계로 결과를 다시 산출하는 것은 본인만 가능하며 기말고사 채점 관계로 분석이 불가능하다고 한다. 박원호 교수는 재분석 이슈와 미베인 교수의 분석결과에 대한 정훈교수와의 토론을 바탕으로 본인의 비판적 의견을 정리하여 페이스북에 게시하였다. #

마침내 제도권 언론사 지면에 상륙했다. 중앙일보 이 기사에서도 박원호 교수와 이병태 교수가 대동소이한 논지로 인터뷰에 응했다. 또한 이 기사에서 미베인 교수는 중앙일보한테 보낸 이메일을 통해 자신이 이 글을 쓴 것은 맞지만 그 외에 더 이상 할 말은 없다는 입장을 표명했다.

3.2. 유경준의 반박문

5월 21일, 박근혜 정부에서 통계청장을 지낸 유경준 미래통합당 제21대 국회의원(서울 강남구 병) 당선인은 미베인의 계산이 통계학적 오류들로 인해 잘못 구해졌다고 밝혔다. 내용은 본 문서에서 지적된 문제점과 대동소이하다.

그가 지적한 통계적 오류는 다음과 같다.
  • 4개의 분석단위가 독립적이어야 하는데 ①시군구 ②읍면동 단위는 사실상 중복에 가까우며 ④사전투표 투표율도 잘못 계산했다.
  • 미베인의 글은 사전투표율을 100%에 근접하게 집계하고 있지만 한국의 경우는 애초에 사전투표율 산출이 불가능한 구조다.
    • 별도 사전투표인단이 정해져 있어 몇 명이 투표했는지 집계해 투표율이 나올 수 있는 미국의 예가 적용되었다.
    • 한국에선 사전투표인단이 정해져 있지 않아 애초에 사전투표율 산출이 불가능하다. 애초에 미베인이 한국의 선거제도를 이해하지 못하고 잘못된 계산을 한 것.

미베인의 오류를 바로잡아 같은 기법으로 분석해 보니 부정 가능성은 141만 8079표(미베인 분석)에서 17만 4052표(유경준 분석)로 크게 줄었다고 밝혔으며, “선거 포렌식 모형에 활용할 수 있는 현시점 최선의 데이터를 활용한 결과”라고도 말했다. # 수정된 계산에 의하면 부정선거 없음의 확률은 98.4%로 크게 늘어나게 된다. #

6월 7일에 완성된 논문을 블로그에 게시했다. #[10]

4. 주장의 해체

4.1. 통계 방법론

미베인은 선거 포렌식(Election Forensics) 방법론을 통해 데이터를 분석했다.[11] 본 통계적 모델에서 "부정"은 기표된 표들에서 사전 정의된 사례들이 발생한 경우를 의미한다.[12] eForensics로 분석된 자료는 다시 베이지언 모델로 후처리되어 평균과 신뢰구간을 산출해낸다. 구해진 평균과 신뢰구간은 (미베인에 의하면) 전체 선거와 개인 득표 합산에서 "부정득표"를 구할 수 있게 한다.

해당 모델은 전체 투표자 대비 특정 후보자(예를 들어 더불어민주당)의 득표 비율은 각 선거의 투표자들이 투표에 참여할 확률과 해당 투표자가 해당 후보자에 투표할 확률의 곱으로 표현된다. 여기서 위에서 정의한 두 확률이 정규분포를 따른다고 가정 했을 때 발생할 확률이 낮으면서 위에서 정의한 Frauds의 작동 모델로 설명이 더 잘 되는 투표소 결과를 찾는 것이다. 해당 모델을 이번 선거에 적용하는 것이 부적합한 이유는 후술한다.
5월 9일판에서 Election Forensic Toolkit and Spikes를 이용한 분석자료가 추가되었다.

기존 253개 지역구 19072 투표소에서 인용되었다던 문구에서 19072가 19131로 바뀌었다.[13][14] 또한, 253개 지역구의 사전투표, 투표소, 해외투표, 거소투표 등을 사용했다는 문구로 대체되었다.[15]

4.2. 용어의 정의

Frauds(부정): 미베인의 통계적 모델에서 부정은 다음 사례를 의미한다.
  • 기권 표가 특정 정당의 득표에 합산되는 경우
  • 경쟁 정당의 표가 특정 정당의 득표로 합산되는 경우[16]

4.3. 주의사항

미베인은 본 자료를 해석함에 있어 다음 유의점을 제공했다.[17]
It is important to keep in mind that “frauds” according to the eforensics model may or may not be results of malfeasance and bad actions. How much estimated “frauds” may be produced by normal political activity, and in particular by strategic behavior, is an open question that is the focus of current research. Statistical findings such as are reported here should be followed up with additional information and further investigation into what happened. The statistical findings alone cannot stand as definitive evidence about what happened in an election.
  • eForensics 모델로 구해진 frauds는 (실제 행해진) 부정행위일 수도 있고 아닐 수도 있다.
  • 정상적인 정치활동에서 산출될 수도 있는 frauds가 (특히 전략적 행동에 의해 나타난 행위에서) 어느 정도의 규모인지는 미해결 문제다.[18]
  • 이 글에 보고된 것과 같은 통계적 결과물에 대해 이후 어떤 일이 일어났는지에 대한 추가적인 정보와 추가적인 조사가 따라야 한다. 이 통계적 수치만으로는 선거에서 무슨 일이 일어났는지에 대한 명백한 증거가 될 수 없다.

미베인의 연구 결과물에서 다음 사항도 유의해야 한다.
  • 미베인은 이 글에서 16개 지역구에서 소위 "frauds"로 인해 당선자가 뒤바뀌었으며 이 중 9곳에서는 더불어민주당 후보가, 6곳에서는 미래통합당 후보가, 1곳에서는 무소속 후보가 부정하게(fraudulently) 당선되었다고 주장했다.[19] 다시 말해 문재인 정부가 원래 더불어민주당 후보가 이긴 지역구 최소 6곳에서 개표 결과를 조작하여 미래통합당 후보를 당선시켜줬다는 소리다. 이것만 봐도 미베인의 계산이 얼마나 엉터리인지 알 수 있다.
    • 5월 9일판에서 그의 분석상 frauds로 인해 당선자가 뒤바뀐 것으로 추정되는 지역구의 숫자가 바뀌었다. 더불어민주당이 14곳, 미래통합당이 11곳, 무소속이 2곳으로 나타났다.[20]
    • 5월 13일판에서는 이러한 frauds로 인해 당선자가 뒤바뀐 것으로 추정되는 지역구의 수가 다시 바뀌었는데 더불어민주당이 15곳, 미래통합당이 7곳으로 나타났다.
  • 미베인의 분석상 오류가 figure 4, 5의 사전투표 수치에서 드러난다. 이는 상술된 박원호 교수 페이스북 두 개의 포스트를 참고할 것.
  • 박원호에 의하면 미베인은 사전투표소를 독립적인 투표소로 집계한 것으로 보인다. 관내 사전투표함은 본투표 각 지역 개표에 포함된다. 관외 사전투표, 거소 및 선상투표, 국외부재자투표, 국외부재자투표(공관) 등은 별도로 개표한다. 미베인이 이 구분을 어떻게 처리했는지는 추후 그의 연구설계가 공개되어야 명확히 알 수 있다.

  • 5월 9일판에서 추가된 Election Forensic Toolkit and Spikes를 이용한 분석자료는 주로 총선 데이터가 특정 자릿수의 숫자 분포에 대한 가정[21]을 만족하는지를 검정한 것이다. 그런데 기대값에서 벗어난 수치가 다수 발견되었다.

4.4. 수치들

  • Figure 1은 전국 253개 지역구, 19072 투표소의 투표율과 득표율을 나타낸 것이다.[22] 328개 해외투표소의 값은 제외되었다. (a)값은 더불어민주당이 선거에서 얻은 득표수/유효표의 분포값이며 (b)는 선거구별 당선자들이 선거에서 얻은 득표수/유효표의 분포값이다. 구간들은 이변량분포의 밀집도를 나타낸다. 즉 a는 비례대표, b는 지역구 선거결과를 말한다.
  • Figure 2는 더불어민주당의 득표를, Figure 3은 각 지역구별 당선자 자료를 나타낸다. 두 Figures에서 a는 관내투표, b는 우편 및 선거 당일[23], c는 재외투표, d는 사전투표 수치를 의마한다.
  • Figure 4는 frauds로 산출된 민주당 부분집합 값을 사용한 산출값. 파란색이 무결점 값이며 붉은색이 결점 산출값. 미베인은 사전투표가 43.1% fraud하다고 봄.
  • Figure 5는 지역구 부분집합 값을 사용한 frauds 산출값. 사전투표에서 22.6% fraud하다고 봄.

4.5. 연구가 담지 못한 변수들

미베인은 결과값으로 나타난 수치를 토대로 자신의 연구를 진행했다. 이로 인해 미베인은 한국 정치 상황의 몇 가지 특수성과 선거 기간에서의 돌발변수를 제외하고 연구값을 산출해냈다. 다음이 몇 가지 예로 기능한다.
  • 전통적으로 사전투표에서 보수정당이 불리했던 점.
  • 사전투표에서 보수정당에 미친 악재[24]
  • 더불어민주당 이외 정당 지지자들의 높은 교차투표 성향[25]
  • 사전투표소는 독립적 투표소가 아님을 모르는 미베인의 코딩에러[26]

4.6. 통계 모델상의 문제

해당 통계 모델이 성립하기 위해 전제되는 조건은 다음과 같다.
  • 각 투표자가 투표에 참여할 확률(t)과 특정 정당/후보자를 뽑을 확률(v)은 선거구에 따라 정규분포를 따른다.
  • 정상적인 선거가 이루어졌다면 특정 정당/후보자의 총 유권자 대비 득표율 (득표수/총 유권자 수)은 위의 t * v로 표현할 수 있다.
  • 각 투표자가 투표에 참여할 확률(t)은 선거구별 투표율을 뜻하며, t*v는 선거 결과를 통해 구할 수 있다.
  • 따라서 주어진 t값과 정규분포를 따르는 v를 이용해서 t*v(최종 득표율)를 설명할 수 없다면 fraud가 발생한 것이다.

분석 과정에서 문제가 되는 것은 미베인이 사전투표소의 유효표 수를 이용해서 해당 투표소의 t를 구하는 과정이다. 전술한 박원호 교수의 지적과 같이 한국의 선거관리위원회에서는 사전투표소의 선거인 수(선거가 가능한 총 유권자의 수)를 정의하기 어렵기 때문에 그냥 사전투표에 참여해 투표용지를 받아간 사람의 수를 그대로 선거인 수로 정의한다. 이 때문에 투표용지를 받아놓고는 투표함에 넣지 않는 극소수의 경우만을 제외하면 대부분의 투표소의 투표율이 100%에 가깝게 나온다. 따라서 첫번째 가정인, 특정 정당의 득표율을 결정하는 두 개의 변수가 모두 각각 정규분포를 따른다는 가정 자체가 성립하지 않는다. 두 개의 정규분포를 곱한 것을 결과로 보았는데 실제로는 한 값은 분포가 거의 없다면 당연히 해당 모델로 설명이 안 되는 것(fraud라고 정의한 것)처럼 보이게 된다.

또 사전투표를 분석하는 과정에서 사전투표소들뿐 아니라 선상투표와 거소, 선상투표까지 섞어 버려서(Figure2의 d) 전혀 균일한 집단으로 보이지 않는 것을 확인할 수 있다. 서로 다른 집단을 하나의 변수로 설명을 하도록 모델을 설정하였으니 당연히 fraud 비율이 높은 것처럼 결과가 나오게 된다.[27] 더군다나 Figure2의 경우 더불어시민당의 득표만을 활용하였는데 정의당과 열린민주당 등의 교차투표 성향까지 있음을 감안하면 그 득표율이 정규분포를 따르지 않을 수 있다. 지역마다 정의당과 열린민주당의 득표율도 다를 것이기 때문이다.

모델 전체의 가정에서도 문제가 있는데 유권자가 특정 정당/후보자를 뽑을 확률이 선거구에 따라 정규분포를 따른다는 가정이다. 선거구별 정치성향의 지역별 분포가 균등하다면 성립할 수 있으나 한국의 지역감정과 같은 전통적인 정치지형상에서 주장하기 어려운 면이 있다. 예를 들어 더불어민주당의 득표율을 모집단을 광주광역시와 대구광역시의 투표소만을 대상으로 뽑는다면 쌍봉낙타 처럼 2개의 정규분포가 겹쳐진 형태로 나타날 것이다. 따라서 해당 가정을 한국 정치 분석을 위해 사용한다는 것 자체가 정알못 인증이라 할 수 있다.

또한 사전분포에 연속균등분포(Continuous uniform distribution)를 그대로 사용한 것도 심각한 문제가 있는데 여기서는 사실상 noninfomative prior라고 말할 수가 없기 때문이다. 이렇게 쓰면 "fraud"가 있을 것 같다는 미베인 교수의 prior probability의 Expect value가 50%에 가깝게 된다. 즉, 사전확률을 너무 높게 잡았다는 점도 애초에 비판점이다. 이를 방지하기 위해 sensitivity analysis를 하는 것인데 그것조차도 했다는 증거를 보여주지 않았다.

4.7. 참고 데이터의 신뢰도 문제

파일:1589854121905.png
파일:1589854131146.png

문서 51페이지, References 항목에서 확인할 수 있다. 일베 및 우한 갤러리 유저로 추정되는 인물과 이메일로 주고받은 개인 의견(Personal communication)을 레퍼런스(참고문헌) 항목에 박아두었다.

5. 정리

본문 12페이지 분량[28]의 본 문서는 한국 정치에 무지한 선거통계학자가 내린 숫자놀음으로 결론내릴 수 있다. 미베인 교수는 미국정치, 정치 방법론, 선거 통계 등을 다루는 학자다. 그의 전공은 한국 정치가 아니기 때문에 한국의 선거제도와 정치환경에 대해서 무지하다. 그럼에도 미베인의 연구를 단편적으로 받아들인 극우층은 별 의미 없는 페이퍼를 부정선거의 증거라고 호도하며 뇌동했다.

이는 환상화된 서구 지성의 권위가 대한민국의 일부 대중에게 얼마나 많은 확신과 신뢰감을 주는지를 보여주는 또 다른 사례라고 볼 수도 있다. 그러나 이 사례는 소위 세계적인 권위자라고 하더라도 그 사람이 세계 구석구석의 문화와 제도와 사회적 환경까지 전부 속속들이 알고 있어서가 아니라는 사회과학이라는 업계의 평범한 현실을 시사할 뿐이다. 냉정하게 보자면 그 사람이 가장 연구생산성이 높은 환경에 몸담고 있기 때문에 권위가 과대평가된 것이라고까지 말할 수도 있다.[29] 미베인 교수는 선거조작 여부를 판별하는 자신만의 R 패키지를 만든 입장에서 자기 상품의 세일즈를 할 필요가 있었고 그러려면 먼저 다양한 선거들을 대상으로 풍부한 분석례를 확보해야 했다. 그러나 이번 분석이 역설적으로 보여준 것은 그 패키지가 도출한 수치적 데이터가 그 사회만의 맥락(환경, 제도, 문화 등)에서 괴리될 때 오도된 결론을 도출한다는 것이다.

미베인 교수의 분석이 옳다면 한국 사회는 그런 대규모의 선거조작이 가능할 정도로 제도적 민주주의가 취약하다는 비현실적인 결론이 나온다. 대한민국2019년 민주주의지수에서 세계 23위, 아시아 1위를 기록한 국가인데도 말이다. 이 지점에서 미베인 교수는 사실 자신의 글쓰기 작업에 브레이크를 걸었어야 했다. "한국에서 진짜로 이런 대규모의 조작이 가능한가?" 를 자문하면서 말이다. 하지만 그는 그러지 않았고 이는 역설적으로 그가 한국의 정치적 환경에 얼마나 무관심한지를 드러내 보였다. 한국 사회라면 충분히 그런 게 통할 거라고 선험적으로 이미 전제한 사람들이나 미베인 교수[30]의 분석에 혹하게 될 뿐이다. 사회과학 통계 데이터가 어떤 경우에라도 반드시 그 자료를 낳은 사회 환경에 단단히 뿌리박혀서 해석되고 논의되어야 하는 이유가 이것이다. 한국의 선거제도를 검토하지도 않은 채 부정선거가 있었다고 단정짓고 연구를 시작했으니 소위 서구 지식인들의 오만 (아시아에서 민주주의가 가능할 리가 없다는) 그 자체라고 볼 수 있겠다.

한국의 정치적 환경은 다른 나라 연구자들이 다른 나라에서 찾아볼 수 없는 특이한 사례라고 언급할 정도다. 과거 캐스팅 보트였던 지역[31]이 텃밭으로 바뀐다거나[32] 다른 정당의 비토 성향이 강한 지역에서 다른 정당의원이 당선된 경우도 있었다.[33]

극우층의 주장은 여기서 끝나지 않았다. 박근혜 탄핵 집회에서도 당장 민주주의의 원조라고 할 수 있는 미국에서 촛불 시위를 하는 국민들의 시위를 보고 가장 민주주의다운 시위라고 국무부 브리핑을 통해 지지 선언을 했고 독일 언론인 디 차이트, 프랑크푸르터 알게마이네 차이퉁[34] 조차도 평화적인 축제라고 말하며 극찬을 아끼지 않았을 정도로 굉장히 투명하고 엄격한 선진국이 입증되었다.[35] 그러나 극우층은 이 촛불 시위조차도 북한이 박근혜 정부의 붕괴를 사주하고 중국 유학생들을 동원하여 친중/친북 정권을 수립하기 위한 폭력 시위라고 왜곡했으며 정작 폭력은 극우층들이 탄핵 찬성자들에게 극단적인 언어/신체적 폭력을 가행하고 있었다는 것. 이후 3월 10일, 박근혜가 탄핵되자, 경찰들을 막대기나 사다리 혹은 투창으로 폭행하고 위협하는 과정에서 2명이 숨지게 되자 미국과 일본을 비롯한 언론 라이브 뉴스에 그대로 보도되며 비웃음을 산 적이 있었다.

문재인 정부에 비판적인 성향을 보이는 진중권 교수는 자신의 페이스북에서 미베인 교수의 주장을 신봉하는 극우층에게 "원래 음모론에는 외국에서 교수를 한다는 사람들이 많이 개입한다. 그 사람이 돈 내줄 건 아니지 않느냐"고 미베인을 돌려서 비판한 적도 있다.

미베인 교수는 가로세로연구소 인터뷰에 등장하여 그 '수개표'를 또 언급하였다. 투표과정이 아닌 개표과정에 문제가 있다고 주장한 셈인데[36] 이는 한국의 투표지분류기에 대한 이해가 전혀 없이 본인의 주장을 제기하고 있음을 실증한 유의미한 근거라고 할 수 있겠다.

한편 미베인 교수의 분석이 타당한지의 여부와는 상관 없이 극우층들은 미베인 교수의 분석을 논문, 학자의 양심 고백 급으로 신격화하여 음모론 전파의 성경 역할을 했다. 이는 조중동으로 대표되는 주류 보수 언론은커녕[37] 어지간한 극우 미디어들도 터무니없다고 생각하여 기사화를 거의 하지 않기 때문에 극우층이 기댈 권위가 '서구의 양심적인 학자 미베인' 밖에 없어 나오는 집착이라고 할 수 있다.

5.1. 5월 9일판 평가

현지시각 2020년 5월 9일 미베인은 자신의 홈페이지에 보강된 페이퍼를 업로드했다. 당초 업로드한 페이퍼 초안은 해당 홈페이지에서 열람할 수 없으며 기존 링크는 보강판으로 대체되었다.

신중한 논조를 취했던 지난 보고서와 달리 서론과 결론 부분에서 통계치가 '한국 총선 결과가 조작되었음을 강력히 시사한다'고 주장했다.[38] 통계만으로는 부정선거의 결정적 증거가 되지 못하며 후속 조사가 필요하다는 주의사항 역시 언급했으나, 전략적 투표행동과 부정선거는 통계적 분석을 통해 어느 정도 구분될 수 있고 통계적 이상치는 부정선거가 원인인 경우가 많다며 상당히 강한 논조를 취했다.[39] 분석의 타당성이나 권위에 의존하는 문제를 떠나 미베인 교수 스스로는 부정선거의 가능성이 상당하다고 믿는 것으로 보인다.

카이스트 경영공학부 이병태 교수가 5월 9일판에 대한 비판을 자신의 페이스북 페이지에 게시했다. 요약하자면 '더 완벽한 데이터를 사용했다고 하는데 정작 숱하게 지적되어 온 사전투표 투표율 100% 문제는 수정이 안 되었다', '베이지언 사전 확률이 부적절하게 설정되었다'는 것이다. 사실 이것들은 4월 28일판에서부터 이미 지적되어온 문제다. 이에 대해 미베인 교수는 YTN 인터뷰에서 '사전투표 문제는 이미 여러 차례 다뤄 본 것이며 indicator variable을 통해 해결할 수 있고 분석결과를 과장하거나 왜곡하지 않는다', '이 정도 크기의 데이터셋에서는 사전확률을 변화시켜도 분석결과는 크게 달라지지 않을 것이다'고 답변했다. 비판측은 'indicator variable을 통해 어떻게 해결됐다는 것이냐', '테스트가 여러 사전확률들에 robust한지 sensitivity analysis 결과를 왜 안 보여주냐'고 재반문했다.

이후 정훈 교수를 비롯한 미베인 지지측은 '해당 분야 권위자가 영향 없을 거라는데 안 믿을 이유가 있냐', '못 믿겠으면 sensitivity analysis 직접 해봐라'는 식으로 답변하고 이병태 교수를 비롯한 미베인 비판측은 '내 분야도 아니고 그럴 가치가 있는 논문으로 보지 않는다', 'sensitivity analysis는 검사 개발자가 해야 하는 건데 왜 증명을 떠넘기냐'는 식의 태도를 취하고 있어 생산성 있는 논의가 이루어지지 않고 있다.

이 지점에서 미베인이 sensitivity analysis를 한번도 하지 않고 2차례나 report를 공개했다는 점은 무조건 비판을 받아야 한다. 반대진영에서 무조건 이러한 지적을 받을 수 밖에 없다는 것을 그 누구보다 잘 알고 있음에도 주장을 오히려 강화하여 제출한 것은 본인의 학문적 지위를 악용하여 정치적인 목소리를 내는 행태이며, 이는 심각한 사회과학 연구윤리 위반이다.

주간조선에서 이덕환 서강대 교수가 11일에 기고한 기사에 따르면# 기존의 데이터의 결함을 인정했다는 점에서 이미 치명적인 실수가 있었으며 박원호 교수의 지적에 대한 해명도 찾아볼 수 없고, 선거 조작으로 득을 본 미래통합당 및 무소속 비율이 도리어 증가했다고 하였다. 볼리비아 선거를 주제로 한 미베인의 분석 역시 이처럼 뒤늦게 데이터를 수정한 선례라고도 하였다.

5월 9일판과 기존 가세연과의 인터뷰를 요약하여 추론하자면 정확한 정보를 가지고 연구를 진행한다기보다는 본인의 직감에 의하여 연구를 진행하고 있다는 의구심을 지울 수 없다. 본인이 가지고온 데이터를 분석하자면 가장 기초적인 n값부터 선관위가 공개한 데이터와 다른 상태이다.

또 '수개표'를 강조했다는 점도 다시 짚어야 하는데, 과거 본인이 부정선거를 연구했던 국가들이 '한국산 전자개표장비'를 사용했다는 경험에 입각하여 한국도 그러한 장비를 사용하여 개표를 하고 있을 것이라고 어림짐작으로 결론을 내리고 연구를 진행했을 가능성을 배제할 수 없는 매우 중요한 발언이다.[40]

미베인은 특이한 경향을 보이는 통계수치를 frauds로 정의하여 본인의 주장을 발표했는데 이러한 주장이 왜곡된 개표방법론[41]에서 기인했을 가능성이 있다는 것이다.

미베인이 한국의 개표방식을 정확히 알고 있는지를 확인하는 것이 가장 필요해 보인다. '한국 총선 데이터는 모든 정당이 선정한 수만명의 인간이 개표를 진행한 투표에서 얻은 결과'라는 사실을 알지 못한 채 연구를 진행하고 있다면 당연히 그 결과는 GIGO일 수밖에 없다.

5.2. 5월 13일판 평가

미베인은 이포렌식에서 나온 비례선거 상의 부정투표는 불법행위가 아니라 전략적 투표행위로 인해 발생했을 가능성이 크다며 비례선거에서 부정이 발생했을 가능성은 낮다고 결론을 내렸다.[42] 2000년 미국 대통령 선거 당시에도[43] 이포렌식으로는 부정선거가 발생했다는 결론이 나왔지만 실제론 그렇지 않았다면서[44] 자신의 연구가 완벽하지 않을 수 있다는 입장은 고수했다. 그러나 한편으로는 한국의 사례는 이포렌식 상으론 부정선거가 나왔지만 실제론 아니었던 사례들에 비해 부정선거 비율이 높았다면서 선거 데이터가 조작되었을 가능성이 큰 것은 변함이 없다는 입장 역시 고수했다. 그럼에도 그의 주장에 대한 근거의 문제점은 해결되지 않았다.

이전 판본에서부터 해결되지 않은 문제로, 미베인은 사전투표율이 100%에서 매우 벗어난 것들 없이 100%에 몰리게 수정했으나 이는 수정한 의미가 없게도 사전투표율이 100%에 몰려있는 Input 오류는 고쳐지지 않았다. 사전투표소를 독립투표소로 계산한 게 오류라고 계속 지적해 왔는데 그건 쏙 빼고 다른 것만 고치고 있다.

또 여전히 Sensitivity analysis를 하지도 않았으며 그러면서도 manuscript를 3번이나 공개했다.

6. 이후: 2024년 3월

미베인의 주장은 그의 홈페이지에서 삭제되었다. 사유는 알려지지 않았으나, 결과적으로는 주장이 철회된 것으로 보인다.


[1] 미국 정치, 방법론, 정치학 연구자다. 2000년 플로리다 선거 이래로 부정선거에 대한 분석례를 누적해 오고 있으며, 이란 등지에서의 선거조작에 관련된 중요한 문헌들을 썼다고 알려져 있다.[2] 정치사상, 게임/사회선택이론, 형태론 연구자[3] 4월 28일 초판본, 5월 9일 판본은 미베인이 5월 13일 판본으로 대체, 삭제했다. 이 링크는 5월 13일판으로 바로 연결된다.[4] 글을 보면 논문의 구성 요소인 초록과 결론 등의 내용 분할이 전혀 되어 있지 않다.[5] 한국의 개표방식을 전혀 모르고 있음을 스스로 증명한 사례다. 이 발언으로 인해 미베인은 신뢰를 완전히 잃어버렸다.[6] 정치 방법론, 투표행태 전공[7] 여기서 GIGO는 비하의 의미가 아닌 수치해석이나 통계, 컴퓨터과학 등 분야에서 많이 쓰이는 일종의 용어다. 잘못된 입력값에는 잘못된 출력값이 나올 수 밖에 없다라는 뜻[8] 정보 경제학, IT 비즈니스 전략, 비즈니스 애널리틱스, 사회적 경제 연구자. 참고로 강경 보수 성향으로 유명한 사람이다.[9] 국제관계학, 비교정치론, 아시아 정치 연구자[10] 링크를 누르면 PDF 파일이 자동으로 다운로드됨[11] pp.2, l.2,[12] Ibid, l.3[13] pp.3, l2, The data include counts for n=19131 units.[14] 대한민국 선거관리위원회가 밝힌 개표소 수는 14330개이다.[15] pp.7, l2, Covariates for turnout and vote choice include indicators for pre-vote, voting post, abroad and disabled-ship status and fixed effects for the 253 constituencies included in the data.[16] 미베인은 이를 stealing votes로 표기한다.[17] pp.2, para.3,[18] 한국 정치상황에 대한 전문성이 전무함을 나타낸다.[19] pp.10, para 2, l6. In 9 instances the apparently fraudulently winning party is the Democratic Party, in 6 instances it is the United Future Party and in the remaining instance it is an Independent candidate.[20] pp.11, para.2[21] 둘째 자릿수는 벤포드 법칙을 따를 것이다, 끝 자릿수의 분포는 Uniform할 것이다, 득표수 끝자리에서 0과 5는 20% 정도일 것이다 등[22] 미베인은 사전투표소를 독립투표소로 집계했으나 총선 전체 투표소 수는 14430개에 불과하다. 미베인이 개표 과정을 제대로 이해하지 못한 점이 드러난다. #[23] 선관위 홈페이지의 우편 및 관내사전 투표의 영문 구글 번역값으로 추정[24] 김대호, 차명진 망언, 본투표하기 운동 등[25] 정의당 등[26] 전술한 서울대학교 정치학과 박원호 교수의 지적[27] 비유하자면 전교 1등의 과목별 성적을 전교 꼴찌의 성적에 섞어서 성적표를 발부해 버리면 마치 전교 꼴찌가 부정행위를 통해 시험을 잘 본 것처럼 보이게 되는 것이다. 애당초 성적표를 개인의 성적에 맞도록 잘 나누지 않는 한 해당 성적표는 쓰레기 데이터일 뿐이다. 박원호 교수의 Garbage In, Garbage out. 이라는 표현의 뜻이 바로 이것이다.[28] 초판기준[29] 흔히 제3세계 연구자들 혹은 토착사회과학(indigenous social science) 연구자들이 지적하는 것도 바로 이것이다.[30] 바로 미베인 교수 본인이 그런 편견을 바탕에 깔고 있는 것으로 보인다.[31] 서울특별시, 경기도, 대전광역시[32] 정확히는 19대 대통령 선거부터 쭈욱 민주당 지지였다.[33] 예를 들면 제20대 국회의원 선거 당시 김부겸이나 홍의락, 이정현, 정운천 등을 들 수 있다.[34] 둘 다 독일에서 손꼽히는 언론인데, 디 차이트는 주간지이자 중도 성향, 프랑크푸르터 알게마이네 차이퉁은 일간지이면서 보수적이다.[35] 당시 제1세계 민주주의 진영도 2016년을 기점으로 극단주의가 극세하기 시작하면서 이대로 민주주의가 실패하는 듯 했는데, 탄핵 촛불 집회로 인해서 아직 희망이 있다는 것을 봤다고 언급했을 정도였다.[36] 투표과정에 문제가 있었다면 수개표도 의미가 없다. 애초에 왜곡된 결과가 나왔을 텐데 개표방법론이 무슨 의미가 있겠는가?[37] 위에 주간조선 기사에서 보듯 그나마 다루는 것도 죄다 비판하는 내용 뿐이다.[38] pp.19 para.1 l.1, strongly suggest the Korea 2020 legislative election data were fraudulently manipulated[39] 다만 그가 분석해서 사실로 밝혀진 기존 사례들은 애초에 민주주의 수준이 낮은 국가가 많았다. 터키, 러시아처럼 독재국가거나 콩고민주공화국, 이라크처럼 전쟁으로 혼란스러운 국가 등.[40] 이미 지적한 바와 같이 이 총선에서는 전자개표기를 이용하지 않았다.[41] 한국 또한 조작이 가능한 전자개표기로 개표를 했으며 수작업으로 개표를 진행하지 않았다는 주장.[42] 비례대표는 100% 수개표로 진행했다는 정보를 받았을 가능성이 크다. 수개표로 진행한 분야에서 계속 통계적 조작을 주장할 경우 신뢰도 하락을 피할 수 없기 때문이다.[43] 플로리다 재검표 공방이 벌어졌던 선거다.[44] 조작을 논한다면 플로리다 선거가 훨씬 더 '조작선거'에 가깝다. 선거 용지 자체의 문제와 천공식 투표의 문제점으로 인하여 개표기계 오작동까지 발견되어 재검표 소동이 벌어진 선거다. 앨 고어 문서 참조.



파일:CC-white.svg 이 문서의 내용 중 전체 또는 일부는 문서의 r23에서 가져왔습니다. 이전 역사 보러 가기
파일:CC-white.svg 이 문서의 내용 중 전체 또는 일부는 다른 문서에서 가져왔습니다.
[ 펼치기 · 접기 ]
문서의 r23 (이전 역사)
문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)