최근 수정 시각 : 2023-04-12 20:20:51

연구투명성

<colbgcolor=#000> 과학 연구 · 실험
Scientific Research · Experiment
{{{#!wiki style="margin: 0 -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -6px -1px -11px"
<colbgcolor=#000><colcolor=#fff><rowcolor=#000,#fff> 배경 과학적 방법
기반 수학(미적분학 · 선형대수학 · 미분방정식) · 통계학(수리통계학 · 추론통계학 · 기술통계학)
연구·탐구 논증(귀납법 · 연역법 · 유추(내삽법 · 외삽법)) · 이론(법칙 · 공리 · 증명 · 정의 · 근거이론 · 이론적 조망) · 가설 · 복잡계(창발) · 모형화(수학적 모형화) · 관측 · 자료 수집 · 교차검증 · 오컴의 면도날 · 일반화
연구방법론 합리주의 · 경험주의 · 환원주의 · 복잡계 연구방법론 · 재현성(연구노트)
통계적 방법 혼동행렬 · 회귀 분석 · 메타 분석 · 주성분 분석 · 추론통계학(모형(구조방정식) · 통계적 검정 · 인과관계와 상관관계 · 통계의 함정 · 신뢰도와 타당도)
측정·물리량 물리량(물리 상수 · 무차원량) · 차원(차원분석) · 측도 · 단위(단위계(SI 단위계 · 자연 단위계) · 단위 변환) · 계측기구 · 오차(불확도 · 유효숫자 · 과학적 표기법)
실험 실험설계 · 정성실험과 정량실험 · 실험군과 대조군 · 변인(독립 변인 · 조작 변인 · 종속 변인 · 변인 통제) · 모의 실험(수치해석) · 맹검법 · 사고실험 · 인체실험 · 임상시험 · 실험 기구
연구윤리 뉘른베르크 강령 · 헬싱키 선언 · 연구투명성 · 연구 동의서 · 연구부정행위 · 표절(표절검사서비스) · 편향 · 문헌오염 · 자기교정성 · 연구윤리위원회
논문·과학 공동체 소논문 · 리포트 · 논문제출자격시험 · 연구계획서 · 형식(초록 · 인용(양식 · 참고문헌) · 감사의 글) · 저자 · 학회 · 세미나 · 학술대회 · 동료평가 · 지표 · 학술 데이터베이스 · 게재 철회 · 학제간 연구
철학 관련 정보 · 연구방법론 관련 정보 · 수학 관련 정보 · 자연과학 관련 정보 · 물리학 관련 정보 · 통계 관련 정보 · 사회과학 조사연구방법론 }}}}}}}}}

1. 왜 필요한가2. 어떻게 보장해야 하는가3. 외부 링크4. 관련 문서


research transparency / open science

"개방과학" 이라고도 한다.

2010년대 중엽부터 과학자사회에서 대두되고 있는 연구윤리 이슈 중 하나로, 연구에 활용된 데이터에 대한 완전한 개방성과 접근성이 보장되는 것을 말한다. 심리학 분야에서 이슈가 된 이래로 여러 과학 분야들로 논의가 확대되어 가고 있다.

1. 왜 필요한가

짧게 말하면, 과학이라는 활동의 신뢰성을 보장받기 위해서는 그 투명성이 먼저 보장되어야 하기 때문이다. 기존의 문헌들은 대부분 연구 절차와 설계, 참가자 정보, 그리고 측정 도구 정도에 있어서만 투명하게 공개해 왔지만, 원본 미가공 데이터(raw data)에 대한 정보나 코드북(codebook), 결과 데이터에 대해서는 충분히 공유하지 않았다. 그래서 p-해킹[1]와 같은 연구의 진실성 여부가 논란이 되었다. 과학 활동 자체가 하나의 거대한 생존자 편향의 무대가 되어 가고 있는 것이다. 처음부터 명확한 연구목표와 변인 설정을 해 놓고 시작하는 게 아니라, 숱한 변인들을 측정하는 척도들을 한꺼번에 던져 놓고는 "제발 하나만 걸려라, 하나만 물어라" 하다가 척도 하나에서 애스터리스크 하나가 뜨면[2] "옳다구나!" 하면서 달랑 그것 하나만 논문에 싣는 것이 학계의 불편한 현실이라는 것이다.

또한 별도의 레포지토리가 지원되는 경우가 별로 없다 보니, 어떤 문헌을 참조하고 인용하려는 연구자들이나 재현성에 의문을 품은 연구자들이 나중에 해당 연구의 저자에게 문의하더라도, "너무 오래 전 일이라서 데이터를 폐기했습니다" 의 답변만을 받고 좌절하는 일들이 많았다. 예컨대, "일본 애니메이션을 많이 보는 사람일수록 또래 관계에서 소외감을 많이 느낀다" 는 연구가 발표된다고 가정해 보자. 그렇다면 이것이 정말로 믿어도 되는 연구결과인지 의심스러워하는 연구자로서는 해당 연구를 재현해 볼 필요가 있는데, 그러기 위해서는 원본의 미가공 데이터가 필요하다. 그런데 정작 그 미가공 데이터에 접근할 수 있는 방법도 극히 부족하고, 미가공 데이터 자체가 공유되지도 못하고 있는 게 오늘날 학계라는 것이 연구투명성 운동가들의 주장이다.

이와 관련하여 《American Psychologist》 에 올라온 한 문헌을 예로 들면,[3] 심리학계의 기존 문헌들 중 중요한 것만 대상으로 하더라도 그 중의 73%는 데이터 세트에 대한 공유가 이루어지지 않고 있었다. 이 문헌의 저자는 분석대상 논문들의 저자들에게 연락을 취하여 데이터를 얻을 수 있는지 문의했는데, 한 번 연락으로 데이터를 얻은 사례는 단 11%에 불과했고 여러 차례 문의해서 확보한 경우가 16%, 승인했으나 이후 연락두절로 확보 실패한 경우가 20%, 데이터 공유를 거부하거나 파일 삭제 등으로 인해 제공이 불가능한 경우가 무려 35%, 이메일 주소가 잘못된 경우가 4%, 연락 자체가 안 되는 경우가 14%였다고 한다.

사실 데이터 공유의 문제는 통계법이나 각종 법적인 문제, 연구소나 대학교의 사정이 얽혀 있기 때문에 데이터의 장기 보존이 어려운 경우가 많다. 그렇기 때문에 전용 아카이브나 레포지토리가 반드시 필요하며, 이 부분은 문헌정보학자들의 개입과 기여가 상당히 중요하다고 말할 수 있다. 적어도 아직까지는 있어도 턱없이 부족하거나, 그런 게 있는지를 모르거나, 어디로 접속해야 하는지를 모르거나, 어떻게 써야 하는지를 모르거나, 굳이 써야 하나 싶은 경우가 많기에, 관련 홍보가 잘 안 된다는 문제가 제기되었다. 처음 이슈가 불거졌을 때에는 일부 깐깐한 저널들에서 "좋다, 우리는 데이터 공개 안 한 원고는 절대 게재 안 하겠다" 방침을 내세워서 학계에 화제가 되기도 했다.

2. 어떻게 보장해야 하는가

아직까지는 산발적인 논의들만이 나오고 있지만, 사례를 중심으로 열거하자면 다음과 같다.

우선 연구데이터 전문 저널의 출범을 꼽을 수 있다. 예컨대 《Journal of Open Psychology Data》 의 경우, "data papers" 라고 해서 연구데이터만 따로 뽑아서 투고하는 것이 가능하다. 문헌들의 구성은 논문의 그것과는 다소 달라서, 개관(overview) - 연구방법(methods) - 데이터 세트 설명(dataset description) - 재사용 가능성(reuse potential) 형식으로 되어 있다.

연구투명성을 조사하는 설문지 역시 만들어졌다. "Disclosure Statement Project" 라고 불리는 프로젝트에서는 파일 서랍장 문제를 짚어보는 네 가지 사항을 질문하는 설문지가 있다. 그 구체적 내용은, 1) 누락된 데이터(data exclusion)가 있는가? 2) 숨긴 처치(manipulation) 내용이 있는가? 3) 숨긴 측정 도구가 있는가? 4) 표본 크기(sample size)를 변경했는가? 이다. 전부 기대와는 다른 결과는 숨기고, 기대에 부응하는 결과만을 취사선택해서 발표하는 관행에서 흔히 볼 수 있는 꼼수들이다.

2014년부터 연구투명성을 지킨 논문에 인증 마크를 부착하는 제도 역시 시작되었다.[4] 인증은 크게 3가지이며 다음과 같다. #
  • 개방 데이터(open data) : 인증마크는 청색 바탕에 막대그래프 도안이 자리하고 있다.
  • 개방 재료(open materials) : 인증마크는 황색 바탕에 개봉된 박스 도안이 자리하고 있다.
  • 사전 등록(preregistered)[5] : 인증마크는 적색 바탕에 V자 도안이 자리하고 있다.

연구투명성을 준수하는 저널을 위한 가이드라인 역시 만들어졌다. 투명성과 개방성을 장려하는 가이드라인(transparency & openness promotion guidelines)에 따르면, 저널들은 일정한 기준에 따라서 4단계로 나누어질 수 있다.
  • Level 0 : 데이터 공유를 장려하는 데서 그치거나, 아예 그런 안내 자체가 없다. 연구투명성에 무관심한 기존의 학계 저널들에게 일괄적으로 부여되는 등급.
  • Level 1 : 데이터 공유를 장려하며, 가능할 경우에는 저널 측에서 관련 데이터로의 액세스를 제공한다.
  • Level 2 : 이 저널에 수록된 문헌들은 신뢰할 수 있는 레포지토리에 데이터를 공유해야 한다. 만일 액세스가 불가능할 경우에는 별도의 양해 문구를 달아두어야 한다.
  • Level 3 : 신뢰할 수 있는 레포지토리에 데이터를 필수적으로 공유해야 하며, 더 나아가 모든 출판물들은 게재 전에 재현성 검증을 필수로 거쳐야만 한다. 사실상 연구투명성 운동의 궁극적 이상이라고 볼 수 있는 등급.

또한 현대의 학계는 전반적으로 긴 글을 꺼리고 간결체를 선호하는 경향을 보이는데, 이 때문에 각 저널마다 4,000자 이하 논문만 투고하게 하는 등의 분량 규정이 존재한다. 그런데 간결하게 논문을 쓴다는 미명 하에 데이터에 대한 정보가 자칫 부족해질 수 있다는 이의가 제기되었고, 그래서 서론(intro) 및 문헌 연구(lit review) 부분만 2,000자로 분량을 제한하게 하고 나머지는 무제한으로 쓰도록 방침을 바꾸면 좋지 않겠냐는 의견도 나왔다. 또한 기존에는 연구데이터 공개를 꺼리는 동기를 주로 문제삼았지만, 역발상으로 이제는 "데이터 공유를 결심하게 하는 동기는 무엇인가" 로 접근하기도 한다. #

각 대학교들에서도 많은 노력을 하고 있어서, 예컨대 캐나다의 명문대 중 하나이자 연구투명성 및 개방과학 운동에 적극적인 브리티시 컬럼비아 대학교는 소속 교원들의 인사고과에 투명성 준수 여부를 반영하기 시작했다. 또한 예일 대학교는 자체적으로 "YODA Project" 라는 것을 만들어서 보건학 관련 레포지토리를 관리하고 있다.

2020년대 들어서는 학술 출판사들을 중심으로 저널 투고 단계에서부터 적극적인 홍보가 이루어지고 있는 것으로 보인다.[6] 최초 투고 시 저자가 자기 데이터세트를 별도의 개방된 플랫폼에 올렸는지 먼저 물어보고, 여기에 "No" 라고 대답한 저자들에게만 자기네 출판사에서 데이터 공유 플랫폼이 출시되었으니 한번 써 보시라는 내용의 이메일을 자동으로 뿌려대는 것. 서구권의 대표적인 출판사들 중 하나인 Taylor & Francis의 경우 F1000이라는 사이트를 만들어서 이거 이용하면 퍼블리시를 더 빠르게 도와드린다는 양 이용자들에게 열렬한 홍보를 펼치고 있다. #소개 영상 초조한 마음으로 답신을 기다리는 교신저자에게는 투고 후 1~2일 정도만에 회신 이메일이 날아오는 바람에 설마하던 사전 탈락(desk rejection)인가 싶어서 5초쯤 식겁하게 만드는 소소한 이벤트(?).

연구투명성을 위한 다른 웹 레포지토리들로는 PsychFileDrawer.org, PsychDisclosure.org 등이 있다. 심리학 외부에도 지구과학환경공학 분야에서도 BerkeleyEarth.org 같은 사이트들도 있다.

3. 외부 링크

4. 관련 문서


[1] 파일 서랍장 문제(file-drawer problem)[2] 또는 척도 하나의 p-값이 p= .05 밑으로 내려가면[3] Wicherts et al., 2006.[4] Kidwell et al., 2016.[5] 별도의 플랫폼에서 미리 연구방법과 가설을 공개적으로 제시한 후 자료를 수집하는 방법.[6] 상기 가이드라인에서 1단계(Level 1)에 해당한다.