신뢰도와 타당도

<colbgcolor=#000> 과학 연구 · 실험 Scientific Research · Experiment
{{{#!wiki style="margin: 0 -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -6px -1px -11px"	<colbgcolor=#000><colcolor=#fff><rowcolor=#000,#fff> 배경	과학적 방법
기반	수학(미적분학 · 선형대수학 · 미분방정식) · 통계학(수리통계학 · 추론통계학 · 기술통계학)
연구·탐구	논증(귀납법 · 연역법 · 유추(내삽법 · 외삽법)) · 이론(법칙 · 공리 · 증명 · 정의 · 근거이론 · 이론적 조망) · 가설 · 복잡계(창발) · 모형화(수학적 모형화) · 관측 · 자료 수집 · 교차검증 · 오컴의 면도날 · 일반화
연구방법론	합리주의 · 경험주의 · 환원주의 · 복잡계 연구방법론 · 재현성(연구노트)
	통계적 방법	혼동행렬 · 회귀 분석 · 메타 분석 · 주성분 분석 · 추론통계학(모형(구조방정식) · 통계적 검정 · 인과관계와 상관관계 · 통계의 함정 · 신뢰도와 타당도)
측정·물리량	물리량(물리 상수 · 무차원량) · 차원(차원분석) · 측도 · 단위(단위계(SI 단위계 · 자연 단위계) · 단위 변환) · 계측기구 · 오차(불확도 · 유효숫자 · 과학적 표기법)
실험	실험설계 · 정성실험과 정량실험 · 실험군과 대조군 · 변인(독립 변인 · 조작 변인 · 종속 변인 · 변인 통제) · 모의 실험(수치해석) · 맹검법 · 사고 실험 · 인체실험 · 임상시험 · 실험 기구(거대과학)
연구윤리	뉘른베르크 강령 · 헬싱키 선언 · 연구투명성 · 연구 동의서 · 연구부정행위 · 표절(표절검사서비스) · 편향 · 문헌오염 · 자기교정성 · 연구윤리위원회
논문	소논문 · 리포트 · 학술지 · 형식(초록 · 인용(양식 · 참고문헌) · 감사의 글) · 저자 · 동료평가 · 지표 · 저널인용보고서 · 구글 학술검색 · 학술 데이터베이스 · 게재 철회
과학 공동체	논문제출자격시험 · 연구계획서 · 학회 · 세미나 · 학술대회 · 학제간 연구
철학 관련 정보 · 연구방법론 관련 정보 · 수학 관련 정보 · 자연과학 관련 정보 · 물리학 관련 정보 · 통계 관련 정보 · 사회과학 조사연구방법론			}}}}}}}}}

통계학 Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px"	<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학	기반	실해석학 (측도론) · 선형대수학 · 이산수학
확률론		사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 · 독립항등분포
통계량		평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학	가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
추론통계학	통계적 방법	회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 · 자료 시각화		도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점	}}}}}}}}}

1. 개요2. 신뢰도

2.1. 예시2.2. 검사-재검사 신뢰도2.3. 내적 일관성 신뢰도

2.3.1. 동형 신뢰도2.3.2. 반분 신뢰도

2.4. 평가자 간 신뢰도

3. 타당도

3.1. 구성 타당도

3.1.1. 수렴 타당도3.1.2. 변별 타당도

3.2. 내용 타당도

3.2.1. 안면 타당도

3.3. 준거 타당도

3.3.1. 동시 타당도3.3.2. 예측 타당도

4. 통계학에서의 신뢰도5. 실험설계에서의 타당도

5.1. 생태학적 타당도

6. 관련 문서7. 둘러보기

1. 개요

어떤 이론을 기초로 한 검사나 조사를 위하는 측정의 가치를 따질 때 쓰는 두 가지 기준이다. 모든 검사나 조사를 통해 얻어진 데이터가 전부 의미 있는 것은 아니며, 그 중 일부는 상당히 쓰레기 같을 수도 있다. 이는 그 검사 내적인 문제 때문일 수 있다. 그렇다면 어떤 검사나 조사에서 활용된 측정방법에 문제가 있는지 없는지를 어떻게 아는가? 그 여부를 판단하는 것이 바로 신뢰도와 타당도이다.

신뢰도와 타당도는 비단 연구방법론을 수강하는 대학원생들뿐만 아니라 상담이나 직업, 사회분석 관련 각종 자격증을 취득하고자 하는 고시생들에게도 시험 빈출개념으로 다루어진다. 그렇게 중요하지만 처음에 접하는 사람들에게는 '신뢰도'와 '타당도'가 ~~단어 자체도 좀 비슷해 보이고 해서~~ 의미상은 서로 헷갈리기 일쑤이고 그 하위 분류들을 일일이 다 기억하는 것도 머리가 아플 정도인 경우가 많다. 물론 어느 분야나 다 그렇듯이, 일단 이 개념들을 제대로 탑재하고 나면 이렇게 뻔하고 명백해 보이는 것도 흔치 않아 보인다.

따라서 나무위키에서는 최대한은 쉽고 다양한 방법으로 이해를 돕고, 약간의 의미상 손실이나 오류를 감수하더라도 몇몇 일상적 예를 들었다. 일상적으로뿐만 아니라 학술적으로도 자주 드는 예시는 사격 표적지 비유.[1] 이보다 정확하고 자세한 정보를 찾으려면 도서관에서 전공서적을 찾아볼 것.

2. 신뢰도

信賴度 / reliability

신뢰도란 어떤 데이터가 동일한 측정대상을 측정할 때 일관성 있는 측정결과를 산출하는 정도를 의미한다. 일관되고 재현이 가능한(replicable) 측정이 존재하는지 평가하는 기준. 좋은 검사나 조사는 시간, 문항, 평가자와 무관하게 일관된 결과를 제공하며, 그 점수들이 반복된 측정에서 똑같이 재현되는 정도가 뛰어나다. 시기를 달리하거나, 더 많은 문항을 사용하거나, 더 많은 심사위원 혹은 관찰자들에 의해 측정되더라도, 역시 동일한 결과가 나오게 된다는 것이다. 예를 들어, 아침에 측정한 데이터와 저녁에 측정한 데이터가 서로 들쑥날쑥 천차만별이라면, 그 검사에는 그다지 믿음이 가지 않을 것이다. 군대의 영점 사격에 비유하자면, 표적지에 남은 탄착군이 작은 원 모양이 아닌 들쑥날쑥 퍼진 상황이다.

신뢰도는 후술할 타당도의 필요조건이다. 신뢰도 높고 타당도 낮은 데이터는 널려 있지만, 신뢰도 낮고 타당도 높은 데이터는 사실상 존재하지 않는다고 간주된다. 혹시라도 존재한다면, 적어도 전자보다는 후자를 택하는 게 살짝 더 안전할 거라고 한다.

일반적으로 신뢰도를 높이기 위해서는 측정방법을 명확히 하고 표준화하는 것이 제안되어 있다. 또한 측정의 각 문항이나 검사의 수를 늘리는 것도 신뢰도를 높이는 데 도움이 된다. 그러나 단순히 표본의 수를 늘리는 것은 신뢰도에 큰 영향을 주지 않으며, 단지 타당도의 개선에만 기여한다고 알려져 있다. 현실적으로는 그냥 선행문헌 뒤져서 신뢰도 높게 보고된 척도를 고스란히 가져다 쓰게 되며, 잘 모르겠으면 문항의 수가 최대한 많은 쪽을 쓰게 된다. 논문에서 보고되는 대개의 신뢰도 데이터는 하술할 '크론바흐의 알파' 계수인데, 문항 수가 적을수록 실제 이상으로 과소추정된다는 특징이 있다. 나름대로 중박 이상의 척도는 10문항 이상으로 구성되었을 경우 α＝.750 정도는 무난히 넘길 수 있다. 반대로 문항을 빼는 경우, 신뢰도가 낮다고 판단된 문항을 빼는 것은 이론적 조망에 비추어 적절한지 판단해야 하며, 무작정 알파값 높이겠다고 막 잡아빼면 안 된다.

무작정 신뢰도만 높이는 것이 능사는 아니다. 상기한 것처럼 신뢰도가 아무리 높아 봤자 타당도가 낮으면 아무짝에도 쓸모없는 척도가 될 뿐이다. 그리고 신뢰도가 높다는 것이 큰 의미를 갖지 못할 수도 있다. 특히 각 문항의 진술들이 사실상의 동어반복에 불과할 경우가 문제가 된다. 예를 들어 "귀하는 귀하의 봉급에 불만족하십니까?", "귀하는 귀하의 봉급에 불만이 있으십니까?", "귀하는 귀하의 봉급에 만족하지 못하십니까?"(…) 같은 문항들만 바보같이 줄지어 나오면 신뢰도는 1에 가깝도록 완벽하게 얻어지겠지만 그 신뢰도가 의미하는 바는 전혀 없다. 오히려 이런 극단적인 신뢰도를 보이는 경우에는 감쇄의 역설(attenuation paradox)이라는 현상이 발생하여 척도의 타당도가 감소하는 경향을 보인다.

신뢰도의 주요 독립 변수는 시간, 검사/조사 내적 측면, 그리고 평가자이다. 계량화된 표본의 경우에는 표본오차의 절대값의 크기가 작을수록 더욱 신뢰성 있는 조사라고 할 수 있다.

2.1. 예시

대학수학능력시험: 불행히도, 수능의 신뢰도는 그다지 높지 않은 편이다. 왜냐하면, 2014학년도 응시자 성적은 2013학년도 시험지를 받았을 때 (그것이 처음 풀어보는 것이라고 가정한다면) 고스란히 유지될 것으로 기대하기 힘들기 때문이다. 매년 난이도 조절 실패니, 물수능이니 하는 논란이 불거지는 현상은 수능의 신뢰도가 떨어지고 있음을 의미한다.[2] 물론 현실적으로는 어차피 점수 자체보다는 줄세우기를 해서 등급 컷으로 나누기 때문에 큰 사회적 비용까지 지출되지는 않지만...

MBTI: 대중적으로 유명한 성격검사인 MBTI는 어떨까? 전문가들 사이에서도 MBTI의 신뢰도에 대해서는 의견이 다소 엇갈린다. 그나마 괜찮은 편이라고 이야기하는 사람들도 있고, 신뢰도가 크게 떨어진다는 사람들도 있다. 보통은 전체 채점사례 중 40% 정도는 6개월 정도의 텀을 두고 연달아 채점했을 때 결과 유형이 바뀐다고 간주되는 듯. 어세스타를 비롯하여 MBTI를 가지고 돈을 버는 사람들도 이 문제를 놓고 고심하고 있지만, 영 뾰족한 해결책은 없는 모양이다. 사실 MBTI의 신뢰도도 그렇고 타당도도 그렇고, MBTI란 물건 자체가 태생적으로 나름의 한계를 안고 만들어진 것이다 보니 그렇다고 봐야 할 듯.

2.2. 검사-재검사 신뢰도

檢査-再檢査信賴度 / test-retest reliability

1차 검사 결과 (2021.03.01.)
<colbgcolor=#DDDDDD>Q1.	<colbgcolor=#FFFFFF>①　②　③　④　⑤
Q2.	①　②　③　④　⑤
Q3.	①　②　③　④　⑤
Q4.	①　②　③　④　⑤
Q5.	①　②　③　④　⑤
Q6.	①　②　③　④　⑤

2차 검사 결과 (2021.05.01.)
<colbgcolor=#DDDDDD>Q1.	<colbgcolor=#FFFFFF>①　②　③　④　⑤
Q2.	①　②　③　④　⑤
Q3.	①　②　③　④　⑤
Q4.	①　②　③　④　⑤
Q5.	①　②　③　④　⑤
Q6.	①　②　③　④　⑤

동일한 검사를 일정한 시간적 간격을 두고 동일한 피검사자에게 두 번 실시하여 결과가 유사한지 상관 분석으로 확인한다. 유사하다면, 검사-재검사 신뢰도가 높다고 할 수 있다.

검사-재검사 신뢰도는 시간의 흐름이 개입되는 유일한 신뢰도 개념이며, "그럼 도대체 얼마만큼의 시간적 간격이 필요한가?" 의 질문이 나올 것을 예상해야 한다. 1시간? 이렇게 단시간에 연이어 검사를 해서는 안 된다. 왜냐하면 연습효과가 발생하여 뒤의 검사결과는 앞의 검사결과보다 좋게 나오기 때문이다. 그렇다면, 2년? 이렇게 오랜 시간을 기다려서도 안 된다. 왜냐하면 성숙요인이 발생하여 시간적 경과에 따라 변화될 것으로 기대되는 변인들이 기하급수적으로 많아지기 때문이다. 가장 일반적으로 여겨지는 간격은, 위에서 슬쩍 언급했듯이 6개월 정도가 암묵적으로 받아들여지는 기간이며, 측정분야에 따라서 동태적인 주제일 경우에는 2주 정도까지 좁힐 수도 있다.

이런 이유로 고지능자 집단으로 불리는 멘사에서도 IQ 테스트 이후 불합격자에게는 6개월 간 응시를 못하게 하였다. 이후에는 다시 1년 간 재응시 불가로 바뀌었다.

연습효과와 성숙요인이 간섭한다는 한계점에도 불구하고, 검사-재검사 신뢰도만이 갖는 특별한 장점이 있다면 이것이 동일한 검사를 동일한 피검사자에게 실시하는 유일한 신뢰도 측정기법이라는 것이다. 경우에 따라서는 이것을 "안정성이 높다" 고 표현하는 사람들도 있다. 신뢰도가 낮게 나왔을 때 신뢰도 과소측정의 혼입요인으로 다른 검사들은 "사람이 달라서", "문항이 달라서" 따위의 대안적 설명이 나올 수 있지만, 적어도 검사-재검사 신뢰도는 그런 설명은 나오지 않는다. 오직 "시간이 달라서" 라는 논리만이 가능할 뿐이다. 그래서 사람이나 문항이 다를 경우 큰 문제가 되지만 시간이 다른 것이 큰 문제가 되지 않는다고 여겨지는 검사에서는 검사-재검사 신뢰도가 유용하다.

2.3. 내적 일관성 신뢰도

內的一貫性信賴度 / internal consistency reliability

검사 결과 (2021.03.01.)
<colbgcolor=#DDDDDD>Q1.	<colbgcolor=#FFFFFF>①　②　③　④　⑤
Q2.	①　②　③　④　⑤
Q3.	①　②　③　④　⑤
Q4.	①　②　③　④　⑤
Q5.	①　②　③　④　⑤
Q6.	①　②　③　④　⑤
Q7.	①　②　③　④　⑤
Q8.	①　②　③　④　⑤
Q9.	①　②　③　④　⑤
Q10.	①　②　③　④　⑤

내적으로 다수의 검사 문항들 사이의 동일성과 합치성을 평가하는 신뢰도로, 이하의 동형 신뢰도와 반분 신뢰도의 두 가지로 나누어진다. 특정 일부 문항들에 있어서 신뢰도가 낮은 것이 포착되면, 그 문항을 삭제하거나 또는 역채점을 하여 해결할 수 있다. 예를 들어 같은 개념에 관련되어 있어야 할 10개의 문항 중에서 갑자기 8번, 9번 문항은 다른 응답들과 확연히 다른 방향으로 응답 결과가 튀게 된다면, 그 부분만 역채점을 하든지 아예 삭제해 버리든지 할 수 있다. 그러나 만일 검사 전체에서 응답 경향이 난장판이라면, 아예 깨끗이 갈아엎고 새로 한 판 짜는 수밖에.(…)

이 신뢰도 논리는 현대에도 하단에 설명될 '크론바흐의 알파' 계수나 요인 분석(factor analysis)에까지 적용되고 있다. 검사-재검사 신뢰도와 비교할 경우, 시간적 흐름의 혼입을 막을 수 있다는 것이 장점이다.

2.3.1. 동형 신뢰도

同形信賴度 / parallel-form reliability

검사지 A형 (2021.03.01.)
<colbgcolor=#DDDDDD>Q1.	<colbgcolor=#FFFFFF>①　②　③　④　⑤
Q2.	①　②　③　④　⑤
Q3.	①　②　③　④　⑤
Q4.	①　②　③　④　⑤
Q5.	①　②　③　④　⑤
Q6.	①　②　③　④　⑤

검사지 B형 (2021.03.01.)
<colbgcolor=#DDDDDD>Q1.	<colbgcolor=#FFFFFF>①　②　③　④　⑤
Q2.	①　②　③　④　⑤
Q3.	①　②　③　④　⑤
Q4.	①　②　③　④　⑤
Q5.	①　②　③　④　⑤
Q6.	①　②　③　④　⑤

복수양식법(multiple-forms technique)이라고도 한다. 한 검사의 문항들을 비교 가능한 두 가지의 버전으로 만들어서, 두 검사결과 점수가 유사한지 상관분석으로 확인하는 방법. 유사하다면, 동형 신뢰도가 높다고 할 수 있다.

상당히 초창기에 쓰이던 유서깊은 방법으로, 검사의 문항들을 무선표집(random sampling)하여 버전 A를 만들고, 다시 버전 B를 만든다. 두 버전 사이의 표면적인 내용은 서로 다를지언정, 그 밑바탕이 되는 이론적 배경이나 개념은 서로 완전히 동일해야 한다. 동형 신뢰도는 현실적으로 너무 어렵다는 비판을 받고 있는데, 이론적으로 동일하면서 서로 다른 두 가지 버전의 검사지를 만들라는 건 결국 개발자의 작업량을 두 배로 늘리라는 얘기이니(…). 게다가 작업량도 양이거니와 그 두 가지 버전이 '서로 같음' 을 새로 설득해야 한다는 문제가 있다.

현재는 거의 쓰이지 않고 있다.

2.3.2. 반분 신뢰도

半分信賴度 / split-half reliability

검사지 A형 (2021.03.01.)
<colbgcolor=#DDDDDD>Q1.	<colbgcolor=#FFFFFF>①　②　③　④　⑤
Q3.	①　②　③　④　⑤
Q5.	①　②　③　④　⑤
Q7.	①　②　③　④　⑤
Q9.	①　②　③　④　⑤
Q11.	①　②　③　④　⑤

검사지 A형 (2021.03.01.)
<colbgcolor=#DDDDDD>Q2.	<colbgcolor=#FFFFFF>①　②　③　④　⑤
Q4.	①　②　③　④　⑤
Q6.	①　②　③　④　⑤
Q8.	①　②　③　④　⑤
Q10.	①　②　③　④　⑤
Q12.	①　②　③　④　⑤

한 검사의 문항들을 반분(半分), 즉 둘로 나누어서 두 개의 버전으로 만들고, 두 검사결과 점수가 유사한지 확인하는 방법. 유사하다면, 반분 신뢰도가 높다고 할 수 있다.

반분 신뢰도는 일반적으로 짝수 문항과 홀수 문항으로 구분한 두 세트의 측정을 비교하게 되며,각 세트 간에 얻어진 상관계수를 이용한다. 이때 상관계수에 1을 더한 값과 2를 곱한 값을 각각 계산하여 비교하게 되는데, 상관계수가 1에 가까워질 만큼 크다면 비교 결과도 1에 가까운 큰 숫자를 산출하게 되는 반면, 상관계수가 0에 가까워질 만큼 작아진다면 비교 결과도 0에 가깝도록 작은 숫자가 산출된다. 이 논리를 따르는 것이 바로 스피어만-브라운 공식(Spearman-Brown fomula)이다.

반분 신뢰도를 활용하는 흔한 사례 중 하나가 바로 크론바흐의 알파 계수(Cronbach's alpha coefficient)이다. 이는 주어진 문항들 사이에서 가능한 모든 종류의 반분 신뢰도를 구한 후에 그 평균을 구하는 방식으로, 알파 계숫값은 0에서 1 사이로 도출되며 .70 이상은 되어야 제대로 믿고 써먹을 만한 검사가 된다. 반분 신뢰도 역시 한계가 없는 것은 아닌데, 다름이 아니라 문항의 수가 적을 경우에는 쓰기가 곤란하다는 것. 일례로 유명한 심리검사 중 하나인 로젠버그 자존감 척도(RSES; Rosenberg's Self-Esteem Scale)의 경우, 문항 수는 달랑 10개에 불과하다.(…) 이걸 대상으로 반분 신뢰도를 측정하려 할 때는 좀 곤란해지게 마련. 그래도 요즘에는 크론바흐의 알파 값이 워낙에 관행이 되어놔서 4~5개짜리 문항의 척도들에서도 그냥 SPSS로 값을 계산한다.

2.4. 평가자 간 신뢰도

評價者間信賴度 / inter-rater consistency reliability

평가자 A (2021.03.01.)
<colbgcolor=#DDDDDD>Q1.	<colbgcolor=#FFFFFF>①　②　③　④　⑤
Q2.	①　②　③　④　⑤
Q3.	①　②　③　④　⑤
Q4.	①　②　③　④　⑤
Q5.	①　②　③　④　⑤
Q6.	①　②　③　④　⑤

평가자 B (2021.03.01.)
<colbgcolor=#DDDDDD>Q1.	<colbgcolor=#FFFFFF>①　②　③　④　⑤
Q2.	①　②　③　④　⑤
Q3.	①　②　③　④　⑤
Q4.	①　②　③　④　⑤
Q5.	①　②　③　④　⑤
Q6.	①　②　③　④　⑤

한 검사의 결과 프로파일을 평가함에 있어서 둘 이상의 다수의 평가자들 사이에 그 해석이나 판단이 유사한지 확인하는 방법. 유사하다면, 평가자 간 신뢰도가 높다고 할 수 있다. 만일 결과가 유사하지 못하다면 다음 중 한 사례일 수 있다. 그 검사를 구성하는 이론적 개념이나 배경이 모호하게 적용되었거나, 너무 광범위하게 적용되었거나, 경우에 따라서는 일부 평가자들이 잘못 이해했을 수도 있다.

3. 타당도

妥當度 / validity

타당도는 어떤 측정으로 얻어진 데이터가 가리키는 대상이 조사자가 알고자 하던 것과 일치하는 정도이다. 다시 말해, 측정 결과가 그것이 목표로 하는 특성을 반영하는 정도이다. 좋은 측정은 측정대상의 개념과 정확히 관련되고, 측정대상이 아닌 것과 철저히 무관하며, 외적 준거에 의해서도 잘 지지된다. 의외로 많은 검사들이 A를 검사한다고 표방하지만 유사 개념인 B를 평가한다.(…) 예를 들어, 학교에서 실시한 IQ 검사가 알고 보니 학업 성취도 평가였다면, 이런 검사는 타당하지 않다고 말할 수 있을 것이다.[3] 영점 사격에 비유하자면, 탄착군이 표적과 다른 상황이다. ~~헤드샷을 한건 좋은데 엉뚱한 사람을 맞췄다~~

위의 신뢰도 서술에서도 다루어졌고, 바로 위 사격 비유에서도 암시되었지만, 신뢰도는 높은데 타당도에서 결함을 보이는 검사나 조사들이 꽤 많다. 신뢰도는 타당도의 필요조건일 뿐이다. 영점 사격에 비유하자면, 탄착군이 좁긴 하지만 표적이 아닌 곳에 있는 상황이다. 즉, 신뢰도가 얼마나 "일관되게 집중된" 탄착군을 만드느냐의 문제라면, 타당도는 얼마나 "제대로 조준된" 탄착군을 만드느냐의 문제라고 할 수 있다. 일부 단행본에서는 종종 양궁 과녁에 꽂힌 화살로 비유하기도 하는데, 대상만 다를 뿐 정확히 똑같은 비유다.

타당도의 주요 독립 변수는 문항 내용, 피검사자들의 이해, 외적 준거와의 비교가 있다.

다음의 대표적인 예시를 살펴보자.

대학수학능력시험: 한국교육과정평가원이 대오각성하여 수년간 수능의 난이도 조절에 크게 성공했다고 가정하자. 즉, 신뢰도를 높이는 데 성공했다고 가정하자. 이 상황에서, 타당도의 높낮이는 무엇을 의미할까? 수능의 존재 의의는 고등학교 졸업자들이 대학교의 고등교육을 얼마나 잘 소화할 수 있는지를 미리 가늠해 보는 것이다. 즉, 수능에서 높은 점수를 받은 학생이 과연 대학 교육도 잘 익힌다면, 수능의 타당도는 높다고 할 수 있다. 반면, 수능에서 높은 점수를 받은 학생치고는 대학교에서 영 죽을 쑤고 있다면(…) 수능의 타당도는 낮다고 봐야 할 것이다.[4]

MBTI: MBTI의 신뢰도가 높다고 주장하든 낮다고 주장하든 간에, 절대 다수의 심리학 전문가들은 MBTI의 가장 치명적인 한계점으로 "태생적으로 낮은 타당도" 를 지적한다. 대표적으로, 응답자들은 자기도 모르게 (물론 검사지에 유의사항으로 적혀 있긴 하지만) 자신의 실제 성격이 아니라 자신이 바라는(wanna-be) 이상적인 성격, 또는 자신의 직업적 특성으로 인해 강제된 성격으로 응답할 위험이 있다. 가장 중요한 문제는, MBTI에서 말하는 감각형, 직관형, 사고형, 감정형 같은 개념들이 현대 심리학에서 말하는 용어들과는 천만광년 정도 거리가 있다는 것이다.[5] 물론 이는 칼 융의 분석심리학에 이론적 배경을 의지하고 있기 때문. 이 때문에 MBTI에서 사고니 감정이니 하는 것을 측정하더라도 그것은 실제 자신의 정확한 성격과 괴리가 발생하게 된다.[6]

3.1. 구성 타당도

構成妥當度 / construct validity

구성개념 타당도 또는 구인(構因) 타당도라고도 한다. 이것은 어떤 검사가 그 기저에 존재하는 이론의 구성개념(construct) 혹은 개념(concept)을 정확히 측정하는지 보는 타당도로, 측정된 결과물이 실제로 측정하고자 했던 구성개념과 얼마나 유사한지를 살핀다.

구성 타당도의 핵심은 조작화(operationalization) 또는 조작적 정의(operational definition)라고 할 수 있다. 구성개념(construct)은 보통 추상적인 성질의 것이라 직접 관찰할 수가 없기 때문에, 이를 관찰 가능하고 측정 가능한 지표들로 환산해서 측정하는게 되는데 이러한 환산 과정이 조작화 또는 조작적 정의이다. 예를 들어 '우울'(depression)이라는 추상적인 구성개념을 측정하기 위해 기존의 심리학 연구와 이론을 토대로 우울과 관련되거나 또는 우울을 구성한다고 할 수 있는 일련의 증상들과 지표들(예: 자신감 저하, 기력 저하 등)을 측정한다. 또는 추상적인 '자존감'(또는 '자긍심', self-esteem)을 측정하기 위해 이와 관련된 특성이라고 밝혀진 사교성이나 낙관적 태도 등을 측정한다. 또는 '창의력'을 측정하기 위해 창의력이 민감성, 이해성, 도전성, 개방성, 자발성, 자신감 등의 개념들로 구성되어 있다는 조작적 정의에 근거하여 검사를 제작, 실시할 수 있다. 구성 타당도가 높음을 입증해 보일 수 있는 실험설계 상의 방법 중 하나가 바로 조작 점검(manipulation checks)이다.

타당도 유형들 중 가장 상위에 위치해 있는 타당도이며, 흔히 말하는 바넘 효과가 발생한다는 얘기는 바로 이 구성 타당도에 문제가 있다는 뜻이다.

3.1.1. 수렴 타당도

收斂妥當度 / convergent validity

동일한 개념을 측정하기 위한 상이한 측정방법을 동원하여 양쪽의 결과가 유사한지 확인하는 방법. 다시 말해, 같은 것을 측정하는 도구끼리는 같은 결과를 나타내야 한다. 유사하다면, 수렴 타당도가 높다고 할 수 있다. 예를 들어 '술취함'(drunkenness)을 측정할 때 호흡측정과 혈액검사의 결과가 유사하게 나오거나, '우울'(depression)을 측정할 때 설문조사와 참여관찰의 결과가 유사하게 나오거나, 지능을 측정하는 두 개의 서로 다른 지능검사의 결과 사이에 상관관계가 있다면 이 도구들의 수렴 타당도가 높다고 말할 수 있다.

수렴 타당도의 논리적 단점으로는, 정확히 어느 정도 이상의 상관계수가 나와야 비로소 타당하다고 말할 수 있을 것인지에 대한 명확한 합의가 없다는 것이다. 또한 타당도를 확인하는 과정에서 서로간의 관찰 수준(level of observation)을 합치시키는 것에 대한 논리가 부족하다.

3.1.2. 변별 타당도

辨別妥當度 / discriminant validity

판별타당도 및 확산 타당도(divergent validity)라고도 한다. 동일한 측정방법을 동원하였으나 상이한 개념에 대해 측정하여 양쪽의 결과가 유의하게 달라지는지 확인하는 방법. 다시 말해, 같은 도구더라도 서로 다른 것을 측정할 때에는 다른 결과를 나타내야 한다. 유의한 차이가 나타난다면, 변별 타당도가 높다고 할 수 있다. 예를 들어 어떤 기업에서 신입 사원 모집의 목적으로 직무 적합성 검사를 실시한 결과가 지원자들의 IQ 검사 결과와 상관관계가 높게 나온다면, 이 직무 적합성 검사가 정말로 그것이 의도한 대로 직무 적합도를 측정한 것인지 아니면 IQ를 측정한 것인지 불분명해지므로 변별 타당도가 떨어진다고 할 수 있다. 마찬가지로 '자아도취'(narcissism)이라는 구성개념을 측정하는 검사의 결과와, 이 구성개념과 유사해 보이지만 이론적으로 분명히 구분되는 '자존감'(self-esteem) 검사 결과 사이에 상관관계가 높게 나타난다면 자아도취 검사의 변별 타당도가 떨어진다고 할 수 있다. 또 다른 예로 극단주의를 측정하는 도구가 있다고 할 때, 해당 문항에서 권위주의 같은 엉뚱한 것을 측정하게 된다면 이 역시 변별 타당도가 떨어진다고 볼 수 있다. 이런 문항이 포착된다면 그것을 삭제하거나 아니면 일종의 더미 데이터로 취급하거나, 아예 중도주의처럼 연구대상과 정반대의 구성개념을 측정하는 문항의 결과를 가지고 역채점을 할 수도 있다.

변별 타당도에서 변별 대상으로 삼을 준거적 구성은 이론에 입각하여 결정하게 되며, 가급적 유사하면서도 서로 다른 구성을 채택하게 된다. 이에 대해서는 법칙론적 망 문서를 함께 볼 것.

3.2. 내용 타당도

內用妥當度 / content validity

측정도구가 그 구성개념의 모든 면을 두루 잘 포괄하고 대표하는지 확인하는 방법. 개념적 대표성이 충분하다고 인정받을 때 내용 타당도가 높아진다.

내용 타당도를 확보하기 위해서는 그 측정방법이 목표로 삼고 있는 구성개념에 밀접하게 관련되어 있는 다른 구성개념들을 미리 충분히 찾아놓아야 한다. 예를 들어 여러분이 극단주의에 관련된 문항을 제작한다고 가정해 보자. 내용 타당도를 보장하기 위해서, 여러분은 먼저 극단주의라는 개념이 정확히 무엇인지에 대해 훤히 알고 있어야 한다. 더불어 극단주의와 유사하면서 비슷한 다른 개념이 있는지, 유사하지만 분명히 달라지는 개념은 무엇인지도 전부 찾아놓을 필요가 있다. 그리고 각각의 개념적 관계성이 무엇인지 서로 연결하는 작업을 해야 한다. 이 결과물을 다른 말로 법칙론적 망(nomological network)이라고도 부른다. 학계에서 논문을 쓰고 싶으면 먼저 논문 주제에 대한 법칙론적 망이 머릿속에 들어있어야 한다.

따라서 어떤 구성개념의 측정 문항을 만들 경우 그 개념과 관련된 각종 필수요소는 전부 빠짐없이 포함되어 있어야 한다. 예를 들어 아동학대를 측정하는 도구라면 신체적 학대뿐만 아니라 언어적 학대, 정서적 학대의 내용들이 모두 포함되어 있어야 한다.

측정의 대표적인 사례가 바로 시험인 만큼, 교육 분야의 예를 들어 보자.

두 수의 덧셈 능력을 측정한다고 할 때 사용된 숫자들의 다양성이 충분히 확보되어야 한다. 예를 들어 자릿수나 수의 유형(홀수 또는 짝수)이 치우치지 않고 골고루 섞여 있어야 한다. 또 만일 수학적 문제해결 능력을 측정한다면서 그 측정방법으로 구구단을 19단까지 외워 보라고 한다든지, 근의 공식을 써 보라고 한다든지(…) 하는 문제만 낸다면 과연 그것이 타당한 측정이라고 할 수 있을까? 주어진 힌트들을 최대한 이용하여 해결과정의 각 단계를 논리적으로 증명해 보이는 힘이 아무리 강한 사람이라고 하더라도 이런 지엽적인 측정에서는 충분히 높은 점수를 받기가 힘들 것이다.
외국어 능력을 측정한다고 하면서 말하기, 듣기, 읽기, 쓰기의 4가지 영역을 골고루 측정하지 않고 그 중 일부만 측정한다면 내용 타당도가 충분하지 않다고 할 수 있다. 또 영어회화 능력을 측정한다고 하면서 물질명사가 가산이냐 불가산이냐 하는 것만 내내 묻고 있으면 그것 역시 타당한 측정이라고 보기 어렵다. 물론 문법도 어학에서 중요한 측면이긴 하나 결코 전부는 아니다. 교사와 영어로 프리토킹을 하면서 자신의 근황을 잘 설명할 수 있는지, 자신의 취미생활을 소개할 수 있는지 같은 측면들을 평가하는 것이 훨씬 타당할 수 있다.[7]

내용 타당도는 일반적으로 각 전문가 패널들로 구성된 응답자 풀에서 토의, 워크숍, 간담회, 좌담회를 거침으로써 얻어지게 된다. 이를 위한 별도의 초점집단(focus group)을 구성하는 것도 가능하다. 하지만 내용 타당도는 전반적으로 질적인 타당도 기준이기 때문에 통계적 처리를 할 방법이 없으며 주관성이 개입될 수 있다는 한계를 갖는다.

3.2.1. 안면 타당도

顔面妥當度 / face validity

표면(表面) 타당도라고도 한다. 특정 검사에 대한 사람들의 반응을 기초로 검사 목적 혹은 주제가 검사에 잘 반영되어 있는지 확인하는 방법. 사람들이 쉽게 알아챈다면, 안면 타당도가 높다고 할 수 있다.

측정도구가 그 주제를 잘 담고 있는지 확인한다는 점에서는 내용 타당도와 공통점이 있지만, 전문가가 아닌 일반인 응답자들의 시각에서 확인할 때 안면 타당도라고 부른다. 따라서 굉장히 주관적이고 질적인 타당도 기준이지만, 그래도 ~~사회과학 연구방법의 AK-47이라 할 만한~~ 리커트 척도법을 활용해서 계량화할 수 있는 길도 있긴 하다. 이런 경우는 내용 타당도 지수(CVI; Content Validity Index)라는 걸 쓰기도 하는데, 역시 너무 전문적이기 때문에 이에 대해서도 더 이상의 자세한 설명은 생략한다.

안면 타당도가 높을 경우 응답자는 이것이 자신에게 어떤 의미를 갖는지를 이해하고 더욱 성심성의껏 응답할 수 있다. 그러나 여기에는 치명적인 부작용이 있는데, 특히 심리검사의 경우, 응답자가 허위반응(faking response)과 같은 반응 패턴을 보임으로써 자기 자신을 숨기려고 할 수도 있다는 점이다. 그리고 연구자가 의도하거나 원하는 게 무엇인지 알아채고, 공연히 그것에 부합하려 하거나 혹은 거부하려 하는 패턴을 보일 수도 있다. 이 때문에 안면 타당도가 높은 것이 문제가 되는 일부 검사에서는 질문의 순서를 섞거나, 별 시덥잖은 더미 문항들을 중간중간에 끼워넣는 식으로 연막을 친다.(…) 허위반응을 감지하는 척도를 갖추는 경우도 많다.

3.3. 준거 타당도

準據妥當度 / criterion validity

준거 관련 타당도(criterion-related validity), 기준 타당도라고도 한다. 검사 외적 준거에 비추어 보아 결과가 유사한지 확인하는 방법. 검사의 결과가 예측한 내용이 외적 준거에 의해 지지된다면, 준거 타당도가 높다고 할 수 있다.

준거 타당도는 검사 외적 준거를 통해 얻어진 자료와 측정을 통해 얻어진 자료를 상관 분석함으로써 산출한다. 이는 경영학 쪽에서도 몹시 좋아하는 개념으로, 입사면접이나 미래예측과 관련된 의사결정 등에서 꽤 유용히 쓰인다. 준거 타당도는 이하의 두 가지로 다시 나누어지게 되며, 각각 장단점이 뚜렷하다.

3.3.1. 동시 타당도

同時妥當度 / concurrent validity

공인 타당도라고도 한다. 기존에 존재하는 외적 준거를 통한 데이터와, 새로 제작한 측정도구의 측정결과를 동시에 확보하여 결과가 유사한지 확인하는 방법. 유사하다면, 동시 타당도가 높다고 할 수 있다.

측정 데이터와 준거 데이터가 서로 같은 시점일 때 동시 타당도가 된다. 이것은 아래의 예측 타당도에 비해 더 객관적이고 양적인 타당도에 속하며, 외적 준거와 측정의 수행이 동시에 비교된다. 기존의 검사지를 개정하거나 대체할 새 검사지를 만들었을 때에도 동시 타당도를 통해서 그 타당도를 보장받을 수 있을 것이다. 물론 이 경우에는 기존의 유사한 측정이 존재하지 않을 경우에는 쓸 수 없다는 한계가 있다.

3.3.2. 예측 타당도

豫測妥當度 / predictive validity

우선 검사 데이터를 확보한 이후에 시간이 지남에 따라 그 예측한 바가 얼마나 현실 속 준거에 부합하는지 확인하는 방법. 부합한다면, 예측 타당도가 높다고 할 수 있다.

측정 데이터와 준거 데이터가 서로 다른 시점일 때 예측 타당도가 된다. 이것은 위의 동시 타당도에 비해 더 주관적이고 질적인 타당도에 속하며, 외적 준거와 검사의 수행이 서로 다른 시기에 이루어진다. 대표적으로 취업 현장에서 직무적성 테스트를 할 경우, 그 테스트의 타당도를 확인하려면 여기서 고득점을 올린 구직자가 실제 취업 이후에 얼마나 높은 직무수행을 보이는지 ~~아니면 뜻밖에도 쩔쩔매거나 뺀질거리는지~~ 관찰하는 수밖에 없다. 또 다른 대표적인 예로 앞서 타당도의 예시에 서술된 대학수학능력시험을 들 수 있다. 수능이 예측 타당도가 높은지는 그 학생이 대학에 입학한 후 보이는 학업 능력 (학점 등)을 측정하면 알 수 있다. 또한 각종 여론조사나 선거의 출구 조사 데이터 역시 실제 선거 결과에 비추어 예측 타당도를 따져볼 수 있다. 다시 말해, 예측 타당도는 앞으로의 미래에 벌어질 일을 이야기하는 타당도라고도 할 수 있다. 다만 이를 확인하기 위해서는 "기다려야 한다"는 현실적 제약과 부담이 따른다.

4. 통계학에서의 신뢰도

통계학에서는 reliability가 아니라 confidence라는 용어를 사용하며, 구간추정(interval estimation)을 위해 활용하는 개념이다.

유의 수준(significance level): 보통 α로 표시한다. 95%의 신뢰도를 기준으로 하면 1-0.95인 0.05가 유의 수준 값이다.
신뢰 구간(confidence interval, CI): 실제로 모수가 존재할 것으로 예측되는 구간이다. 보통 신뢰도 95%의 신뢰 구간을 쓰지만 90%나 99%도 많이 쓴다. (a, b)라고 써놓으면 a는 구간의 시작, b는 구간의 끝을 의미한다. 100(1-α)%의 신뢰 구간이라고 부른다. 반복적으로 모 평균 μ에 대한 구간 추정을 시행하면 이들 중 95%에 해당하는 신뢰 구간이 참값 μ를 포함한다는 의미이다.
신뢰 수준(confidence interval level): '신뢰도 95%의 신뢰 구간'과 같은 식으로 쓴다. 1-α나 100(1-α)%로 적는다.

5. 실험설계에서의 타당도

실험법에서도 타당도 개념이 활용되지만, 위에서 설명한 타당도가 특정한 측정에 대한 것이라면, 여기서는 설계(design)의 관점에서 타당도가 논의된다. 실험의 결과 데이터로 나타나는 인과관계가 어디까지 타당하다고 볼 수 있는지에 대한 논의로, 굳이 정리하자면 다음의 두 가지가 있다. 골때리게도 아래의 두 가지 타당도는 상충관계(trade-off)에 있어서, 어느 하나가 높아지면 필연적으로 다른 하나가 낮아질 수밖에 없다.

내적 타당도(internal validity): 어떤 실험설계를 따랐을 때 나타나는 처치의 효과(treatment effect)가 정말로 처치(treatment) 때문이라고 얼마나 장담할 수 있는가에 대한 개념이다. 다시 말해, 그 결과가 정말로 그 원인 때문임을 입증할 수 있는 정도를 말한다. 내적 타당도를 높이려면 외생변인(exogenous variable)의 혼입(confound)을 방지해야 한다. 가장 대표적인 내적 타당도 제고 방안이 바로 무선할당(random assignment)이며, 그 외에도 짝짓기법(matching), 블록화(blocking), 반복측정(repeated measures) 등이 있다. 공분산분석(analysis of covariance)을 활용하는 통계적 통제도 물론 가능하다.
외적 타당도(external validity): 어떤 실험설계를 따랐을 때 처치(원인)로 인하여 나타나는 처치의 효과(결과)가 다른 조건, 다른 환경, 다른 표본, 다른 맥락, 다른 문화 속에서도 여전히 나타날 것이라고 얼마나 장담할 수 있는가에 대한 개념이다. 다시 말해, 그 결과가 정말로 그 원인 때문이라는 주장을 일반화(generalize)할 수 있는 정도를 말한다.[8] 외적 타당도를 높이려면 가능한 한 많은 변인들을 개입시킬 필요가 있으며, 실험이 현실에 부합하도록 현장감을 최대한 부여해야 한다. 내적 타당도가 변인들을 최대한 통제해야 한다면, 외적 타당도는 변인들을 최대한 풀어놓아야 하므로, 이 둘을 동시에 만족시키는 단일 실험 사례는 사실상 존재하지 않는다.

5.1. 생태학적 타당도

자세한 내용은 생태학적 타당도 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[생태학적 타당도#s-|]]번 문단을

#!if 문단 == null & 앵커 != null
의 [[생태학적 타당도#|]][[생태학적 타당도#|]] 부분을

참고하십시오.

6. 관련 문서

7. 둘러보기

🏬 사회과학 조사·연구 방법론 둘러보기
{{{#!wiki style="margin: 0px -10px -5px; min-height: 26px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -5px -2px -11px"		<colbgcolor=#C1F3FF>📝 서론	<colbgcolor=#F7FFFF,#191919>사회과학 · 과학적 방법 · 사회조사 · 연구 · 가설 · 이론(이론적 조망) · 연구윤리
🔍 조사방법론 I	변인 · 정의 · 상관관계와 인과관계 · 실험(실험설계 · 통제 · 통제집단과 실험집단) · 사례연구
🔍 조사방법론 I	자료 · 자료수집(면접법 · 초점집단면접법 · 질문지법 · 관찰법) · 코딩
📈 조사방법론 II	표본조사 · 지표 · 측정 · 신뢰도와 타당도 · 지수 · 척도
📊 사회통계	통계적 방법 · 기술통계학 · 확률 및 분포 · 추론통계학 · SPSS · 분석기법(분산분석 · 회귀분석)

👔 공인 자격증	사회조사분석사 · 빅데이터분석기사 · 국가공인 데이터분석 전문가
📂 메타 문서	연구방법론 관련 정보
^{상기 문서들은 한국통계진흥원 및 한국산업인력공단의 출제범위에 의거하여 엄격히 망라되어 있으며, 동 기관의 과목별 구분·명명에 의거하여 조사방법론은 2파트로 구분됨}

}}}}}}}}} ||

[1] 이 비유는 자연과학에서도 그대로 정확도와 정밀도 비유에 쓰이므로 문과가 이과에게 설명할 때 특히 유용하다.[2] 특히 2004학년도 수능 언어 영역 복수정답 사태 이후 굵직한 출제오류 사건이 발생하고 있다.[3] 비슷하게는, 우울장애를 검사하는 문항이 불안(anxiety)을 측정할 위험이 있다. 또는, 응답자의 애국심을 검사하는 문항이 집권 대통령에 대한 국정지지도를 평가할 위험이 있다.[4] 이 문제에 대해 소위 명문대와 비인기 대학의 강의수준을 비교하며 반론하는 것은 심히 잘못 이해한 것이다. 수능의 타당도는 대학교 입학담당자의 입장에서 생각을 하면 쉽다. 이들은 자기가 속한 대학교의 강의수준에 맞는 등급선의 학생들을 주로 뽑고, 그들이 자기네 대학교 나름의 강의를 잘 따라오리라 기대한다. 이것은 명문대나 지잡대나 동일한 것이며, 혼입되는 사항이 아닌 것이다. 수능 1등급이 예측하는 학업역량이 있고, 수능 5등급이 예측하는 학업역량이 따로 있으며, 이것이 학생의 각각의 실제 학업역량과 일치하는지를 보는 것이 타당도다. 만일 특정 수능점수에서 기대되는 이해수준에 학생의 실제 역량이 미치지 못한다면, 이것만으로도 (어떤 대학교에서 그런 일이 벌어지든) 수능의 타당도는 떨어진다는 결론을 도출할 수밖에 없다.[5] 감각(sensation)의 경우 단어는 같되 의미는 전혀 다르고, 감정(feeling)의 경우 심리학에서는 잘 쓰지 않으며 그보다는 정서(emotion)나 정동(affect) 같은 단어가 더 많이 쓰인다.[6] 대조적으로, Big5 검사인 NEO-PI-R의 경우 최종보스급 신뢰도와 타당도를 전세계에서 인정받은 바 있다. 심지어 Big5의 배경이 된 5요인 모형(FFM; Five Factors Model)에 반대하는 연구자들조차도 NEO-PI-R의 타당도에 대해서는 거의 태클을 걸지 않는다고.[7] 이렇게 생각한다면, 수학교육과와 영어교육과에서 뛰는 전문가들이 늘 하는 일이 바로 대한민국 공교육의 내용 타당도를 높이는 일이라고도 볼 수 있겠다.[8] 정말 간단히 말하자면 '외적 타당도'＝'일반화 가능성' 이렇게만 생각해도 된다.