최근 수정 시각 : 2024-09-21 08:01:31

혼동행렬

<colbgcolor=#000> 과학 연구 · 실험
Scientific Research · Experiment
{{{#!wiki style="margin: 0 -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -6px -1px -11px"
<colbgcolor=#000><colcolor=#fff><rowcolor=#000,#fff> 배경 과학적 방법
기반 수학(미적분학 · 선형대수학 · 미분방정식) · 통계학(수리통계학 · 추론통계학 · 기술통계학)
연구·탐구 논증(귀납법 · 연역법 · 유추(내삽법 · 외삽법)) · 이론(법칙 · 공리 · 증명 · 정의 · 근거이론 · 이론적 조망) · 가설 · 복잡계(창발) · 모형화(수학적 모형화) · 관측 · 자료 수집 · 교차검증 · 오컴의 면도날 · 일반화
연구방법론 합리주의 · 경험주의 · 환원주의 · 복잡계 연구방법론 · 재현성(연구노트)
통계적 방법 혼동행렬 · 회귀 분석 · 메타 분석 · 주성분 분석 · 추론통계학(모형(구조방정식) · 통계적 검정 · 인과관계와 상관관계 · 통계의 함정 · 신뢰도와 타당도)
측정·물리량 물리량(물리 상수 · 무차원량) · 차원(차원분석) · 측도 · 단위(단위계(SI 단위계 · 자연 단위계) · 단위 변환) · 계측기구 · 오차(불확도 · 유효숫자 · 과학적 표기법)
실험 실험설계 · 정성실험과 정량실험 · 실험군과 대조군 · 변인(독립 변인 · 조작 변인 · 종속 변인 · 변인 통제) · 모의 실험(수치해석) · 맹검법 · 사고실험 · 인체실험 · 임상시험 · 실험 기구
연구윤리 뉘른베르크 강령 · 헬싱키 선언 · 연구투명성 · 연구 동의서 · 연구부정행위 · 표절(표절검사서비스) · 편향 · 문헌오염 · 자기교정성 · 연구윤리위원회
논문·과학 공동체 소논문 · 리포트 · 논문제출자격시험 · 연구계획서 · 형식(초록 · 인용(양식 · 참고문헌) · 감사의 글) · 저자 · 학회 · 세미나 · 학술대회 · 동료평가 · 지표 · 학술 데이터베이스 · 게재 철회 · 학제간 연구
철학 관련 정보 · 연구방법론 관련 정보 · 수학 관련 정보 · 자연과학 관련 정보 · 물리학 관련 정보 · 통계 관련 정보 · 사회과학 조사연구방법론 }}}}}}}}}

파일:confusion-matrix.jpg
(#출처)

1. 설명2. 성과평가의 기준
2.1. 정확도2.2. 정밀도2.3. 민감도=재현율2.4. 특이도2.5. F12.6. ROC 곡선
3. 쓰임새4. 유사 개념들

1. 설명

/ confusion matrix

어떤 개인이나 모델, 검사도구, 알고리즘의 진단·분류·판별·예측 능력을 평가하기 위하여 고안된 표. 오류행렬(error matrix)이라고도 하며, 국내에는 (정)오분류표로 번역되기도 한다.

코로나 19를 주제로 하여 예를 들어 보자. 어떤 사람이 코로나 감염이 의심되어 검사를 했을 때, 검사 결과는 양성 혹은 음성으로 나올 것이다. 여기서 양성이 나왔다는 것은 그 사람이 코로나에 감염되었다고 예측한다는 의미이고, 음성은 코로나에 감염되지 않았다고 예측한다는 의미가 된다. 문제는 현실이 진단 결과와 다를 수 있다는 데 있다. 의료진의 뒷목을 잡게 만드는 상황은 두 가지로, 검사 결과가 양성인데 실제로는 감염되지 않았던 경우, 그리고 검사 결과는 음성인데 실제로는 감염자였던 경우다. 이런 상황들이 많을수록 그 검사 키트는 못 믿을 물건이 되고 만다. 그렇다면 검사 키트를 만드는 업체에서는 이런 두 가지 상황은 최소한으로 줄이면서, 감염자는 정확히 양성으로, 비감염자는 정확히 음성으로 판정할 수 있는 검사 키트를 만들고자 할 것이다.

그렇다면 검사도구의 성과평가를 하는 입장에서도 이를 평가기준으로 삼을 수 있다. 여기서 혼동행렬의 필요성이 부각된다. 혼동행렬은 ① 예측이 참인데 실제로도 참인 경우, ② 예측이 참인데 실제로는 거짓인 경우, ③ 예측은 거짓인데 실제로는 참인 경우, ④ 예측도 거짓이고 실제도 거짓인 경우의 네 가지 상황을 빈도별로 정리한다. 그리고 각 셀들의 빈도값을 서로 견주어 보면서 헛다리를 짚은 셀이 상대적으로 얼마나 큰지, 제대로 처리한 셀은 상대적으로 어느 정도인지를 살핀다. 성과가 좋기 위해서는 당연히 헛다리를 짚은 셀의 빈도는 최대한 낮고 제대로 처리한 셀의 빈도는 최대한 높아야 한다.

여기서 중요한 것은, 적어도 평가자는 현실이 어떠한지에 대한 정보를 미리 갖고 있어야 한다는 것이다. 그래야 현실의 정보를 예측된 정보와 비교하는 것이 가능하기 때문이다. 이는 정답지 없이 답안지만 가지고 채점할 수는 없는 것과도 같다. 만일 현실이 어떠한지 평가자조차 알지 못한다면 혼동행렬보다 더 나은 다른 평가방법을 찾는 것이 권고된다. 혼동행렬의 주 수요분야인 데이터과학 분야에서 이 문제는 비지도적(unsupervised)인 학습 여부와도 관계가 있다.

흔히 긍정(positive) 또는 부정(negative)의 형태로 처리되는 이진적(binary)인 논리로 알려져 있지만, 혼동행렬은 2 by 2 행렬의 형태로만 나타나는 것은 아니다. 3개 이상의 등급(class)을 갖는 다등급(multi-class) 분류의 결과도 혼동행렬로 나타내는 것이 가능하다. 예컨대 어떤 사람에게 동북아시아인들의 얼굴 사진들을 보여주면서 한국인, 일본인, 중국인을 알아맞혀 보라고 한다면, 이때의 혼동행렬은 3 by 3 행렬의 형태로 나타나게 된다. 이 경우는 기존의 2 by 2 행렬에서 '부정' 으로만 표시되던 셀을 세분화했다고 보면 된다.

2. 성과평가의 기준

아래의 '긍정적', '부정적'은 질문에 대한 답이 '예'냐 '아니오'냐일 뿐이며, 가치판단이 결코 아니다. 당장 위에서 소개했던 코로나 19 검사 키트의 관점에서는 양성(긍정적)이라는 표현이 '코로나에 감염됐느냐?'에 '예'로 답한 것이라 곧 코로나 감염을 의미한다.

2.1. 정확도

Accuracy (ACC)
 예측
긍정(Positive)부정(Negative)
현실긍정(Positive)참긍정
(TP; True Positive)
거짓부정
(FN; False Negative)
부정(Negative)거짓긍정
(FP; False Positive)
참부정
(TN; True Negative)
[math(\Large\frac{(TP+TN)}{(TP+TN+FP+FN)})]

예측이 현실에 부합할 확률이다. 예측 결과 전체를 모두 모아서 분모에 넣고, 참긍정이든 참부정이든 제대로 예측하는 데 성공한 빈도가 전체 중의 얼마를 차지하는지 0~1 사이 값으로 살펴본다. 정확도가 높다는 것은 곧 예측이 제대로 적중한 경우가 많다는 의미가 되며, 정확도 높은 예측 알고리즘은 활용 가능성이 높다고 인정된다. 한편 정확도를 뒤집어서 1-Accuracy 계산을 하면 전체 예측 중 헛다리를 짚은 예측의 비율을 보겠다는 것으로, 전체 중의 거짓긍정 및 거짓부정을 계산하는 이 값은 오류율(error rate)이라고도 불린다.

데이터의 관점에서 볼 때 정확도가 높을수록 그 데이터는 편의(bias)가 낮으며, 따라서 활용도가 높은 데이터로 평가될 수 있다. 아래의 정밀도와는 상충관계에 있기 때문에 대부분의 데이터 분석은 양자를 적절히 절충하는 것을 목표로 하게 된다.

2.2. 정밀도

Precision (P) / PPV(Positive Predictive Value)
 예측
긍정(Positive)부정(Negative)
현실긍정(Positive)참긍정
(TP; True Positive)
거짓부정
(FN; False Negative)
부정(Negative)거짓긍정
(FP; False Positive)
참부정
(TN; True Negative)
[math(\Large\frac{(TP)}{(TP+FP)})]

예측 결과가 긍정적일 때 현실도 실제로 긍정일 확률이다. 여기서는 예측 결과가 긍정적인 경우에만 관심을 갖고, 참긍정과 거짓긍정을 모아서 분모에 넣는 반면 분자에는 참긍정만 넣어서 그 비율을 0~1 사이 값으로 견주어 본다. 정밀도가 높다는 것은 긍정적인 예측이 제대로 적중한 경우가 많다는 의미가 되며, 정밀도 높은 예측 알고리즘은 안정성이 높다고 인정된다. 하지만 정밀도는 예측 결과가 부정적일 때 이를 얼마나 신뢰해야 할지에 대한 정보는 제공하지 않는다. 정밀도는 아래의 F1 값을 산출하는 데 사용된다.

정밀도를 뒤집어서 1-Precision 계산을 하면 예측 결과가 긍정적일 때 현실은 부정적일 확률이 얻어진다. 한편 혼동행렬에서 정밀도에 논리적으로 대응되는 '예측 결과가 부정적일 때 현실도 실제로 부정일 확률' 은 그다지 많이 활용되지 않는데, 굳이 명칭을 붙이자면 부정예측가(Negative Predictive Value)가 된다.

데이터의 관점에서 볼 때 정밀도가 높을수록 그 데이터는 분산(variance)이 낮으며, 따라서 안정성이 높은 데이터로 평가될 수 있다. 위의 정확도와는 상충관계에 있기 때문에 대부분의 데이터 분석은 양자를 적절히 절충하는 것을 목표로 하게 된다.

2.3. 민감도=재현율

Sensitivity=Recall (R) / TPR(True Positive Rate)
 예측
긍정(Positive)부정(Negative)
현실긍정(Positive)참긍정
(TP; True Positive)
거짓부정
(FN; False Negative)
부정(Negative)거짓긍정
(FP; False Positive)
참부정
(TN; True Negative)
[math(\Large\frac{(TP)}{(TP+FN)})]

현실이 실제로 긍정일 때 예측 결과도 긍정적일 확률이다. 여기서는 현실이 긍정인 경우에만 관심을 갖고, 분모에는 참긍정과 거짓부정을 모아 넣는 반면 분자에는 참긍정만 넣어서 그 비율을 0~1 사이 값으로 확인한다. 민감도가 높다는 것은 현실이 긍정일 때 그 예측도 제대로 잘 이루어지고 있다는 의미가 된다. 하지만 민감도는 현실이 부정일 때 예측이 어떻게 이루어지는지에 대한 정보는 제공하지 않는다. 민감도 역시 아래의 F1 값을 산출하는 데 사용되며, ROC 곡선을 산출하는 데에도 쓰인다.

민감도 못지않게 재현율이라는 용어가 거의 비슷한 비중으로 많이 쓰이는데, 각 기준들을 영어 이니셜로 암기해야 한다면 아래의 특이도와 겹치는 민감도라는 용어보다는 재현율이라는 용어로 암기하는 쪽이 더 편리할 수 있다. 민감도를 뒤집어서 1-Sensitivity 계산을 하면 현실이 실제로 긍정일 때 예측 결과는 부정적일 확률이 얻어지는데 이 경우에는 거짓부정율(False Negative Rate)이 된다.

2.4. 특이도

Specificity (S) / TNR(True Negative Rate)
 예측
긍정(Positive)부정(Negative)
현실긍정(Positive)참긍정
(TP; True Positive)
거짓부정
(FN; False Negative)
부정(Negative)거짓긍정
(FP; False Positive)
참부정
(TN; True Negative)
[math(\Large\frac{(TN)}{(TN+FP)})]

현실이 실제로 부정일 때 예측 결과도 부정적일 확률이다. 여기서는 민감도와는 반대로 현실이 부정인 경우에만 관심을 갖는다. 특이도의 분모는 참부정과 거짓긍정으로 구성되고, 분자에는 참부정만 들어가서 0~1 사이 값으로 결과를 산출한다. 특이도가 높다는 것은 현실이 부정일 때 그 예측도 제대로 잘 이루어지고 있다는 의미가 된다. 하지만 역시 민감도와는 반대로, 특이도는 현실이 긍정일 때의 평가 정보는 제공하지 않는다.

또한 특이도는 참부정율(TNR; True Negative Rate)이라고도 하며, 특이도를 뒤집어서 1-Specificity 계산을 하면 현실이 실제로 부정일 때 예측 결과는 긍정적일 확률이 얻어지는데 이쪽은 거짓긍정율(False Positive Rate)이라고 한다. 거짓긍정율은 위의 민감도와 함께 ROC 곡선을 산출하는 데 쓰인다.

2.5. F1

F1 score

[math(\Large\frac{2PR}{P+R})]

정밀도와 재현율(민감도)을 활용하는 평가용 지수이다. 분모에는 정밀도(P)와 재현율(R)을 더한 값을 사용하고, 분자에는 정밀도(P)와 재현율(R)을 곱한 뒤 추가로 2를 곱연산하여 가중해 준다. 계산의 결과는 0~1 사이의 값으로 나타난다. 만일 TP=FP=FN으로 세 셀의 빈도가 동일하다면 F1 값은 무조건 0.5이다. TP 셀이 변화하지 않는 한에서, F1 값은 FP의 빈도와 FN의 빈도의 총합이 같다면 두 거짓 셀의 빈도 격차가 아무리 크더라도 이를 반영하지 않는다. 반면 TP가 변화하지 않을 때 FP과 FN의 빈도의 총합이 크면 클수록 F1 값은 감소한다.

F1 값의 논리는 조화평균에 입각한 것으로, 정밀도와 재현율 사이에 하나가 높아지면 다른 하나가 낮아지는 상황이 자주 발생하기에 이를 보정하기 위해 개발되었다. 본래는 Fβ 값의 일종으로, β 값이 양수일 때는 재현율에, 음수일 때는 정밀도에 가중치를 부여한다. 따라서 F1 값은 정밀도와 재현율에 똑같이 1배의 가중치를 준 Fβ 값임을 의미한다. 만일 재현율에 2배의 가중치를 주어 조화평균했다면 그때는 F2 값이 된다.

2.6. ROC 곡선

Receiver Operating Characteristic Curve

심리측정학(psychometrics)의 수신자 조작 특성(ROC; Receiver Operating Characteristic)이라는 도표를 활용한 평가기준이다. 이 2차원 도표는 이진적인 논리를 따르는 예측에 활용되며, 가로축에는 거짓긍정율, 세로축에는 민감도가 배치되어 있고, 눈금은 두 축 모두 0~1 사이의 범위로 그어져 있다. 개별 예측례(instance)는 하나의 거짓긍정율과 하나의 민감도 수치를 산출하므로, 데이터를 통해 예측할 때마다 점이 하나씩 찍히게 된다. 이 점이 찍힌 위치가 2차원 평면의 어디쯤에 있는지를 보는 것이 ROC를 활용한 평가방법이다.

만약 어떤 예측 로봇이 있는데, 이 로봇은 현실이 뭐가 됐든 자신이 검토하는 모든 데이터에 대해서 "무조건 긍정!" 을 외친다고 가정해 보자. 이 녀석의 예측 결과는 2차원 도표에서 오른쪽 위 끝부분, 즉 거짓긍정율과 민감도 모두 1인 (1,1)의 위치로 찍히게 된다. 참부정을 하지도 않았고, 거짓부정을 하지도 않았으니 숫자가 1에서 깎일 수가 없는 것이다. 반대로 또 다른 예측 로봇은 "무조건 부정!" 을 외친다고 가정해 보자. 이쪽에서는 2차원 도표의 왼쪽 아래 끝부분, 즉 거짓긍정율과 민감도 모두 0인 (0,0) 위치에서 찍힌다. 참긍정도 거짓긍정도 하지 않았으니 숫자가 0에서 올라갈래야 올라갈 수가 없다. 또 다른 예측 로봇은 매번 완전한 랜덤으로 긍·부정을 예측한다고 가정해 보자. 이쪽은 수학적으로 보면 y=x의 대각선 위에 점이 찍히게 되고, 현실적으로도 이에 매우 근접한 위치가 된다. 마지막으로 교수님이 만든 '완벽한' 예측 로봇이 있다고 할 경우, 이 로봇은 민감도가 1인 동시에 거짓긍정율은 0이므로 왼쪽 위 끝부분인 (0,1)의 위치에 결과가 찍힌다.

어떤 위치의 예측 결과가 가장 이상적일까? 물론 가능한 한 (0,1) 위치에 가까운 결과가 좋다고 할 수 있다. 현실이 부정일 때 거짓긍정을 최소화하면서(0), 현실이 긍정일 때 거짓부정을 최소화하기 때문이다(1). 즉 예측에서 거짓긍정이 발생하는 만큼 점은 오른쪽으로 밀려나고, 거짓부정이 발생하는 만큼 점은 아래로 떨어진다. 점이 y=x 대각선에 가까우면 가까울수록, 그 예측 결과는 동전 던지기로 예측하는 것보다 하등 나을 것이 없다는 의미가 된다. 그렇다면 아무도 그 알고리즘을 굳이 필요로 하지 않을 것이고, 그 알고리즘을 기껏 만드느라 고생한 사람들은 병나발을 불게 될 것이다(…).

그렇다면 점이 (1,0)의 최악의 위치에 가까이 다가가는 것은 동전 던지기보다 더 나쁜 거냐고 생각할 수 있다. 물론 그 예측 결과 자체만 놓고 보면 실제로 동전 던지기만도 못하긴 하지만, 알고리즘의 긍·부정 판정을 고스란히 뒤집어주기만 하면 순식간에 강력한 예측으로 탈바꿈한다. 가령, 점이 (0.95, 0.05)에 찍혔을 때 이 결과를 산출한 알고리즘을 뒤집으면 (0.05, 0.95)의 결과가 나온다. 따라서 현실적으로 최악의 상황은 예측 결과가 y=x 대각선 근처에 찍히는 상황이다. 알고리즘을 뒤집어 봤자 점이 왼쪽 위로 그다지 올라가지 못하기 때문이다.

또 다른 중요한 것은 '전부 긍정' 혹은 '전부 부정' 따위의 무식한(…) 방식으로는 이상적인 예측 결과를 산출할 수 없다는 것이다. 제대로 된 예측을 하고 싶다면 때로는 긍정을, 때로는 부정을 예측할 수 있어야 한다. 이것을 문턱값 혹은 역치(閾置)라고 한다. 역치는 알고리즘과 함께 예측에 있어 중요한 이슈이다. 동일한 알고리즘을 적용하더라도 역치가 높으면 (0,0) 점에 가까이 내려가고, 역치가 낮으면 (1,1) 점에 가까이 올라간다. 그래서 점이 왼쪽 아래에 찍혔다면 알고리즘을 너무 쫄보(…)스럽게 적용한 셈이고, 오른쪽 위에 찍혔다면 너무 마구잡이로 적용한 셈이다.

그렇다면 동일한 알고리즘이 무한히 다양한 역치들 사이에서 찍을 수 있는 점들의 위치를 연속적으로 쭉 이을 수 있을 것이다. 이렇게 하면 (0,0) 점과 (1,1) 점에 접하면서 왼쪽 위로 볼록한 형태의 곡선이 만들어지는데 이것이 바로 ROC 곡선이다. 이상적인 예측 결과를 산출하는 알고리즘은 그만큼 ROC 곡선의 중앙부가 왼쪽 위의 (0,1) 점에 가까이 이끌려 있다. 반면 병나발 확정인 알고리즘이 만드는 ROC 곡선은 y=x 대각선에 매우 근접해 있다. ROC 곡선이 (0,1) 점을 향해 바짝 달라붙어 있다는 이야기는, 다시 말하면 그 알고리즘이 긍정인 상황과 부정인 상황을 그만큼 잘 구별해 내고 있다는 이야기다.

그렇다면 객관적으로 ROC 곡선이 얼마나 왼쪽 위에 가까이 다가가 있어야 좋은 예측 알고리즘이라는 성능 평가를 할 수 있을까? 이때 활용하는 발상이 바로 ROC 곡선 아래의 면적을 전체 면적과 비교하는 것이다. 이 면적의 비율은 종종 AUROC(area under ROC)라는 약어로도 불린다. 비율이 1에 가까울수록 ROC 곡선 아래의 면적이 왼쪽 위 부분까지 많이 차지하고 있음을 의미하며, 비율이 0.5라는 얘기는 ROC 곡선이 y=x 대각선과 정확히 같아서 동전 던지기와 똑같은 수준이라는 의미이다. 일반적으로는 AUROC≥0.7 정도의 기준이 채택되는 경향이 있다.

3. 쓰임새

전통적으로 혼동행렬은 의학 분야에서 맹렬하게 연구되어 왔다. 위에서 소개한 것처럼, 코로나 19와 같은 감염병이 있을 때 그 병에 걸린 것이 정말로 맞는지 검사 키트의 성능을 평가할 필요가 많았기 때문이다. 가장 쉽게 생각한다면 임신테스트기를 떠올리면 된다. 사람들이 임신테스트기를 믿고 구입할 수 있는 이유는, 그것이 두 줄을 띄웠을 때 사용자가 웬만하면 임신일 거라고 믿기 때문이다. 한 줄이었는데 나중에 알고보니 임신이었다거나(FN), 두 줄이었는데 사실은 임신이 아니었다거나(FP) 하면 그 검사 키트는 사람들에게 외면당할 수밖에 없다. 사람의 건강에 관련된 분야들에서 혼동행렬을 자꾸 쓸 수밖에 없는 것은, 검사의 정확성이 생명에 직결되기에 그 검사의 성능평가의 수요도 그만큼 크기 때문이다.

2010년대 이후로 빅데이터 붐이 일면서 데이터과학이 핫한 키워드로 떠오르는 사이, 알파고로 대표되는 기계학습 분야에도 혼동행렬이 흔한 평가기준으로 쓰이고 있다. 특히 앞서 서술한 것처럼 '현실이 어떠한지' 를 이미 알고 있는 지도학습(supervised learning)에 있어서 혼동행렬은 필수적이다. 로봇이 데이터를 읽으면서 이게 참인지 거짓인지, 이쪽인지 저쪽인지, 성공인지 실패인지를 정확히 가려내야 하는 것이다. 예컨대 로봇에게 짖는 소리와 고양이 우는 소리를 학습시킨다고 할 경우, 그 로봇은 개 짖는 소리를 들으면 개로 판정하고 고양이 우는 소리를 들으면 고양이로 판정할 수 있어야 한다. 이럴 때 혼동행렬은 로봇이 개와 고양이를 헷갈리는 상황이 얼마나 많이 벌어지는지를 정확도의 관점에서 살필 수 있게 한다.

기계학습은 사회 곳곳에 적용 가능성이 매우 크기 때문에 초유의 주목을 받고 있는 분야이다. 한 예로, 아직 산발적으로 나오는 아이디어에 그치고 있긴 하지만, 어린이집 CCTV아동 학대로 판정될 수 있는 신체 움직임이 포착되는 순간 자동으로 담당관서에 신고가 들어가게 하자는 제안이 있다. 이것은 기계학습이 가능한 CCTV가 영상 데이터를 만들면서 인물들의 행동을 보고 그 영상 데이터를 '정상' 및 '학대' 두 가지 중 하나로 분류하게 하자는 것이다. 이때 혼동행렬을 활용하면 CCTV가 학대 상황을 보면서도 놓친 사례(FN) 및 학대가 아님에도 학대라고 오인한 사례(FP)에 비하여 정상과 학대를 얼마나 정확하게 판정했는지 성능을 평가할 수 있다.

4. 유사 개념들

심리학 개론 수업에 나오는 신호탐지이론(signal detection theory)이 혼동행렬과 밀접한 논리를 따른다. 여기서는 2 by 2 행렬의 각 셀들에 적중('hit'=TP), 누락('miss'=FN), 오경보('false alarm'=FP), 정기각('correct rejection'=TN)이라는 이름을 붙였다. 예를 들어 심리학 실험에서 중년의 피험자가 헤드셋을 쓰고 고주파수를 듣는 실험을 한다면, 실험자가 높은 비프음을 들려주었을 때 피험자가 버튼을 누르는 방식으로 진행하는 것이 가장 일반적인 연구 패러다임이다. 그렇다면 '적중' 은 실제로 비프음이 있었고 버튼을 누른 경우, '누락' 은 비프음이 있었는데도 버튼을 누르지 않은 경우, '오경보' 는 비프음이 없었는데도 버튼을 누른 경우, '정기각' 은 비프음이 없었고 버튼도 누르지 않은 경우가 된다.

추론통계학가설 검정(hypothesis testing)의 논리 역시 혼동행렬을 연상시킨다. 여기서는 영가설(H0)을 검정한 결과 기각했는지 혹은 기각에 실패했는지, 그리고 그 영가설(H0)이 실제로 현실에서 참인지 혹은 거짓인지를 놓고 2 by 2 행렬을 만든다. 그런데 여기서는 우리가 현실 속의 영가설(H0)이 참인지 거짓인지를 빈도로 정리할 수 없다. 각각의 셀들은 확률의 관점에서 접근하는 것이며, 표본추출을 100번 했을 때 어느 정도 (보통은 5번) 이하로 틀릴 가능성을 낮추는 데 초점을 맞춘다. 그래서 위에서처럼 정밀도니 뭐니 하면서 빈도계산을 할 수는 없고, 주로 강조되는 부분은 현실에서 영가설(H0)이 참일 때 그것의 기각을 실패하는 확률을 1-α라 하고, 잘못 기각하는 확률을 α라 한다는 것이다. #관련글

한편 리프트차트(lift chart)의 경우 혼동행렬과 마찬가지로 어떤 사건을 예측하는 모델링의 성능을 평가하기 위한 도구라는 공통점이 있지만, 이쪽에서는 혼동행렬처럼 이진적인 논리로 예측하는 대신에 그 사건이 발생할 확률 계산 결과가 실제 현실에서의 '사건 발생 혹은 부재' 의 이진적 결과를 얼마나 잘 예측할 수 있는지를 살펴본다. 리프트차트는 전체 데이터별로 각각 계산된 확률에 대해서, 실제로 사건이 발생한 데이터는 계산된 확률 역시 높을 것이고, 사건이 발생하지 않은 데이터는 계산된 확률도 낮을 것이라고 전제한다. 따라서 전체 데이터를 확률을 기준으로 내림차순 정렬했을 때 사건이 발생한 데이터는 주로 위쪽에, 발생하지 않은 데이터는 주로 아래쪽에 모이리라고 기대한다. 이를 수학적 및 시각적으로 확인하기 위하여 전체 데이터를 분위(percentile)로 균등하게 나누고, 분위별 반응률을 완전한 랜덤모델(random model)에 비교하는 것이 바로 리프트차트이다.