최근 수정 시각 : 2025-10-20 22:15:32

IQR



1. 개요2. 정의
2.1. 쉽고 빠르게 구하는 법
3. 도식
3.1. 예시
3.1.1. 어깨너비3.1.2. 연봉

1. 개요

사분위수 범위(이하 IQR)는 산포에서 변산도의 일종으로, 이상치 등의 극단적인 데이터들을 제외하고 일반적으로 기대되는 표본을 추정하는 방법이다. 동시에 이상치를 판별하는 방법이기도 하다. 이차방정식의 근을 구하는 여러 방법론 중에 판별식 D가 있다면, 이상치를 구하는 방법 중엔 IQR이 있다.

2. 정의

모든 연속된 범주의 수치형 데이터는 필연적으로 정규분포의 형태를 따른다.[1]

사분위수는 이름 그대로 4분의 1을 적용한 백분위수를 말하며, 정규분포의 누적분포함수를 이용하여 구하며, 백분위 수가 각각 25%, 75%인 점의 구간차를 IQR로 정의한다. 즉, 하위 25%를 Q1, 상위 25%를 Q3로 하여 이 범주의 절대총합이 50%가 되게끔 시행하는 것이다.

사분위수를 통해 구해낸 값들을 토대로, 범위를 구하는 값으로 엄밀한 측면에서 사분위수와는 다른 개념이다. 어디까지나 사분위수 '범위'이다.

[math(IQR = Q_3 - Q_1)]

로 말이다. 최댓값에서 최솟값을 뺀 범위는 이상치에 아주 민감한 측도이다. 사분위수 범위는 이상치에 의한 영향을 적게 받으므로 산포를 나타내는 측도로 많이 사용된다.

이렇게 구해낸 IQR을 토대로, 안울타리와 바깥울타리를 구할 수 있는데, 이 ‘울타리’에 도출된 값이 바로 이상치다.

바깥 울타리


안 울타리

하지만 [math(Q_1, Q_3)] 어떻게 구할 것인가? 일일이 독립변수의 값을 토대로 Z-score로 변환해서 표로 대입해서 구할 것인가? 그러기엔 너무 번거롭지 않은가? 이를 해결할 방법은 다음과 같다.

2.1. 쉽고 빠르게 구하는 법

IQR을 쉽고 빠르게 구하는 방법은 다음과 같다.

[math(1.35 * \sigma)]

상위 25%에 해당하는 점 Q_3, 하위 25%에 해당하는 점 Q_2를 일일이 Z-score를 통해 구해내는 건 번거롭고 귀찮게 만든다. 물론 학부생 미만에 있어선 이런 식으로 구하는 건 통계학적 기본 개념으로 적용시켜 보겠다는 이해확장 측면에선 나름 유용한 방법이 될 수 있지만, 이 문서를 접하고 나선 그러지 말길 바란다.

근사치이긴 하지만 실제 사분범위와 상당히 근접한 수준으로 귀결되며, 오차범위가 매우 작아 대부분의 경우는 이런 식으로 빨리 도출할 수 있다.

자세한 유도는 다음과 같은데, 통계학적 방법론으로 주로 사용되는 만큼, 구태여 유도를 이해할 필요는 없다. 그 시간에 다른 지식들을 더 많이 알아가는 게 이득이다.

우리는 정규분포가 와 같이 유도되는 것을 알고있다. 이때 확률밀도함수를 f, 연속확률변수를 X라 하면 이를 무한적분한 누적분포함수 F를 유도할 수 있는데, 이때 사분위수를 구할 수 있다.

[math(Q_1 = F^-1(0.25))], [math(Q_2 = F^-1(0.75))]로 말이다.

이를 표준정규분포 [math(N(0, \sigma^2))]에 적용해보면

[math(IQR = m + \sigma*F^-1(0.75) - (m + \sigma*F^-1(0.25)) = 2\sigma*F^-1(0.75) ~ 1.35\sigma)]

가 됨을 보일 수 있다.

3. 도식

이렇게 구해낸 사분범위를 도식화해서 표현하는데, 이를 상자그림이라 칭한다. 상자그림에서 상자는 사분범위인 즉 하위 25%, 상위 25% 구간을 의미하며, 이때

일반적으로 이상치에서 일반이상치는 2.7s로, 극단이상치는 4.7s로 정의된다. 그러나 통계학적 맥락에 따라 이러한 이상치 중에서도 평균 상, 상위, 최상위 이상치로 나뉘는 등 연구 방법에 따라 세부적인 이상치를 정의하는 것은 상이할 수 있으니 유의하길 바란다. 어디까지나 기본적으로 약속된 이상치 기준 Z-score가 2.7s일 뿐이다.

이상치는 애초에 비정상적인 양상을 보이는 데이터로, 표본 연구에 있어 실제 주류 빈도 데이터를 오염시키기 때문에 일반적으론 배제하려는 목적으로 사용된다. 때문에 2.7s만 해도 0.4% 확률을 나타내며, 실제 현실에서 매우 드문 빈도를 보인다.

그러나 집단 특성에 따라 상이할 수도 있다. 가령, 모집단의 평균 키는 175지만 NBA 집단의 평균 키는 200.7cm 것처럼 말이다. 즉, 집단 특성에 따른 맥락에 의해 결정된다.

3.1. 예시

3.1.1. 어깨너비

어깨 문서에도 자세히 서술되어 있지만 여기서 확장하여 서술하겠다.



위 그림과 같이 나타난다. 어깨 골격 너비의 평균은 40.0, 표준편차는 1.79이며, 일반 이상치는 44.8cm, 극단 이상치는 48.5cm임을 알 수 있다.

3.1.2. 연봉


[1] 물론 엄밀한 정의에 의한 정규분포는 아니긴 하다.

분류