통계학 Statistics | |||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" | <colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 (측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
수학 | 교과 내용 요소 | ||
{{{#!wiki style="margin: -0px -10px -5px; min-height: 26px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-6px -2px -12px" | [참고] 이 틀은 중학교 수학 내용 요소만을 담고 있습니다. | |
<colbgcolor=#2667a9><colcolor=white> ㄱ | <colbgcolor=#fff,#191919> 가감법 · 각도 · 규칙 · 각기둥 · 곱셈 공식 · 공약수 · 그래프 · 각뿔대 · 겉넓이 · 거듭제곱 | |
ㄴ | 내각 · 내접 · 농도 | |
ㄷ | 다각형 · 도형 · 등식 · 다항식 (단항식) · 도수분포표 · 대입법 · 대푯값 · 동위각 · 도수분포다각형 ·등변사다리꼴 | |
ㅁ | 막대그래프 · 무리수 · 미지수 · 면 · 맞꼭지각 · 마름모 | |
ㅂ | 부채꼴 · 부피 | |
ㅅ | 소수 · 사각형 · 삼각형 · 삼각비 · 실수 · 소인수분해 · 순환소수 · 사분면 · 선 · 수선 · 선분 · 상대도수 · 산포도 · 산점도 · 수직이등분선 | |
ㅇ | 원 · 원기둥 · 일차방정식 · 이차방정식 · 유리수 · 유한소수 · 일차함수 · 연립방정식 · 이차함수 · 완전제곱식 · 외각 · 엇각 · 외심 · 이등변삼각형 · 원주각 · 원주율 | |
ㅈ | 자연수 · 좌표평면 · 제곱근 · 정수 · 점 · 작도 · 전개도 · 중선 · 중근 · 지수 · 직사각형 | |
ㅊ | 최소공배수 · 최대공약수 | |
ㅍ | 피타고라스 정리 · 평행선 · 평행사변형 | |
ㅎ | 함수 · 합동 · 히스토그램 · 합성수 · 회전체 · 현 · 확률 |
1. 개요
代表値 / representative value. 혹은 위치 측도 / measure of location.대푯값(또는 중심경향값, measure of central tendency)은 어떤 데이터를 대표하는 값이다. 한글 맞춤법에 따르면 사이시옷을 넣어서 '대푯값'이라고 써야 하지만 사이시옷이 없는 '대표값'으로도 곧잘 쓰인다.
평균, 중앙값, 최빈값, 백분위수, 사분위수, 절사평균 등이 있다. 일반적으로 대푯값은 수 하나로 표현되지만 최빈값 등은 두 개 이상의 값으로 표현되기도 한다.
대한민국 수학 교육과정에서는 보통 중학교 3학년 통계 단원에서 산포도와 함께 배웠으나(2015 개정 교육과정까지), 2022 개정 교육과정부터는 중학교 1학년에서 배우게 된다.
2. 종류
- 평균(mean)은 변량을 모두 더한 후 변량의 개수로 나눈 값이다.
- 중앙값(median)은 전체 변량을 순서대로 정렬했을 때, 정중앙에 위치한 수이다. 데이터의 개수가 짝수인 경우는 가장 가운데에 있는 두 수의 평균이 중앙값이다. 이상치가 있는 경우 중앙값이 평균값보다 유용하다.
- 최빈값(mode)은 가장 자주 나오는 값이다. 최빈값은 두 개 이상일 수도 있다. 또한 자료가 수가 아니어도 구할 수 있는 점은 장점이다. 하지만 최빈값은 자료의 상황에 따라서 없을 수도 있어서 다른 대푯값(평균, 중앙값)에 비해 오히려 중심적인 경향을 잘 나타내지 못하거나, 권위가 없을 수도 있다.
- 사분위수(quartile): 자료를 크기순으로 나열했을 때 4등분하는 관측값이다.
- 백분위수(percentile): 자료를 크기순으로 나열했을 때 x%인 관측값을 말한다.
- 절사 평균(trimmed mean): 관측값의 양쪽에서 일정 비율 α의 이상점을 버리고, 나머지 관측값들만으로 낸 평균을 100α% 절사 평균이라고 함.
- 기댓값(expected value)은 통계에서는 평균과 같다고 생각하면 된다. 가능한 값마다 확률을 곱해서 모두 더한 것이다.
2.1. 평균
평균의 종류 Mean Value | |
제곱평균제곱근 | 산술 평균 |
기하 평균 | 조화 평균 |
멱평균 | 대수 평균 |
산술 평균(mean)은 n개의 변량을 모두 더하여 그 개수로 나누어 놓은 숫자이다. 평균 중에서 가장 많이 쓰기에, 일반적으로 평균이라고 하면 산술 평균이다. 다른 평균이 궁금하면 평균 문서 참고
예시로 다음의 15개 자료를 가지고 대푯값을 구해본다면 다음과 같다.
1, 1, 2, 3, 4, 5, 5, 5, 5, 7, 8, 9, 10, 11, 24 |
대수적으로 건드리기가 쉬워서 사실상 가장 대중적이고 유명한 대푯값. 통계와 관계된 자료라면 항상 빠지지 않고 등장하는 수치이다. 그러나 이상치의 영향을 가장 많이 받는 것이 단점이다. 이상할 정도로 다른 변량들과 차이나는 변량이 들어차면 대표로서의 의미를 잃어버리게 된다. 그런 상황에선 아래의 값들을 사용한다.
2.2. 중앙값
중앙값또는 중위수(둘다 median)는 n개의 값을 크기 순으로 늘어놓았을 때 가장 가운데에 있는 값이다. n이 홀수일 때 중앙값은 (n+1)/2번째에 있는 값을, n이 짝수일 때는 n/2번째 값과 (n/2)+1번째 값의 평균을 중앙값으로 한다.예시로 다음의 15개 자료를 가지고 대푯값을 구해본다면 다음과 같다.
1, 1, 2, 3, 4, 5, 5, 5, 5, 7, 8, 9, 10, 11, 24 |
중앙값 개념은 각 표본들의 격차가 워낙 커서 평균값이 의미가 없고 그 순위(백분위)가 더 중요할 때 주로 쓴다. 예를 들어 국민소득을 대표할 수 있는 값을 구할 때 산술 평균(평균소득)을 쓰게 되면 부유한 쪽으로 극단적인 값이 나타날 수 밖에 없다. 때문에 국민들이 생각하는 일반적인 소득보다 높은 값이 나타나게 된다. 따라서 모든 국민을 소득순으로 줄세우기하여 가운데에 있는 사람의 소득인 중위소득이 보다 합리적인 대푯값이 될 것이다.
더 쉬운 예시를 들어, 임직원이 100명인 A사에서 사장을 제외한 99명의 연봉이 일괄 5천만 원인데 사장의 연봉만 100억이라면, A사의 '평균' 연봉은 1억 4950만 원이 된다. 'A사 평균 연봉이 1억 4851만이래요.'라고 직원들에게 전한다면 직원들은 모두 '말도 안 된다'라는 반응을 보일 것이다. 즉, 이런 이상치가 존재하는 상황에서 평균은 대표성을 잃게 되고, 이것이 바로 평균의 함정이다.
이처럼 극단적인 값이 있는 경우에는 중앙값이 평균값보다 유용하다. 평균은 쉽게 변하지만 중앙값은 확률변수의 총 개수만 알면 거의 변하지 않는데, 이를 강고/강건하다(Robust)라고 하며, 중앙값이 가진 대표적인 성질이다. 통계 관련 문제에 Robust라는 단어가 보이면 무조건 중앙값에 해당하는 설명이니까 참고하자.
중앙값은 극단의 관찰값이 확정되지 않았을 때, 또는 자료가 극단성을 포함할 여지가 있도록 개방된(open-ended) 경우에도 유용하게 사용할 수 있다. 예를 들어, 10명이 퍼즐을 푸는 평균 시간을 측정하는데, 9명은 12분 언저리에서 풀었지만 1명은 측정 한계시간 1시간을 훌쩍 넘기도록 여전히 끙끙거리는 바람에 측정이 중단된 경우. 이런 경우에는 애초에 평균을 낼 수도 없기 때문에 중앙값을 이용해야 한다. 마지막 한 사람의 기록을 대충 60분으로 보고 평균을 내도 17분 정도가 나오기 때문에 평균값은 실제로 구하고자 하는 값과 많이 달라진다.
2.3. 최빈값
최빈값(mode)은 가장 빈번하게 등장하는 값을 의미한다. 최빈수라고도 한다.예시로 다음의 15개 자료를 가지고 대푯값을 구해본다면 다음과 같다.
1, 1, 2, 3, 4, 5, 5, 5, 5, 7, 8, 9, 10, 11, 24 |
최빈값는 각 값의 수치적 평균값이 의미 없고 대소 관계가 없을 때 사용한다. 그래서 질적 자료의 대표값을 선정할 때 많이 쓴다. 질적 자료는 수치의 우열이 없으므로 평균이나 중앙값을 사용할 수 없기 때문이다.
최빈값은 여러 개가 될 수도 있다. 예를 들어 사람들의 출생한 달이나 요일 따위.
그런데 모든 관찰값이 동일하게 나타날 경우 모든 값이 최빈값에 해당하므로, '최빈값은 의미가 없다'고 하며 '최빈값이 없다'라고도 줄여 부른다.
2.4. 사분위수
자료를 같은 갯수를 가진 4개의 그룹으로 나누는 각각의 기준값을 사분위수(quartile)라고 한다.데이터의 인덱스를 [math(i)], 총 갯수를 [math(n)]이라고 한 뒤, 데이터마다 각각 [math(f_i=\dfrac{(i-1)}{(n-1)})]을 부여한다. [math(f_i)]가 각각 0.25, 0.5, 0.75일 때의 값이 [math(Q_1)], [math(Q_2)], [math(Q_3)]가 된다. 특성상 [math(Q_2)]는 중앙값과 같다.
만약 [math(f_i)]가 정확히 0.25 따위로 떨어지지 않는다면, 원하는 사분률 바로 위 아래의 값 두 개를 통해 보간한다.
예시로 다음의 15개 자료를 가지고 대푯값을 구해본다면 다음과 같다.
1, 1, 2, 3, 4, 5, 5, 5, 5, 7, 8, 9, 10, 11, 24 |
[math(f_4=\dfrac{(4-1)}{(15-1)}\fallingdotseq 0.2143)], [math(f_5=\dfrac{(5-1)}{(15-1)}\fallingdotseq 0.2857)]이므로, 이 인덱스에 해당하는 두 데이터(3과 4)를 보간하면 [math(Q_1=3.5)]가 나온다.
[math(Q_2)]는 [math(f_i=0.5)]일 때의 값인데, [math(f_8=\dfrac{(8-1)}{(15-1)})]이 정확히 [math(0.5)]이므로 이 인덱스(8)에 해당하는 데이터 5가 [math(Q_2)]가 된다.
마지막으로 [math(Q_3)]인데, [math(f_{11}=\dfrac{(10-1)}{(15-1)}\fallingdotseq 0.7143)], [math(f_{12}=\dfrac{(12-1)}{(15-1)}\fallingdotseq 0.7857)]이므로, 해당 인덱스에 해당하는 두 데이터(8과 9)를 가지고 [math(f_i=0.75)]가 되도록 보간하면 [math(Q_3=8.5)]가 나온다.
사분위간 범위(interquartile range, IQR)는 Q3에서 Q1을 뺀 값으로, 전체 자료의 중간에 있는 절반의 자료들이 지니는 값의 범위를 말한다. 위의 예에서는 8.5 - 3.5 = 5이다.
2.5. 백분위수
산포도인 사분위간 범위와 달리 사분위수와 백분위수(percentile)는 대푯값이다.사분위수에 해당하던 Q1은 제 25백분위수, Q2는 제 50백분위수 = 중앙값(median), Q3는 제 75백분위수이다.
3. 그래프 모양
정규분포(normal distribution)에서 평균(mean), 최빈값(mode), 중앙값(median)은 전부 동일한 위치에 놓이는 높은 집중도를 보이지만, 분포(도)의 모양이 달라질 경우 세 값은 서로 달라질 수 있다. 예를 들어 기울어진(skewed) 분포에서는 두 가지 경우가 있는데, 왼쪽으로 기울어진 경우(정적편포, positive skewed distribution) 값이 작은 순으로 정렬하면 최빈값, 중앙값, 평균이 나오고, 오른쪽으로 기울어진 경우(부적편포, negative skewed distribution) 값이 작은 순으로 정렬하면 평균, 중앙값, 최빈값이 나온다. 평균은 긴 꼬리 쪽으로 이끌려가는데, 이는 평균이 극단값에 크게 영향을 받기 때문이다. 중앙값은 움직이지 않는다. 반면 최빈값은 평균과 반대방향으로 움직이며, 그 정의상 곡선의 최고점에서 벗어나지 않는다. 중앙값을 그래서 강고(robust)하다라고 표현한다. 이는 중앙값은 이상값들의 영향을 적게 받기 때문이다. 각각의 값들의 차이는 기울어진 정도가 클수록 커지며, 기울어진 정도를 따로 왜도(skewness)라고 부르기도 한다.
첨도(kurtosis)는 그래프가 세로로 뾰족한 정도이다.
4. 분산도 최소
위의 대푯값 모두 각 값들과의 거리가 최소가 되는 값, 즉 분산도가 최소가 되는 값들이다. 단지 각 값들의 거리를 어떻게 측정하느냐에 따라 무엇이 대푯값이 되는지 다를 뿐이다. 거리를 (x-y)2으로 정의하면 평균이, lx-yl로 정의하면 중앙값이, 차이가 있을 때 1이고 없을 때 0으로 정의하면 최빈값이 대푯값이 된다.(김태수, '통계학 입문', 자유아카데미, 2010, pp.11-13)5. 기타
한편 평균(mean)과 중앙값(median) 그리고 최빈값(mode)들의 집중도를 조사하여 중심경향값인 중심값을 표현하고 이를 다루어볼 수도 있다.6. 관련 문서
- 산포도
- Microsoft Excel/함수 목록: 간단한 통계학 계산은 엑셀이나 Calc로 할 수 있다.