최근 수정 시각 : 2024-04-15 00:47:54

평균

평균의 종류
Mean Value
산술평균 기하평균 조화평균 멱평균 대수평균

통계학
Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<colbgcolor=#4d4d4d><colcolor=#fff> 수리​통계학 기반 실해석학(측도론) · 선형대수학 · 이산수학
확률론 사건 · 가능성 · 확률변수 · 확률분포(표본분포 · 정규분포 · 이항분포 · 푸아송 분포 · 카이제곱분포 · t-분포 · z-분포 · F-분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙(무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량 평균(산술평균 · 기하평균 · 조화평균 · 멱평균 · 대수평균) · 기댓값 · 편차(절대편차 · 표준편차) · 분산(공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론​통계학 가설 · 변인 · 추정량 · 점추정 · 신뢰구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
통계적 방법 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석(요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습(군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타분석 · 모델링(구조방정식)
기술​통계학 · 자료 시각화 도표(그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 }}}}}}}}}

1. 개요2. 종류
2.1. 산술 평균
2.1.1. 모 평균2.1.2. 표본 평균2.1.3. 가중 평균2.1.4. 절사 평균
2.2. 기하 평균2.3. 조화 평균2.4. 멱평균2.5. 대수평균
3. 여담4. 관련 문서

1. 개요

/ mean[1], average[2]

대푯값(representative value)의 일종이다. 산술 평균, 기하 평균, 조화 평균 등이 있다.

평균을 나타내는 기호로 Ø를 종종 사용하는데, 이는 독일어로 평균이 "der durchschnitt", 여기서 "durchschnitt"가 영어로 "cut-through"로 해석되는 데에서 기인한다.

2. 종류

모든 변량이 양수라는 전제하에 산술 평균 ≥ 기하 평균 ≥ 조화 평균이 성립한다.

2.1. 산술 평균

/ arithmetic mean
{{{#!wiki style="text-align:center"
가장 일반적으로 사람들이 생각하는 평균으로 다 합쳐서 개수만큼 나눠서 얻을 수 있다. 교육과정상에서 가장 먼저 배우게 되는 평균이기도 하다. 독립변수가 연속인 경우 확률변수를 확률측도에 대해 적분한 것으로 정의한다. 각각의 관찰값들의 총합을 [math(n)]으로 나눈 값이라고 말하기도 한다. 어찌보면 당연한 사실이겠지만, 모든 관찰값들에 동일하게 임의의 값 [math(\alpha)]를 더하거나 뺀 뒤 다시 평균을 내면 평균에도 동일하게 [math(\alpha)] 값이 더해지거나 빼진 결과가 나온다.

산술 평균은 아래와 같은 4가지 특징을 가지고 있다.
  • 극단적인 값에 취약하다. 보통 평균과 비교되는 중간값, 최빈값과 비교하면 극단적인 값에 더 크게 영향을 받는다. 예를 들어 {1,2,3}에서 평균은 2이고 중간값도 2이다. 하지만 여기에 99을 추가한 {1,2,3,99}의 경우를 살펴보면, 중간값은 2와 3의 평균인 5/2로 약간 높아지지만 평균은 105/4=26.25으로 매우 크게 변한다. 그래서 이렇게 극단적인 자료에 강해지려면 중앙값을 써야 한다.
  • 편차의 합이 0이 된다. 분산 참고. [3]
  • 분산이 가장 작다. 이 개념은 회귀분석을 배울 때에도 쓰인다. 최빈값 같은 다른 기준으로 분산을 구했을 때보다 항상 분산이 작게 나온다.
  • 표본 값의 평균이 모집단과 크게 다르지 않다. 표본을 어떻게 뽑느냐에 따라 평균은 다르게 나올 수 있다. 어쩌면 모집단의 평균과 한참 거리가 먼 값이 나올 수도 있다. 이것은 중간값, 최빈값 등도 마찬가지이다. 그런데 산술평균은 중간값, 최빈값과 비교해서 표본의 상태에 크게 영향을 받지 않는다. 그래서 다른 값들에 비해 모집단의 참값에서 크게 벗어나지 않는다.

2.1.1. 모 평균

/ population mean([math(mu)])

모집단의 데이터를 모두 더한 후 모집단의 데이터 개수 N으로 나눈 것이다. 기댓값 문서 참조.

2.1.2. 표본 평균

/ sample mean([math(\bar{X})])

표본의 데이터를 모두 더한 후 표본의 데이터 개수 n으로 나눈 것이다.

표본 평균은 확률변수이다. 즉, 어떤 표본을 추출했냐에 따라서 표본평균의 값이 변하는 변수이다. 그렇기 때문에 표본평균은 분포를 가지게 되고, 또 우리는 표본평균의 평균 또는 표본평균의 분산을 계산하게 되는 것이다.

표본 분산이나 표본 표준 편차와 달리 n-1로 나누는 것이 아닌 것에 주의. (표본분산 관련된 설명은 링크를 참고. 표본분산 계산)

2.1.3. 가중 평균

/ weighted mean

개별 값에 각각 가중값을 곱하고 계산한 산술 평균의 변형. 당신이 국어 40점 수학 50점일 때 학과에 따라 한쪽에 10%의 가산점을 주고 평균하는 경우가 여기 속한다.

참고로 성격차지수나 여론조사 때도 가중평균을 쓴다.

기하학에서는 주로 내분점을 구할 때 사용한다.

2.1.4. 절사 평균

/ trimmed mean

평균을 구할때 극단값(이상값이라고도 불린다.)을 빼고 계산한 산술 평균의 변형. 평균을 낼 때 최고점/최저점이나 양 극단의 10% 정도를 잘라내는 것이 여기 속한다.

피겨 스케이팅, 싱크로나이즈드 스위밍, 리듬체조 등 예술적 가치가 높은 스포츠 종목에서 판정단이 점수를 내릴 때 최상위, 최하위 판정자 1명의 점수를 삭제하고 나머지 판정단의 점수로 평균을 내는 것이 이것이다. 그래서 올림픽 평균(Olympic average)이라고도 한다. 스포츠 종목 외에도 주관적인 판단이 들어가는 오디션이나 판정에서 쓰이기도 한다. 대표적으로 대학가요제 또는 강변가요제에서 쓰였다. [4] 보통 판정자 두 명 이상이 동시에 최상위 또는 최하위 점수를 부여할 경우 해당 판정자 모두의 성적을 다 삭제하지 않고 그중 한 명의 점수만을 삭제한다. 물론 최상위 최하위 점수자가 빠지기 때문에 모집단 수는 2를 뺀다.

이런 방법이 나온 이유는 '심판 비리'로 특정 선수에게 과도하게 높은 점수를 주거나, 경쟁 선수에게 과도하게 낮은 점수를 주는 방법으로 순위에 영향을 주었기 때문이다.

2.2. 기하 평균

/ geometric mean
{{{#!wiki style="text-align:center"
변량을 모두 곱해서 거듭제곱근을 취해서 얻는 평균. 연속변수의 경우 확률변수에 p제곱을 한 뒤에 적분한 것을 다시 p제곱근을 취하고 나서 독립변수의 측도로 나눠준 뒤 p를 0으로 보내면 된다.[5]

기하 평균은 예를 들어 연간 경제성장률, 물가인상률, 연간 이자율, 감쇠율, 증폭률, 백분비, 크기 확대 비율 같이 표본들이 비율이나 배수이고 각 표본값이 연속성/연계성이 있어서 표본들을 곱한 값이 의미가 있는 경우에 주로 쓰인다. 예를 들어 한국의 2000년 부터 2010년까지 평균경제성장률 등. 쉽게 말하면 한 가지를 시계열로 보는 자료가 가치가 있을 때 기하평균이 적합하다.

맹점이 하나 있는데, 곱하는 성분 중 하나라도 0이 있으면 기하 평균이 0이 되어버린다는 점이다. 그래서 표본 중 0이 있는 경우 이를 제외시켜야 한다. 모든 성분의 곱이 0보다 작을 경우 역시 주의해야 한다. 사실 허수가 나오더라도 그 크기를 구하면 된다

2.3. 조화 평균

調 / harmonic mean
{{{#!wiki style="text-align:center"
변량들의 역수의 산술평균을 구한 후 그것을 역수로 취한 평균. 연속변수의 경우 확률변수에 역수를 취한 것을 확률측도에 대해 적분한 뒤 다시 역수를 취한 후 독립변수의 측도로 나눠주면 된다. 역수를 취해야 하므로 변량 중에 0이 끼어있으면 계산할 수 없다. 또한 각 변량이 모두 양수여야만 의미있는 값이 얻어진다.

조화 평균은 기하평균과 같이 표본들이 비율이나 배수이지만 각 표본값은 독립적이고 표본끼리 곱한 값이 의미가 없을 때, 효율이나 속도 처럼 역수가 의미가 있을 때, 각 표본들이 비중이 같을 때 주로 쓰인다. 이런 표본값은 그냥 산술평균을 하면 값이 큰 쪽이 작은 쪽보다 부당하게 높은 비중을 차지하는 것을 시정하고 공정한 평균을 낼 수 있다. 성능이나 효율 속도 시간당 진도 통계 등에 그런 통계가 유효할 때가 많다. 예를 들어 여러 은행의 평균 이자율 이라든지 주식의 평균 주가수익률 이라든지 같은 것을 계산할 때 쓰는 게 좋다. 각 표본값들이 비중이 다를 때는 가중조화평균을 사용해야 한다.

과학에서 흔히 볼 수 있는 조화평균으로는 병렬 연결된 등가 저항이다.

대한민국에서 쉽게 볼 수 있는 조화평균으로는 한국 영화 평점 서비스 왓챠피디아의 평점이 있다. 평점이 50개를 넘어가면 조화평균으로 영화 평점을 구한다.

2.4. 멱평균

/ power mean / generalized mean
{{{#!wiki style="text-align:center"
위 세가지 평균을 일반화한 것으로, k 값에 따라서 위의 3가지 평균을 모두 표현할 수 있으며, 그외에 다른 평균도 나타낸다. 쉽게 말하면 k제곱의 산술평균의 k제곱근이다.
k 의미 비고
2 제곱평균제곱근 2차 평균
1 산술평균 1차 평균
0 기하평균 0차 평균
-1 조화평균 -1차 평균

2차평균은 제곱평균제곱근이 된다. 대표적으로 표준 편차편차의 2차평균이다.
또한, 변량이 모두 양수인 경우 [math(\displaystyle \lim_{k \to \infty} M(k))]는 최댓값, [math(\displaystyle \lim_{k \to -\infty} M(k))]는 최솟값이 된다.

2.5. 대수평균

/ logarithmic mean
{{{#!wiki style="text-align:center"
여기서 [math(x)], [math(y)]는 양수이고 [math(x=y)]인 경우 대수평균은 [math(x)]가 된다.

로그평균(logarithmic mean)이라고도 하며 두 수의 차를 두 수의 각 자연로그값의 차로 나누어준 값이다. 따라서 다른 평균과는 달리 변수가 오직 두 개일 때만 쓰인다. 또한 로그를 사용하기 때문에 두 수는 양수여야 한다.

주로 공학에서 많이 쓰이며 원통형 벽에서의 열전도, 이중 열교환기에서의 평균 온도차 또는 원통형 콘덴서의 평균 축전량을 구할 때 쓰인다.[6] 다만 대수평균을 써야 할 경우에도 큰수가 작은수의 두 배 미만인 경우 대수평균 대신 산술평균을 쓰기도 한다.

두 수의 크기 차이가 커질수록, 특히 작은 수의 값이 0에 가까워질수록 대수평균은 작아지는 특성이 있다. 다만 기하평균 값보다는 크게 유지된다. 예를 들어보자.
자료값 큰값 / 작은값 산술평균 대수평균 기하평균
1001 & 999 1.002 1000 1000.00 1000.00
1100 & 900 1.222 1000 996.66 994.99
1200 & 800 1.5 1000 986.52 979.80
1250 & 750 1.667(=5/3) 1000 978.81 968.25
1333(=4000/3) & 667(=2000/3) 2 1000 961.80 942.81
1500 & 500 3 1000 910.24 866.02
1600 & 400 4 1000 865.62 800.00
1800 & 200 9 1000 728.19 600.00
1900 & 100 19 1000 611.32 435.89
1990 & 10 199 1000 374.06 141.07
1999 & 1 1999 1000 262.88 44.71
산술평균모두 1000인 데 비해 대수평균과 기하평균은 줄어듦을 알수 있으며 특히 큰 수가 작은수의 20배가 넘어갈 경우 절반 이하로 줄어든다.

3. 여담

통계학 관련 용어 중에, 이상점(outlier)이라는 것이 있다. 일반적으로 평균은 어떤 지표를 확인할 때 유용한 수치로 보이지만 맹점이 하나 있다. 바로 표본 중 극히 일부의 값이 지나치게 높거나 낮으면 평균값이 실제와 달라져 오해를 부를 수 있다는 것이며, 이렇게 다른 표본들과 유독 다른 값을 이상점이라고 한다. 대표적인 예가 정몽준국회의원이었을 무렵의 한국 국회의원 재산 평균이다. 2010년대 기준으로 국회의원 평균 재산은 대략 20~30억 원대 정도 한다. 근데 문제는 정몽준 의원의 재산이 2조 원이 넘는다. 다른 국회의원들 재산을 다 합쳐도 정몽준에 못 미치며, 만약 정몽준의 재산을 포함하여 계산하면 평균 값이 갑자기 100억 원대로 뛰어버린다. 그래서 정몽준 의원의 재산은 이상점으로 간주하고 평균 계산에서 제외한다. 안철수 의원 등 다른 몇 명도 재산이 500억 원이 넘어서 역시 평균 계산에서 제외하는데, 그래도 정몽준과는 비교도 안 된다.

또 한가지 예로 서울대학교 단과대학별로 현재 재산 평균을 볼 경우 원래라면 하위권을 차지하는 사학과가 87학번에 한해서 1위를 차지한다. 그 이유는 해당 학번에 이재용정용진이 있기 때문이다. 비슷한 케이스로 외국에서는 노스캐롤라이나 대학교 85학년도 졸업생 중에 지리학과를 졸업생 평균연봉 1위로 끌어올린 마이클 조던이 있다.

삼성에서는 이른바 '삼성평균' 이라는 별도의 평균방식을 사용한다.
흔히들 어린이들이 저지를 실수 중 하나로서 단순 합산과 나눔으로 평균을 구하는 것이다.
예를 들어 1명에게는 100원, 2명에게는 80원, 6명에게는 10원, 1명에게는 0원을 분배한다고 할 경우, 산술평균으로는 10명에게 320원을 분배했으므로 평균적으로 32원을 분배했다고 표현한다. 그러나 삼성의 경우는 (100+80+10+0)/4 = 47.5원을 분배했다고 표현한다. 주로 직원의 연봉인상률을 기사화 할 때 높게 주는 것처럼 언론플레이를 할 때 이런 방식을 사용한다.

평균의 함정을 이해하기 쉽게 '인류의 평균 고환 갯수는 1개다.'라고 가르치는 교사들이 많다.
농반진반으로 저, 능력은 평균치로 해달라고 말했잖아요!가 평균의 함정을 보여주는 좋은 예라고 한다.

4. 관련 문서



[1] 통계 용어로 자주 쓰이며 산술평균을 포함한 전반적인 평균을 의미한다.[2] 주로 산술평균을 의미하며 조금 더 일상적으로 사용되는 편이다.[3] 이 점을 이용하여 평균이 주어지고, 자료들 중 하나를 미지수 x라고 놓을 때, x를 제외한 나머지 자료들이 평균보다 얼만큼 크고 작은지의 값을 합이 0이 되도록 논리적으로 계산을 잘 하면 x의 값도 구할 수 있다.[4] 다만 점수산정에 있어서 판정단의 예술성 평가 외에도 인기투표의 요소도 고려하는 슈퍼스타 KSHOW ME THE MONEY, K팝 스타, 프로듀스 101과 같은 서바이벌 프로그램에서는 잘 쓰이지 않는다.[5] 로그함수를 취한 뒤에 적분한 것을 독립변수의 측도로 나눠준 뒤 밑이 동일한 지수함수를 취하는 방법도 된다.[6] 한편 해당 분야에서 원통형 물체 대신에 구형 물체에 대하여 평균을 구할 경우에는 대수평균 대신 기하평균을 쓴다.

분류