최근 수정 시각 : 2019-12-18 18:24:12

정규 분포

정규분포에서 넘어옴
1. 개요2. 상세
2.1. 만드는 방법2.2. 증명2.3. 그래프2.4. 중심 극한 정리2.5. 통계학의 약방의 감초
3. 표준 정규 분포: z-분포4. 이용 사례
4.1. 성적표
4.1.1. 내신 전교등수 때려 맞히기
4.2. 세상은 정규 분포
5. 관련 문서

1. 개요

正規分布, normal distribution
가우스가 처음 정립했기 때문에 가우스 분포(Gaussian distribution)라고도 한다. 독일 마르크 10DM 권종에도 그림과 함수식이 들어가있다.

2. 상세

인간자연 세상에서 일어나는 수많은 일을 설명하는 핵심 개념이다.

통계학에서 사용하는 각종 확률분포 중에서도 가장 중요하게 다루는 분포이다.

정규분포는 특정값의 출현비율을 그렸을 때, 중심(평균값)을 기준으로 좌우 대칭 형태가 나타나며, 좌우 극단으로 갈수록 급격하게 수치가 낮아지는 특징이 있다. 그래서 변곡점도 2개 있는데, 모두 μ\mu에서 σ\sigma만큼 떨어져 있다.하지만 표준편차의 수치가 위의 이미지처럼 꼭 기계적으로 딱딱 맞아야 하는 것은 아니고 대략 저런 '종' 형태로 나타난다.

여담으로 식스 시그마라는 용어도 여기에서 비롯한 것이다. 표준편차 6배 바깥의 범위(μ±6σ\mu\pm6\sigma)는 0.0000002% 정도의 극히 희귀한 확률이다. 즉 부품 10억 개 중에서 단 2개만 6 시그마를 벗어난다는 말로 사실상 불량률 제로를 추구하는 말이다. IQ로 치면 SD 15 기준 10 이하나 190 이상에 해당하는 지수가 바로 6시그마이다.

2.1. 만드는 방법

물리학 실험용으로 무작위 표본추출을 통해 도출한 '확률밀도곡선'에 '극한을 적용'해 만든 것을 형태로 정립한 것인데, 그 그래프를 함수식으로 풀어쓰면
\displaystyle N\left(\mu,\sigma^{2}\right)\left(x\right)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{\left(x-\mu\right)^{2}}{2\sigma^{2</math>}}}

이다.(σ\sigma:표준편차, μ\mu:평균)

일단 확률분포이므로 확률의 정의상 당연히 +N(μ,σ2)(x)dx=1\displaystyle \int_{-\infty}^{+\infty}N\left(\mu,\sigma^{2}\right)\left(x\right)dx=1이다.

2.2. 증명

아래 풀이를 보면 알 수 있듯 고등학교 수준으로는 도저히 저 식을 풀 방법이 없기 때문에 고등학교에서는 표준화한 뒤 이 문서의 3문단에 있는 표를 이용한다.
{{{#!folding 【이해를 위한 답지】1. 이중적분 풀이
\displaystyle \int_{ \mathbb{R} } { e^{-x^2} } dx</math>를 구하자. 막상 구하려 보니 부정적분이 생각이 나질 않네?[1] 그럼 발상을 바꾸어 보자.
(Rex2dx)2=(Rex2dx)(Rey2dy)\displaystyle \left( \int_{ \mathbb{R} } { e^{-x^2} } dx \right) ^2 = \left( \int_{ \mathbb{R} } { e^{-x^2} } dx \right) \left( \int_{ \mathbb{R} } { e^{-y^2} } dy \right)
이것을 조금만 더 정리하면
R2e(x2+y2)dxdy\displaystyle \int \int_{ \mathbb{R} ^2 } { e^{- \left( x^2 + y^2 \right) } } dx dy인 이중적분이 되는 것을 알 수 있다.[2]
이제 이 이중적분을 극좌표로 바꾸어 주자.
R2e(x2+y2)dxdy=02π0rer2drdθ\displaystyle \int \int_{ \mathbb{R} ^2 } { e^{- \left( x^2 + y^2 \right) } } dx dy = \int_{0} ^{2 \pi} \int_{0} ^{\infty} { r e^{- r^2 } } dr d \theta
마지막으로 계산해 주면
2π0rer2dr=2π012etdt=π\displaystyle 2 \pi \int_{0} ^{\infty} {r e^{-r^2}} dr = 2 \pi \int_{- \infty} ^{0} { {1 \over 2} e^t} dt = \pi
이므로
(Rex2dx)2=π\displaystyle \left( \int_{ \mathbb{R} } { e^{-x^2} } dx \right) ^2 = \pi , Rex2dx=π\displaystyle \int_{ \mathbb{R} } { e^{-x^2} } dx = \sqrt{\pi}
처음 듣는 용어가 나오니 어려워 보이지만 교양 미적분학 정도만 들으면 혼자서도 할 수 있는 비교적 쉬운 적분이다.
2. 기하적 풀이[출처]
함수 y=e^{-x^{2}}</math>를 yy축을 중심으로 회전하면 곡면 z=ex2y2z=e^{-x^{2}-y^{2}}을 얻는다. 이 곡면과 xyxy평면으로 둘러쌓인 영역의 부피를 구해 보자.
먼저 회전체의 부피 공식을 이용하여 구하면 x=lnyx=\sqrt{-\ln y}이므로
π01(lny)2dy=π[ylnyy]01=π\displaystyle \pi\int_{0}^{1}\left(\sqrt{-\ln y}\right)^{2}dy=-\pi\left[y\ln y-y\right]_{0}^{1}=\pi. [4]
한편 곡면 zz를 평면 x=ax=a로 잘라서 생기는 단면의 넓이를 적분해서도 구할 수 있다.
먼저 단면의 넓이를 구하면
ea2y2dy=ea2ey2dy\displaystyle \int_{-\infty}^{\infty}e^{-a^{2}-y^{2}}dy=e^{-a^{2}} \cdot \int_{-\infty}^{\infty}e^{-y^{2}}dy.
이제 넓이를 적분하면
[ea2ey2dy]da=ea2daey2dy=[ex2dx]2\displaystyle \int_{-\infty}^{\infty}\left[e^{-a^{2}}\int_{-\infty}^{\infty}e^{-y^{2}}dy\right]da=\int_{-\infty}^{\infty}e^{-a^{2}}da\int_{-\infty}^{\infty}e^{-y^{2}}dy=\left[\int_{-\infty}^{\infty}e^{-x^{2}}dx\right]^{2}인데, 이 값이 회전체의 부피 공식을 이용해서 구한 부피와 같아야 하므로
[ex2dx]2=π\displaystyle \left[\int_{-\infty}^{\infty}e^{-x^{2}}dx\right]^{2}=\pi,
ex2dx=π{\displaystyle \int_{-\infty}^{\infty}e^{-x^{2}}dx=\sqrt{\pi}}.
}}}||

2.3. 그래프

파일:720px-Normal_Distribution_PDF.svg.png
확률 밀도 함수. 빨간 색은 표준 정규 분포.

파일:720px-Normal_Distribution_CDF.svg.png
누적 분포 함수. 빨강은 표준 정규 분포. 이 그래프를 만드는 함수는 오차함수와 동치이다.

매개변수: 평균 μ, 분산 σ2 > 0

2.4. 중심 극한 정리

central limit theorem, CLT

중심 극한 정리 문서 참조.

2.5. 통계학의 약방의 감초

정규분포를 빼면 통계학이 존재할 수 없다고 보아도 무방하다. 통계학의 수많은 분포(카이제곱 분포, t-분포, F-분포)등은 사실상 정규분포의 수반성질들을 연구하기 위해 만들어진 분포이다.

한편으로는 통계적 분석이나 검정을 할 때 분포에 대한 가정이 필요한 경우, 설령 주어진 데이터가 정규분포와는 전혀 다른 모양들의 집합이더라도, 정규분포를 가정하고 계산할 수 있다. 모르는 분포라면 정규분포로 가정하는 것이 가장 일반적일 정도. 얼핏 보면 엉터리인 듯한 이런 방법은 실제로는 매우 잘 맞아 떨어지는 편. 역시 가우스는 천재였다

단순히 통계학의 응용분야라고 하기에는 너무 규모 커지고 연구성향이 달라진 계량경제학의 경우(물론 계량경제학자가 통계학 저널에 논문을 발표하거나 통계학자가 계량경제학 학술지에 논문을 투고하는 경우는 비일비재하다.), 학부 수준에서 쓰는 정규분포외의 분포들은 대부분 회귀모형이나 시계열모형의 오차항이 정규분포를 따른다고 가정할 때 도출한 통계량들의 분포로서 쓰인다. 다시 말해 정규분포를 가정하지 않으면 t분포, f분포, 카이제곱분포를 쓸 수가 없다. 추정한 모수의 단일 가설 검정에서의 t분포나 복합가설검정의 f분포, Chow-test 등을 떠올려보자.

더불어 통계학에서는 모르겠지만, 계량경제학은 실험을 통한 새로운 데이터의 추출이 불가능하다는 여건 때문에 이미 주어진 데이터가 정규분포가 아닐 때 이를 정규분포로 transform하는 방법에 대한 연구도 활발하다. 예컨데 임금분포를 히스토그램으로 그려보면 skewness 때문에 아무리 예쁘게 봐줘도 정규분포로 볼 수 없는 분포가 나온다. 대신에 임금 값에 로그를 씌우면 놀랍게도 정규분포에 보다 근사한 형태의 그래프가 나오는데, 이를 바탕으로 모형을 추정한 후 이 추정값을 exponential 하여 원래의 임금값을 추정하는 방법 등이 있다. 이렇게 monotone transform 후 추정, 그 후 다시 inverse transform은 통계학과 학부 수준 회귀분석 1에서도 많이하는 방법이지만 계량경제학자들은 사회과학 데이터의 한계를 극복하기 위해 이러한 정규분포화 기법의 개발에에 좀 더 집중하는 측면이 있다. 물론 적절한 변형을 통해 추출한 정규분포에 근사한 데이터에서 추정한 추정량이 일치성, 불편성, 효율성 등을 만족한다고 해서 이것을 역변환하여 도출한 추정량이 이러한 성질을 따른다는 보장은 없으므로 자신이 취한 transform 방법의 가정, 특징, 효과와 한계 등을 제대로 파악해야할 것이다. 물론 직접 이것을 연구하는 사람도 있겠으나 그 정도 되면 최소 통계학이나 계량경제학이나 경영학과 재무의 박사과정은 가야할 것이다.

3. 표준 정규 분포: z-분포

파일:attachment/normal.jpg
확률과 통계 수학책과 문제집 뒤에서 많이 보던 흙더미 모양의 표
코끼리를 삼킨 보아뱀의 모습이라 카더라

표준 정규 분포(z-분포, standard normal distribution)는 σ2을 아는 경우 μ를 구할 때 쓴다.

z-분포t-분포에서 귀무 가설 H0는 μ=0이나 μ12 등이고, 대립 가설 H1은 μ≠0나 μ1≠μ2같은 것이다. μ12처럼 변수가 2개인 경우 μ12=0으로 바꾸고 μ12를 d로 치환하면 d=0과 같은 변수가 하나인 식으로 바꿀 수 있다.

정규 분포 중에서도 평균이 0이고 표준 편차가 1인 것을 표준 정규 분포(standard normal distribution)라고 하며 따로 분류한다. z-분포라고 줄여 부르기도 한다. 모든 정규분포는 이 표준정규분포의 상수배를 평균만큼 이동시킨 형태이므로, 표준정규분포의 확률만을 알면 모든 정규분포의 확률을 알기 충분하다는 것. 정확히는 표준정규분포를 표준편차배 하고 평균을 더해주면 임의의 정규분포를 만들 수 있다.

위의 표준정규분포의 확률분포표는 양수 z의 값에 대해서 표준정규분포가 0에서 z 사이 있을 확률을 기록한 것이다. 로그표 읽듯이 왼쪽 숫자, 오른쪽 숫자를 합친 게 z가 된다. 예를 들어 위의 표에서 음영표시가 교차하는 부분에 있는 확률이 0.475 (47.5%)인 칸을 보면, z의 값은 1.9와 0.06을 합쳐서 1.96이다. 즉 절대값이 1.96 바깥에 있는 부분의 확률은 2*0.025=0.05, 즉 5%다. 이는 표준편차 1.96배 바깥의 범위의 확률이 5%라는 것을 의미한다.

z-분포로 하는 검정(test)을 z-검정(z-test)이라고 한다.

z-검정은 σ2을 알 때 μ를 구하는 것이고, t-검정σ2을 모를 때 μ를 구하는 것이다. 카이-제곱 검정은 σ2을 구하는 것이고, F-검정σ12 / σ22 을 구할 때 사용한다.

표준화 문서 참조.

표준정규분포표 보는 법!

모평균의 가설검정 문제풀이(σ를 아는 경우)

4. 이용 사례

정규분포는 본래 자연과학의 도구로 출발하였다. 가우스가 정규분포를 발견한 것은 소행성 세레스를 찾기 위한 문제를 풀면서였다. 그는 세레스의 위치를 측정한 오차가 정규분포를 따른다고 생각하였고, 이걸 활용해 그가 발명한 추정법이 최소제곱법(least square method)이다. [5]

지금은 정규분포는 통계학의 어디에서나 튀어나오므로, 통계를 쓰는 어느 누구도 피해갈 수 없다. 자연과학의 실험 뿐만이 아니라 사회학, 심리학의 실험 통계에서도 정규분포가 사용된다. 이는 특히 사회과학에서 대다수의 수포자문과출신 대학생들을 좌절시키는 데 일조하고 있다. 예로 빈부격차 수준과 같은 거시(巨視)적인 대상을 설명할 때 특히 중요하게 다뤄진다. 또 앞에서 말한 최소제곱법은 지금도 회귀분석(regression)이란 이름으로 통계학도들을 괴롭히고 있다. 분야를 막론하고 '시간에 따른 경향'을 생각하는 사람들은 누구나 이 골칫거리와 씨름해 봤을 것이다.

물론 학문을 하는 사람들이 아니더라도, 정규분포를 해석할 줄 알면 정규분포로 나타나는 많은 자료들을 이해하는 데 훨씬 유용하다. 보험사들이 보험료를 설정할 때 참고하는 '경험생명표'는 정규분포 형태로 나타난다.

정규분포가 아닌 자료를 비율에 맞추어 정규분포로 나타내는 것을 표준화(standardization)라고 한다. 정확히 말하자면 자료의 백분위 p만을 뽑아내서, 그 백분위에 대응되는 정규분포의 값을 z값, 표준화된 값, 혹은 표준점수라 부르는 것이다. 이 표준화는 주로 시험에서 많이 활용된다. IQ등의 지능검사라든지, 대학 학점이라든지, 미국의 SAT, 특히 성적표라든지.

고등학교 생명과학 I에서 우성 열성 몇 가지 던져주고 나타나는 것들을 확률로 만들라는 수행평가를 내주기도 하는데, 이게 별 것 아닌 것 같지만 형질 4가지가 나오기만 해도 전체 256가지인데 이걸 손으로 구하겠는가? 이때 정규분포를 고등학교 확률과 통계 수준으로 대충이라도 알고 있고, 계산기까지 있다면 3분 이내에 끝내버릴 수 있다. 물론 계산기가 없으면 좀 큰 수 암산하니 귀찮지만, 손으로 그리는 것보단 훨씬 낫다. 제출 직전 쉬는시간에 끝내버리고 제출할 수 있다.[6]

4.1. 성적표

너의 성적표를 탐구해주도록 하겠다.
보통 성적표의 9등급은 표준점수의 범위에 따라 매겨진다. 간단히 말하면
  • 원점수가 전체 중 상위 몇%인지 → 백분위
  • 백분위에 대응되는 평균 100, 표준편차 20의 정규분포값 → 표준점수
  • 표준점수의 범위 → 등급
으로 요약할 수 있다. 세부사항은 훨씬 복잡할 수 있다. 대학수학능력시험의 경우는 수능 등급제 항목에 기술된 것처럼 표준점수를 정수로 반올림하고 여기에서 다시 또 누적비율을 따지는 과정이 들어간다. 하지만 학생들 석차를 매길 수 있는 내신의 경우는 백분위를 따지는 것이 훨씬 편하므로, 굳이 표준점수를 뽑아내지는 않는다.

4.1.1. 내신 전교등수 때려 맞히기

대부분의 내신 성적표에는 등급만 표기되어 있을 뿐 전교등수는 교육정책에 의해 표기돼 있지 않다. 하지만 원점수의 전체평균과 표준편차가 알려져 있고, 원점수의 분포가 정규분포와 비슷하다면,[7] 자신의 원점수를 이용해 표준점수, 전교등수, 백분위를 대략적으로 구할 수 있다.[8]

계산은 간단하다. 만약 원점수의 분포가 정확한 정규분포를 따른다면, 자신의 원점수를 표준화해 표준점수로 만들 수 있다. 이 표준점수로 전체 백분위를 구하고, 전체 백분위에 해당하는 전교등수를 계산하면 끝.
  • 표준점수 : \displaystyle 20\times\frac{\text{(원점수)}-\text{(평균)}}{\text{표준편차}}+100
  • 백분위 : \displaystyle \frac{\text{(원점수)}-\text{(평균)}}{\text{표준편차}}의 값이
(1) 양수라면 정규분포표로 그 값에 해당하는 확률을 구한 후 0.5에서 빼고 100을 곱한다.
(2) 음수라면 0.5에 그 값을 더하고 100을 곱한다.
  • 전교등수 : \displaystyle \frac{\text{(이수 전교생수)}\times\text{(백분위)}}{100}

노파심에서 말하겠만 물론 이 숫자 모두는 당연히 '추산'이다. 연속량을 이산량으로 바꾸고, 숫자를 반올림하고, 정규분포로 근사하는 과정에서 당연히 오차가 생길 수 있기 때문.

예를 들어 원점수가 90, 평균이 60, 표준편차가 20인 누군가의 성적표가 있다고 치자. 이 학생의 표준점수는 20×906020+10020\times\frac{90-60}{20}+100으로 130점이고, 이를 표준화하면 1.5이다. 1.5의 표준정규분포의 값은 상단의 표에 따라 0.4332이므로 이 학생의 백분위는 0.5-0.4332니 약 0.067. 따라서 대략 상위 6.7%이므로(백분위는 93.3%) 이 학생의 성적은 2등급일 가능성이 크다.
{{{#!folding 【※백분위-등급 대응표】백분위(상위)등급
~4% 1
4%~11% 2
11%~23% 3
23%~40% 4
40%~60% 5
60%~77% 6
77%~89% 7
89%~96% 8
96%~ 9
}}}||

4.2. 세상은 정규 분포

파일:attachment/정규분포/jeonggyu.jpg
자기 주변은 온통 x인데, 실상은 그 x가 굉장히 소수일 수 있다는 것을 보여주는 짤방.

트위터의 누군가가 '주변 사람들이 구글만 쓰던데 네이버는 누가 쓰죠?' 라는 트윗을 올린 것에서 유래한다.

파일:attachment/정규분포/jeonggyu2.jpg

통계 인원이 적으면 일반적인 통계치가 통계 인원 내에서 적어 보일 수가 있지만 결국 많으면 많아질수록 통계치에 근접해지는 것을 뜻한다. 결국 '소수자는 소수자일 뿐'이라는 것을 나타내는 것. 굉장히 많은 상황에 이 그래프를 보여줄 수 있다. 대표적으로 선거 투표 개표 결과가 자기 생각과 다르게 나왔을 때 "나랑 내 주변 사람들은 아무도 A후보를 안뽑았는데 어떻게 A후보가 당선될 수가 있죠?"라는 의문을 갖는 사람에게 보여줄 수 있다. 선거 투개표 결과는 여론조사(표본조사)로도 얻을 수 없을 만큼 어마어마한 숫자의 모집단에 대한 결과이므로 '모수', 즉 '모평균', '모분산' 등에 해당한다. 이런 결과는 당연히 정규분포 근사가 가능하므로 일반 사람의 생각은 그저 저 중에 하나, 실제 몇명의 가치로는 0에 수렴한다.(실제로 정규분포에서 특정 지점의 확률은 0이다)

5. 관련 문서



[1] 사실 이 함수의 부정적분은 초등함수로 표현할 수 없다. 오차함수 문서 참조.[2] xx가 변한다고 뒤의 Rey2dy\int_{ \mathbb{R} } { e^{-y^2} } dy에 영향을 주는 것도 아니고, 반대로 yy가 변한다고 Rex2dx\int_{ \mathbb{R} } { e^{-x^2} } dx에 영향을 주는게 아니기 때문에 변환할 수 있다.[출처] https://terms.naver.com/entry.nhn?docId=3572719&cid=58944&categoryId=58970[4] limy0ylny=0\displaystyle\lim_{y\to0} y\ln y=0[5] 최소제곱법에 대해 자세한 것은 네이버캐스트의 이곳 을 참고. 아쉽게도 이 글은 정규분포와의 연관성을 전혀 언급하지 않고 있다.[6] 다만, 고3 때 확통을 배우는 학교에서는 선생님이 채점을 거부할 수도 있으니 주의하자. 그런데 대놓고 조합 식을 써놓아도 그냥 받아주는 것 같다.[7] 예를 들어 시험이 아주 쉬워서 만점자가 수두룩했다거나, 매우 어려워서 잘하는 몇 명 빼고 다 죽을 쑨 경우라면, 혹은 해당 (선택)과목 이수생 수가 매우 적은 경우라면 이 추산은 거의 맞지 않을 것이다.[8] 만일 전체 평균과 등급컷 하나가 알려져 있다면 표준편차를 구할 수 있다. 그 다음 다른 등급컷까지 모두 계산할 수 있다.