최근 수정 시각 : 2024-08-24 13:02:31

생존 분석

통계학
Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 기반 실해석학 (측도론) · 선형대수학 · 이산수학
확률론 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량 평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
통계적 방법 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 ·
자료 시각화
도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 }}}}}}}}}


1. 개요2. Kaplan-Meier 추정방법
2.1. 로그 순위 검정법
3. Cox 비례위험모형

1. 개요

/ survival analysis

생존율을 산출하고 생존시간을 추정하는 통계적 방법. 생존함수 추정에는 모수적 방법, 준모수적 방법 (Cox 비례위험모형), 비모수적 방법 (생명표법), Kaplan-Meier 추정방법이 있다.

생존분석의 이름 유래는 사망과 생존을 다룬 것에서 유래했기 때문에 생존분석이지만, 꼭 생사가 달린 문제에만 쓰는 연구방법론은 아니다. 생존분석은 기본적으로 사건의 발생여부(예:사망, 결혼, 임신, 출산, 취업 등)와 사건이 발생하기까시 소요된 시간에 대한 분석방법이다. 예를 들어 혼인 당시 임금근로자였던 아내가 출산 전후 휴가, 육아 휴직을 활용가능한 집단과 그렇지 않은 집단이 있다면, 이들이 혼인 이후 첫째아 출산까지 얼마나 시간이 걸리는지 조사할 수 있다. 이때 '생존확률'이라는 것은 이 연구에서는 '무자녀 상태로 남아있을 확률'과 같은 것이 되는 것이다. 즉, '생존확률'이 '사망'이라는 사건이 일어나지 않고 유지되는 확률을 의미하듯 이 경우에는 '출산'이라는 사건이 일어나지 않고 유지되는 확률을 의미한다. 이와 같이 생존분석이라는 용어자체가 적용대상에 따라 다소 모호하게 들릴수 있으므로 생존분석뿐만 아니라 event history 분석이라고 불리기도 한다.

대학원에서 이것만 배워도 한 학기 배울 만큼, 두꺼운 책 한 권으로도 안 될 만큼 복잡한 내용이다.

생존분석의 단점 중 하나는 자발성을 고려하지 못 한다는 것이다. 예를 들어 중병으로 죽는 사람에 대해 의학적으로 생존분석을 실시했다고 하자. 자살하는 사람이 있을 것인데 이들은 해당 병으로 죽는 게 아니므로 이 영향을 고려하지 않으면 엄밀히 말해서 오류가 발생하게 된다. 이 문제는 의학에서는 별로 중요하지 않다. 자살율은 10만명당 수~수십명 수준에 불과하기 때문에 고려하더라도 결과에 큰 영향을 주지 못 한다. 하지만 사회과학에서 사망 이외의 문제를 생존분석으로 다루게 될 경우에는 매우 중요해진다. 가령 출산을 다룰 경우, 우리나라 미혼 여성 근로자 중 출산 계획이 없는 사람은 38.3%에 달한다. 육아 휴직을 쓰기 두려워서 못 낳는 경우도 있고, 애 낳는 것이 아플 것 같아 두려운 사람, 시간은 많이 남는 공공기관의 기혼 여성이지만 '이 박봉 모아서 물려줘봤자 흙수저일텐데 그럴 바에는 안 낳겠다'며 자발적으로 딩크족을 선택하는 사람도 있고, 아이를 낳고 싶지만 남편이 불임이라서 조사내용과 상관없이 못 낳는 사람도 있다. 이 때문에 패널 자료에만 의존하면 안 되고 질문지법 등 자발성을 파악할 수 있는 정보의 수집을 병행해야 한다.

또, 이탈 경험을 각 개인마다 한 번으로 한정하여 분석할 경우 여러 번 이탈한 사례를 고려하지 못 하게 된다. 의학에서 사망을 다룰 때는 역시 문제가 안 된다. 두 번 죽는 사람은 없기 때문이다. 하지만 출산을 연구할 경우 두 명 이상 낳은 사람은 고려하지 못 하게 된다. 이런 문제를 해결하려면 재발 사건 생존분석[1]을 해 줘야 한다.

2. Kaplan-Meier 추정방법

특정 상태의 변화 발생(=사건의 발생)에 따라 계산이 이루어진다. 이와 같은 계산에서는 누적한계추정량 [2]을 사용하게 된다. 누적한계추정량은 상태의 변화가 해당 측정 시점을 지나 일어날 확률을 의미한다.[3]

이 때 표본이탈 등의 사유로 우측으로 절단된 표본에 대해서는 절단된 변수임을 나타내는 가변수[4]를 생성하여 분석하게 된다.[5]

두 군 사이에서 유의미한 차이가 있는지 확인하기 위해서는 Log-Rank (로그 순위) 검정과 Wilcoxon 검정을 이용한다.

이를 통해 경과기간(X축)-'시간 경과에 따른 위험 추이를 고려해, 예측 값이 포함된 누적 사건 발생률 probability of events' (Y축)의 Kaplan-Meier Curve를 그릴 수 있다. 이 때 주의해야 할 점은 경과기간(X축)-'사건 발생 확률 event rate'(Y축)으로 착각하지 않는 것이다. 이런 착각을 저지른 논문을 의학계의 유명 저널인 Lancet에 2007년 게재하였다가 2013년경 문제가 밝혀져 게재 철회된 적이 있다.[6]

2.1. 로그 순위 검정법

log-rank 검정에서는 자유도 1이면 카이제곱이 3.84보다 큰 경우 두 군 사이에 유의미한 차이가 있다고 주장할 수 있다.

3. Cox 비례위험모형

Cox’s proportional hazard model (1972)

Kaplan-Meier 추정방법을 통한 사건발생 양상에 대한 차이 분석은 각 계층(strata)별로 사건 이행 가능성의 차이를 한 눈에 살펴볼 수 있다는 장점이 있지만 구분짓고자 했던 특성 외의 요인들을 통제하지 않은 상태에서 그에 따른 차이 정도만을 살필 수밖에 없다는 한계를 지닌다. Cox 비례위험모형을 사용하면 다양한 속성[7]이 특정한 사건 발생[8]에 미치는 영향을 분석할 수 있다. 우측 절단된 표본이 존재할 때에도 다양한 특성들을 동시에 고려하여 일치성을 가진 추정량을 얻을 수 있다.[9]

가령, 육아 휴직이나 출산 전후 휴가 등의 조치가 첫째아 출산가능성에 영향을 주는지에 대한 연구를 진행한다고 하자. 그리고 시점별로 각 집단의 출산을 조사한다고 하자. 그런데 이 때 최종 조사시점까지 출산한 경험이 없는 표본이 존재하는데 이럴 경우 Cox 비례위험모형 없이는 일치성 있는 추정에 문제가 발생한다. Cox 비례위험모형은 생존시간에 대해 어떠한 분포도 가정하지 않는다. 따라서 Cox 비례위험모형을 이용하면 이들을 누락시키지 않고 일치성 있는 추정을 할 수 있게 된다.

생존분석 중 가장 많이 활용되는 기법이다.

비례성 가정이 성립해야 Cox 비례위험모형을 사용할 수 있다. 비례성 가정이란 hazard ratio가 시간에 관계없이 일정한 값을 나타낸다는 가정이다. 비례성 가정 여부를 검증하기 위해 독립변수의 Schoenfeld 잔차와 사건 발생 순서를 나타내는 변수와의 상관분석을 실시해야 한다.

Cox 모형은 관측된 생존시간에 동일한 값이 존재하지 않는 경우를 가정하여 설명한다. 하지만 동일한 생존시간 하에 사건을 겪는 자료(ties, tied survival time)가 보고되는 경우가 생존자료의 대부분이다. 따라서 이런 가정이 위배되면 Exact partial likelihood, Breslow 근사, Efron 근사 등의 방법을 써줘야 한다. [10] Breslow 근사, Efron 근사는 간소화된 추정 방법이지만 정확도가 떨어진다는 단점이 있다. Exact partial likelihood 방법은 공분산 효과를 정확하게 추정할 수 있다.


[1] recurrent events survival analysis[2] product limit estimator. 또는 Kaplan-Meier 추정량 (Kaplan-Meier estimator)[3] 출처: 배호중, 천재영, 출산전후 휴가 및 육아휴직 활용가능성이 출산에 미치는 영향 : 신혼여성을 중심으로, 여성연구 2018년 1호[4] 더미 변수. dummy variable[5] 예를 들어, 결혼 후 출산까지 시간이 얼마나 걸리는가에 대한 연구라면 최종 조사 시점까지 무자녀 상태인 기혼 가구는 우측절단된 것으로 간주해도 좋다.[6] 문제의 'Kaplan-Meier Curve'는 14쪽 (총 42쪽)에서 볼 수 있다.[7] 생존 시간에 영향을 미치는 인자를 찾기 위해 생존분석이 개발되었기 때문에 위험요인 (risk factor)라고 부른다.[8] 생존.[9] 출처: 배호중 & 천재영 (2018)[10] 출처: 2003년, Scheike & Sun 2007 등, 2016년.