최근 수정 시각 : 2024-08-14 16:45:16

고정지수

Fixation index에서 넘어옴



{{{#!wiki style="margin: -5px -10px; padding: 5px 10px; background-image: linear-gradient(to right, #3300ff, #9966ff)"
'''[[집단유전학|집단유전학
{{{#!wiki style="font-family: Times New Roman, serif; font-style: Italic; display: inline;"
]]'''
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px)"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<tablewidth=100%> 기반 학문
유기화학 · 생물학(분자생물학 · 유전학 · 계통 생물학) · 수학​(선형대수학 · 미분적분학 · 수치 해석학 · 자료구조) · 통계학
<colcolor=#000,#fff> 기반 및 법칙
멘델 유전 법칙 · 자연 선택 · 유전적 부동(유전자 병목현상 · 창시자 효과) · 유전자 흐름(종분화 · 고리종) · 하디-바인베르크 법칙(멘델 집단) · 집단구조 · F-통계량(FST · FIS ·FIT) · 발룬드 효과 · 할데인의 딜레마 · 베르그만 법칙 · 알렌 법칙 · 볼프의 법칙 · 로지스틱 방정식 · 먹이사슬 · PCR · SNP(SSCP · AFLP · RFLP · RAPD ·) · STR · 인간 게놈 · 인간 게놈 프로젝트 · Fitness landscape · 피셔의 자연선택의 기본정리 · 무한 대립유전자 모델 · Ewens의 추출 공식 · Watterson 추정량 · 타이포스트로피 변형 · 힐-로버슨 간섭
현상 & 연구
진화(수렴적 진화 생태적 지위 · 지위의 미세분화 · 공동진화 · 포괄 적합도) · 고고학(고대인류 · ANE · 아나톨리아 수렵채집인 · ANS · WSHG · EHG · WHG) · 종분화-생식적 격리( ) · 인류 분산 경로 · 어족(우랄-알타이어족 · 알타이 제어 · 우랄어족) · 생활양식(수렵채집인 · 반농반목 · 유목민 · 농경민) · 문화(말타-뷰렛 문화) 상 염색체 다양성 · 베스터마르크 효과 · 형질(어깨너비 · · 피부색 · 두형) · 질병(바이러스 · · 정신질환 · 유전병) · 하플로그룹(하플로그룹/집단 · 하플로그룹 지도)
하플로그룹
Y-DNA (부계) <colcolor=#000,#fff>하플로그룹 A · 하플로그룹 BT(하플로그룹 B · 하플로그룹 C · 하플로그룹 D · 하플로그룹 E · 하플로그룹 F · 하플로그룹 G · 하플로그룹 H · 하플로그룹 I · 하플로그룹 J · 하플로그룹 K (Y-DNA) · 하플로그룹 L) · 하플로그룹 M · 하플로그룹 NO(하플로그룹 N · 하플로그룹 O) · 하플로그룹 P · 하플로그룹 Q · 하플로그룹 R
mt-DNA (모계) 하플로그룹 D (mt-DNA)
관련 문서 & 개념
유전자(유전체 · 성염색체) · 유전자 검사(23And me, 유후) · 인종(북유럽인 · 북아시아인 · 동남아시아인 · 동유럽인 · 동아시아인 · 서유럽인 · 서아시아인 · 남유럽인 · 남아시아인 · 북아프리카인 · 아프리카인) · 민족(에스니시티) · ISOGG
}}}}}}}}}}}} ||

1. 개요2. 소개3. 의의4. 정의
4.1. 대립유전자 빈도 분산 관점4.2. 혈통에 의한 타당성 관점4.3. 기본형
5. 해석6. 적용
6.1. 인간
7. 유도8. 관련문서

1. 개요

고정지수(Fixation index, Fst, [math(F_{ST})])는 개체의 유전적 거리를 측정하는 척도이고, 현대 하디-바인베르크 법칙과 더불어 집단유전학의 기반을 다진 개념이다.

2. 소개

Fixation index(이하 Fst)는 Sewall Wright[1] 이라는 매우 저명한 수리생물학자에 의해 탄생된 개념이며, F-통계량 등을 개발한 학자다.

즉 수리생물학과 분자생물학(분자유전학)이 결합된 형태의 산물이며 현대 집단유전학의 태동을 일으켰다.

1940년대와 1950년대에 독립적으로 연구한 Sewall Wright, Gustave Malécot은 개체 집단 내 및 집단 간 유전적 다양성의 분할을 설명하기 위한 도구로 F-통계를 도입했다. 1931년에 출판된 논문[2]에서 Wright는 이미 집단 간의 유전적 분화를 일으키는 과정에 대한 포괄적인 설명을 제공했다.

그는 집단 간의 유전적 분화량이 중요한 진화 과정(확산(분산), 돌연변이, 유전적 부동)의 속도와 예측 가능한 관계를 가지고 있음을 보여주었다.

예를 들어, 이주가 많은 대규모 개체 집단은 유전적 차별성이 거의 없는 경향인 반면, 이주가 적은 소규모 집단은 차별화가 높은 경향이 있다. Fst는 이러한 유전적 차별성에 대한 편리한 척도이며, 결과적으로 Fst 및 관련 통계는 집단 및 진화 유전학에서 가장 널리 사용되는 기술 통계 중 하나다.

그러나 Fst의 범용성은 유전적 분화 척도 그 이상이다.

Fst는 집단 간 대립유전자 빈도의 분산과, 반대로 집단 내 개인 간의 혈통에 따른 동일성 여부와 직접적인 관련되어 있다. Fst가 작다면 이는 각 모집단 내의 대립유전자 빈도가 유사하다는 것을 의미한다. 즉 개체간 혈통이 가깝고 유전적 다양성이 적단 것이다.

반대로 크다면 대립 유전자 빈도가 다르다는 것을 의미한다. 자연 선택이 일부 집단의 특정 유전자좌에서 다른 대립 유전자보다 하나의 대립 유전자를 선호한다면, 해당 유전자좌의 FST는 집단 간 차이가 순전히 유전적 부동의 결과인 유전자좌보다 더 클 것이다.

따라서 FST 의 단일 위치 추정치를 게놈 전체 배경과 비교하는 게놈 스캔을 통해 diversifying selection 대상이 된 게놈 영역을 식별할 수 있다. [3][4][5] 또는 인구 통계학적 이력이 상염색체의 유전적 변이와 다른 방식으로 성염색체의 유전적 변이에 영향을 미치는 경우 성염색체 마커에서 파생된 FST 의 추정치는 상염색체 마커에서 파생된 것과 다를 수 있다.

집단 내의 유전적 다양성을 파악하기 위해 사용하며, 앞서 상술했듯 유전적 거리를 파악하기 위한 척도이다.

Fst는 주로 상염색체를 기준으로 유전적 거리를 추정하는데, 그 이유는 성염색체와 달리 유전적 정보를 성별에 관계없이 상속받기 때문이다. [6] 후에 설명하겠지만 Fst는 근본적으로 대립유전 빈도의 분산과 혈통에 따른 동일성 여부를 통해 서로 다른 집단 간의 대립 유전자 빈도 분산을 측정하여 상염색체 상의 유전적 차이를 척도화 시킨다. 그러므로 상염색체를 이용하는 것이 합리적이다.

여기서 성염색체는 어떻게 되냐고 질문할 수 있는데, 성염색체도 물론 유전적 구조 일부분을 측정하거나 유전적 다양성을 측정하는 데 사용될 수 있지만, 주로 비율에 따라 다른 접근 방식을 필요로 한다. 즉, 상염색체에 비해 더 복잡하단 것이다.

왜냐하면 성염색체성별에 의해 결정되기 때문이다. [7]

예를 들어, 성염색체남성에게는 하나의 복제본(XY)만 있지만 여성에게는 두 개의 복제본(XX)이 있는데, 이로 인해 성염색체를 사용하여 전체적인 모집단 간의 유전적 구조를 비교하는 것이 더 복잡해질 수 있는 등 말이다.

애초에 성염색체로 추정하는 방법들은 하플로그룹과 같이 생물의 기원지나 확산(분산) 경로, 공통조상 같은 성별에 따른 특정 분류를 할 수 있는 특수한 개념들에서만 적용되지 이렇게 집단 단위의 유연관계를 파악하는데 있어선 일반적으로 통용되지 않는다.

오히려 하플로그룹 같은 개념으로 집단 단위의 유연관계를 파악한다? 이거 부터가 그냥 말이 안된다. 비유해서 이유를 설명해보자면 대한민국에 서울에 인구[8]가 제일 많다는 이유로 한국 국민의 고향을 모두 서울에서 태어났다고 해석하는 것이기 때문이다.

3. 의의

집단유전학이나 법의학 등에서 친연관계나 유전적 거리를 파악할 때 FST를 중점적으로 사용하는 이유는 다음과 같다.

첫 째, 해석하기가 훨쒼 쉽다.

FST는 모집단별 추정치 또는 해당 추정치의 평균을 통해 표본에 포함된 모집단과 관련하여 정의된다.

F ST는 표본에 포함된 인구뿐만 아니라 표본이 추출될 수 있는 모든 모집단 간의 대립유전자 빈도 분포와 관련하여 정의되고 대조적으로 해석할 수 있다.

F ST 추정이든 뭐든 유연관계를 파악하기 위해선 기본적으로 유전자 샘플링을 해야 하며, 이는 특별한 주의가 필요한 수준의 복잡성과 미묘함을 도입함으로써 유연관계에 대한 신뢰성이 높아진다.

마지막으로, 많은 동물 개체군, 특히 인간 개체군에서 하디-바인베르크 비율에서 개체군 내 이탈은 작다.

즉, 그러한 이탈은 무작위 교배로부터의 이탈에 관한 것보다 집단 내의 유전적 하위분포에 대해 더 많은 것을 드러낼 수 있다.

더욱이, F IS [9]의 추정이 식물이나 동물의 근친 교배 집단의 교배 패턴에 대한 통찰력을 제공할 수 있지만, 모계-자손 유전자형 조합에 대한 직접적인 분석은 일반적으로 FIS 보다 FST가 더 유익하고 신뢰할 수 있다.

Fst는 PCA보다 더 정확한 유연관계 파악 척도로 사용되고, PCA는 여러가지 문제점을 내포하고 있다.

추상적으로 설명했지만 상술했듯 Fst는 유전적 거리를 나타내는 개념이며, 적으면 적을 수록 친연관계에 놓여 있고, 높으면 높을 수록 유전적 거리가 먼 관계이다.

이를 반복해서 설명하는 이유는 그만큼 Fst가 가지고 있는 본질적인 의미가 괭장히 중요하기 때문이다.

4. 정의

[math(F_{ST})]의 형태는 정의에 따라 다른데, 어떤 관점을 기준으로 삼냐에 따라 바뀌기 때문이다. 이때 두 가지의 정의로 나뉘는데, 각각 (1)대립 유전자 빈도의 분산, (2)혈통에 따른 동일성 여부로 말이다.

4.1. 대립유전자 빈도 분산 관점

먼저 (1)의 경우는 다음과 같이 나타난다. [10] [11]

{{{#!wiki style="text-align: center"

여기서

[math(F_{ST})] : 대립 유전자 빈도 분산에 의한 유전적 거리

[math(\sigma_S^2)] : 서로 다른 하위 모집단 간의 대립 유전자 빈도의 분산

[math(\sigma_T^2)] : 전체 집단에서 대립유전자 분산

[math(\bar S)] : 전체 집단에서 대립유전자 평균 빈도


을 의미한다. 특히 [math(\sigma_S^2)]은 분자에 위치한 만큼 하위 모집단의 크기에 따라 가중치를 부여한다. 하위 모집단의 크기가 클 수록 유전적 다양성이 높아진단 의미이고, 이는 곧 특정 개체집단간 유전적 거리가 높아짐을 의미한다.

상술했듯 대립 유전자 빈도의 분산으로 추정하는 방법은 상염색체 단위다.

만약 모집단이 근친교배를 했다면 다음과 같이 나타난다.

{{{#!wiki style="text-align: center"

여기서

[math(F_{ST})] : 대립 유전자 빈도 분산에 의한 유전적 거리

[math(F)] : 총 근친 계수

[math(f)] : 기대치로부터의 모집단 내 평균 이탈 정도


를 의미한다. 사실 근친교배를 통한 FST는 조금 더 특수한 게 모집단의 개인 비율 상수 [math(c)]에 의해 결정되기 때문이다.

4.2. 혈통에 의한 타당성 관점

다음으로 혈통에 따른 동일성 여부는 다음과 같이 나타낸다. [12]

{{{#!wiki style="text-align: center"

여기서

[math(F_{ST})] : 혈통에 따른 동일성 여부에 의한 유전적 거리

[math(c_i)] : [math(i)]번째 대립유전자 빈도상 집단

[math(p_i)] : [math(i)]번째 상대적 크기의 실제 집단

[math(\bar S)] : 전체 집단에서 대립유전자 평균 빈도


를 의미한다. 하지만 혈통에 따른 유사성의 위 같은 식은 너무 길기에 대안으로 다음과 같은 방법이 고안 됐다.

{{{#!wiki style="text-align: center"

여기서

[math(F_{ST})] : 혈통에 따른 동일성 여부에 의한 유전적 거리

[math(f_0)] : 두 개체의 혈통에 의한 동일성 확률

[math(\bar f)] : 전체 인구 중 두 개인이 혈통에 따라 동일할 확률


다만 위 식은 혈통에 따른 동일성 여부에 의한 Fst를 의미하긴 하지만 개체간 형질 동위 확률을 알아야 쓸 수 있고, [math(f_0)]는 두 개체가 동일한 하위 집단에 속해야 한다는 것이 전제되어야 한다.

결과적으로 위 식들을 통해 전체 모집단과 비교하여 동일한 하위 모집단의 두 개체가 얼마나 더 가까운지를 측정하는 것으로 해석될 수 있으며, 돌연변이 비율이 작은 경우, 하위 집단에 의한 동일성 확률을 융합 시간과 연결함으로써 더욱 명확해질 수 있다.

4.3. 기본형

FST의 기본적인 형태로, 일반적으로 FST를 나타내는 척도이다. [13][14]

앞서 소개한 위 두 가지의 경우는 특수한 경우에만 성립하는 것으로, 쉽게 측정할 수 없다는 근본적인 문제가 있다. [15]

그렇기에 이에 따라 다양한 추정치가 제안되었는데, DNA 서열 데이터에 적용할 수 있는 특히 간단한 추측법은 다음과 같다.

{{{#!wiki style="text-align: center"

여기서

[math(F_{ST})] : 유전적 거리

[math(H_T)] : 전체 모집단(두 집단)에서 추출한 개인 간 대립유전자 차이 평균 수

[math(H_S)] : 동일한 두 모집단의 두 개인 간의 대립유전자 차이 평균 수

5. 해석

파일:FST 예.png

FST의 존재 범위는 N(0, 1)이며 완전 0이 의미하는 것은 완전히 균등한 무작위 교배, 즉 팬믹시아를 뜻한다. [16]

0에 가까울 수록 모든 모집단에서의 유전적 구조가 유사함, 즉 유전적 거리가 가까움을 의미하고 1에 가까울 수록 모든 모집단에서의 유전적 구조가 서로 다름을 나타낸다.

즉, Fst가 0에 가까우면 동일한 혈통을 공유할 가능성이 있으며, 각각의 공통조상이 있다고 볼 수 있다.

종을 기준 짓는 것도 이 Fst로 결정하는데, 보통 다음과 같은 형태로 나뉜다.
고정지수 유연관계([math(F_{ST})]) 의미
[math(F_{ST} = 0.0)] 모든 모집단 간에는 유전적 차이가 없음. 즉, 모든 모집단이 동일한 유전적 특성 공유하며, 유전적 유사성 매우 높음.[17]
[math(0 < F_{ST} < 0.05)] 모집단 간의 유전적 차이가 매우 작거나 미미함. 모집단 간의 유전적 구조가 유사하지만 약간의 차이가 있을 수 있음.
[math( 0.05 ≤ F_{ST} < 0.15)] 모집단 간 유전적 차이가 중간 정도. 모집단 간에 일부 차이가 있으나, 여전히 유전적 유사성이 상당히 높을 가능성이 있음.
[math(0.15 ≤ F_{ST} < 0.25)] 모집단 간 유전적 차이가 크다는 것을 의미함. 모집단 간에는 유전적 차이가 있고, 유전적 구조가 다르게 형성되었을 가능성이 있음.
[math(0.25 ≤ F_{ST} < 0.5)] 모집단 간 유전적 차이가 매우 크다는 것을 의미함. 각 모집단은 다른 유전적 특성을 가지고 있으며, 유전적 유사성이 상당히 낮을 수 있음.
[math(0.5 ≤ F_{ST} < 1.0)] 아종으로 분류할 수 있는 단계. 유전적 유사성은 거의 0에 수렴함.
[math(1.0 ≤ F_{ST})] 완전 새로운 으로 분류하는 단계. 더 이상 모집단에서 기존 개체간 교배를 통해 생식가능한 자손을 만들 수 없음.

6. 적용

6.1. 인간

인간의 FST는 거시적인 분류에선 인종적으로, 미시적인 분류에선 민족 단위로 나타나게 된다. 보통 민족 단위의 개념은 역사적,문화인류학적으로 사용되는 개념이지만 유전적 거리 관점에선 지역적 범용성 등을 고려한 세부적이고 정확한 단위라고 볼 수 있다.

가령 동북아시아인과 시베리아인이라고 하면 '시베리아'라는 지역에서 거주하는 민족들이 한 두 족이 아니기 때문에 이들 사이의 유연관계를 파악하는 데엔 너무 범용적이라 무리가 있는 이유가 있다.

7. 유도


(1)FST를 유도하기 위한 방법인데, 우선 유전적 다양성의 척도를 도출해야 한다.

유전적 다양성을 계산하는 대표적인 방법은, 두 개체군의 단일 유전자좌에서 두 개의 대립유전자를 분리하는 작업이다.

첫 번째 집단에서 대립유전자 A1의 빈도는 p1로 표시되고 , 두 번째 집단에서 대립유전자 A1의 빈도는 p2로 표시된다.

이때 첫 번째 모집단에서 유전자형들을 각각 A 1 A 1 빈도 -> X_1, 유전자형 A 1 A 2 빈도 -> X_2 로 선언한다. 두 모집단의 유전자형 빈도는 다음 방정식으로 나타낸다.

[math(X_{11,1} = p_1^2 +f_1p_1(1-p_1))]

[math(x_{12,1} = 2p_1(1-p_1)(1-f_1))]

[math(x_{22,1}= (1-p_1)^2 + f_1p_1(1-p_1))]

---

[math(X_{11,2} = p_2^2 + f_2p_2(1-p_2))]

[math(x_{12,2} = 2p_2(1-p_2)(1-f_2))]

[math(x_{22,2} = (1-p_2)^2 + f_2p_2(1-p_2))]


f 1 과 f 2 는 종종 집단 내 근친교배 계수로 선언하지만, 이는 오해의 소지가 있다.

실제로 f는 유전자형이 하디-바인베르크 비율일 때 예상되는 빈도와 비교하여 이형접합체의 빈도를 측정한 것이다.

즉, 멘델 집단으로 예상되는 집단 내에서 무작위 교배를 함으로써 근친교배의 양상처럼 보이는 것이지 실제론 아니다.

그러한 근친교배는 하디-바인베르크 기대치에 비해 이형접합체의 결핍으로 이어지므로 두 집단 모두에 근친교배가 있을 때 f1 과 f2는 양의 값을 갖게 된다.

그러나 개인이 근친교배를 피하거나 있다면 이형접합체는 하디-바인베르크 기대에 따라 예상되는 것보다 더 흔할 것이며 f1 과 f2 는 음수 가 될 것이다.

간단히 말해서, f1 과 f2 는 모집단 내 유전자형 비율이 하디-바인베르크 기대치와 얼마나 다른지를 측정한 것이며, f의 양수 값은 이형 접합체 의 결핍을 나타내고, 음수 값은 초과를 나타낸다. (heterozygote advantage)

이제 첫 번째 모집단의 개인 비율 c 와 두 번째 모집단의 개인 비율 1 – c 로 구성된 결합 표본의 유전자형 빈도를 고려해야한다.

각 모집단의 유전자형 빈도가 각 모집단의 대립 유전자 빈도를 기반으로 한 하디-바인베르크의 양상과 다른 방식과 유사하게 갖고, 결합된 표본의 유전자형 빈도는 평균 대립 유전자 빈도를 기반으로 한 하디-바인베르크 양상 다르다.

이때의 대립유전자 빈도는 다음과 같이 나타낸다.

[math(x_{11} = S^2 + FS(1-S))]

[math(x_{12} = 2S(1-S)(1-F))]

[math(x_{22} = (1-S)^2 +FS(1-S))]

여기서 [math(S = cp_1 + (1 – c ) p_2)] 가 결합된 표본에서 A 1 에 대한 평균 대립유전자 빈도이고, F 는 총 근친교배 계수다.

이때 F는 다음과 같이 표현된다.

[math((1-F) = (1-f)(1-F_{ST}))]

여기서 [math(f = c f_1 + (1 – c ) f_2)]는 하디-바인베르크 기대치로부터의 모집단 내 평균 이탈값을 의미하고, F_{ST}는 모집단 간 대립유전자 빈도 차별화의 척도다.

그렇기 때문에 [math(F_{ST})]를 다음과 같이 정의한다.

[math(F_{ST} = \frac{\sigma_S^2}{\sigma_T^2} = \frac {\sigma_S^2}{\bar S(1-\bar S)})]

근친교배시

[math(F_{ST} = 1 - (\frac{1-F}{1-f}))] 로 나타낸다.

8. 관련문서


[1] 하버드 대학교에사 박사 학위를 받았으며, F-통계량 등 수학, 통계학, 생물학 막론하고 다방면으로 심오한 업적을 남겼다.[2] Wright S. Evolution in Mendelian Populations. Genetics. 1931 Mar;16(2):97-159. doi: 10.1093/genetics/16.2.97. PMID: 17246615; PMCID: PMC1201091.[3] Akey JM, Zhang G, Khang K, Jin L, Shriver MD. Interrogating a high-density SNP map for signatures of natural selection. Genome Res. 2002;12:1805–1814.[4] Weir BS, Cardon LR, Anderson AD, Nielsen DM, Hill WG. Measures of human population structure show heterogeneity among genomic regions. Genome Res. 2005;15:1468–1476.[5] Guo F, Dey DK, Holsinger KE. A Bayesian hierarchical model for analysis of SNP diversity in multilocus, multipopulation models. J. Am. Stat. Assoc. 2009;164:142–154.[6] 다인자 유전에 의한 것이기도 하다.[7] 참고로 성염색체는 X 및 Y 염색체로 구성되며, 대부분의 경우 남성은 XY를 가지고 있고 여성은 XX를 가지고 있다.[8] 실제론 경기도가 제일 많다.[9] 전체 인구에 대한 개인 내 대립유전자의 상관관계를 의미하고, 전체 인구에 비해 하디-바인베르크 법칙에서 유전자형 빈도가 벗어날 때를 말한다.[10] 당연하겠지만 집단유전학에서의 F-통계량과 매우 비슷한 구조다. 사실 같다고 봐도 된다.[11] Holsinger KE, Weir BS. Genetics in geographically structured populations: defining, estimating and interpreting F(ST). Nat Rev Genet. 2009 Sep;10(9):639-50. doi: 10.1038/nrg2611. PMID: 19687804; PMCID: PMC4687486.[12] Richard Durrett (12 August 2008). Probability Models for DNA Sequence Evolution. Springer. ISBN 978-0-387-78168-6. Retrieved 25 October 2012[13] Hudson RR, Slatkin M, Maddison WP. Estimation of levels of gene flow from DNA sequence data. Genetics. 1992 Oct;132(2):583-9. doi: 10.1093/genetics/132.2.583. PMID: 1427045; PMCID: PMC1205159.[14] Muthukrishna, M., Bell, A. V., Henrich, J., Curtin, C. M., Gedranovich, A., McInerney, J., & Thue, B. (2020). Beyond Western, Educated, Industrial, Rich, and Democratic (WEIRD) psychology: Measuring and mapping scales of cultural and psychological distance. Psychological science, 31(6), 678-701.[15] 하지만 그렇다고 해서 위 방법이 틀렸다는 것을 의미하는 게 아니다. 좀 더 복잡한 경우에서 성립한다는 말이지, 관용적으로 널리 알려진 방법은 아니란 것이다.[16] 완전 0일 경우 멘델 집단에 속할 가능성이 매우 높다. 성선택의 영향을 안 받기 때문이다.[17] 모든 하위 모집단이 관찰되고 예상되는 이형접합성