{{{#!wiki style="margin: -10px -10px;" | <tablewidth=100%><tablebgcolor=#76B900><tablebordercolor=#76B900> | NVIDIA GPU 마이크로아키텍처 | }}} | |||||
{{{#!wiki style="margin: 0 -10px -5px;min-height:26px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -6px -1px -11px" | <rowcolor=#fff> 설계 기반 | CUDA 연산 능력 | 칩셋명 | 등장 시기 | 인코더 | 디코더 | 사용 제품 | 공정 노드 |
<colcolor=black,white> Tesla | <colcolor=black,white> 1.0 | <colcolor=black,white> G80 | <colcolor=black,white> | <colcolor=black,white> | <colcolor=black,white> | <colcolor=black,white> | <colcolor=black,white> | |
Fermi | 2.0 | GF100 | 2010년 | TSMC 40 nm | ||||
GF110 | ||||||||
2.1 | GF104 | |||||||
Kepler | 3.0 | GK104 | 2012년 | GeForce 600 GeForce 700 GeForce GTX TITAN | TSMC 28 nm | |||
GK106 | ||||||||
GK107 | ||||||||
3.5 | GK110 | |||||||
Maxwell | 5.0 | GM107 | 2014년 2015년 | GeForce GTX 750/750 Ti | TSMC 28 nm | |||
GM108 | GeForce 800M | |||||||
5.2 | GM200 | GeForce GTX TITAN X GeForce GTX 980 Ti | ||||||
GM204 | GeForce 900 | |||||||
GM206 | ||||||||
Pascal | 6.1 | GP102 | 2016년 2017년 | GeForce 10 | TSMC 16 nm | |||
GP104 | ||||||||
GP106 | ||||||||
GP107 | SF 14 nm | |||||||
GP108 | ||||||||
Turing | 7.5 | TU102 | 2018년 2019년 | GeForce 20 GeForce 16 | TSMC 12 nm | |||
Ampere | 8.6 | GA102 | 2020년 | GeForce 30 | SF 8 nm | |||
Ada Lovelace | 8.9 | AD102 | 2022년 | GeForce 40 | TSMC 5 nm[1] | |||
Blackwell | 12.8 | GB202 | 2025년 | GeForce 50 | ||||
서버/HPC (FP64 연산 성능 특화) | ||||||||
Kepler | 3.7 | GK210 | 2014년 | Tesla K80 | TSMC 28 nm | |||
Pascal | 6.0 | GP100 | 2016년 | Tesla P100 Quadro GP100 | TSMC 16 nm | |||
Volta | 7.0 | GV100 | 2017년 | Titan V | TSMC 12 nm | |||
Ampere | 8.0 | GA100 | 2020년 | TSMC 7 nm | ||||
Hopper | 9.0 | GH100 | 2022년 | TSMC 4 nm | ||||
저전력 | ||||||||
| }}}}}}}}} |
1. 개요
2012년 3월 22일에 출시된 NVIDIA GeForce 600 시리즈의 마이크로아키텍처.2. 공개된 정보
2.1. 주요 변경점
- TSMC 40 nm → TSMC 28 nm (공정 미세화)
- 코어(SMX) 레벨 (Fermi 대비)
- SM(Streaming Multiprocessor) → SMX로 명칭 변경
- Compute Capability: 2.x → 3.0 / 3.5(GK110) / 3.7(GK210)
- 프론트 엔드
- 백 엔드
- 하드웨어 스케줄러 삭제
- 단정밀도 처리량이 사이클당 32 → 192로 증가
- 로드/스토어 처리량이 사이클당 16 → 32로 증가
- 텍스처 유닛의 수가 4 → 16으로 증가
- 메모리 서브시스템
- Atomic 메모리 작업의 처리량 개선
- 공유 메모리/L1 캐시
- 48 KB 크기의 읽기 전용 데이터 캐시 추가
- 기타
- 파이프라인 깊이 축소로 전성비 개선
- 프로세서 레벨
- Hyper-Q 도입 (GK110/GK210 한정)
- Dynamic Parallelism (GK110/GK210 한정)
- 기존 Scoreboard 기반 비순차적 실행 방식의 RISC 아키텍처에서 VLIW 방식 아키텍처로 전환
- 하드웨어 스케줄링 구현에 투입되는 자원을 절약하는 효과
- 명령어 스케줄링은 컴파일러에 의해 정적으로 수행된다.
- 사이클당 1/9 (~0.111) → 1로 증가 (9배)
- 용량은 총 64 KB로 유지
- 공유 메모리/L1 캐시 간의 분할 옵션 추가
(16KB/48KB, 32KB/32KB, 48KB/16KB)
- host가 GPU에서 동시에 수행할 수 있는 작업의 수가 1 → 32로 증가
- 이에 따라 GPU 활용률이 극적으로 향상되었다.
- 기존에는 CPU에서만 GPU에 작업을 생성할 수 있었던 데 비해 GPU에서 자체적으로 작업을 생성할 수 있게 됨에 따라 오버헤드가 감소하였다.
기존 페르미 마이크로아키텍처의 비효율적인 부분을 개선하여 전성비를 크게 향상시켰다.