최근 수정 시각 : 2024-01-07 12:22:28

NVIDIA Kepler 마이크로아키텍처



{{{#!wiki style="margin: -10px -10px;"<tablewidth=100%><tablebgcolor=#76B900><tablebordercolor=#76B900> 파일:NVIDIA 틀용 로고.svgNVIDIA
GPU 마이크로아키텍처
}}}
{{{#!wiki style="margin: 0 -10px -5px;min-height:26px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -6px -1px -11px"
<rowcolor=#fff> 설계 기반 CUDA 연산 능력 칩셋명 등장 시기 인코더 디코더 사용 제품 공정 노드
<colcolor=black,white> Tesla <colcolor=black,white> 1.0 <colcolor=black,white> G80 <colcolor=black,white> <colcolor=black,white> <colcolor=black,white> <colcolor=black,white> <colcolor=black,white>
Fermi 2.0 GF100 2010년 TSMC 40 nm
GF110
2.1 GF104
Kepler 3.0 GK104 2012년 GeForce 600
GeForce 700
GeForce GTX TITAN
TSMC 28 nm
GK106
GK107
3.5 GK110
Maxwell 5.0 GM107 2014년
2015년
GeForce GTX 750/750 Ti TSMC 28 nm
GM108 GeForce 800M
5.2 GM200 GeForce GTX TITAN X
GeForce GTX 980 Ti
GM204 GeForce 900
GM206
Pascal 6.1 GP102 2016년
2017년
GeForce 10 TSMC 16 nm
GP104
GP106
GP107 SF 14 nm
GP108
Turing 7.5 TU102 2018년
2019년
GeForce 20
GeForce 16
TSMC 12 nm
Ampere 8.6 GA102 2020년 GeForce 30 SF 8 nm
Ada Lovelace 8.9 AD102 2022년 GeForce 40 TSMC 5 nm[1]
Blackwell 12.8 GB202 2025년 GeForce 50
서버/HPC (FP64 연산 성능 특화)
Kepler 3.7 GK210 2014년 Tesla K80 TSMC 28 nm
Pascal 6.0 GP100 2016년 Tesla P100
Quadro GP100
TSMC 16 nm
Volta 7.0 GV100 2017년 Titan V TSMC 12 nm
Ampere 8.0 GA100 2020년 TSMC 7 nm
Hopper 9.0 GH100 2022년 TSMC 4 nm
저전력
[ 각주 ]

[1] 4NP
}}}}}}}}}


1. 개요2. 공개된 정보
2.1. 주요 변경점
3. 사용 제품
3.1. GeForce 6003.2. GeForce 700
4. 여담

1. 개요

2012년 3월 22일에 출시된 NVIDIA GeForce 600 시리즈의 마이크로아키텍처.

2. 공개된 정보

2.1. 주요 변경점

  • TSMC 40 nm → TSMC 28 nm (공정 미세화)
  • 코어(SMX) 레벨 (Fermi 대비)
    • SM(Streaming Multiprocessor) → SMX로 명칭 변경
    • Compute Capability: 2.x → 3.0 / 3.5(GK110) / 3.7(GK210)
    • 프론트 엔드
    • 백 엔드
      • 하드웨어 스케줄러 삭제

        • - 기존 Scoreboard 기반 비순차적 실행 방식의 RISC 아키텍처에서 VLIW 방식 아키텍처로 전환
          - 하드웨어 스케줄링 구현에 투입되는 자원을 절약하는 효과
          - 명령어 스케줄링은 컴파일러에 의해 정적으로 수행된다.
      • 단정밀도 처리량이 사이클당 32 → 192로 증가
      • 로드/스토어 처리량이 사이클당 16 → 32로 증가
      • 텍스처 유닛의 수가 4 → 16으로 증가
    • 메모리 서브시스템
      • Atomic 메모리 작업의 처리량 개선

        • - 사이클당 1/9 (~0.111) → 1로 증가 (9배)
      • 공유 메모리/L1 캐시

        • - 용량은 총 64 KB로 유지
          - 공유 메모리/L1 캐시 간의 분할 옵션 추가

            (16KB/48KB, 32KB/32KB, 48KB/16KB)
      • 48 KB 크기의 읽기 전용 데이터 캐시 추가
    • 기타
      • 파이프라인 깊이 축소로 전성비 개선
  • 프로세서 레벨
    • Hyper-Q 도입 (GK110/GK210 한정)

      • - host가 GPU에서 동시에 수행할 수 있는 작업의 수가 1 → 32로 증가
        - 이에 따라 GPU 활용률이 극적으로 향상되었다.
    • Dynamic Parallelism (GK110/GK210 한정)

      • - 기존에는 CPU에서만 GPU에 작업을 생성할 수 있었던 데 비해 GPU에서 자체적으로 작업을 생성할 수 있게 됨에 따라 오버헤드가 감소하였다.

기존 페르미 마이크로아키텍처의 비효율적인 부분을 개선하여 전성비를 크게 향상시켰다.

3. 사용 제품

3.1. GeForce 600

파일:상세 내용 아이콘.svg   자세한 내용은 GeForce 600 문서
번 문단을
부분을
참고하십시오.

3.2. GeForce 700

파일:상세 내용 아이콘.svg   자세한 내용은 GeForce 700 문서
번 문단을
부분을
참고하십시오.

4. 여담