[clearfix]
1. 개요
AMD의 (Radeon) Instinct 소개 영상 |
홈페이지
AMD의 범용 연산 특화 가속기 제품군. AMD Tech Summit 2016에서 발표된 후, 2016년 12월 12일에 공개되었다. 10년 전의 FireStream 제품군, 6년 전의 AMD FirePro Server 제품군으로부터 계승되었다.
2. 용도 및 특징
머신 러닝(기계학습) 작업을 하는데 있어서 매우 자주 사용되는 게 그래픽 카드이다. 많이 배운 사람이 더 많이 알듯이, 인공지능도 머신 러닝을 통해 가능한 많은 연산을 처리해 그 값들을 배우고 훈련해야 똑똑해지는 건 당연지사. 병렬 연산에 있어 절대적인 우위를 가지고 있는 그래픽 카드(GPGPU 항목을 읽고 오면 좋다.)가 머신러닝에 쓰이는 이유가 이 때문이다. 다만 머신 러닝에 있어 중요한 것은 수많은 상황을 반복적으로, 비슷한 상황을 수천 가지씩 조금씩 파생해가며 학습할 수 있도록 하는 막대한 연산량이지, 사용자가 원하는 하나의 목표값을 얻기 위해 복잡한 계산을 하는거엔 크게 신경 쓸 필요가 없다. 이 때문에 머신 러닝의 승패는 단순한 연산을 얼마만큼 압도적인 연산량으로 처리할 수 있는가에 달려있으며, 이는 곧 단정밀도 연산과 저정밀도 연산과 연관되어있다 할 수 있다. 라데온 인스팅트는 단정밀도 연산/저정밀도 연산을 특화시킨 GPU로 기존 라데온이나 라데온 프로와 다르게 머신러닝에 최적화 되어있다 할 수 있다. 반대로 배정밀도/고정밀도 연산 성능은 쓸데가 딱히 없으니 당연히 성능이 높지 않다. 다만 라데온 인스팅트 중 현재 가장 높은 위치에 있는 MI25는 워낙에 괴물급 성능을 가지고 있는지라 고정밀도 연산 성능이 저정밀도 연산성능에 비해 한참 후달려도, 다른 하이엔드 그래픽카드들에 비해 고정밀도 연산성능이 높긴하다. 엔비디아가 GPU 아키텍처를 케플러과 맥스웰로 이원화시켜 하이엔드 그래픽카드 중 머신러닝에 유리한 맥스웰 아키텍처 쪽을 머신러닝 특화로 시장에 푼 것과 비교[1]했을 때 AMD는 아예 머신러닝용 그래픽카드를 독립적인 브랜드(라데온의 하위 브랜드)로 출품시켰다고 할 수 있다. 사실 위에 특화니 뭐니 하고 장황하게 써놨지만 베가10XT를 사용하는 타 제품군의 GPU와 비교했을때,하드웨어적인 차이는 없다. [2] 사실상 AMD가 베가를 라데온에 풀긴 했지만 말그대로 출시는 했다 수준이고 베가가 아예 각잡고 단정밀도 특화시켜서 나왔다고 봐도 되는 아키텍처이기 때문에 베가를 사용한 라데온과 라데온 프로 역시 단정밀도 성능이 높게 나온다. 다만 인스팅트는 공식적인 소프트웨어 지원이 된다는 점이 차이.이미지 컬러는 노란색. 원래 노란색은 S3 Graphics가 쓰고 있었으나, 그래픽 사업을 접은 지 오래라(...) 그냥 쓰는 듯하다. 최근 청록색으로 바뀌었다.
3. ROCm 소프트웨어 플랫폼
자세한 내용은 ROCm 문서 참고하십시오.4. 구형 제품군
4.1. FireStream (2006~2010년)
AMD의 ATI 인수 발표 직후인 SIGGRAPH 2006에 발표된 AMD 최초의 컴퓨팅 특화용 가속기 제품군.기존 라데온 X1900 XTX에 사용된 R580을 기반으로 했지만, R580 자체가 이전까지의 ATI GPU들과는 다르게 픽셀 처리 유닛이 텍스처 및 렌더 백엔드보다도 더 큰 언밸런스 체급으로 나와서 픽셀 연산 성능이 당대 최고 수준이었기 때문에, 이를 범용 연산에 활용하면 당대 최고 사양 CPU보다도 월등한 범용 연산 성능을 뽑을 수 있다는 발상이었다.
2010년 6월에 출시된 FireStream 9300 시리즈를 마지막으로 2년간 명맥이 끊겼다.
4.2. FirePro Server (2012~2016년)
2012년 8월부터 2016년까지 라인업된 FireStream 제품군의 후속 제품군. 전문 작업용 브랜드인 FirePro의 하위 제품군으로써 존속되었다.4.3. Radeon Sky (2013년)
2013년 4월에 라인업된 클라우드 게이밍용 제품군. 경쟁사의 GRID 제품군과 경쟁할 목적으로 나왔지만 큰 재미를 못 보고 단명되었다.5. 현행 제품군 : Radeon Instinct 브랜드
5.1. gfx800 / GCN 3 마이크로아키텍처
||<table align=center><tablebordercolor=#ffcd00><rowbgcolor=#ffcd00><rowcolor=black><|2> 가속기
모델명 ||<-4> GPU ||<-4> GPU 외부 메모리 ||<|2> TGP
(W) ||<|2> 출고
가격
($) ||
모델명 ||<-4> GPU ||<-4> GPU 외부 메모리 ||<|2> TGP
(W) ||<|2> 출고
가격
($) ||
<rowcolor=black> 코드네임 (공정) (면적) | SP (ACE, SU) | 클럭 (부스트) (MHz) | L2 캐시 메모리 (MB) | 버스 (bit) | 규격 | 클럭 (비트레이트) (MHz) (Mbps) | 용량 (GB) | |||
<colbgcolor=black><colcolor=#ffcd00>MI8 | Fiji (28 ㎚) (596 ㎟) | 4096 (4, 64) | 1000 | 2 | 4096 | HBM | 500 (1000) | 4 | 175 | ? |
|
5.2. gfx800 / GCN 4 마이크로아키텍처
||<table align=center><tablebordercolor=#ffcd00><rowbgcolor=#ffcd00><rowcolor=black><|2> 가속기
모델명 ||<-4> GPU ||<-4> GPU 외부 메모리 ||<|2> TGP
(W) ||<|2> 출고
가격
($) ||
모델명 ||<-4> GPU ||<-4> GPU 외부 메모리 ||<|2> TGP
(W) ||<|2> 출고
가격
($) ||
<rowcolor=black> 코드네임 (공정) (면적) | SP (ACE, SU) | 클럭 (부스트) (MHz) | L2 캐시 메모리 (MB) | 버스 (bit) | 규격 | 클럭 (비트레이트) (MHz) (Mbps) | 용량 (GB) | |||
<colbgcolor=black><colcolor=#ffcd00>MI6 | Polaris 10 (14 ㎚) (232 ㎟) | 2304 (4, 36) | 1120 (1233) | 2 | 256 | GDDR5 | 1750 (7000) | 8 | 150 | ? |
|
5.3. gfx900 / GCN 5 마이크로아키텍처
AMD Radeon Instinct MI60 가속기 소개 영상 |
||<table align=center><tablebordercolor=#ffcd00><rowbgcolor=#ffcd00><rowcolor=black><|2> 가속기
모델명 ||<-4> GPU ||<-4> GPU 외부 메모리 ||<|2> TGP
(W) ||<|2> 출고
가격
($) ||
모델명 ||<-4> GPU ||<-4> GPU 외부 메모리 ||<|2> TGP
(W) ||<|2> 출고
가격
($) ||
<rowcolor=black> 코드네임 (공정) (면적) | SP (ACE, SU) | 클럭 (부스트) (MHz) | L2 캐시 메모리 (MB) | 버스 (bit) | 규격 | 클럭 (비트레이트) (MHz) (Mbps) | 용량 (GB) | |||
<colbgcolor=black><colcolor=#ffcd00>MI60 | Vega 20 (7 ㎚) (331 ㎟) | 4096 (4, 64) | 1200 (1800) | 4 | 4096 | HBM2 | 1000 (2000) | 32 | 300 | ? |
MI50 | 3840 (4, 60) | 1200 (1746) | 4 | 4096 | HBM2 | 1000 (2000) | 16 | 300 | ? | |
MI25 | Vega 10 (14 ㎚) (495 ㎟) | 4096 (4, 64) | 1400 (1500) | 4 | 2048 | HBM2 | 852 (1704) | 16 | 300 | ? |
|
6. 현행 제품군 : Instinct 브랜드
||<tablewidth=100%><tablebordercolor=#000000><bgcolor=#000000><color=#ffffff><height=70>
||<tablealign=center><tablebordercolor=#000000><tablebgcolor=#000000> ||<(> {{{#!wiki style="letter-spacing:-0.5px"CDNA 아키텍처 기반 제품군 ||
||{{{#!wiki style="margin: -16px -11px;" | <colbgcolor=#007c97><colcolor=#ffffff> CDNA 1 (MI100 ISA) | Instinct MI100 |
CDNA 2 (MI200 ISA) | Instinct MI200 시리즈 | |
CDNA 3 (불명) | Instinct MI300 시리즈 | }}} |
6.1. gfx908 / CDNA 1 마이크로아키텍처
AMD Instinct MI100 가속기 소개 영상 |
||<-21><tablealign=center><tablebordercolor=#007c97><bgcolor=#007c97><color=white> GPU별 최대 내부 구성 요소 ||
<rowcolor=white> GPU 이름 | 공정 (㎚) | 면적 (㎟) | HWS | ACE | GP | SE | PU | RZ | CU | SP (FP32) (INT32) | SU | RA | TFU | LDS (KB) | L1 캐시 메모리 (KB) | L2 캐시 메모리 (MB) | GDS (KB) | RB | ROP | MC (bit) (채널) |
CDNA | ||||||||||||||||||||
<colbgcolor=black><colcolor=#007c97>Arcturus | 7 | 750 | 1 | 4 | - | 8 | - | - | 128 | 8192 | 128 | - | - | 64×128 | 16×128 | 8 | 64 | - | - | 1024×4 |
||<-7><tablealign=center><tablebordercolor=#007c97><bgcolor=#007c97><color=white> GPU별 특성 ||
<rowcolor=white> GPU 이름 | 그래픽 가속 | GPGPU 가속 | 비디오 가속 | 호스트 인터페이스 | 메모리 규격 | 디스플레이 출력 |
CDNA | ||||||
<colbgcolor=black><colcolor=#007c97>Arcturus | - | OpenCL 2.0 | VCN 2.5 | PCIe 4.0 ×16 | HBM2 | - |
||<table align=center><tablebordercolor=#007c97><rowbgcolor=#007c97><rowcolor=white><|2> 가속기
모델명 ||<-4> GPU ||<-4> GPU 외부 메모리 ||<|2> TGP
(W) ||<|2> 출고
가격
($) ||
모델명 ||<-4> GPU ||<-4> GPU 외부 메모리 ||<|2> TGP
(W) ||<|2> 출고
가격
($) ||
<rowcolor=white> 코드네임 (공정) (면적) | SP (ACE, SU) | 클럭 (부스트) (MHz) | L2 캐시 메모리 (MB) | 버스 (bit) | 규격 | 클럭 (비트레이트) (MHz) (Mbps) | 용량 (GB) | |||
<colbgcolor=black><colcolor=#007c97>MI100 | Arcturus (7 ㎚) (750 ㎟) | 7680 (4, 120) | 1000 (1502) | 8 | 4096 | HBM2 | 1200 (2400) | 32 | 300 | 6400 |
|
2020년 11월 16일에 발표된 컴퓨팅 카드로, NVIDIA가 A100부터 TESLA 브랜드 네임을 삭제했던 것처럼 AMD도 이때부터 라데온 브랜드 네임을 삭제하고 인스팅트만 남게 되었다. AMD가 2020년 3월 파이낸셜 데이를 통해 게이밍은 RDNA, 컴퓨팅은 CDNA로 분화할 것을 약속했기 때문에 연산 특화 목적에 맞게 그래픽스 관련 기능들이 전부 삭제되었다. 그 대신 비디오 디코딩, 인코딩 기능만 존속되어 동영상 가속을 활용할 수 있다. 또한 새로운 하드웨어로 NVIDIA의 TensorCore와 비슷하게 행렬 연산을 하는 매트릭스 코어가 추가되었다.
이전 세대 최상위 라인이었던 MI60 대비 FP32 연산 성능이 1.5배 향상되어, 먼저 나온 경쟁사의 A100보다 약 20% 높은 FP32 연산 성능을 보여준다.[3] 하지만, 메모리 대역폭이 MI60 대비 1.2배 향상에 그쳐서 실성능은 메모리 성능 병목으로 1.5배가 안 될 확률이 높다. 문제는 같은 시기에 경쟁사가 기존 A100의 메모리 규격을 HBM2에서 HBM2E로 업그레이드해서 메모리 대역폭이 약 30% 더 빨라진 개선판을 내놓았다는 점.
안 그래도 메모리 대역폭이 약 1.23 TB/s라서 1.56 TB/s인 기존 A100 대비 약 20% 넘게 느렸는데, HBM2E 버전의 등장으로 약 2.04 TB/s 대역폭이 구현됨에 따라 40% 넘는 격차로 벌어졌다. 결과적인 절대 성능면에서는 A100을 넘는데 실패했다고 볼 수 있으며, 결국 A100보다 절반 가까이 저렴한 가격으로 승부 해야 할 것으로 보인다.
6.2. gfx90a / CDNA 2 마이크로아키텍처
AMD Instinct MI200 가속기 소개 영상 |
||<-21><tablealign=center><tablebordercolor=#007c97><bgcolor=#007c97><color=white> GPU별 최대 내부 구성 요소 ||
<rowcolor=white> GPU 이름 | 공정 (㎚) | 면적 (㎟) | HWS | ACE | GP | SE | PU | RZ | CU | SP (FP32) (INT32) | SU | RA | TFU | LDS (KB) | L1 캐시 메모리 (KB) | L2 캐시 메모리 (MB) | GDS (KB) | RB | ROP | MC (bit) (채널) |
CDNA2 | ||||||||||||||||||||
<colbgcolor=black><colcolor=#007c97>Aldebaran | 6 | - | 1 | 4 | - | 8 | - | - | 128 | 8192 | - | - | - | - | 16×110 | 16 | - | - | - | 1024×4 |
||<-7><tablealign=center><tablebordercolor=#007c97><bgcolor=#007c97><color=white> GPU별 특성 ||
<rowcolor=white> GPU 이름 | 그래픽 가속 | GPGPU 가속 | 비디오 가속 | 호스트 인터페이스 | 메모리 규격 | 디스플레이 출력 |
CDNA2 | ||||||
<colbgcolor=black><colcolor=#007c97>Aldebaran | - | OpenCL 3.0 | VCN 2.6 | PCIe 4.0 ×16 | HBM2e | - |
||<table align=center><tablebordercolor=#007c97><rowbgcolor=#007c97><rowcolor=white><|2> 가속기
모델명 ||<-4> GPU ||<-4> GPU 외부 메모리 ||<|2> TGP
(W) ||<|2> 출고
가격
($) ||
모델명 ||<-4> GPU ||<-4> GPU 외부 메모리 ||<|2> TGP
(W) ||<|2> 출고
가격
($) ||
<rowcolor=white> 코드네임 (공정) (면적) | SP (ACE, SU) | 클럭 (부스트) (MHz) | L2 캐시 메모리 (MB) | 버스 (bit) | 규격 | 클럭 (비트레이트) (MHz) (Mbps) | 용량 (GB) | |||
<colbgcolor=black><colcolor=#007c97>MI250X | Aldeberan XT (6 ㎚) ( - ) | 14080 (4, - ) | 1000 (1700) | 16 | 8192 | HBM2e | 1600 (3200) | 128 | 500 | - |
MI250 | Aldeberan (6 ㎚) ( - ) | 13312 (4, - ) | 1000 (1700) | 16 | 8192 | HBM2e | 1600 (3200) | 128 | 500 | - |
|
2021년 11월 8일에 발표된 컴퓨팅 GPU로 TSMC 7nm의 하프 노드 공정인 6nm를 채용하였다. FP32/64 가속을 위한 2세대 매트릭스 코어를 적용하여 지난 세대 대비 (이론 상) 최대 4배의 FP64 성능 향상을 보인다. 멀티 다이와 2.5D Elevated Fanout Bridge 기술로 전 세대 대비 1.8배의 코어 수 증가와 메모리 대역폭이 2.7배 증가하였다. 3세대 EPYC CPU와의 통신을 위해서 3세대 인피니티 패브릭이 적용되었다. 메모리 같은 경우에는 엔비디아가 A100에 사용한 HBM2e을 CDNA2에도 적용하여서 지난 세대의 단점이었던 메모리 성능을 해결하였다. 3.2TB/s의 대역폭을 보이며 A100보다 1.2TB/s 더 빠른 대역폭을 가지고 있다. 또한 이번 세대는 듀얼 슬롯 카드 형태가 아닌, OAM 모듈 형태로 바뀌었다.
이번 MI200 시리즈는 미국 정부의 엑사스케일 ‘Frontier’ 시스템, 유럽 연합의 엑사스케일 ‘LUMI’ 시스템, 그리고 호주의 50 페타플롭스 규모의 ‘Setonix’ 시스템에 적용될 예정이다.
6.3. gfx940;gfx941;gfx942 / CDNA 3 마이크로아키텍처
2023년 1월 5일, CES 2023에서 발표된 컴퓨팅 APU로 2023년 2분기에 출시될 예정이며, 3D 다이 스택을 사용하여 CPU와 GPU 코어, HBM3 메모리를 하나로 패키징했다.▶ AMD 인스팅트 MI300 데이터센터 APU 제원(AMD CES 2023 컨퍼런스)
- CPU(데이터센터) : ZEN 4 마이크로아키텍처(24 코어)
- GPU(데이터센터) : 3rd CDNA 마이크로아키텍쳐
- 트랜지스터 : 1460억개 탑재
- 메모리 : 128GB HBM3
- 제조공정 : 고급 3D 칩렛 + 3D 다이 적층 패키징 제조(5nm 기반 9개 칩렛 & 6nm 기반 4개 칩렛)
- 출시 예정 : 2023년 하반기
2023년 6월 13일, 데이터센터 & AI 컨퍼런스에서, 3가지 제품이 공개되었다.
▶ AMD 인스팅트 MI300 서버(데이터센터) APU(CPU + GPU 혼합)
* 정식 제품 모델명 : AMD Instinct(인스팅트) MI300A
* CPU(데이터센터) : ZEN 4 마이크로아키텍처(24 코어)
* GPU(데이터센터) : 3rd CDNA 마이크로아키텍처
* 트랜지스터 : 1460억개 탑재
* 메모리 : 128GB HBM3(CPU + GPU 통합 공유)
* 제조공정 : 고급 3D 칩렛 + 3D 다이 적층 패키징 제조(5nm 기반 9개 칩렛 & 6nm 기반 4개 칩렛)
* 출시 예정 : 2023년 하반기
※ 세계 최초 서버(데이터센터) APU 가속기(AI & HPC 특화)
* 정식 제품 모델명 : AMD Instinct(인스팅트) MI300A
* CPU(데이터센터) : ZEN 4 마이크로아키텍처(24 코어)
* GPU(데이터센터) : 3rd CDNA 마이크로아키텍처
* 트랜지스터 : 1460억개 탑재
* 메모리 : 128GB HBM3(CPU + GPU 통합 공유)
* 제조공정 : 고급 3D 칩렛 + 3D 다이 적층 패키징 제조(5nm 기반 9개 칩렛 & 6nm 기반 4개 칩렛)
* 출시 예정 : 2023년 하반기
※ 세계 최초 서버(데이터센터) APU 가속기(AI & HPC 특화)
▶ AMD 인스팅트 MI300 서버(데이터센터) GPU(GPU 코어 전용 모델)
* 정식 제품 모델명 : AMD Instinct(인스팅트) MI300X
* GPU : 3rd CDNA 마이크로아키텍처
* 메모리 : 192GB HBM3
* 트랜지스터 : 1530억개 탑재
* 대역폭 : 인피니티 패브릭(896GB/s)
※ 생성 AI 및 모델 가속기 리더십의 서버(데이터센터) GPU
* 정식 제품 모델명 : AMD Instinct(인스팅트) MI300X
* GPU : 3rd CDNA 마이크로아키텍처
* 메모리 : 192GB HBM3
* 트랜지스터 : 1530억개 탑재
* 대역폭 : 인피니티 패브릭(896GB/s)
※ 생성 AI 및 모델 가속기 리더십의 서버(데이터센터) GPU
▶ AMD Instinct(인스팅트) GPU플랫폼
* GPU : AMD Instinct(인스팅트) MI300X 서버(데이터센터) GPU * 8개
* 메모리 : HBM3 규격 1.5TB
* 산업 표준 규격 디자인
※ 생태계의 활성화와 쉽게 배포할 수 있는 '산업 표준 솔루션'을 위하여 설계한 멀티 GPU 플랫폼.
* GPU : AMD Instinct(인스팅트) MI300X 서버(데이터센터) GPU * 8개
* 메모리 : HBM3 규격 1.5TB
* 산업 표준 규격 디자인
※ 생태계의 활성화와 쉽게 배포할 수 있는 '산업 표준 솔루션'을 위하여 설계한 멀티 GPU 플랫폼.
7. 관련 문서
[1] 예를 들면 GeForce TITAN X와 같다거나. 해당 항목 참조.[2] ATi의 오랜 전통에 따라, 이 제품 역시 타 제품군에 들어가는 VEGA 10 XT GPU와 동일하다. 현금이 부족한 AMD 특성상 ATi때도 하나의 GPU를 소프트웨어랑 기판만 바꿔서 FireCL FireGL Radeon에 돌려써왔지만,GCN 들어서는 아예 아키텍처의 목표 자체가 단일 아키텍처로 연산 게이밍 렌더링 모두잡겠다는 것이 목표였다. 그렇다보니 엔비디아는 쿼드로 타이탄 지포스 테슬라 각 제품들의 유닛 구성비가 다른데(지포스는 ROP비중이 높다던가) AMD는 그런거 없다. 라이젠으로 현금 보유량이 높아지고 나서야 게이밍용 RDNA/연산용 CDNA로 라인을 나눈것을 보면 얼마나 ATi-AMD가 돈이 쪼들렸는지 알 수 있다.[3] 그래봤자 NVIDIA의 최상위 그래픽카드인 A6000보다 33%나 낮은 성능을 보인다. 문제는 A6000이 출시가가 10배 정도 비싸다는 것(...) 그래서 별 의미는 없다.