AI 반도체

[[반도체|반도체

Semiconductor

]]

[ 펼치기 · 접기 ]

||<-2><tablewidth=100%><tablecolor=#000,#ddd><bgcolor=#0ff> 분류 ||

메모리 반도체 (DRAM · SRAM · HBM · SSD)	시스템 반도체 (CPU · GPU · AP · AI 반도체 · 이미지 센서 · 전력 반도체)
반도체 8대 공정 (Process Integration)
Front-End (웨이퍼/제조 · 산화 공정 · 포토 리소그래피 · 식각 공정 · 증착 공정 · 금속 배선 공정) (+ 이온 주입)	Back-End (EDS · 패키징(=백엔드 자체))
구조
<rowcolor=#000>반도체 제품	반도체 소자
CPU · GPU(그래픽 카드) · ROM · RAM · SSD · HDD · MPU · eMMC · USB · UFS · 와이파이	트랜지스터(BJT · FET · JFET · MOSFET · T-FT, FinFET, GAA) · 전력 반도체 소자(사이리스터 · GTO · 레지스터(IGBT) ) · 다이오드 · CMOS · 저항기 · 연산 증폭기 · 펠티어 소자 · 벅컨버터
용어
웨이퍼 · 팹 · SoC · Technology Node · PPA · PCB · FPGA · Photo Resist · Alignment · LOCOS · STI · Fume · 산화막 · 질화물 · Annealing
<rowcolor=#000>현상	법칙
정전기 방전	무어의 법칙 · 4 GHz의 벽 · 폴락의 법칙
기업 분류 기업 목록은 각 문서에 서술
반도체 제조사(종합반도체사 · 팹리스 · 파운드리 · 세미캡)

[[컴퓨터공학\|'''컴퓨터 과학 및 공학 {{{#!wiki style="font-family: Times New Roman, serif; display: inline;"]]
{{{#!wiki style="margin: 0 -10px -5px; min-height:calc(1lh + 5px)" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -5px -1px -11px; word-break: keep-all"	<colbgcolor=#1282d7,#1282d7><colcolor=#fff,#fff> 기반 학문	수학(이산수학 · 수리논리학 · 선형대수학 · 대수학(환론 · 범주론) · 정수론 · 해석학 · 미적분학 · 미분방정식) · 이론 컴퓨터 과학(튜링 머신 · 정보이론 · 재귀 이론) · 암호학 · 전자공학 · 언어학(음운론 · 형태론 · 통사론 · 의미론 · 화용론) · 인지과학
하드웨어	SoC · CPU · GPU(그래픽 카드 · GPGPU) · ROM · RAM · SSD · HDD · 참조: 틀:컴퓨터 부품
시스템	컴퓨터 구조론 · 폰노이만 구조 · 마이크로아키텍처 · 논리 회로(논리 연산 · 카르노 맵 · 가산기 · 보수기 · 플립플롭) · FPGA · 하드웨어 가속 · 바이오스 · UEFI · ACPI · LinuxBoot · 운영체제(인터럽트 · 멀티태스킹 · 프로세스 스케줄링 · 뮤텍스 · 세마포어 · 데드락 · 식사하는 철학자 문제) · 네트워크(네트워크 포트) · 대역폭 · 와이파이 · gRPC · GPS · 임베디드 시스템 · 사물인터넷 · 슈퍼컴퓨터 · 양자 컴퓨터
소프트웨어	시간 복잡도(최적화) · 이진 탐색 · 난수생성 · 컴퓨터 언어 · 기계어 · 어셈블리어 · 프로그래밍 언어(타입 이론 · 어휘 분석 · 파싱 · 컴파일러(어셈블러 · JIT) · 인터프리터 · 링커 · 난해한 프로그래밍 언어) · 마크업 언어 · 프로그래밍 패러다임(절차적 프로그래밍 · 객체 지향 프로그래밍 · 함수형 프로그래밍) · 데이터베이스(DBMS · NoSQL) · 메타데이터 · 인코딩(유니코드 · MBCS) · 소프트웨어 개발 방법론(애자일 · 워터폴) · 디자인 패턴 · 행위자 모델 · 놀람 최소화 원칙 · 버전(버전 관리 시스템) · 프레임워크 · 라이브러리 · 모듈 · API · ABI
응용	인공지능 · 기계학습 · 인공신경망 · 딥러닝 · 자연어 처리(기계 번역 · 음성인식) · 컴퓨터 비전 · OCR · 빅데이터 · 컴퓨터 그래픽스 · OpenGL · EXIF · HCI · UI · UX · 컴퓨터 보안 · 해킹 · 리버스 엔지니어링 · 해시(SHA · salt · 브루트 포스 · 레인보우 테이블 · 암호화폐) · 디피-헬만 키 교환 · RSA 암호화 · ROT13 · 일회용 비밀번호

}}}}}}}}} ||

<colkeepall> '''전기·전자공학 Electrical & Electronic Engineering '''
{{{#!wiki style="min-height: calc(1.5em + 5px); margin: 0 -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px"	<colbgcolor=#2707b9,#2707b9><colcolor=#fff> 학문	기반 학문 물리학 (전자기학 (회로이론 · 전자 회로 · 논리 회로) · 양자역학 · 물리화학 · 열역학 · 응집물질물리학) · 화학 연관 학문 수학 (공업수학 · 수치해석학 · 위상수학 · 미분방정식 · 대수학 (환론 · 표현론) · 선형대수학 · 이론 컴퓨터 과학 · 컴퓨터공학 (프로그래밍 언어 (HDL · VHDL · C · C++ · Java · 파이썬 · 베릴로그)) · 재료공학 · 제어 이론
공식 · 법칙	전자기 유도 · 가우스 법칙 · 비오-사바르 법칙 · 무어의 법칙 · 키르히호프의 법칙 · 맥스웰 방정식 · 로런츠 힘 · 앙페르 법칙 · 드모르간 법칙 · 페르미 준위 · 중첩의 원리
이론 · 연구	반도체 (P형 반도체 · N형 반도체) · 디스플레이 · 논리 회로 (보수기 · 가산기 · 플립플롭 · 논리 연산 · 비트 연산) · 전자 회로 · RLC 회로 · 역률 · DSP · 히스테리시스 곡선 · 휘트스톤 브리지 · 임베디드 시스템
용어	클럭 · ASIC · CPU 관련 (BGA · 마이크로아키텍처 · GPS · C-DRX · 소켓) · 전계강도계 · 축전기 · CMCI · 전송선 · 양공 · 도핑 · 이미터 · 컬렉터 · 베이스 · 시퀀스 · 헤테로다인
전기 · 전자 관련 정보	제품 스마트폰 · CPU · GPU (그래픽 카드) · ROM · RAM · SSD · HDD · MPU · CCD · eMMC · USB · UFS · LCD · LED · OLED · AMOLED · IoT · 와이파이 · 스마트 홈 · 마그네트론 · 마이크 · 스피커 · 배터리 · 로봇 소자 집적 회로 · 다이오드 · 진공관 · 트랜지스터 (BJT · FET · JFET · MOSFET · T-FT) · CMOS · IGBT · 저항기 · 태양전지 · 연산 증폭기 · 사이리스터 · GTO · 레지스터 · 펠티어 소자 · 벅컨버터
전기전자공학 교육 · 연구
관련 분야	제어공학 · 반도체공학 · 정보통신공학 · 전파공학 · 광공학 · 로봇공학
학과	전기전자공학과 · 반도체학과 · 정보통신학과 · 광공학과 · 원자력공학과
과목	공업수학 · 일반물리학 · 전자기학 · 회로이론 · 수치해석 · 프로그래밍 · 캡스톤 디자인
관련 기관	국가과학기술연구회(과학기술분야 정부출연연구기관)
자격증
전기 계열	기능사 전기기능사 · 철도전기신호기능사 기사·산업기사 전기기사 · 전기산업기사 · 전기공사기사 · 전기공사산업기사 · 전기철도기사 · 전기철도산업기사 · 철도신호기사 · 철도신호산업기사 기능장 및 기술사 전기기능장 · 건축전기설비기술사 · 발송배전기술사 · 전기응용기술사 · 전기안전기술사 · 철도신호기술사 · 전기철도기술사
전자 계열	기능사 전자기능사 · 임베디드기능사 · 전자캐드기능사 기사·산업기사 전자기사 · 전자산업기사 기능장 및 기술사 전자기능장 · 전자응용기술사
기타	기능사 신재생에너지발전설비기능사(태양광) 기사 소방설비기사 · 신재생에너지발전설비기사(태양광) · 로봇소프트웨어개발기사 · 로봇하드웨어개발기사 · 로봇기구개발기사	}}}}}}}}}

1. 개요2. 상세3. 구조

3.1. 소프트웨어 스택의 중요성

4. 분류

4.1. 사용 목적4.2. 사용 환경

5. 관련 기업 및 대표 제품

5.1. 해외5.2. 한국

6. CPU 포함 NPU7. 관련 문서

1. 개요

AI 가속기(AI accelerator) / NPU(Neural Processing Unit, 신경망 처리 장치) / AI칩(AI Chip)

기계학습 모델을 구축하여 인공지능 소프트웨어 구현을 하기 위해 특화 설계된 통합 칩이다.

2. 상세

AI칩은 통합 칩을 의미하며, 인공신경망 연산을 위해 맞춤으로 설계된 NPU를 포괄하는 개념이다. 하지만 뉴로모픽 칩하고는 다른데, 둘 다 AI를 굴리기 위한 장치지만, 뉴로모픽 칩은 메모리를 GPU처럼 만들어 실제 신경망 구조를 하드웨어로 모방하는 칩인 반면, AI칩은 GPU 같은 병렬연산 장치를 AI 소프트웨어의 작동 효율만을 목적으로 설계된 칩이라는 점이 다르다. 즉 AI 가속 장치이자 효율 장치인 것. 특히 AI가속기란 개념은 AI칩을 포함한 아키텍처를 통칭하는 더 큰 단위이다. 즉 NPU(연산 유닛) ⊂ AI칩(통합 칩) ⊂ AI가속기(아키텍처)이다.

2010년대 중반까지는 전용 SDK [1]를 활용한 GPGPU가 곧 인공신경망 구축을 위한 유일한 해답이라고 봐도 무방했다. 다만 어디까지나 GPGPU는 태생부터가 고인력인 CPU를 대체하며 병렬로 부동소수점 연산을 하여 픽셀 단위 그래픽 작업에 특화를 위해 설계되었고, 이쪽 인공지능 분야에서는 단순 용도 변경한 것에 불과하기 때문에 여러 문제를 갖고 있었다.

우선 연산 성능은 강력한 반면, 호환성이 제공되고 양산이 가능한 제조사가 엔비디아 한 곳뿐이기에 수요 대비 공급이 제한적이라 가격이 높았다. 또한 기존의 범용 GPU는 VRAM을 그래픽카드에 두고 CPU 데이터를 복제한 뒤 연산을 처리하고, 결과값을 다시 CPU에 복사하는 방식의 복잡하고 비효율적인 방식을 취하고 있어서 특정 기업의 특정 요구에 맞춰서 설계되지 못하는 동시에 자원 낭비가 심하여 높은 전력소비와 레이턴시가 고질적인 문제였다. (환경단체측에서는 인공지능 수요의 전력소모량 증가로 인해 탄소발자국이 늘어났다는 주장도 하고 있다.) 대규모 슈퍼컴퓨터나 데이터 센터는 일반인 기준으로 상상하기 힘들 정도로 대량의 전력을 필요로 하고 냉각을 위해 막대한 금액을 사용한다. 또한 자율주행 자동차, 생성형 인공지능 등 초 단위로 빠른 반응이 사용자에게 중요하게 작용하는 분야에 쓰이기에 낮은 전력소비와 레이턴시는 필수적인 요소로 불린다.

이 때문에 행렬곱셈, 비선형함수 계산 등의 AI 연산 외에 기타 업무는 최소한으로만 남겨서 이를 전용으로 수행할 칩의 필요성이 대두되었고 ASIC 방식 위주로 AI연산 워크로드에 맞춰 만들어진 단일 칩을 AI칩이라고 부르게 된다. 사용자들은 머신러닝 프레임워크를 통해 워크로드를 실행할 수 있고, 이에 따라 상용화된 일부 칩들은 소비전력 대비 AI 연산능력이 기존 칩들에 비해 매우 우월한 수준을 갖추는 경지에 이르게 되었다.[2][3] 따라서 2010년대 후반부터는, 슈퍼컴퓨터와 데이터 센터는 물론이고 스마트폰, 태블릿 등 개별 전자 기기의 경우 기존 프로세서에 간단한 AI연산 용도로 NPU부분이 추가되는 추세이다.[4]

2020년대 중반 이후부터는 자체 모델을 개발하고 훈련시키는 회사들이 줄어들고 RAG 파이프라인의 형태로 API를 통해 생성형 AI 및 LLM을 쓰는 추론 수요가 늘었다. 이에 따라 훈련 수요에서 독점적인 NVIDIA의 GPU는 LLM 개발 및 서비스 회사나 클라우드 인프라 회사를 중심으로 소수의 회사에 더욱 집중되며 훈련 수요의 증가가 둔화되고 있음을 알 수 있다. 뿐만 아니라 훈련 대비 추론의 횟수가 폭발적으로 높아짐에 따라서 AI 서비스 비용이 급격히 늘어났다. 그래서 이들 회사들도 추론 비용을 줄이려고 GPU에 대한 의존도를 줄이고 ASIC 기반의 칩셋으로 AI 서비스 인프라를 대체하고 있다. 앞으로는 급격하게 늘어나는 추론 수요를 충족시킬 인공지능 칩셋이 더더욱 필요해지고 있다. NVIDIA조차도 이러한 추세에 압박감을 받는지 추론 칩셋 관련 업체들을 인수하고 있고 NVIDIA N1/N1X SoC, RTX 60 및 Rubin GPU부터는 추론 특화 칩 및 코어도 넣는다고 한다.

3. 구조

Layer-1(H/W, S/W) : GPU, NPU 등의 물리적 하드웨어 및 이를 제어하는 가상 명령어셋 지원.[5]
Layer-2(S/W) : 머신러닝 연산처리를 지원하는 컴파일러, 라이브러리, 프레임워크들.[6]
Layer-3(Algorithm) : L-1.2를 통해 구축된 모델들.[7]
Layer-4(Application) : L-3 기반의 부가 서비스.[8]

3.1. 소프트웨어 스택의 중요성

AI 칩의 성능은 하드웨어의 설계만으로 결정되지 않으며 소프트웨어의 구성도 중요한데, 소프트웨어 스택은 하드웨어와 소프트웨어가 긴밀하게 연동되어 AI 모델의 연산을 최적화하는 역할을 한다. 이를 통해 하드웨어 성능을 최대한 끌어내는 것이 가능해지며, 특히 복잡한 연산을 요구하는 인공지능 어플리케이션의 특성상 소프트웨어 스택의 최적화는 복잡한 고난도의 기술이다.

특히, 인공지능 어플리케이션에서는 하드웨어의 성능을 극대화하기 위해 딥러닝 프레임워크(PyTorch 등)와의 호환성을 유지하면서도 메모리 관리, 데이터 재사용, 연산 효율성 등의 세부적인 최적화 작업을 동시에 수행해야 하는 어려움이 있다.

소프트웨어 스택의 중요성을 보여주는 가장 대표적인 예시는 다름 아닌 NVIDIA의 **CUDA**이다. 가장 발빠르게 GPGPU 시장에 뛰어들었으며 GPU의 딥러닝에서의 활용을 처음 보여준 것도 NVIDIA의 제품이었으며, 이후 개발자들과 연구진들이 CUDA 중심으로 생태계를 구축하면서 2026년 현재 기준으로 CUDA는 업계 및 학계에서의 사실상 표준이 되었으며, AMD와 구글 등의 경쟁자가 AMD Instinct나 TPU 등 하드웨어 성능은 NVIDIA와 맞먹거나 능가하는 부분이 있음에도 쉬이 NVIDIA와 대적하지 못하는 이유는 오로지 CUDA 때문이라고 봐도 무방하다. AMD의 ROCm은 오랜 기간 Windows와 소비자 플랫폼에 대한 지원을 등한시했고, TPU가 사용하는 XLA 컴파일러의 경우 일단 TensorFlow 또는 JAX하고나 잘 맞지 PyTorch를 TPU 상에서 구동하려면 PyTorch/XLA라는 별도의 라이브러리를 같이 사용해야 하는데 문제는 TPU의 구조 자체가 GPU와 판이한 탓에 GPU에서 넘어오기가 참 난해하다(...) 결국 익숙한 생태계에, 커스텀 커널을 통한 최적화가 용이하며, 사용하기도 쉬운 CUDA가 1황으로 남을 수밖에 없는 것.

4. 분류

사용 목적에 따라 학습용과 추론용으로 나뉘며, 사용 환경에 따라 데이터 센터와 엣지 컴퓨팅, 개별 노드 분야로 나누어 볼 수 있다.

4.1. 사용 목적

학습용은 딥러닝 학습을 통해 규칙을 찾아, 언어 모델 등 파운데이션 모델을 구축한다. 현재 기술은 은닉층에 매개변수를 많이 넣을수록 유리한 구조[9]이기에, 아직까지는 병렬연산으로 가장 뛰어난 성능을 자랑하는 GPGPU가 가장 범용적으로 쓰인다. 다만 ASIC 방식으로 설계된 칩들이 장기적으로는 GPU를 대체할 만한 잠재성이 있다는 평가가 대다수이다.[10] 그러나 풍부한 소프트웨어 풀과 접근성으로 일명 “가져다 쓰는”게 가능해서 빠른 PoC가 가능한 GPGPU-CUDA 기반과 달리 소프트웨어 풀이 상대적으로 매우 빈약하다는 점이 지적되어, 자체 칩을 제작할 여력이 되는 일부 빅테크 기업들을 제외하곤 범용 GPU를 활용하는 방식이 여전히 대세이다. 특히 NPU와 같은 전용 연산 유닛들의 경우 동작시키기 위해 모델의 컨버팅을 진행해야 하나 GPU는 그럴 필요가 없으며, 학습과 서비스를 병행하는 환경에서 GPU의 유연성은 NPU가 대체할 수 없는 분야이기도 하므로 GPU 풀 하나로 추론과 학습까지 한번에 하는 경우가 더 많으며 NPU의 경우 어지간히 리소스가 넉넉하지 않은 한 온 디바이스 용도로 탑재하는 편이 더 많다.

추론용은 학습을 통해 구축된 모델을 기반으로 예측 수행을 하는 용도이다. 가중치와 편향은 상술한 학습 과정에서 찾아두었으니, 예측값을 도출하는 것이다. 병렬만이 강점을 갖는 분야는 아니기에, 여기에서는 각각의 용도에 따라 GPU 외에도 CPU도 자주 쓰이며, 그 외에 FPGA, ASIC [11] 등도 쓰이는 경쟁시장 상태이다.

4.2. 사용 환경

데이터 센터는 범용성이 뛰어난[12] GPU의 점유율이 압도적이며 이외에 최상위 클라우드 서비스 사업자 3명은 각자 독자적인 AI 서비스를 위해 자체 AI 칩 솔루션을 개발해서 적용하고 있다. 2020년대에 들어서는 아마존과 마이크로소프트 등을 필두로 인공지능 전용 데이터 센터를 구축하는 사례가 급격하게 늘어나고 있다.[13]

엣지 컴퓨팅은 데이터 센터 과부하로 인한 부작용들을 막기 위한 중간 컴퓨팅이다. 개별 노드들의 데이터를 각지에 흩어져 있는 클라우드렛으로 우선 전송하고, 이후 데이터 센터로 이동시킨다. 효율적인 통신을 위해 짧은 레이턴시가 매우 중요하며 GPU, ASIC, FPGA가 골고루 쓰이고 CPU는 잘 쓰이지 않는다.

스마트폰, 태블릿 등 개별 노드들에도 Apple의 Neural Engine을 시작으로 ASIC 기반의 NPU를 탑재하는 추세이다. 현재까지는 학습이 아니라 추론 용도로 개별 노드들에게 내재된 상태이다. 향후에는 개별 노드 단위로도 간단한 모델 구축이 가능한 온디바이스 인공지능 형태로 발전시켜, 내재된 데이터를 통해 개별 기기 사용자들 맞춤형으로 발전될 예정이다. 2024년 삼성전자가 구글과 협력하여, 업계 최초로 온디바이스 기능이 탑재된 스마트폰인 갤럭시 S24를 출시했으며, 중국 업체들은 물론 애플도 Apple Intelligence를 공개하며 전자기기 내 온디바이스 인공지능의 탑재는 범용성을 가질 것으로 보인다.

PC용 그래픽카드에서는 엔비디아의 지포스는 텐서 코어, AMD의 라데온은 매트릭스 연산기, 인텔 Arc는 XMX 엔진이라는 칩셋이 탑재되어 NPU와 비슷한 개념으로 작동한다. 전부 머신 러닝을 통한 게임 해상도, 프레임 개선이 주 용도이다. 이 중에서 라데온의 매트릭스 연산기는 RX 9000번대에 되어서야 제대로 탑재되었고, 오랜 세월 동안 CUDA에 투자해서 개발환경이 압도적인 지포스의 텐서 코어쪽이 현재로서는 게임 외 다른 용도로도 무난히 쓸 수 있어 NPU로서의 성능이 가장 높다.

5. 관련 기업 및 대표 제품

2022년을 기준으로 해당 분야에서는 95% 가까이 GPU와 FPGA 등 범용칩이 시장을 점유하고 있으며 특히 엔비디아가 80% 내외의 점유율로 1위 사업자 자리를 공고히 지키고 있다. 현재 제대로 외부 고객에게 양산되고 있는 칩은 엔비디아의 제품이 유일하고, 이로 인해서 수요 대비 공급 부족 현상이 심화되자 고객사들은 점차 ASIC 방식을 통해 칩 자립화에 도전하고 있는 상황이다.[14] 이로 인해 커스텀 칩의 점유율이 점점 상승하면서 일부 시장조사 업체에서는 2027년까지 GPU 점유율이 70%까지 하락할 것이라고 관측하기도 한다.[15]

파일:37A0616B-30B6-40CF-ACAC-4ABBB6793D64.jpg

2024년 인공지능 분야 ASIC 예측 점유율

2023년 9월 모건 스탠리 리포트에 따르면 GPGPU를 제외한 ASIC 방식의 커스텀 칩셋 시장 규모는 2024년 62억 달러까지 성장할 것으로 전망했다. 구글은 이미 딥러닝 연산 분야 한정으로는 칩 자립화에 성공하여 엔비디아의 A100/H100을 대체하고 있으며 테슬라, 아마존닷컴, 마이크로소프트 등 나머지 주요 업체들은 2023년에 칩셋을 출시했거나 2024년 내로 상용화할 예정이다. 샘 올트먼도 인공지능 칩 시장 도전 의사를 밝혔다. 애초에 그래픽카드 그자체의 원래 용도는 말 그대로 그래픽이지 GPGPU같은 연산은 추가용도에 불과하며 그래픽카드는 의외로 인공지능 개발용으론 매우 비효율적이다.[16] 결정적으로 각 회사마다 전용 모델들을 쓰기 때문에 굳이 CUDA 및 엔비디아 그래픽카드를 쓸 필요가 없고 오히려 효율성은 전용 NPU가 훨씬 더 좋다. 이미 전용칩을 상용화해서 쓰는 회사들은 Microsoft, Google, Tesla, Amazon, Apple가 있다.

다만 적어도 당분간은 엔비디아가 압도적인 강세를 띌 것이 확실시되는 상황이다. 엔비디아의 최대 고객 중 하나인 Microsoft는 연말까지 기존 60만 개의 GPU에서 180만 개까지 늘릴 계획을 밝혔으며, 테슬라도 테슬라 오토파일럿 용도로 H100 치환 기준 GPU를 2023년 15,000대 수준에서 2024년 연말까지 85,000대 수준으로 늘릴 계획을 밝혔다. 두 업체 모두 자체 ASIC 생산에 돌입한 상황이지만, 현재로서는 일부 대체에 그칠 뿐더러 외부 자본 지출 비중을 급격하게 늘려나가고 있다. 하지만 그래픽카드는 위에서 언급했다시피 연산은 원래 용도가 아닐 뿐더러 매우 비효율적이지만 단지 범용성과 호환성 때문에 많이 쓰일 뿐이다.

그런데 Google이 자사칩인 TPU로만 학습한 Gemini 3.0이 OpenAI의 ChatGPT를 능가해 버리는 일이 생겨서 엔비디아의 입지를 흔들게 되었다.# 이로 인해 OpenAI는 코드 레드를 발령할 정도. 즉, 전용칩 혹은 NPU로 학습 및 개발한 AI가 엔비디아 GPU로 학습 및 개발한 AI를 능가할 수 있다는 걸 증명한 사례가 되었다.

5.1. 해외

엔비디아

A100 Tensor Core GPU: H100 출시 전까지 가장 강력한 성능을 냈다.
H100 Tensor Core GPU: 2022년 10월, TSMC 4nm 공정으로 출시. 테슬라 오토파일럿이나 ChatGPT의 기반 모델인 GPT-4 학습에 사용되었다.
H200 Tensor Core GPU: 2023년 11월 13일에 공개했다. HBM3e 메모리가 탑재됐다.
B200 Tensor Core GPU: 2024년 3월에 공개됐으며 4nm 공정으로 출시. H100의 2배 성능을 보여준다.

구글: 브로드컴과 공동설계

TPU v4: TSMC 7nm 공정으로 출시. 알파고에 사용되어 유명해졌으며, 바드 구축을 위한 모델인 LaMDA와 PaLM 학습에 사용되었다. HBM 방식의 메모리를 탑재해서 최상의 대역폭을 자랑한다. 컨슈머용 Edge 제품군도 있으며 이는 Coral 사의 Edge TPU 로 발매된다. USB 연결형부터 PCIe 형까지 다양하다.
TPU v5: TSMC 5nm 공정으로 출시. v4 대비 2배 향상된 성능을 자랑한다.
TPU v6: TSMC 4nm 공정으로 출시. v5 대비 성능이 정직하게 2배 상승했다.
TPU v7: TSMC 3nm 공정으로 출시. 칩 1개에 HBM 메모리가 무려 192GB가 들어간다. v6보다 4배나 성능이 향상됐다.
TPU v8: TSMC 2nm 공정으로 출시 예정

Apple

Neural Engine: A11 Bionic 이후의 Apple Silicon에 탑재된다. 모바일 NPU 탑재의 선두 주자이다. CPU와 GPU의 메모리를 합친 SoC이기 때문에 전력 효율이 좋고 병목 현상이 적은 편이다.

테슬라

AI4: 현재 자율주행에 활용되는 칩으로, 이전 HW3 칩 대비 성능이 크게 향상됐다.
~~AI5~~: 설계가 거의 완료되었으며, AI4 대비 4배 이상의 성능을 목표로 하며 삼성전자와 TSMC에서 생산될 예정.
~~AI6~~: 테슬라 완전자율주행(FSD) 시스템의 핵심이 될 예정.

메타: 브로드컴과 공동설계

MTIA

MTIA v1: 2023년 5월에 공개한 자사 최초 가속기이다. 2020년부터 개발했고, 자사 맞춤화 알고리즘과 생성형 인공지능 등의 학습과 추론 분야 전반에 걸쳐 사용할 예정이라고 한다. TSMC 7nm 공정으로 출시 예정이며, PyTorch로 소프트웨어를 통해 RISC-V 아키텍처를 사용하고, SRAM을 캐시처럼 활용하는 방식으로 설계했다.
MTIA v2: 2024년 4월에 공개한 자사 2세대 가속기이다. PCIe 5.0 규격으로 개발됐다.

마이크로소프트

MAIA 100: 2023년 11월 16일에 공개한 인공지능 업무용 칩셋. Bing과 Microsoft 365, 파트너사인 OpenAI에서 테스트를 했고. 2024년 출시 했다.
Maia 200: 2026년 1월 26일에 출시. TSMC 3nm 공정이며, HBM3E 216GB 메모리가 탑재된다.
ATHENA: TSMC 5nm 공정으로 2024년 출시 . 공급이 제한적인 데다 가격이 비싼 엔비디아 칩셋을 일부 대체하여 자사 LLM 구축에 사용한다.

아마존

Trainium: AWS 문서 참고.
Inferentia: AWS 문서 참고.

인텔-하바나랩 [17]

Gaudi-1
Gaudi-2: 2022년 5월 출시.
Gaudi-3: 2024년 출시. HBM3가 탑재.

MI300: 세계 최초의 데이터 센터용 APU라는 마케팅을 앞세워 CES 2023에서 공개됐다. 엔비디아의 H100을 직접 언급하며 1.6배의 대역폭, 2.4배의 집적도가 가능하다고 홍보했다. 2023년 12월 6일 출시되었고, 현재 업계에서는 가속기가 없어서 못 사는 상황이기에 성능만 발표에서 언급한 대로 나와준다면 없어서 못 파는 칩셋이 될 전망이다.
MI350: 2024년 HBM3e를 탑재.

Hailo
이스라엘 소재의 AI솔루션 업체. 이 회사는 두 가지 특이점이 있는데, NPU가 모두 10W 미만의 저전력이면서, 이를 PCI 형태로도 패키징[18] 하여 일반 소비자 시장에 적극적이다. 국내 총판들이 정식 수입하고 있어 해외배송도 필요 없이 네이버 쇼핑에서[19]저렴하게 구매할 수 있다. 개발환경에도 적극적이어서 드라이버(Windows,리눅스)와 API는 물론이고 SDK툴킷과 예제용 AI프로그램에 이를 모두 포함하는 리눅스 배포판도 함께 제공하며, 개발 커뮤니티도 운영하고 있다.

Hailo 8 - 세 종류 (8, 8L, 8R)가 있으며, 8의 경우 26TOPS의 성능이다. 8L과 8R[20]은 13TOPS.
Hailo 10 - 두 종류 (10, 10H)가 있으며 40TOPS의 성능이다. 현재는 10H[21]만 제공하며, HP에서도 M.2가속기로 자사 AI노트북 및 산업용[22]PC 등에 사용하고 있다.
Hailo 15 - 세 종류 (15, 15L, 15H)가 있는데 모두 ARM A53[23]기반의 DSP칩이다. ARM CPU에 NPU와 이미지프로세서를 통합한 형태이며 Vision Processor으로 호칭한다. 4K60P의 HEVC/H264 영상처리에 HW이미지가속[24]과 AI가속[25]을 제공한다.

그래프코어 [26]

IPU-BOW2000/IPU-M2000

세레브라스 시스템즈

WSE-1
WSE-2
WSE-3

텐스토런트

Groq

sambanova

mythic

Rockchip

RKNPU

AXERA

Neutron NPU

5.2. 한국

퓨리오사AI

WARBOY : 14nm로 생산된 컴퓨터 비전 특화 칩셋이다.
RNGD

리벨리온

ATOM : 2023년 5nm 생산
리벨

모빌린트

ARIES : 2022년 14nm 생산
REGULUS : 2024년 12nm 생산

6. CPU 포함 NPU

이와 같이 온디바이스 AI에 대한 수요가 높아지자, 기존의 CPU에 NPU를 통합하는 사례도 발생하고 있다.

Microsoft가 Copilot+ PC를 도입하며 40 TOPS 이상을 요구하였고, 2026년 현재는 모바일 CPU에만 인텔 코어 Ultra 시리즈/2세대 와 라이젠 AI 300 시리즈, 라이젠 AI 400 시리즈에 탑재되어 출시 중이다.
AMD는 Lemonade, FastFlow LM, AMD Ryzen AI Software, whisper.cpp 등을 이용해 NPU를 이용해 언어 모델 및 Whisper를 사용할 수 있다.

모바일

애플은 아이폰 8에 들어간 A11 바이오닉 (Apple Silicon/A 시리즈)부터, 삼성은 갤럭시 S10부터 NPU를 투입하기 시작하였다.

7. 관련 문서

인공지능

비전 프로세싱 유닛

인공신경망 / 딥러닝

[1] 엔비디아의 CUDA를 비롯해서 OpenCL, ROCm 등.[2] 대표적인 예시로 구글의 TPUv4는 1W당 1.62TOPS라는 기술의 혁신 그 자체를 보여주고 있다. 또한 테슬라 FSD칩에 탑재된 NPU도 144W의 낮은 소비전력으로 72TOPS 수준의 연산 능력을 보여준다. 엔비디아 대비 연산 성능 자체는 밀리지만, 소비전력 대비 연산능력은 이미 추월한 것이다. 이들은 장기적으로 대량 양산하고 가격을 낮춰, 규모의 경제 효과로 완전한 칩 자립화를 꿈꾸고 있는 상황이다.[3] 다만 생각해 보아야 할 측면도 있다. 칩당 최고성능을 낮추어서 전력효율을 올리는 것은 제조사 입장에서 비교적 쉬운 일이다. 여러 모바일 AP나 CPU에서 효율코어와 성능코어를 분리하는 것을 생각해 보면 알 수 있다. 따라서 전력효율이 더 높다는 것만으로는 엔비디아 보다 우월하다고 판단할 수 없다.[4] 정리하자면 태생부터 범용적이었던 GPU의 비효율성을 줄이고 딥러닝 용도로 최적화시킨 게 NPU.[5] CUDA, OpenCL 등.[6] PyTorch, TensorFlow, Tinygrad, Hugging Face Transformers 등.[7] 주로 트랜스포머 방식 사용.[8] ChatGPT, CodeWhisperer, GitHub Copilot 등.[9] 다만, 많이 넣는 것 외에 전처리 과정에서 유리하도록 질이 높은 데이터를 수집하거나 압축성이 좋은 모델을 만드는 것도 강력한 딥러닝 구축에 있어서 중요한 요소이다.[10] 대표적으로 구글의 TPU, 테슬라의 D1 등 GPU 주요 고객사들이 자체 ASIC 설계에 집중하머 장기적으로 대량 양산하여 GPU를 대체할 계획을 짜고 있다.[11] 애플의 뉴럴엔진, 테슬라의 FSD칩 등이 대표적 사례.[12] GPU 서버의 경우 AI추론이 아니어도 그래픽, 영상 가속이나 대규모 연산 등에 사용이 가능하며 이외에 암호화폐 채굴 등에도 쓸 수 있어 일부 암호화폐 채굴 업체는 채굴 붐이 다 지자 가지고 있던 GPU자원을 활용해 AI학습 워크로드를 돌리는 사업으로 전환하기도 했다.[13] 기존 데이터 센터 대비 입지의 자유성이 늘어났으며, 공간 효율성이 훨씬 뛰어나 토지 및 건축물 관련 비용은 줄어들었다. 반면 전력과 냉각 등 유지비가 천문학적으로 늘어났다는 특징이 존재한다.[14] 엔비디아는 설립 30년이 훌쩍 넘은 기업이었으나, 이러한 칩 부족 현상으로 인해 2023년 2분기부터 전년 대비 매출이 3배 가까이 늘어났다. 영업이익률도 3배 가까이 뛰었을 정도로 가격결정력이 넘사벽인 상황이었다.[15] 당연히 GPU 시장 자체가 줄어든다고 관측하는 것은 아니다. 인공지능 연산 분야에서 ASIC 기반 커스텀 칩 시장이 빠른 속도로 커질 것이라는 전망. 엔비디아는 TSMC, 삼성 파운드리에게 대량 발주를 던져주는 주요 고객이기 때문에 Apple Silicon 정도를 제외하면, 최신 공정에 가장 먼저 접근할 수 있는 위치에 있다. 즉, 같은 세대의 공정이라면 커스텀 업체가 엔비디아보다 먼저 최신 공정을 양산하면서 성능을 따라잡기는 아직까지 힘들다는 뜻이다.[16] 정확히 말하자면 성능은 매우 뛰어나지만 애초에 태생이 인공지능용이 아니었으므로 설계 단계부터 인공지능용으로 최적화된 NPU/ASIC에 비해 덜 최적화된 것이다. NPU는 극단적으로 말해서 NVIDIA GPU에서 텐서 코어 부분만 뚝 떼와 만든 거라고 봐도 될 정도.[17] 2019년 20억 달러에 인텔이 인수했다.[18] M.2모듈이 가장 일반적이고, 심지어는 구형 mPCIe 모듈도 제공한다.[19] ZAiV-M.2 등의 모듈이 10만 원 초반대에 판매되고 있다.[20] 8R만 PCIe 1레인이며 mPCIe 모듈로 제공된다. 이외 모든 제품들은 M.2이다.[21] 모듈은 PCIe 4레인의 M.2[22] Engage Flex시리즈[23] 4코어 1.3GHz[24] NR,HDR과 왜곡보정, 손떨림보정, 디지털줌 등[25] 15H는 20TOPS, 15는 11TOPS, 15L은 7TOPS.[26] 세콰이어캐피탈에서 27억 달러라는 막대한 돈을 투자한 기업이다.