CUDA

#!if 넘어옴1 != null
'''쿠다'''{{{#!if 넘어옴2 == null
{{{#!if 넘어옴1[넘어옴1.length - 1] >= 0xAC00 && 넘어옴1[넘어옴1.length - 1] <= 0xD7A3
{{{#!if ((넘어옴1[넘어옴1.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴1[넘어옴1.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴1[넘어옴1.length - 1] < 0xAC00 || 넘어옴1[넘어옴1.length - 1] > 0xD7A3
은(는)}}}}}}{{{#!if 넘어옴2 != null
, ''''''{{{#!if 넘어옴3 == null
{{{#!if 넘어옴2[넘어옴2.length - 1] >= 0xAC00 && 넘어옴2[넘어옴2.length - 1] <= 0xD7A3
{{{#!if ((넘어옴2[넘어옴2.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴2[넘어옴2.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴2[넘어옴2.length - 1] < 0xAC00 || 넘어옴2[넘어옴2.length - 1] > 0xD7A3
은(는)}}}}}}}}}{{{#!if 넘어옴3 != null
, ''''''{{{#!if 넘어옴4 == null
{{{#!if 넘어옴3[넘어옴3.length - 1] >= 0xAC00 && 넘어옴3[넘어옴3.length - 1] <= 0xD7A3
{{{#!if ((넘어옴3[넘어옴3.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴3[넘어옴3.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴3[넘어옴3.length - 1] < 0xAC00 || 넘어옴3[넘어옴3.length - 1] > 0xD7A3
은(는)}}}}}}}}}{{{#!if 넘어옴4 != null
, ''''''{{{#!if 넘어옴5 == null
{{{#!if 넘어옴4[넘어옴4.length - 1] >= 0xAC00 && 넘어옴4[넘어옴4.length - 1] <= 0xD7A3
{{{#!if ((넘어옴4[넘어옴4.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴4[넘어옴4.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴4[넘어옴4.length - 1] < 0xAC00 || 넘어옴4[넘어옴4.length - 1] > 0xD7A3
은(는)}}}}}}}}}{{{#!if 넘어옴5 != null
, ''''''{{{#!if 넘어옴6 == null
{{{#!if 넘어옴5[넘어옴5.length - 1] >= 0xAC00 && 넘어옴5[넘어옴5.length - 1] <= 0xD7A3
{{{#!if ((넘어옴5[넘어옴5.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴5[넘어옴5.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴5[넘어옴5.length - 1] < 0xAC00 || 넘어옴5[넘어옴5.length - 1] > 0xD7A3
은(는)}}}}}}}}}{{{#!if 넘어옴6 != null
, ''''''{{{#!if 넘어옴7 == null
{{{#!if 넘어옴6[넘어옴6.length - 1] >= 0xAC00 && 넘어옴6[넘어옴6.length - 1] <= 0xD7A3
{{{#!if ((넘어옴6[넘어옴6.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴6[넘어옴6.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴6[넘어옴6.length - 1] < 0xAC00 || 넘어옴6[넘어옴6.length - 1] > 0xD7A3
은(는)}}}}}}}}}{{{#!if 넘어옴7 != null
, ''''''{{{#!if 넘어옴8 == null
{{{#!if 넘어옴7[넘어옴7.length - 1] >= 0xAC00 && 넘어옴7[넘어옴7.length - 1] <= 0xD7A3
{{{#!if ((넘어옴7[넘어옴7.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴7[넘어옴7.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴7[넘어옴7.length - 1] < 0xAC00 || 넘어옴7[넘어옴7.length - 1] > 0xD7A3
은(는)}}}}}}}}}{{{#!if 넘어옴8 != null
, ''''''{{{#!if 넘어옴9 == null
{{{#!if 넘어옴8[넘어옴8.length - 1] >= 0xAC00 && 넘어옴8[넘어옴8.length - 1] <= 0xD7A3
{{{#!if ((넘어옴8[넘어옴8.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴8[넘어옴8.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴8[넘어옴8.length - 1] < 0xAC00 || 넘어옴8[넘어옴8.length - 1] > 0xD7A3
은(는)}}}}}}}}}{{{#!if 넘어옴9 != null
, ''''''{{{#!if 넘어옴10 == null
{{{#!if 넘어옴9[넘어옴9.length - 1] >= 0xAC00 && 넘어옴9[넘어옴9.length - 1] <= 0xD7A3
{{{#!if ((넘어옴9[넘어옴9.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴9[넘어옴9.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴9[넘어옴9.length - 1] < 0xAC00 || 넘어옴9[넘어옴9.length - 1] > 0xD7A3
은(는)}}}}}}}}}{{{#!if 넘어옴10 != null
, ''''''{{{#!if 넘어옴10[넘어옴10.length - 1] >= 0xAC00 && 넘어옴10[넘어옴10.length - 1] <= 0xD7A3
{{{#!if ((넘어옴10[넘어옴10.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴10[넘어옴10.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴10[넘어옴10.length - 1] < 0xAC00 || 넘어옴10[넘어옴10.length - 1] > 0xD7A3
은(는)}}}}}} 여기로 연결됩니다.

#!if 설명 == null && 리스트 == null
{{{#!if 설명1 == null
다른 뜻에 대한 내용은 아래 문서를}}}{{{#!if 설명1 != null
{{{#!html DJMAX의 수록곡}}}에 대한 내용은 [[KUDA]] 문서{{{#!if (문단1 == null) == (앵커1 == null)
를}}}{{{#!if 문단1 != null & 앵커1 == null
의 [[KUDA#s-|]]번 문단을}}}{{{#!if 문단1 == null & 앵커1 != null
의 [[KUDA#|]] 부분을}}}}}}{{{#!if 설명2 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단2 == null) == (앵커2 == null)
를}}}{{{#!if 문단2 != null & 앵커2 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단2 == null & 앵커2 != null
의 [[#|]] 부분을}}}}}}{{{#!if 설명3 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단3 == null) == (앵커3 == null)
를}}}{{{#!if 문단3 != null & 앵커3 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단3 == null & 앵커3 != null
의 [[#|]] 부분을}}}}}}{{{#!if 설명4 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단4 == null) == (앵커4 == null)
를}}}{{{#!if 문단4 != null & 앵커4 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단4 == null & 앵커4 != null
의 [[#|]] 부분을}}}}}}{{{#!if 설명5 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단5 == null) == (앵커5 == null)
를}}}{{{#!if 문단5 != null & 앵커5 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단5 == null & 앵커5 != null
의 [[#|]] 부분을}}}}}}{{{#!if 설명6 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단6 == null) == (앵커6 == null)
를}}}{{{#!if 문단6 != null & 앵커6 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단6 == null & 앵커6 != null
의 [[#|]] 부분을}}}}}}{{{#!if 설명7 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단7 == null) == (앵커7 == null)
를}}}{{{#!if 문단7 != null & 앵커7 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단7 == null & 앵커7 != null
의 [[#|]] 부분을}}}}}}{{{#!if 설명8 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단8 == null) == (앵커8 == null)
를}}}{{{#!if 문단8 != null & 앵커8 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단8 == null & 앵커8 != null
의 [[#|]] 부분을}}}}}}{{{#!if 설명9 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단9 == null) == (앵커9 == null)
를}}}{{{#!if 문단9 != null & 앵커9 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단9 == null & 앵커9 != null
의 [[#|]] 부분을}}}}}}{{{#!if 설명10 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단10 == null) == (앵커10 == null)
를}}}{{{#!if 문단10 != null & 앵커10 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단10 == null & 앵커10 != null
의 [[#|]] 부분을}}}}}}

#!if 설명 == null
{{{#!if 리스트 != null
다른 뜻에 대한 내용은 아래 문서를}}} 참고하십시오.

#!if 리스트 != null
{{{#!if 문서명1 != null
 * {{{#!if 설명1 != null
DJMAX의 수록곡: }}}[[KUDA]] {{{#!if 문단1 != null & 앵커1 == null
문서의 [[KUDA#s-|]]번 문단}}}{{{#!if 문단1 == null & 앵커1 != null
문서의 [[KUDA#|]] 부분}}}}}}{{{#!if 문서명2 != null
 * {{{#!if 설명2 != null
: }}}[[]] {{{#!if 문단2 != null & 앵커2 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단2 == null & 앵커2 != null
문서의 [[#|]] 부분}}}}}}{{{#!if 문서명3 != null
 * {{{#!if 설명3 != null
: }}}[[]] {{{#!if 문단3 != null & 앵커3 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단3 == null & 앵커3 != null
문서의 [[#|]] 부분}}}}}}{{{#!if 문서명4 != null
 * {{{#!if 설명4 != null
: }}}[[]] {{{#!if 문단4 != null & 앵커4 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단4 == null & 앵커4 != null
문서의 [[#|]] 부분}}}}}}{{{#!if 문서명5 != null
 * {{{#!if 설명5 != null
: }}}[[]] {{{#!if 문단5 != null & 앵커5 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단5 == null & 앵커5 != null
문서의 [[#|]] 부분}}}}}}{{{#!if 문서명6 != null
 * {{{#!if 설명6 != null
: }}}[[]] {{{#!if 문단6 != null & 앵커6 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단6 == null & 앵커6 != null
문서의 [[#|]] 부분}}}}}}{{{#!if 문서명7 != null
 * {{{#!if 설명7 != null
: }}}[[]] {{{#!if 문단7 != null & 앵커7 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단7 == null & 앵커7 != null
문서의 [[#|]] 부분}}}}}}{{{#!if 문서명8 != null
 * {{{#!if 설명8 != null
: }}}[[]] {{{#!if 문단8 != null & 앵커8 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단8 == null & 앵커8 != null
문서의 [[#|]] 부분}}}}}}{{{#!if 문서명9 != null
 * {{{#!if 설명9 != null
: }}}[[]] {{{#!if 문단9 != null & 앵커9 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단9 == null & 앵커9 != null
문서의 [[#|]] 부분}}}}}}{{{#!if 문서명10 != null
 * {{{#!if 설명10 != null
: }}}[[]] {{{#!if 문단10 != null & 앵커10 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단10 == null & 앵커10 != null
문서의 [[#|]] 부분}}}}}}

{{{#!wiki style="margin: +10px +10px;"		<tablealign=right><tablebordercolor=#76b900><tablebgcolor=#76b900>	CUDA Compute Unified Device Architecture	}}}
<colbgcolor=#76b900> 공개	2006년 11월
출시	2007년 6월 23일
최신 버전	13.3 (CUDA 소프트웨어) 2026년 5월 업데이트 12.x (CUDA 하드웨어) RTX 50시리즈 기준
웹사이트

1. 개요2. 역사3. 상세4. 버전5. 기타

5.1. 여담5.2. 유사 기술

6. 관련 문서

1. 개요

Compute Unified Device Architecture[1]

NVIDIA가 만든 GPGPU 플랫폼 및 API 모델.

NVIDIA가 개발한 병렬 컴퓨팅 플랫폼 및 프로그래밍 모델로, GPU의 수많은 코어를 활용하여 복잡한 계산을 CPU와 함께 병렬 처리할 수 있게 해주는 기술이다. 주로 인공지능, 과학 계산, 딥러닝 분야에서 GPU의 강력한 연산 능력을 효율적으로 사용하기 위해 개발되었으며, C, C++ 기반이지만 파이썬 등 다양한 언어에서도 사용된다.

2. 역사

2006년, 모두가 GPU와 게임 그래픽에 집중할 때 젠슨 황은 GPU를 그래픽이 아닌 학습과 계산에 사용할 수 있다는 새로운 가능성을 발견했다. 그는 천문학적인 예산을 투입하여 쿠다(CUDA)라는 소프트웨어를 개발했다. 쿠다는 단순한 그래픽 하드웨어였던 GPU를 데이터 학습과 대규모 계산이 가능한 엔진으로 완전히 바꿔놓은 소프트웨어였다. 다만 출시 당시엔 시대를 너무 앞서간 기술이었다.

그럼에도 불구하고 CUDA의 가능성을 믿은 젠슨 황은 지속적인 연구 개발을 이어가며 CUDA를 포기하지 않았다. 그리고 2012년, 캐나다 토론토 대학의 제프리 힌튼, 알렉스 크리제브스키, 일리야 수츠케버 연구팀이 인공신경망이 스스로 패턴을 배우는 딥러닝 기술을 구현했다. 놀랍게도 이 딥러닝 학습에는 나사의 슈퍼컴퓨터가 아닌, 엔비디아 GeForce GTX 580 단 두 개와 쿠다가 사용되었다.

이 기술로 만들어진 신경 모델 알렉스(Alex)는 이미지 인식 대회에서 상대 팀들을 압도적인 격차로 누르고 승리했다. 시간이 지나 이 세 명의 연구원은 AI 시대의 핵심 인물이 되었다 (제프리 힌튼은 노벨 물리학상 수상, 크리제프스키는 AI 회사 구글 매각, 수츠케버야는 오픈AI 공동 창업자).

2012년 알렉스넷의 성능을 목격한 젠슨 황은 쿠다의 가능성을 다시 한번 강하게 믿게 되었고, 딥러닝 연구자들에게 GPU를 적극 지원하며 딥러닝 전용 GPU 칩 개발을 시작했다.

2016년, 그는 수십억 달러를 투자하여 GPU와 쿠다를 기반으로 한 최초의 AI 전용 슈퍼컴퓨터 DGX-1을 세상에 공개했다. DGX-1의 가치를 알아본 기업가 일론 머스크가 젠슨 황을 찾아와 이 슈퍼컴퓨터가 필요한 회사가 있다고 말했다. 젠슨 황은 슈퍼컴퓨터 한 대를 챙겨 샌프란시스코로 향했고, 그 회사는 오픈AI였으며, 젠슨 황은 오픈AI에 DGX-1을 공급했다.

2022년 11월, GPT 등장과 함께 인류의 일상에 AI가 들어오게 되었다. AI 시대의 핵심 연료가 엔비디아의 GPU와 쿠다라는 사실이 드러나자 전 세계 기업, 정부, 연구 기관이 엔비디아 제품을 찾기 시작했다. 그 결과 엔비디아는 세계 경제 질서를 흔들 수준으로 성장했다.#

2025년 이후부터는 모델 훈련보다 추론이 더욱 부각되고 있는데, CUDA의 경우 모델 훈련에서의 독점을 유지하고 있지만 추론에서는 급격하게 ASIC 기반 다른 칩셋들에게 수요가 대체되고 있다. 게다가 GPU 및 메모리 가격 급등, 스타트업들의 자체 AI 개발 프로젝트 부진 추세로 인해 외부 AI 모델을 연동한 RAG 개발이 대세가 됨에 따라서 모델 훈련보다 추론의 빈도가 더욱 급증하고 있다. 반면에 모델 훈련은 일회성이고 ONNX 기반의 모델 아티펙트로 저장하고 나서부터는 오르지 추론만 필요하기 때문에 구글, OpenAI, Anthropic 등의 LLM 개발 회사나 미리 만들어진 로컬 LLM 모델을 쓰는 소수의 회사가 아닌 이상에는 엔비디아 GPU에 대한 수요가 줄어들 수도 있다.

3. 상세

엔비디아의 GPGPU를 활용할 수 있게 해 주는 소프트웨어 스택으로 CUDA 코어가 장착된 NVIDIA GPU에서 작동한다. 발빠른 출시 덕분에 수많은 개발자들을 끌어 들였고, 엔비디아 생태계의 핵심이 되었다. GPU 성능차이도 있지만, 딥러닝이 각각 2016년(알파고)과 2023년(ChatGPT)에 제대로 터지기 전부터 일찌감치 개발자들을 해당 플랫폼에 락인시킨 것이 매우 크다.[2]

PTX(ISA) (Portable Thread Execution)라는 GPU의 가상 명령어 집합 (IR)과 하드웨어 네이티브 언어 모두 지원한다.

그래픽 카드의 GPU는 대량의 데이터에 한 가지 연산을 적용하는 경우가 많기 때문에 단순화된 연산 유닛(코어)을 천여 개씩 탑재하고 있다.[3] 따라서 SIMD(Single Instruction Multiple Data) 형태의 병렬화가 가능한 연산에 GPU를 활용해서 속도를 올리려는 시도는 예전부터 있어 왔다. 그러나 원래 그래픽을 처리하라고 설계된 그래픽스 파이프라인을 가지고 일반적인 병렬 연산을 수행하는 것은 매우 골치아픈 일이었다. 프로그래머가 일일이 GPU의 세부 사항을 다 신경써야 했기 때문이다.

CUDA 프로그램은 스트림 프로세싱[4]에 기반하며, 그 작성에는 C/C++ 언어[5]에 동시에 실행할 쓰레드 개수 등을 선언하는 데 사용되는 CUDA 전용 문법을 추가한 언어를 사용한다. CUDA 코드는 대략 GPU 안에서만 돌아가는 함수(커널이라고 부른다)를 호스트(CPU)에서 호출하는 형태로 되어 있다.

CUDA C++의 문법에 대한 자세한 내용은 CUDA/문법 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[CUDA/문법#s-|]]번 문단을

#!if 문단 == null & 앵커 != null
{{{#!if 문서명 = 문서명 != null ? 문서명 : calleeTitle
의 [[CUDA/문법#|]] 부분을}}}

참고하십시오.

4. 버전

2006년 11월에 G80 마이크로아키텍처와 함께 발표되었고, 2007년 6월 23일에 CUDA SDK가 배포되었다. 초기에는 C, C++만을 지원하였지만 10여 년이 지난 지금은 포트란이나 C# 등 다양한 언어와 함께 쓸 수 있다. 그러나 기본적인 구조는 NVIDIA 자체 언어인 cuda c 언어로 GPU에서 돌아가는 부분의 코드를 짜면 전용 CUDA 컴파일러가 컴파일하고, 이를 C++나 C# 같은 기존 언어로 만들어진 나머지 코드와 합치는 방식이다. 버전 정보는 이곳에서 확인할 수 있다.

새로운 마이크로아키텍처 혹은 새로운 GPU가 나올 때마다 CUDA Compute Capability가 올라갔기 때문에 오래된 GPU는 CUDA Compute Capability가 낮아서 일부 CUDA 기반 응용프로그램과 호환이 안 될 수 있으나, 과거에 개발된 CUDA 기반 응용프로그램은 최신 GPU에서도 잘 작동한다. 또한, CUDA가 대두되면서 2007년에 GPGPU 전용인 TESLA[6] 제품군이 나왔는데, TESLA 제품군은 ECC 메모리를 탑재하여 메모리 오류를 정정하며, GeForce에서 쓰이는 같은 아키텍처 칩셋이라도 추가 명령어 몇 개를 더 지원한다. 다만 차세대 아키텍처 GeForce에선 이전 세대의 CUDA 명령어를 전부 흡수하여 지원하므로 최신 GeForce 제품을 써도 이전 세대의 Tesla 전용 명령어를 쓸 수 있다. 다만 CUDA 하드웨어 12.0와 CUDA 툴킷 12 버전부터 32비트 지원을 중단하여 PhysX 32비트나 OpenCL 32비트 같은 레거시 소프트웨어들은 돌릴 수 없다.[7]

GPU에 따른 CUDA Compute Capability는 이 링크를 참고하면 되며, 아래에 아키텍처 또는 GPU별로 정리하였다. CUDA SDK 버전과는 다르므로 구분할 때 주의할 것.

G80 : 1.0
G84, G86, G92, G94, G96, G98 : 1.1
GT215, GT216, GT218 : 1.2
GT200 : 1.3
Fermi : 2.0~2.1
Kepler 1.0 : 3.0~3.7
Kepler 2.0 : 3.5~3.7
Maxwell 1.0 : 5.0~5.3
Maxwell 2.0 : 5.2~5.3
Pascal : 6.0~6.2
Volta : 7.0
Turing : 7.5
Ampere: 8.6
Hopper : 9.0
Ada Lovelace: 8.9
Blackwell: 10.0~12.0

5. 기타

5.1. 여담

CUDA는 GPU의 메모리 모델을 추상화해서 좀 더 편하게 GPU를 쓸 수 있도록 하였지만 여전히 CUDA로 최대 성능을 얻으려면 GPU 메모리 구조에 대해서 잘 알아야 한다. 윈도우 한정으로 CUDA 프로그래밍의 귀찮음을 덜어 주고자 만들어진 BSGP(Bulk-Synchronous GPU Programming)라는 녀석이 존재한다. BSGP는 CUDA의 기계어 명령번역을 사용한 별도 언어다. 레이 트레이싱 류의 coherence가 낮은 작업에선 CUDA보다 성능이 좋다. 다만 BSGP가 만능은 아니다. 반대로 메모리 참조 연속성이 강한 작업에선 CUDA보다 성능이 떨어진다.

R337 드라이버 이후부터는 Geforce 제품군에서의 CUDA 기반 비디오 인코딩/디코딩 라이브러리가 삭제되었다. NVENC [8]를 밀기 위해서라는데(이전의 쿠다 인코더를 대체) Tesla나 Quadro 제품군은 정상적으로 사용이 가능하다. 이에 CUDA 가속을 사용하는 코덱의 사용이 불가능해지거나, 이전의 라이브러리 파일을 따로 넣지 않으면 미디어 편집 프로그램들에서의 호환성에 문제가 생겼다. ~~황사장: 꼬우면 쿼드로 사시든가~~

딥러닝을 도와주는 여러 라이브러리도 CUDA와 함께 제공된다. cuDNN, Convolution 연산을 더 빠르게 만들어주는 cuFFT [9], 선형대수 모듈인 cuBLAS 등 사실상 필요한 라이브러리들은 대부분 구현되어 있다. ~~하지만 그래도 사용은 어렵다.~~ TensorFlow나 PyTorch 프레임워크가 이와 같은 라이브러리들을 사용한다.

위에서도 언급된 것처럼, NVIDIA의 GPU에서 사용되는 PTX ISA(명령어 셋)의 경우 CUDA를 이용하여 컴파일하는 것이 일반적이지만, PTX 어셈블리를 역엔지니어링하고 공개된 자료를 사용하여 PTX 바이너리로 컴파일하는 독자적인 도구를 만드는 프로젝트들도 일부 존재한다. 이 경우 CUDA만큼 업데이트가 빠르고 직접적으로 지원을 받는 것은 불가능하지만, cuda c가 아닌 다른 언어로(C# 등) 짠 코드를 직접 GPU에서 돌리는 코드를 생성한다거나, CUDA SDK 및 DLL 설치 없이 그 자체만으로 GPU 연산 프로그램을 생성 및 실행할 수 있다는 장점이 있다.[10]

딥시크나 무어 스레드 등의 중국 테크기업들은 NVIDIA의 엔터프라이즈 GPU가 아닌 하드웨어에 걸린 CUDA 사용 제한을 우회하고자, 필요한 PTX 어셈블리 명령어를 이 방식으로 직접 작성하였다고 알려져 있다.[11]

5.2. 유사 기술

CUDA와 비슷한 GPGPU 기술로 OpenCL과 DirectCompute가 있지만 이들은 표준을 기준으로 만들어졌기 때문에 로우 레벨 API의 하드웨어에 있는 고급 기능까지 사용하여 한계까지 성능을 끌어내긴 어렵다. 즉, 다른 기술은 D3D API 등을 경유하기 때문에 시간이 걸리지만 쿠다는 바로 하드웨어를 제어할 수 있다.

하지만 이는 쿠다의 단점으로도 이어지는데, 그래픽 기능과의 연동을 전제로 만들어진 DirectCompute에 비해 그래픽 출력 용도로 사용 시 오버헤드가 커진다.

최근에 CUDA를 더 보완한 OpenACC라는 게 나왔다. 좀 더 추상화가 되어 있어서 코딩하기 더 편하다고 한다. 마이크로소프트에서는 C++ AMP라는 걸 만들었는데 OpenACC의 DirectCompute 버전 정도라 볼 수 있다. 그래도 아직은 일반 프로그래머가 사전지식 없이 덤빌 만한 난이도는 아니다. 단지 전에 비해 진입장벽이 많이 낮아졌을 뿐.

CUDA와 호환되는 레이어로는 AMD의 ROCm이나 ZLUDA, 인텔의 oneAPI가 있다. 그러나 이에 위기감을 느꼈는지 CUDA 11.5 이상 최신 버전부터 번역 레이어(리버스 엔지니어링)를 금지하는 조항을 라이선스에 규정해놓았다.#

이제 AMD GPU 시스템에서도 CUDA에 맞게 짜여진 코드를 실행 및 연산 할 수 있게 되었다.[12]

6. 관련 문서

[1] “쿠다”라고 발음한다.[2] 2000년대만 해도 모든 추론과 학습에는 CPU가 쓰였고, 그래픽 처리용인 GPU는 쓸 생각 자체를 하기 힘들었기 때문에 개발자들 대다수는 GPU 생태계와 거리가 멀었다. CUDA를 필두로 NVLink, 인피니밴드 덕분에 비교적 쉽게 GPU를 다룰 수 있게 된 것.[3] CPU는 복잡한 계산을 2~4개 정도 동시에 수행할 수 있다면, GPU는 단순 반복 계산 수백~수천 개를 동시에 수행할 수 있다.[4] 병렬처리 프로그래밍의 일종.[5] Numba-CUDA의 경우 C/C++ 대신에 Python을 사용한다.[6] 니콜라 테슬라에서 따온 것이며, 어원이 같은 전기차 회사 테슬라와는 관계가 없다.[7] 그나마 591 드라이버부터 32비트 에뮬레이션으로 PhysX 32비트는 반쪽짜리 지원으로 돌아왔으나 OpenCL 32비트는 여전히 미지원중이다.#[8] 하드웨어 기반 가속을 지원하는 라이브러리이다.[9] FFT는 고속 푸리에 변환의 약자이다. Convolution 연산을 하는 데에는 MN의 시간이 필요한데, FFT를 이용하면 MlogN의 시간에 처리가 가능하다.[10] 예를 들면, 특정 GPU 라인업에서 특정 명령어를 인위적으로 생성하지 못하도록 막아놓은 것을 컴파일러 대신 직접 삽입하여, 최적화시킨 것이다.[11] PTX 바이너리, 혹은 cubin을 의미하는 것이 아닌, PTX 어셈블리만 해당된다.[12] CUDA에 맞게 짜여진 코드를 ROCm의 연산 라이브러리가 읽을 수 있도록 번역해 연산한다. 즉 결과적으로는 ROCm을 사용한다는 것. 물론 전신이라 볼 수 있는 ZLUDA부터 이 방식을 채택했을 확률이 높은 게, ZLUDA도 HIP 설치와 관련 설정을 요구하기 때문이다. 단 철저한 클린룸 리버스 엔지니어링을 통해 개발한지라 라이센스 관련 문제가 없거나 적다는 게 가장 큰 차이점.

CUDA

1. 개요

2. 역사

3. 상세

4. 버전

5. 기타

5.1. 여담

5.2. 유사 기술

6. 관련 문서

분류