최근 수정 시각 : 2025-12-07 02:02:35

CXL



홈페이지

1. 개요

Compute Express Link(CXL)은 컴퓨팅 상호 연결 기술로 2019년 인텔이 개발하고 구글, 마이크로소프트 등 주요 IT업체들이 컨소시엄을 구성하여 만든 규격이다.#

2. 상세

고성능 컴퓨팅 시스템에서 메모리와 가속화 기능을 향상시키기 위한 기술이다. 이 기술은 CPU, GPU, FPGA 및 다른 가속화 카드와 메모리 사이의 연결을 개선하고, 데이터를 더 효율적으로 이동시키며, 시스템의 성능을 향상시킨다. CXL은 PCIe(Peripheral Component Interconnect Express)와 마찬가지로 고속의 시리얼 연결을 사용하지만, 메모리와 가속화 기능에 대한 더 나은 접근 방식을 제공한다. 이를 통해 데이터 중심 컴퓨팅에서 더 나은 성능을 얻을 수 있게 된다.

쉽게 말하자면 각각의 서버에서 놀고 있는 메모리들을 한데 모아 효율적으로 쓰는게 목적이며, 대규모 클라우드 데이터센터(일명 하이퍼 스케일러)를 운영하고 있는 IT업체에겐 자유롭게 필요에 따라 낭비없이 서버 메모리를 할당할 수 있다는 점에서 매력적인 포인트가 된다.

또 CPU와 메모리간 효율성과 외부 확장성, 메모리 풀링 기능에서 커다란 장점을 가진다. 예를 들어 지금까지는 서로 다른 서버에서 동일한 데이터를 활용하고 싶어도 메모리 주소가 달라 memcpy로 발생하는 어마어마한 오버헤드가 있었는데, CXL은 애초에 동일한 메모리 주소를 참조할 수 있으므로 이러한 오버헤드가 많이 줄어든다.

한편 인공지능 분야에서도 활용 가능성을 주목하고 있는데, 트랜스포머 인공신경망 특성상 엄청난 양의 메모리가 필요한데도 불구하고 기존 GPU의 메모리만으로는 이를 해결할 수 없었다. 이를 위해 CXL을 이용하여 다른 곳의 메모리을 끌어다가 사용하는 방법이 있다. 또 대용량의 트랜스포머 모델들을 불러오고 결과물들을 처리, 저장하는 과정에서 CPU와 SSD에서 병목현상이 발생할 수 있는데, SSD보다 훨씬 빠른 CXL 메모리를 캐시처럼 활용하여 문제를 해결할 수 있다.

2025년 기준으로는 여전히 시장에서 주목받지 못하고 있지만, 메모리 가격이 폭등하여 메모리 효율를 따지는 상황이 찾아오거나, PCIe 버전이 높아지고 CXL의 버전도 높아져 대역폭 관련 기술이 성숙된다면 추후에 재평가 받을 가능성이 있다.

3. 문제점

CXL Is Dead In The AI Era(Semianalysis)

단점으로 메모리를 CXL을 통해 공유하면서 PCI-E를 사용하는데 상대적으로 다른 SerDes 기술보다 대역폭이 좁다보니, 메모리 용량은 많이 쓸 수는 있는데 대역폭 성능은 애매한 물건이 되어버렸다. 예를 들어 2024년 기준 PCIe5.0 16레인으로 64GB/s의 대역폭을 처리할 수 있는데, DDR5 8400Mbps 기준 67GB/s로 이미 한계치에 도달하게 된다. 물론 CPU와 DDR에서만 쓰고 128레인에다 PCIe 6.0이나 7.0까지 바라보고 있는 서버 규격에서는 여전히 대역폭에 여유가 있어 문제가 아니겠지만, GDDR 및 HBM을 사용하는 GPU에게는 여전히 매우 부족하다.

일각에서는 확장성 좋은 CXL 특성상, 128개의 PCI-E 레인을 활용해서 여러 개의 CXL 장치를 추가해 TB/s 급으로 메모리 대역폭 달성이 가능하다고 주장하지만, 이를 뒷받침하기 위해선 CPU(또는 GPU) 내 메모리 인터페이스 영역이 더 많이 필요하다는 문제점이 있다. 이 부분은 Semianalysis가 지적한 부분으로, 동일 대역폭에서 PCIe SerDes가 이더넷 SerDes보다 약 3배 더 많이 인터페이스 영역을 필요로 한다. PCIe SerDes는 높은 오류정정 요구도와 저지연을 고려하여 설계하였는데, 이를 맞추다 보니 대역폭도 자연스럽게 좁아지게 되었다. 반면 이더넷 스타일 또는 독자적인 SerDes 규격들은 BER가 다소 높더라도 무조건 데이터를 많이 전송하고, 오류가 나더라도 강력한 FEC로 땜빵하여 어찌됐건 많은 데이터를 전송할 수 있게끔 설계하였다.

2022년 트랜스포머 기반 인공지능이 각광을 받으면서, 데이터센터용 그래픽카드를 여러 개 묶어 그래픽 메모리의 용량과 대역폭을 한계 끝까지 써야 하는 상황이 왔다. 초창기 엔비디아에서는 CXL을 고려했으나[1], 2019년 70억달러 주고 멜라녹스 테크놀로지를 인수#하면서 CXL 대신 NVLink를 채용하게 된다. 마찬가지로 AMD의 경우에도 데이터센터용 GPU중 하나인 MI300A에는 CXL을 지원하지만, 엔비디아처럼 자사의 기술인 Infinity Fabric™ Link를 밀어주기 위함인지 이후 나오는 MI 시리즈에서는 지원할 수 있음에도 불구하고 제대로 홍보하지 않고 있다.

그래픽카드 하나에 들어가는 메모리의 대역폭이 2025년 기준 1TB/s는 우습게 넘고, HBM이 들어간 것은 10TB/s가 넘는 괴물들도 있는데, 이걸 여러장 묶는 NVLink[2]로도 겨우 처리가 가능한데, CXL로 그래픽 메모리를 연결하면 데이터 전송시간이 대폭 늘어나 사실상 성능을 확 깎아먹는 주범이 된다. 실제로 CXL만 활용해서 모델을 로드해보면 단순히 GPU 메모리상에서 돌아갈때보다 심각할정도로 PP 성능과 TG 성능이 떨어져, 아예 활용하기 어렵고 연구 목적으로도 적합하지 않은 수준이다.

따라서 엔비디아, 브로드컴, AMD를 비롯한 업체들은 과감하게 PCIe SerDes 영역을 줄이고 UALink, NVLink와 같은 독자 설계의 SerDes에 더 많은 영역을 할애하고 있다. 2025년에는 한층 더 나아가 CXL처럼 컨소시엄을 구성하여 자사의 독점 기술을 타 팹리스 회사에 개방하는 움직임을 보여주고 있다. 예를 들어 엔비디아의 경우 NVLink를 NVLink Fusion이라는 명칭으로 기술을 개방하여 마벨을 비롯한 ASIC 업체들을 끌어들이고 있다.

심지어 CXL을 개발한 인텔마저도 CXL은 뒷전으로 두고 UALink에 주력하고 있다. 첫 버전인 UALink 1.0의 경우 레인 당 200Gbps의 속도를 뽑아 낼 수 있어서 단순히 비교만 해봐도 CXL보다 5~6배는 더 빠른데, 메모리 대역폭에 목마른 기업들의 요구사항을 어느정도 충족시켜 준다. 더군다나 미세공정에 따라 칩 수율 개선이 어려운 상황에서, 최소한의 칩 면적으로 최대한의 성능을 끌어내는 것이 팹리스 회사들의 최우선 목표가 되었는데, PCIe 기반에 칩 내부 메모리 인터페이스 영역을 과도하게 잡아먹는 CXL은 AI 기술 트렌드에 전혀 맞지 않는다고 볼 수 있다.

2025년 기준 GPU, NPU 업계에서는 여전히 CXL 시장에서 소극적으로 대응하고 있다. 개발한 인텔도 회사 상황이 말이 아닌지라 그나마 삼성전자가 CXL[3]을 밀고 있는데, 주요 반도체 플레이어들은 영 시큰둥한 반응이다. 더군다나 CXL을 제대로 활용하기 위해서는 단순히 하드웨어 뿐만 아니라 소프트웨어적으로도 CXL을 잘 활용할 수 있도록 설계를 다시 해야 하는 등 여러모로 편하게 활용할 수 있는 기술이 아니다. 한술 더 떠서 Semianalysis의 기술 분석가들은 AI시대에 와서 CXL은 죽었다고 대놓고 말할 만큼, 관련 업계 전문가들은 AI분야에선 전망이 그리 좋지 않다고 보고 있다.

한편 데이터센터에서 각자 놀고 있는 메모리[4]를 효율적으로 사용하게 해준다는 점에서 괜찮은 기술이지만, 어디까지나 클라우드 업체들 입장에서 돈을 덜 쓰게 되니까 좋은 기술이지, 메모리를 만들거나 메모리와 연관된 주변기기를 만드는 업체들에게는 좋은게 아니다. 메모리를 하나라도 더 팔아야 하는 메모리 업계에서는 당연히 메모리가 효율적으로 쓰이면 덜 팔리니까 이걸 왜 해야하는가 하는 반응들이 있다.
[1] 실제로 CXL 컨소시엄에 가입되어 있다.[2] H100 SXM에서는 900GB/s로 처리가 가능하다고 알려져 있다.[3] 사실 삼성도 돈이 안 되는걸 알면서도 고객이 요구하니까 예전부터 준비하고 있었는데, AI시대에 HBM으로 SK하이닉스에 밀리니 차선책으로 CXL을 밀고 있는 상황이다.#[4] 보통 서버에서 메모리 전체를 전부다 끌어다 쓰지 못하고 노는 메모리들이 상당하다. 설령 메모리를 스왑하여 최대한 끌어다 써도 어디까지나 성능 향상을 위함이지, 실제 메모리를 쓰는 건 아니다.