홈페이지
1. 개요
Compute Express Link(CXL)은 컴퓨팅 상호 연결 기술로 2019년 인텔이 개발하고 구글, 마이크로소프트, 메타 등 주요 IT업체들이 삼성전자, SK하이닉스등 하드웨어 업체들과 컨소시엄을 구성하여 만든 규격이다.#2. 상세
고성능 컴퓨팅 시스템에서 메모리와 가속화 기능을 향상시키고 DDR 메모리의 의존도를 줄이기 위한 차세대 메모리 기술이다. 이 기술은 CPU, GPU, FPGA 및 다른 가속화 카드와 메모리 사이의 공유되는 메모리부분을 둠으로써 연결을 개선하고, 데이터를 더 효율적으로 이동시키며, 시스템의 성능을 향상시킨다. CXL은 PCIe(Peripheral Component Interconnect Express)와 마찬가지로 고속의 시리얼 연결을 사용하지만, 메모리와 가속화 기능에 대한 더 나은 접근 방식을 제공한다. 이를 통해 데이터 중심 컴퓨팅에서 더 효율적인 메모리 활용을 할 수 있게 된다.쉽게 말하자면 각각의 서버에서 놀고 있는 메모리들을 한데 모아 효율적으로 쓰는게 목적이며, 대규모 클라우드 데이터센터(일명 하이퍼 스케일러)를 운영하고 있는 IT업체에겐 자유롭게 필요에 따라 낭비없이 서버 메모리를 할당할 수 있다는 점에서 매력적인 포인트가 된다.
또 CPU와 메모리간 효율성과 외부 확장성, 메모리 풀링 기능에서 커다란 장점을 가진다. 예를 들어 지금까지는 서로 다른 서버에서 동일한 데이터를 활용하고 싶어도 메모리 주소가 달라 memcpy로 발생하는 어마어마한 오버헤드가 있었는데, CXL은 애초에 동일한 메모리 주소를 참조할 수 있으므로 이러한 오버헤드가 많이 줄어든다.
한편 인공지능 분야에서도 활용 가능성을 주목하고 있는데, 트랜스포머 인공신경망 특성상 엄청난 양의 메모리가 필요한데도 불구하고 기존 GPU의 메모리만으로는 이를 해결할 수 없었다. 이를 위해 CXL을 이용하여 다른 곳의 메모리을 끌어다가 사용하는 방법이 있다. [1] 또 대용량의 트랜스포머 모델들을 불러오고 결과물들을 처리, 저장하는 과정에서 CPU와 SSD에서 병목현상이 발생할 수 있는데, SSD보단 훨씬빠르고 DDR메모리보다 훨씬 값싼 CXL 메모리를 캐시처럼 활용하여 문제를 해결할 수 있다.
CXL을 도입하기 위해선 CPU와 운영체제 딴에서의 기술적 성숙함이 선행되어야 한다. 업계에선 이 시점을 2028년 이후로 보고 있긴 하지만, 미국-이란 전쟁에 의해 비용압박을 강하게 받고 있는 인공지능 기업들의 적극적인 참여로 이 시점이 앞당겨질 수도 있다.
3. 문제점
CXL Is Dead In The AI Era(Semianalysis)단점으로 메모리를 CXL을 통해 공유하면서 PCI-E를 사용하는데 상대적으로 다른 SerDes 기술보다 대역폭이 좁다보니, 메모리 용량은 많이 쓸 수는 있는데 대역폭 성능은 애매한 물건이 되어버렸다. 예를 들어 2024년 기준 PCIe5.0 16레인으로 64GB/s의 대역폭을 처리할 수 있는데, DDR5 8400Mbps 기준 67GB/s로 이미 한계치에 도달하게 된다. 물론 CPU와 DDR에서만 쓰고 128레인에다 PCIe 6.0이나 7.0까지 바라보고 있는 서버 규격에서는 여전히 대역폭에 여유가 있어 문제가 아니겠지만, GDDR 및 HBM을 사용하는 GPU에게는 여전히 매우 부족하다.
일각에서는 확장성 좋은 CXL 특성상, 128개의 PCI-E 레인을 활용해서 여러 개의 CXL 장치를 추가해 TB/s 급으로 메모리 대역폭 달성이 가능하다고 주장하지만, 이를 뒷받침하기 위해선 CPU(또는 GPU) 내 메모리 인터페이스 영역이 더 많이 필요하다는 문제점이 있다. 이 부분은 Semianalysis가 지적한 부분으로, 동일 대역폭에서 PCIe SerDes가 이더넷 SerDes보다 약 3배 더 많이 인터페이스 영역을 필요로 한다. PCIe SerDes는 높은 오류정정 요구도와 저지연을 고려하여 설계하였는데, 이를 맞추다 보니 대역폭도 자연스럽게 좁아지게 되었다. 반면 이더넷 스타일 또는 독자적인 SerDes 규격들은 BER가 다소 높더라도 무조건 데이터를 많이 전송하고, 오류가 나더라도 강력한 FEC로 땜빵하여 어찌됐건 많은 데이터를 전송할 수 있게끔 설계하였다.
2022년 트랜스포머 기반 인공지능이 각광을 받으면서, 데이터센터용 그래픽카드를 여러 개 묶어 그래픽 메모리의 용량과 대역폭을 한계 끝까지 써야 하는 상황이 왔다. 초창기 엔비디아에서는 CXL을 고려했으나[2], 2019년 70억달러 주고 멜라녹스 테크놀로지를 인수#하면서 CXL 대신 NVLink를 채용하게 된다. 마찬가지로 AMD의 경우에도 데이터센터용 GPU중 하나인 MI300A에는 CXL을 지원하지만, 엔비디아처럼 자사의 기술인 Infinity Fabric™ Link를 밀어주기 위함인지 이후 나오는 MI 시리즈에서는 지원할 수 있음에도 불구하고 제대로 홍보하지 않고 있다.
그래픽카드 하나에 들어가는 메모리의 대역폭이 2025년 기준 1TB/s는 우습게 넘고, HBM이 들어간 것은 10TB/s가 넘는 괴물들도 있는데, 이걸 여러장 묶는 NVLink[3]로도 겨우 처리가 가능한데, CXL로 그래픽 메모리를 연결하면 데이터 전송시간이 대폭 늘어나 사실상 성능을 확 깎아먹는 주범이 된다.
실제로 CXL만 활용해서 모델을 로드해보면 단순히 GPU 메모리상에서 돌아갈때보다 심각할정도로 PP 성능과 TG 성능이 떨어져, 아예 활용하기 어렵고 연구 목적으로도 적합하지 않은 수준이다. 가볍게 생각해서, 128GB/s의 속도를 뽑아내는 CXL 장치에서 27b짜리 모델을 4Q로 돌린다고 해도 GGUF 모델 기준 16GB정도 용량을 차지하는데, 이론상 토큰 생성속도는 8tk/s로 정말 속터질정도로 느리다고 생각하면 된다. 그나마 시간이 널럴한 대학교 연구실이나 연구소에서 가성비있게 초대형 모델을 학습하고 추론할때나 쓰이겠지만, 상업성을 따진다면 사실상 의미 없다고 보면 된다.
따라서 엔비디아, 브로드컴, AMD를 비롯한 업체들은 과감하게 PCIe SerDes 영역을 줄이고 UALink, NVLink와 같은 독자 설계의 SerDes에 더 많은 영역을 할애하고 있다. 2025년에는 한층 더 나아가 CXL처럼 컨소시엄을 구성하여 자사의 독점 기술을 타 팹리스 회사에 개방하는 움직임을 보여주고 있다. 예를 들어 엔비디아의 경우 NVLink를 NVLink Fusion이라는 명칭으로 기술을 개방하여 마벨을 비롯한 ASIC 업체들을 끌어들이고 있다.
심지어 CXL을 개발한 인텔마저도 CXL은 뒷전으로 두고 UALink에 주력하고 있다. 첫 버전인 UALink 1.0의 경우 레인 당 200Gbps의 속도를 뽑아 낼 수 있어서 단순히 비교만 해봐도 CXL보다 5~6배는 더 빠른데, 메모리 대역폭에 목마른 기업들의 요구사항을 어느정도 충족시켜 준다. 더군다나 미세공정에 따라 칩 수율 개선이 어려운 상황에서, 최소한의 칩 면적으로 최대한의 성능을 끌어내는 것이 팹리스 회사들의 최우선 목표가 되었는데, PCIe 기반에 칩 내부 메모리 인터페이스 영역을 과도하게 잡아먹는 CXL은 AI 기술 트렌드에 전혀 맞지 않는다고 볼 수 있다.
2025년 기준 GPU, NPU 업계에서는 여전히 CXL 시장에서 소극적으로 대응하고 있다. 개발한 인텔도 회사 상황이 말이 아닌지라 그나마 삼성전자가 CXL[4]을 밀고 있는데, 주요 반도체 플레이어들은 영 시큰둥한 반응이다[5]. Semianalysis의 기술 분석가들은 AI시대에 와서 CXL은 죽었다고 대놓고 말할 만큼, 관련 업계 전문가들은 AI분야에선 전망이 그리 좋지 않다고 보고 있다.
결론적으로 이 기술은 메모리를 더 효율적으로 굴릴 수 있도록 도와줄 기술이다. 하지만 먼저 PCIe7.0이 도입돼야 하고 MSI-X보다 더 확장성을 늘린 표준과 함께 하드웨어 소프트웨어 전부 'CXL환경에 맞춰진' 채로 엔비디아, 브로드컴, AMD에서 적극적으로 지원까지 해줘야 그때되어서 보편적으로 자리잡을 기술이라고 할 수 있다. 2026년 현재 기준 미국의 AI기업들은 스스로 자신들이 사용할 인프라를 조달해야 할 상황이기에 조금이라도 효율적인 방법을 추구할 필요성은 있지만 CXL을 도입하기 위해선 선행되야 할 것들이 너무 많아 기업들이 별로 관심이 없는듯.
[1] 트랜스포머의 KV캐시에 필요한 메모리 용량을 CXL 기반으로 유동적으로 굴리면 큰 비용절감이 가능하다. CXL 기반 하드웨어가 DDR 메모리보다 이미 GB당 원가가 좀 더 낮은 상황인데 많은 기업들이 CXL 솔루션을 도입한다면 SSD의 사례처럼 규모의 경제를 실현할 수 있어 다같이 CXL도입이 가능하다.[2] 실제로 CXL 컨소시엄에 가입되어 있다.[3] H100 SXM에서는 900GB/s로 처리가 가능하다고 알려져 있다.[4] 사실 삼성도 CXL을 데이터센터에 도입하는 것이 자신들에게 손해로 찾아온다는 것을 알면서도 고객이 요구하니까 예전부터 준비하고 있었는데, AI시대에 HBM으로 SK하이닉스에 밀리니 차선책으로 CXL을 밀고 있는 상황이다.#[5] CXL 기술의 의의는 비용 효율에 있는데 막상 장비를 운용하는 회사들은 관심을 갖지 못하고 초대형 데이터센터에 장비를 공급하는 인텔, 삼성이 그나마 홍보를 한다는 점이 아이러니다.