최근 수정 시각 : 2024-06-16 23:15:41

인텔 코어 Ultra 시리즈/2세대


파일:상위 문서 아이콘.svg   상위 문서: 인텔 코어 Ultra 시리즈
Intel® Core™ Ultra 시리즈 및 마이크로아키텍처
{{{#!wiki style="margin: 0 -10px -5px; min-height: 26px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -6px -1px -11px"
Optimization
최적화
Process
공정 미세화
Architecture
마이크로아키텍처 변경
Intel 7
Intel 4 + TSMC 5nm
Intel 20A + TSMC 3nm
Intel 18A + TSMC[A]
인텔 코어 i 시리즈 참조 1세대[L]
Meteor Lake 메테오 레이크 (2023)
(Redwood Cove 레드우드 코브 + Crestmont 크레스트몬트)
2세대
Arrow Lake 애로우 레이크 (2024?)
(Lion Cove 라이언 코브 + Skymont 스카이몬트)
2세대
Lunar Lake 루나 레이크 (2024)[L]
(Lion Cove 라이언 코브 + Skymont 스카이몬트)
Process
공정 미세화
Intel 18A[A] + TSMC[A]
3세대
Panther Lake 팬서 레이크 (2025)
(Panther Cove 팬서 코브(가칭) + Darkmont 다크몬트(가칭))
사용 모델은 ●으로 표시
[ 각주 펼치기 · 접기 ]

[A] 확정되지 않음[L] 노트북 모델 한정[L] [A] [A]
}}}}}}}}}||



1. 개요2. 공통3. 모바일 저전력용: 루나 레이크
3.1. 출시 전 정보
4. 데스크톱 및 모바일 중·고전력용: 애로우 레이크
4.1. 출시 전 정보
[clearfix]

1. 개요

인텔 코어 Ultra 시리즈의 2세대 CPU 버전이다.

코어 i 시리즈 네이밍의 연장선으로 인텔 15세대로도 들어올 수 있다.

코어 Ultra 시리즈 최초로 데스크톱 제품군 CPU 모델출시된다.[1]

2. 공통

코어 울트라 2세대는 대상 플랫폼에 따라 루나 레이크애로우 레이크로 나뉜다. 공통적으로 이 두 제품군은 같은 CPU 아키텍처인 라이언 코브스카이몬트 아키텍처가 들어가게 된다.

P-코어로 활용이 되는 라이언 코브 아키텍처는 명령어 디코더가 6-Wide 에서 8-Wide로 확장이 되며, 그 외에도 백엔드에 위치한 정수, 부동소숫점 등의 유닛이 확장이 되어 메테오레이크에 탑재된 레드우드 코브에 비하여 IPC +14%의 성능 향상폭을 가진다. 해당 아키텍처에 관한 자세한 설명은 다음 항목으로.

E-코어로 활용이 되는 스카이몬트 아키텍처는 명령어 디코더가 6-Wide에서 무려 9(3×3)-Wide로 확장되었으며[2] 비순차 처리 규모의 대폭 확장, 2배 가량의 백엔드 연산유닛 확장으로 인하여 (기존 LP-E코어와 비교시) 정수 IPC +38%, 부동소숫점 IPC +68%라는 성능 향상을 이뤄냈다. 이는 13세대 인텔 CPU의 빅코어로 들어가던 랩터 코브와 비교시 정수, 부동소숫점 모두 +2% 향상된 수준의 IPC라고 한다. 해당 아키텍처에 관한 자세한 설명은 다음 항목으로.

Core Ultra 1세대에서 별도의 다이에 탑재했던 LP-E코어는 Core Ultra 2세대에서는 삭제되었다.

3. 모바일 저전력용: 루나 레이크

3.1. 출시 전 정보

루나 레이크는 저전력 모바일향으로 설계된 제품군이다. 정격전력 8~17W[3]로, 메테오 레이크-U 라인업을 대체하는 것에 골자를 두고 있다.

CPU 면에서 봤을때 전작인 메테오 레이크-U와 비교하면 2개의 성능 코어 + 8개의 효율 코어 + 2개의 LPE 코어(12코어 14스레드)에서 4개의 성능 코어 + 4개의 효율 코어(8코어 8스레드)로 코어 수로만 비교하면 성능이 줄어든 것 처럼 보이는 착시효과가 존재한다. 그러나 실제 성능과 관련이 있는 성능 코어는 2개에서 4개로 증가했다는 점[4], 효율 코어의 갯수는 절반으로 줄어들었으나 개별 코어의 IPC가 랩터 코브와 유사한 수준으로 늘어났다는 점[5], 그리고 인텔 메테오레이크의 LPE 코어는 아예 별도의 다이에 위치하여 idle 환경이 아니면 아예 켜지지도 않는다는 점을 감안하면 오히려 업그레이드 되었다는 평이 중론.

코어 수의 차이로 인해 AMD스트릭스 포인트나 6개의 P-코어를 탑재한 Core Ultra 7 1세대(28W)를 잡기는 어렵고, 대략적으로 AMD의 크라켄 포인트나 4개의 P-코어를 탑재한 Core Ultra 5 1세대(28W)와 유사한 멀티코어 성능을 가지며, 이 제품들이 경쟁 상대가 될 것으로 예상이 된다.

하이퍼스레딩이 빠졌고, 스케줄러의 변경으로 E-코어 우선적인 작업 배분이 이뤄진다. 현대의 CPU에 SMT는 점점 사양세가 되어가며, SMT가 10% 이상의 면적을 잡아먹으며 각종 Hazard와 보안 문제를 일으키기 때문에 차라리 SMT를 빼고 여분의 공간에 추가적인 디코더, ROB와 캐시[6]를 넣어서 고 IPC를 구현하는 것이 현대의 CPU의 설계 기조이기 때문이다. 물론 이로 인해 TR 갯수와 면적이 늘어나게 되는데 TSMC 2나노 이후부터는 실질적인 PPA 향상이 없다.[7] 그렇기 때문에 단가 문제를 해소하기 위하여 각 반도체 회사에서는 인터포저 위에 여러 다이들을 적층하거나, 칩렛 구조 등을 도입하면서 차세대 패키징에 관심을 가지는 중이다.

이로 인하여 일상적인 작업을 할 때의 전력소모가 크게 줄었다고 한다.
파일:xe2simd.jpg
GPU는 2세대 Xe 코어를 8개 집어넣었다. 아키텍쳐명은 배틀메이지이며, EU 수는 64개, SP(FP32) 수는 1024개가 들어간다. 1개의 Xe 코어에 들어가는 EU의 갯수는 전작에서는 16개를 집어넣었으나 이번 Xe2 코어에서는 8개의 EU가 들어간다. 대신 1개의 EU당 들어있는 연산유닛의 수가 8개에서 16개로 늘어났다. 하나의 FP32 연산유닛은 ADD + MUL 2 ops를 수행하므로 Xe2 코어는 한 사이클당 256 ops의 FP32 연산을 수행한다.

1024개의 SP는 전작인 메테오 레이크-H에 들어가는 8 Xe 코어와 동일한 수준이며, 메테오 레이크-U에 들어가는 4 Xe 코어 GPU에 비교하면 2배 가량의 성능향상폭을 가진다. 인텔 측에서는 전작 대비 50%의 성능 향상이 이뤄졌다고 주장하고 있지만, 실질적으로 GPU의 TOPS 수를 통해 클럭을 역산하면 최대 2.04GHz가 나오고[8], 이는 메테오 레이크-H보다 오히려 떨어지는 수준이다.

따라서 결론적으로는 최대 성능 자체는 8 Xe 코어가 들어간 메테오 레이크-H와 비교시 비슷하지만, 전력 소모를 비교하면 60fps로 3DMark를 구동 시 메테오 레이크는 25~29W를 소비하는 반면 루나 레이크는 같은 인터포저 상에 적층된 메모리까지 포함해서 14~18W를 소비한다고 한다.# # 인텔 측의 50% 성능 향상 또한 최대 성능 향상폭이 아닌 동일 전력대에서의 향상폭일 가능성이 매우 높다.[9]

다만 전력효율은 충분히 상승한 셈이나, 스트릭스 포인트나 크라켄 포인트와 경쟁하며 UMPC에 활용되기 위해서는 3DMark 점수가 잘나온 만큼 게임도 잘 돌릴 수 있어야 하는데, 게임 최적화가 얼마나 잘 진행될 지에 관해서는 아직 미지수라는 평이 대다수이다.

NPU는 인텔의 4세대 NPU가 탑재된다. Core Ultra 7 기준으로 6개의 타일이 들어가며, 각 타일은 8비트 정수 연산을 기준으로 2048 MAC per cycle을 수행하며 16비트 부동 소숫점 연산을 1024 MAC per cycle을 수행할 수 있는 512-Wide MAC Array가 탑재된다. 인텔측의 설명에 따르면 전작인 메테오레이크에 들어간 3세대 NPU에 비해 4배의 성능인 48TOPs의 성능을 낼 수 있다고 하며, CPU와 GPU 내의 XMX, 그리고 NPU를 모두 조합하면 총 120TOPs의 AI 연산 성능을 낼 수 있다고 홍보하고 있다.

일반적인 사용과는 별로 관련이 없는 NPU보다는 가장 큰 변화가 있었던 부분은 생산공정 분야이다. 2개의 타일이 전량 TSMC 제로 주문이 되었으며 연산을 담당하는 파트의 다이는 TSMC의 3nm 공정인 N3B, 그리고 IO를 담당하는 다이는 TSMC N6으로 생산이 이뤄졌다. 전작인 메테오레이크의 CPU가 인텔 4, GPU가 TSMC N5였던 점을 감안하면 공정 면에서 일신이 이뤄진 셈이다.

===# 제품 #===
||<table align=center><tablebordercolor=#0071c5><rowbgcolor=#0071c5><rowcolor=white><|2> 제품명 ||<|2> 코어 구성 ||<-2> 터보 부스트 클럭
(GHz) ||<|2> L3 캐시
(P-코어 L0, L1, L2 캐시) ||<|2> 내장 그래픽
(코어, EU, SP)
(클럭)
||<|2> NPU
(타일, 클럭) ||<|2> 메모리
(규격, 클럭, 용량) ||<|2> TDP
(PL1/PL2) ||
<rowcolor=white> P코어 E코어
<rowcolor=white> Core Ultra 7 라인
Core Ultra 7
268V
4 + 4 ~5.0 - - MB
(112 KB, 192 KB, 2.5 MB)
ArcTM Xe2-LPG Graphics
(8, 64, 1024)
(2.04)
Intel® NPU 4
(6, -)
128-Bit[10] LPDDR5X 8533 MT/s, Up to 32GB 17W
(-/-W)
Core Ultra 7
2XXV
4 + 4 - - - MB
(112 KB, 192 KB, 2.5 MB)
ArcTM Xe2-LPG Graphics
(8, 64, 1024)
(2.04)
Intel® NPU 4
(6, -)
128-Bit LPDDR5X 8533 MT/s, Up to 16GB 17W
(-/-W)
<rowcolor=white> Core Ultra 5 라인
Core Ultra 5
238V
4 + 4 - - - MB
(112 KB, 192 KB, 2.5 MB)
ArcTM Xe2-LPG Graphics
(7, 56, 896)
(1.85)
Intel® NPU 4
(5, -)
128-Bit LPDDR5X 8533 MT/s, Up to 32GB 17W
(-/-W)
Core Ultra 5
234V
4 + 4 - - - MB
(112 KB, 192 KB, 2.5 MB)
ArcTM Xe2-LPG Graphics
(7, 56, 896)
(1.85)
Intel® NPU 4
(5, -)
128-Bit LPDDR5X 8533 MT/s, Up to 16GB 17W
(-/-W)

4. 데스크톱 및 모바일 중·고전력용: 애로우 레이크

4.1. 출시 전 정보

애로우 레이크는 중전력대의 모바일 디바이스, 그리고 고전력의 데스크탑향으로 설계된 제품이다. 정격전력은 최대 125W로, 메테오 레이크-H 제품군과 랩터 코브 기반의 데스크탑 SKU를 대체하는 것에 골자를 두고 있다.

CPU는 루나 레이크와 동일한 라이언 코브 아키텍쳐와 스카이몬트 아키텍쳐를 채택하였다.

GPU는 루나 레이크와는 다르게 Xe2(배틀메이지) 아키텍쳐가 아닌, 한 세대 이전의 Xe1(알케미스트) 아키텍쳐를 사용한다고 한다.
===# 제품 #===


[1] 기존의 메테오 레이크는 인텔 4 공정 문제로 데스크톱이 취소되어 노트북 제품군 한정으로 출시되었다. 덕분에 급하게 땜빵으로 투입된 물건이 인텔 14세대다.[2] 최대 3개의 마이크로옵을 발행할 수 있는 3개의 Complex Decoder[3] 기존 U 라인업 SKU에 비해 2W 늘어났는데, 22FFL 인터포저 위에 함께 탑재되어 같은 패키징으로 포함이 된 LPDDR5 램으로 인한 영향이다.[4] 코어 구성에 따른 성능 차이는 매우 크다. 스냅드래곤 8 Gen이 1세대에서는 1+3+4 구조였으나, 같은 8코어 구성을 유지하더라도 1+4+3, 1+5+2, 2+6+0 구성으로 성능 향상을 하는 것을 보면 알 수 있다.[5] 그 이전까지의 인텔 E-코어는 스카이레이크와 유사한 수준의 IPC를 가졌다.[6] CPU가 레지스터로 데이터나 명령어를 불러올때 DRAM까지 호출을 하면 전력, 시간 면에서 많은 손해를 입는다.[7] 마케팅용 공정 노드 상으로는 A16, A14까지 붙지만, 실제로는 CMOS의 물리적인 Gate Length는 10nm대에서 더 줄어들지 못하고 있었던 상황이었다. 지금까지는 이를 해소하기 위해 FinFET, GAAFET과 같은 기술을 도입하고 PMOS의 전하 이동도를 개선하여 PMOS가 NMOS의 2배 수준의 Width를 가지지 않아도 되게 함으로써 M2 Track 수를 줄여 Standard Cell의 세로 축 길이를 줄였으며, Gate를 Contact에 맞닿게 함으로써 CPP를 줄여 Standard Cell의 면적을 줄여나가는 식으로 공정을 발전시켜서 "스탠다드 셀 면적이 줄어들었으니 nm가 개선된걸로 치자" 라는 식의 홍보를 했다. 그러나 2nm 이후 세대의 공정 부터는 BSPDN의 도입 이외에는 적어도 CFET 소자가 도입되기 이전까지는 면적 축소의 여지가 거의 없어진 상황이다. 면적 축소는 PMOS와 NMOS를 아예 둘 다 수직으로 적층하는 CFET 소자가 도입되어야 본격적인 축소가 가능할 것으로 전망이 되는 상황.[8] Core Ultra 5 계열은 벤치마크 유출을 통하여 1.85GHz의 클럭으로 GPU가 작동한다는 것이 드러났다.[9] 54W 이상의 전력을 소모하는 메테오 레이크-H의 최대 GPU 성능을 잡지는 못하더라도 28W 메테오 레이크-H GPU 성능이 17W 루나 레이크-V GPU 성능이랑 동급이기 때문에, 동일 17W 상에서 기존 메테오 레이크-H의 128EU GPU의 1.5배 성능을 낸다면 틀린 말은 안한 셈이 된다.[10] (16×4)×2