최근 수정 시각 : 2024-12-15 10:00:38

슈퍼컴퓨터

HPC에서 넘어옴


[[컴퓨터공학|컴퓨터 과학 & 공학
Computer Science & Engineering
]]
[ 펼치기 · 접기 ]
||<tablebgcolor=#fff,#1c1d1f><tablecolor=#373a3c,#ddd><colbgcolor=#0066DC><colcolor=white> 기반 학문 ||수학(해석학 · 이산수학 · 수리논리학 · 선형대수학 · 미적분학 · 미분방정식 · 대수학(환론 · 범주론) · 정수론) · 이론 컴퓨터 과학 · 암호학 · 전자공학 · 언어학(형태론 · 통사론 · 의미론 · 화용론 · 음운론) · 인지과학 ||
하드웨어 구성 SoC · CPU · GPU(그래픽 카드 · GPGPU) · ROM · RAM · SSD · HDD · 참조: 틀:컴퓨터 부품
기술 기계어 · 어셈블리어 · C/C++ · C# · Java · Python · BIOS · 절차적 프로그래밍 · 객체 지향 프로그래밍 · 해킹 · ROT13 · 일회용 비밀번호 · 사물인터넷 · 와이파이 · GPS · 임베디드 · 인공신경망 · OpenGL · EXIF · 마이크로아키텍처 · ACPI · UEFI · NERF · gRPC · 리버스 엔지니어링 · HCI · UI · UX · 대역폭 · DBMS · NoSQL · 해시(SHA · 브루트 포스 · 레인보우 테이블 · salt · 암호화폐) · RSA 암호화 · 하드웨어 가속
연구

기타
논리 회로(보수기 · 가산기 · 논리 연산 · 불 대수 · 플립플롭) · 정보이론 · 임베디드 시스템 · 운영 체제 · 데이터베이스 · 프로그래밍 언어{컴파일러(어셈블러 · JIT) · 인터프리터 · 유형 이론 · 파싱 · 링커 · 난해한 프로그래밍 언어} · 메타데이터 · 기계학습 · 빅데이터 · 폰노이만 구조 · 양자컴퓨터 · 행위자 모델 · 인코딩(유니코드 · MBCS) · 네트워크 · 컴퓨터 보안 · OCR · 슈퍼컴퓨터 · 튜링 머신 · FPGA · 딥러닝 · 컴퓨터 구조론 · 컴퓨터 비전 · 컴퓨터 그래픽스 · 인공지능 · 시간 복잡도(최적화) · 소프트웨어 개발 방법론 · 디자인 패턴 · 정보처리이론 · 재귀 이론 · 자연어 처리(기계 번역 · 음성인식) · 버전 (버전 관리 시스템 · Git · GitHub)

🖥️ 컴퓨터의 종류
{{{#!wiki style="margin:0 -10px -5px; min-height: calc(1.5em + 5px);"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -6px -1px -11px; word-break: keep-all"
서버 - 클라이언트
멀티유저 컴퓨터
슈퍼컴퓨터 · 미니컴퓨터 · 마이크로컴퓨터
형태 (타워형 · 랙마운트 · 블레이드 서버)
칩셋 및 OS 유형 (메인프레임 · x86·유닉스 서버)
개인 컴퓨터 워크스테이션
데스크탑 일체형 PC · HTPC · 게이밍 PC · 미니 PC · 스틱 PC · 넷탑
랩탑 포터블 컴퓨터 · 울트라북 · 게이밍 노트북 · 2in1 노트북 · 넷북
헨드헬드
모바일
1
스마트폰 · 태블릿 컴퓨터(태블릿 PC) · 핸드헬드 PC(UMPC · 핸드헬드 게이밍 PC) · PDA · 팜톱 컴퓨터 · 전자수첩 · 전자책 단말기
웨어러블 HMD · 스마트 워치 · 스마트 밴드 · 스마트 링
콘솔 게임기 거치형 콘솔 게임기 · 휴대용 콘솔 게임기 · 아케이드 게임기
이동통신기기(모바일)는 넓은 의미에서 랩탑, 웨어러블도 포함하지만 깔끔한 분류를 위해 손에 들어오는 것(핸드헬드)로만 한정함.
}}}}}}}}} ||


1. 개요2. 상세3. 국가별
3.1. 대한민국의 상황
4. 역사
4.1. 역대 1위 슈퍼 컴퓨터 연혁
4.1.1. 1 기가플롭스 미만4.1.2. 1 기가플롭스 이상4.1.3. 1 테라플롭스 이상4.1.4. 1 페타플롭스 이상4.1.5. 1 엑사플롭스 이상
4.2. 대한민국의 슈퍼컴퓨터 도입
5. 대상
5.1. 개인용5.2. 소호용5.3. 기업용5.4. 국가 기관용
6. 용도7. 써보고 싶다면
7.1. 계산 클라우드7.2. 독립형 시스템 구축
8. 단점9. 가상의 슈퍼컴퓨터

1. 개요

Supercomputer

구동 시기를 기준으로 일반적인 컴퓨터에 비해 월등한 연산 능력을 보유한 컴퓨터이다.

시기가 중요한 이유는 시대에 따라 컴퓨터의 연산력은 천차만별이기 때문이다. 컴퓨터 분야의 연산량의 증가 속도가 매우 빠른지라 10년 전 세계 최고 수준의 컴퓨터라도 현재에는 '슈퍼컴퓨터'라는 칭호를 붙여주기도 아까운 경우가 대부분이다. 단적으로 현재 스마트폰유심[1]의 성능은 1980년대 가장 빠른 슈퍼 컴퓨터보다 빠르다. 2016년 닌텐도에서 패미컴 복각판을 내며 현재 생산중인 최저사양 부품으로 HW를 구성했는데 이게 패미컴 시절 현역 슈퍼컴퓨터보다 성능이 높았다. 게임 개발사인 로비오도 이 점을 사례로 들어 과거에 달 착륙선을 가동하는 데 사용하던 슈퍼컴퓨터와 동급의 기기로 이제는 돼지에게 새들을 던지고 있다라고 표현했을 정도다.[2]

이를 정리하기 위해 Top 500에서 매년 두 차례씩 LINPACK 벤치마크를 통한 슈퍼컴퓨터 순위를 제공하며, 슈퍼컴퓨터에 대한 가장 주요한 통계 자료로 사용된다. 국가기상슈퍼컴퓨터센터나 몇몇 국내 정보사이트#, 서적 등에선 심플하게 저 홈페이지에 수록된 머신을 슈퍼컴퓨터라고 정의하고 있고, 순위에서 밀려나는 것을 슈퍼컴의 수명이 다한 것으로 본다.

다만 충분한 성능이 있는 슈퍼컴퓨터라도 Top 500에 집계되지 않는 경우가 있다. 예를 들면 벤치마크를 준비하고 수행할 여유가 없거나[3] 그 결과를 보안상 공개할 수 없는 경우, LINPACK 벤치마크에서 측정하는 FP64[4] 연산이 아닌 다른 연산에 특화되어 벤치마크 결과가 뒤떨어지는 경우, 또는 (매우 드물지만) 반대로 LINPACK 벤치마크 특화라서 심사 기준에 맞지 않는 경우 등이 있다.

2. 상세

대규모의 연산을 초고속으로 수행하기 위해 만들어진 컴퓨터로, 요즘의 컴퓨터가 인터넷 단말기 + 게임기 + 사무용 기계에 가까워지고 있는, 다시말해 뛰어난 연산능력을 응용하여 여기저기 써먹고 있는 반면 이건 원래의 뜻에 걸맞은, 진정한 계산(compute)만을 위해 만들어진 컴퓨터이다.

과거 슈퍼컴퓨터는 계산에 특화된 특수 아키텍처와 통신 매커니즘을 가지고 전용 CPU를 사용했다. '크레이'등이 이 업계에서 이름을 날릴 때는 이 구조를 사용했다. 하지만, 하나의 CPU에 성능을 집적하는 것에는 제약이 있어 금방 한계에 도달했다. 실제로 2005년부터 단일 CPU 코어의 성능은 정체기에 도달했다. 이는 PC 시장에서도 '4 GHz의 벽'라는 용어가 생겨났다.

하나의 CPU만으로는 한계가 있다면, CPU를 여러 개를 쓰면 된다는 생각으로 '병렬 처리'에 눈을 돌린다. 코어 수가 많을수록 더 계산 능력이 좋아질 거라는 단순한 생각에, 더 좋은 슈퍼컴퓨터를 만들기 위해서 코어의 수를 미친듯이 늘리는 방향으로 발전한다. CPU 위주로 구성된 슈퍼컴퓨터의 코어 숫자가 이제 수십만 개는 우습게 넘어서는 수준이 되었다. 예를 들어 2019년 6월 기준 슈퍼컴퓨터 랭킹 13위인 미국의 Sequia는 CPU 코어가 156만 개짜리이며, 2017년 4위인 일본의 Gyoukou는 무려 2000만 개라는 엄청난 숫자의 코어로 구성되어 있다. 또한, 물량으로 밀어 붙이는데 굳이 비싼 전용 CPU를 쓸 필요가 없다는 생각에, 인텔이나 AMD 등에서 제조하는 서버용 마이크로프로세서를 많이 사용한다. 다만 계산만 빨리 하면 하드웨어는 뭘 써도 상관이 없기 때문에 PowerPCARM 코어를 이용할 수도 있다.

그러나 코어의 수가 늘어나면서 다른 문제가 발생하기 시작했다. '코어가 많다. = 전기를 많이 쓴다.'와 동일하기에, 코어를 많이 탑재한 슈퍼컴퓨터는 어마어마한 전기를 사용하게 되었다.[5] 게다가 발열 문제도 심각해졌고, 이를 해결하기 위해서 에어컨도 미친듯이 돌려야 하는데, 에어컨도 전기를 많이 사용하는 냉방 장치이다. 이렇듯 전력 소모와 발열이 감당할 수 없는 수준이 되어버리면서, 결국 저전력 CPU를 사용하게 되고, 여기에 예산 문제까지 고려하게 되면 저렴한 서버용 CPU를 이용해서 구성하게 된다.[6] 일명 그린 컴퓨팅이 중요한 이슈가 된다.

또한, CPU만으로는 성능을 뽑아내는 데 한계가 있다고 생각한 슈퍼컴퓨터 설계자들은 이제 GPGPUSoC 병렬 주전산기 등으로 눈을 돌렸다. 연산은 GPU 같은 계산용 프로세서들이 하고, 이 계산을 통제ㆍ관리하는 것은 CPU가 담당하는 구조이다. 예를 들어 2016년 11월 기준 랭킹 3위인 타이탄의 경우 NVIDIA TESLA를 이용하여 막대한 계산 성능을 뽑아내는 구조로 만들어졌다. 참고로, 2016년 전 세계에 이름을 알린 알파고 역시, GPU의 병렬 처리를 이용한 극대화된 계산 능력을 활용하는 구조이다.

요즘 떠오르고 있는 클라우드 컴퓨팅 분야 중 계산 클라우드를 이용한 방법도 제시되고 있다. 계산을 클라우드 컴퓨팅에게 떠넘기는 것인데, 일종의 그리드 컴퓨팅과 같다. 결과적으로 슈퍼컴퓨터와 유사한 용도로 사용할 수 있긴 하지만, 계산 클라우드는 통상 슈퍼컴퓨터라 부르지 않는다. 이는 계산 클라우드가 고전적 슈퍼컴퓨터와는 운영 방식이 다르기 때문이다. 슈퍼컴퓨터는 소수의 사용자가 매우 복잡한 연산을 처리하는 것을 주 목적으로 하고, 계산 클라우드는 많은 인원이 비교적 강도가 낮은 연산을 하는 것을 주 목적으로 한다. 즉, 계산 클라우드의 경우에는 단순한 연산 데이터가 많이 모여 빅 데이터를 이루는 데 반해, 슈퍼컴퓨터의 경우에는 한 계산에서 처리하는 데이터가 크고 계산 부하 또한 크다.

현대 슈퍼컴퓨터의 전체적인 구성을 살펴보면 중대형급 서버의 성능을 지닌 노드들이 수백~수천 개 모여서 초고속 통신망으로 연결된 형태이며 노드간의 데이터 통신 속도가 종합적인 계산 성능에 막대한 영향을 끼치기 때문에 대단히 중요시된다. 이 HPC 네트워크 분야에선 투탑은 인텔의 옴니패스와 멜라녹스의 인피니밴드가 투탑을 달리는 중. TOP500의 랭크에서 보여주듯이 이론상의 최대성능(Rpeak)과 실질 성능(Rmax)이 구분되는 이유도 통신 등에 의한 문제로 모든 코어의 성능을 100% 발휘하지 못하기 때문이다.

과거에는 외부로 나가는 네트워크마저 제대로 구성되어 있지 않았기에 서버로 사용하기에도 곤란한 시절도 있었다. 이 또한 현재는 고성능 네트워크를 이용한 클러스터 구성이 기본이며, 그래서 네트워크가 부실한 슈퍼컴퓨터란 건 존재하지 않는다. 단지, 보안 문제로 외부에서 접속하는 것을 철저하게 차단할 뿐이다.

흔히 슈퍼컴퓨터를 일반 PC처럼 게임 등의 용도로 써먹을 수 있지 않을까 생각하는 사람들이 많은데, 슈퍼컴퓨터는 일반적인 PC 환경과는 매우 다르다. 일반 컴퓨터에서 하듯이 아무 프로그램이나 딸깍딸깍 클릭하면 슈퍼컴퓨터가 알아서 실행해 주는게 아니고, 프로그램 자체도 슈퍼컴퓨터에 맞게 제작이 되어 있어야 실행을 할 수가 있다. 슈퍼컴퓨터에서 '실행'까지는 가능한 게임이 있다고 가정하더라도, 현 추세에서 시중에서 개발되는 게임들이 점차 병렬처리를 지원하는 방향으로 변화하고는 있지만 아직은 수 개의 코어를 겨우 사용하는 수준에 머물러 있기에 슈퍼컴퓨터의 성능을 활용하기란 어렵다. 게다가 이론상의 성능 대비 가격으로 봤을 때 고성능 코어를 적은 수로 사용하는 것 보다 저성능 코어를 더 더 많이 사용하는 쪽이 싸기 때문에 각 코어의 성능은 일반 PC보다 낮다. 따라서 억지로 상용 게임을 돌려본다 해도 일반 컴퓨터와 동일한 수준, 혹은 그보다 더 낮은 성능을 보여줄 것이다. 수천~수백만 코어를 사용할 것을 상정하고 만들어진 오락 용도의 게임은 없다. 슈퍼컴퓨터에서 돌아가는 '게임'이라고 하면 기술 시연을 위한 체스/바둑/퀴즈게임 정도밖에 없다.

웹 호스팅이나 게임 서버 등의 용도에서도 슈퍼컴퓨터는 비효율적이다. 여러 개의 독립적인 작업들을 동시 처리하기 위한 용도로 슈퍼컴퓨터를 사용하는 것은 낭비이며 클라우드 컴퓨팅 쪽이 가성비가 훨씬 좋다.

슈퍼컴퓨터의 진정한 존재의의는 일반 컴퓨터가 다루지 못하는 단일 거대 문제들 (대표적으로 시뮬레이션)[7]을 계산하는 용도라고 할 수 있다. 따라서 일반인의 사용 목적과는 100만 광년 이상 떨어져 있다고 보면 된다.

현대의 슈퍼컴퓨터들은 대부분 페타플롭스 수준의 계산능력을 가지고 있다. 페타는 1015를 뜻하며, 페타플롭스는 1초에 1015번의 부동소수점 계산을 할 수 있는 성능으로, 쉽게 말해 초당 1000번의 계산을 하는 것이다. 예를 들어 17.590 페타플롭스의 성능을 가진 Titan은 초당 1경 7590조 번의 연산능력을 가지고 있는 것. 2024년 6월 기준 1위인 프론티어는 약 1102 페타플롭스, 2위인 슈퍼컴퓨터 후가쿠는 약 442 페타플롭스, 3위인 LUMI는 약 152 페타플롭스의 성능을 가지고 있다. 참고로 기가는 109, 테라는 1012, 페타는 1015, 엑사는 1018을 뜻한다.

슈퍼컴퓨터 속도와 PC의 속도를 비교 하자면 PC에 꽂힌 부품 중 그래픽 카드가 주로 플롭스 수치 상의 성능 향상을 이끈다. 개인용 PC 역시 병렬 컴퓨팅 구조를 쓰지 않고서는 성능 향상이 불가해진지 오래라서, 병렬 구조인 그래픽 카드에서 주로 연산력 수치 상의 발전이 있는 것이다. 인텔 코어 프로세서 시리즈의 경우 하이엔드급인 i9 라인업의 최신 세대인 10~12세대 조차도 800~900기가플롭스 정도 #인데, 그래픽 카드 중 중하위 라인업인 RTX 3060은 12.7 테라플롭스에 달한다. 때문에 사무용 정도로만 사용하는 무그래픽카드 컴퓨터보다는, 고성능 게임용으로 사용되는 PC가 슈퍼컴퓨터적인 성능을 가졌다고 할 수 있겠다. 아래의 슈퍼컴퓨터 1위 연혁을 보면 알겠지만 약 20년 정도 간격으로 개인용 PC가 슈퍼컴퓨터를 따라잡는 셈.[8]

슈퍼컴퓨터의 속도가 빨라진다고 하더라도 시스템의 아키텍처를 바꿀 때는 고민할 필요가 있다. 단순히 계산 능력만 고려해서 기존 CPU 위주 체계를 벗어난 설계를 할 경우, 막상 이 슈퍼컴퓨터들을 사용해야 할 과학자들이 프로그래밍을 할 수 없는 데다가, 외부 라이브러리도 사용할 수 없는 문제가 생긴다. 슈퍼컴퓨터를 사용하는 과학자들의 대부분은 FORTRAN이나 C/C++과 같은 언어로 프로그래밍을 한 경험은 많다고 해도, 컴퓨터공학과 하드웨어에 대한 지식 자체는 학부 전공생보다도 못한 경우가 많다. 그런데 완전히 새로운 아키텍처는 필연적으로 새로운 프로그래밍 언어를 요구하게 되고, 대부분의 경우 FORTRAN과 C/C++보다 배우기가 훨씬 어렵다. 특히 하드웨어 관련 지식이 부족하면 더더욱 어렵다. 뿐만 아니라 새로운 아키텍처에서는 기존에 사용하던 외부 라이브러리를 쓸 수 없게 될 가능성이 높다. 과학계산 프로그램들은 수학이나 병렬연산 라이브러리를 사용하곤 하는데, 이러한 라이브러리들은 수십 년의 기간 동안 많은 사람들이 개발하고 테스트 해온 산물이다. 그래서 새로운 아키텍처가 나오면 그 아키텍처에서 사용 가능한 라이브러리를 개발하는 데 또 오랜 시간이 걸리게 된다. 결국 새로운 하드웨어가 있어도 누군가 필요한 라이브러리를 개발해줄 때까지 과학자들은 손가락만 빨고 있어야 하는 셈이다.

2018년 6월 기준 TOP 500에 오른 모든 슈퍼컴퓨터는 OS로 리눅스를 사용한다고 한다. 그전에는 윈도우즈 HPC 버전이나 크레이 OS 등이 사용된 시스템도 있었으나, 모두 밀려나고 신규 시스템이 모두 리눅스를 채용하면서 리눅스 천하가 완성되었다. 또한 같은 시기에 TOP 500에 오른 슈퍼컴퓨터의 성능 총합이 1엑사플롭스를 돌파하여, 1.22엑사플롭스를 기록했다. 관련 기사

3. 국가별

국가별 슈퍼 컴퓨터 순위는 상술했다시피 1993년 미국의 슈퍼컴퓨터 관련 연구기관과 대학들이 모여 설립한 Top 500이라는 비영리단체에서 공개하며 매년 6월, 11월마다 순위를 갱신하고 있다. 이 순위는 단순 연산 속도를 평가한 것에 가까워 그래프 500이나 그린 500 같은 다른 순위도 참조하면서 볼 필요가 있다.

프로세서를 독자 개발할 수 있고, 마음만 먹으면 1위 자리를 바꿀 수 있는데, 2010년대 후반부터 중국이 두각을 나타내고 있다. 슈퍼컴퓨터 세계 500위 안에서 가장 많은 수를 보유하고 있는 나라는 슈퍼컴퓨터라는 개념이 탄생한 이래로 미국이었지만 2016년부터는 중국이 미국을 추월했다. 2016년 6월 기준 500대 중 연산속도에서 압도적으로 1위인 선웨이를 포함해 167대가 중국에 있다. 2위인 미국은 165대, 일본이 29대로 3위를 기록했다.# 2001년 Top 500 순위에 중국의 슈퍼컴퓨터가 한 대도 포함되지 않았었는데, 겨우 15년 후인 2016년에는 수량에서도 미국을 제친 데다가 1, 2위조차 모두 중국 것이라는 점을 생각하면 경이로운 성장 속도다. 2018년 6월 기준으로는 중국이 206대, 미국이 82대를 기록하여 격차를 엄청나게 벌려놓고 있다.

이후 미국은 2018년 6월, 148 페타플롭스 성능의 서밋(Summit)으로 1위 자리를 탈환하고, 2018년 11월 Top 500 기준 2위에 랭크되는 94 페타플롭스의 시에라를 뽑아 내며, 자존심을 조금이나마 회복했다. 또한 2023년 6월 기준 중국이 134대, 미국이 150대로 다시 역전되었다. 하지만 일본이 600 페타플롭스가 넘는 슈퍼컴퓨터 후가쿠를 개발하면서 잠시나마 1위 자리를 탈환했고, 중국도 새로운 슈퍼컴퓨터 개발에 한창이기에 아직 긴장을 늦출 시기는 아니다. 현재 1위는 엑사 스케일에 진입한 1194 페타플롭스의 슈퍼컴퓨터를 제작한 미국이 가지고 있다.

초당 엑사플롭스의 계산 능력은 인간과 동급의 시각과 청각 정보, 추론 능력, 창의력을 실시간으로 처리하는 기본적인 두뇌 속 뉴런 네트워크의 능력을 구현 가능하게 만들어 실제 자아를 가진 인공지능을 개발하는데 반드시 필요할 것으로 여겨지고 있다. 현시점에서 엑사 스케일 슈퍼컴퓨터를 개발하는 국가는 역시 미중일 세 나라뿐이다.

Top500에서는 순수하게 연산속도만을 측정하는 Top 500 list 뿐만 아니라 1와트 소모당 성능비(전성비)를 측정하는 Green 500과 슈퍼컴퓨터의 범용성을 알 수 있게 해주는 빅데이터 제작, 해석능력을 평가하는 Graph 500 순위를 함께 집계하는데, 두 순위 모두 일본의 케이(京) 컴퓨터가 무려 8년 연속 1위를 차지하고 있었다.###

2017년 11월 기준 3위는 스위스의 피즈 다인트, 4위는 일본의 Gyoukou라는 컴퓨터인데, 둘다 19 페타 플롭스 정도의 성능을 냈다. 그런데, 이 두 컴퓨터의 설계 이념은 전혀 다르다. 피즈 다인트는 '36만 코어'만 사용되었지만, Gyoukou는 무려 '2000만 코어'가 사용되었다. 즉 같은 성능을 내기 위한 코어의 수가 55배이다. 다시 말해 코어 1개당 성능이 55배나 차이나는 셈이다. 고가의 고성능 코어를 적게 사용하여 성능을 뽑아내느냐, 저가의 저성능 코어를 압도적인 물량으로 때려 넣어 성능을 뽑아 내느냐의 차이.

2020년, 일본의 이화학 연구소 개발 슈퍼컴퓨터가 TOP500에서 1위를 탈환했다. 2020년 6월 기준 1위는 일본 RIKEN과 후지쯔가 만든 후가쿠(Fugaku,富岳)가 되었다. 후가쿠의 성능 이론치는 513페타플롭스, 실성능은 415페타플롭스에 달해, 기존 1등이었던 서밋을 이론치로는 2.5배, 실성능으로는 2.8배로 뛰어넘었다. 심지어 산업성을 평가하는 수치 등에서도 모두 한꺼번에 1위를 독차지했는데, 이는 역사상 전례가 없는 일이다. 2021년부터 정식 가동을 시작할 예정으로, 자세한 내용은 후가쿠를 참조.

2022년 미국이 세계 최초의 엑사플롭스급 슈퍼컴퓨터 프론티어(Frontier)를 만들어 내며 다시 1위를 차지했으며, 이후 오로라, 엘 캐피탄 등의 엑사플롭스급 슈퍼컴퓨터를 여럿 도입하며 컴퓨팅 자원의 우위를 굳히고 있다.

3.1. 대한민국의 상황

2024년 10월 기준 세계 40위의 세종[9], 41/87위의 카카오 클라우드, 48위의 SSC-21, 73/74위의 그루와 마루, 70위의 카카오 클라우드, 63위의 Titan, 91위의 누리온, 97위의 NHN CLOUD GWANGJU AI, 113위의 KT DGX SuperPOD, 179위의 DAIDC, 213위의, 316위의 Dream-AI까지 총 13대가 Top 500 안에 들고 있다. 목록 국가별 슈퍼컴퓨터 보유 순위에서 대한민국은 8위에 해당된다.목록

2011년 12월에 국가슈퍼컴퓨팅육성법이 발효되고 2012년에 국가초고성능컴퓨팅 위원회를 발족하여 한국산 슈퍼컴퓨터 개발에 착수하고 있지만 4년간 위원회는 잉여였다. 2016년 슈퍼컴퓨터 국산화사업에 성균관대 컨소시엄이 선정되었다. 개발 프로젝트는 2020년까지 1페타플롭(PF) 이상의 슈퍼컴퓨터를 2021∼2025년에는 30PF 이상인 슈퍼컴퓨터를 개발할 계획이다. 2016년 KISTI는 슈퍼컴퓨터 서버용 보드를 국산화했다. 2025년까지 연산속도 초당 30페타플롭스의 성능을 가진 슈퍼컴퓨터를 국산화하더라도 이 정도 성능은 후가쿠의 1/20 수준인 성능이라 계획대로 달성한다 해도 시기상 매우 늦다고 볼 수 있다. 연혁을 봐도 알 수 있는 부분이지만 10년이면 수백 배 가까운 성능 향상이 이루어지기 때문이다.

4. 역사

크레이는 CDC 6600부터 Cray-2까지 세계 최고 성능의 슈퍼컴퓨터를 만들었다. 하지만 1993년에 나온 Cray-3는 팔 곳이 사라져 버려서 1995년에는 회사가 파산해버리게 된다. 이렇게 된 이유는 주된 수요처였던 미 국방부가 냉전이 끝나면서 예산 감축 및 핵무기 실험을 할 필요가 없어졌기 때문이다. 참고로, 마지막에 나온 Cray-3는 16코어로 돌렸으며 성능은 인텔 샌디브릿지 i7 정도의 성능이었고, 이후에 나올 Cray-4는 64 코어에 세계 최초로 1 GHz를 돌파한 CPU를 채용할 제품이었다. 이 시기에 크레이는 병렬 컴퓨팅을 이용한 슈퍼컴퓨터는 프로그래밍 기술의 미발달로 인해 자신이 죽기 전엔 진보할 수 없을 것이라 예측했는데, 아이러니하게도 1996년 그가 교통사고로 사망하자마자 병렬 구조 슈퍼컴퓨팅이 초고속으로 발전하면서 그의 말을 입증시켰다.(...)

현재 Cray 사는 인터코넥트 사업을 인텔에 넘기고 인텔과 파트너십을 강화하는 한편, 인텔의 Xeon Phi이나 NVidia의 GPU를 이용한 가속기를 통해 뽕을 뽑아내려는 추가하는 추세에 적극 발 맞춰나가고 있다. 독자적인 CPU를 생산하던 업체는 다 망하고 지금은 인텔 제온이나 AMD 옵테론 및 GPGPU를 이용해서 만드는 슈퍼컴퓨터가 거의 장악한 상태다. 아직까지 현용 슈퍼컴퓨터 분야에서 버티고 있는 독자 CPU는 IBMPOWER 아키텍처/오라클의 SPARC 정도이다. 두 회사 모두 기업/정부 시장의 베테랑에 메인프레임급 이상 하드웨어 분야의 끝판왕이라고 할 수 있지만 결국 x86이 이 시장까지 치고 올라오며 이 두 회사의 독자 아키텍처도 전망이 밝다고는 하기 힘든 실정이다.

현대 슈퍼컴퓨터는 이미 수백만개 이상의 코어를 탑재하고 있으며 시간이 지날수록 이 숫자는 폭발적으로 증가할 것으로 예상된다.

일부 컴퓨터 애호가 중에서는 최신형 하드웨어를 장착한 고가의 PC를 슈퍼컴퓨터라고 지칭하는 경우가 있다. 개인용 컴퓨터는 20년 정도의 시간차를 두고 슈퍼컴퓨터를 따라잡는다. 이를테면 1996년 체스 세계챔피언에게 승리한 딥 블루는 당시 슈퍼컴퓨터라고 자칭하던 물건이었지만 현재는 그 정도 ELO의 소프트웨어를 스마트폰에서 작동시키고 있다. GPU의 경우 2002년에 나온 어스시뮬레이터의 성능을 GTX 1080 Ti 3장으로 구현할 수 있으며, 이마저도 머지않아 스마트폰에 따라잡힐 것이다.

부자는 돈이 많으니 비싼 컴퓨터도 마음대로 살 것 같지만, 그 희망에 베팅하여 부유층을 대상으로 한 초고급 컴퓨터를 제작한 회사들은 거의 다 망했다.[10] 부자들 중 컴덕들은 400만원~1000만원 정도의 최신형 워크스테이션을 맞춘 뒤 모자라는 연산 용량은 클라우드 연산으로 대체한다. 그보다 더 고성능의 컴퓨터가 필요하다면 부자가 소유하고 있는 법인의 비용으로 컴퓨터를 구입하는 게 비용상 이득이다. '컴퓨터'에 대해 오히려 '수집용' 관점으로 접근하는 사람은 있어도 '관상용, 과시용' 가치를 부여하는 부자는 별로 없다. 심지어 콜렉터용 기념품 시장에서 압도적인 지지를 얻는 애플마저 20주년 기념 맥킨토시 따윌 내놓았지만 재미를 못 본 전례가 있다. 무엇보다 전술했듯이 슈퍼컴퓨터를 개인이 구매했다간 아무리 부자라도 전기요금에 등골이 뽑힌다. 코인 채굴장 같은걸 만들 셈이 아니라면 개인 수준에서 그런 연산을 할 수요도 없다. 아무리 돈이 많아도 밥을 하루에 스무 끼니를 먹지는 않는 것과 같은 이치다.

4.1. 역대 1위 슈퍼 컴퓨터 연혁

TOP500 사이트에 올라온 정보를 바탕으로 작성.

4.1.1. 1 기가플롭스 미만

  • ENIAC: 1946년. 385 플롭스
    탄도 계산이나 일기 예보를 위해 사용되었다. 현재 물가로 65억 원 정도. 1955년 퇴역.
  • CDC 1604: 1960년. 100 킬로플롭스
  • IBM 7030: 1961년. 1.2 메가플롭스
  • CDC 6600: 1964년. 3 메가플롭스[11]
    생산된 100여 대 대부분이 핵실험에 쓰였다. 크레이가 CDC에서 일하던 시절 만들었다.
  • CDC 7600: 1969년. 36 메가플롭스[12]
    점점 밀집화되는 내부 구조로 인해 본격적으로 쿨링 시스템이 장착되기 시작한 최초의 컴퓨터이기도 하다.
  • Cray-1. 1975년. 160 메가플롭스
    CDC 7600 이후로, CDC는 또 다시 10배 성능을 올린 슈퍼컴퓨터를 기획했으나 발전 방향이 다르다고 생각한 크레이는 퇴직하고 후에 슈퍼컴퓨터의 대명사가 된 크레이社를 세운다. Cray-1은 시장에서 대 히트를 칠 수 있었다. 최초로 나온 제품의 성능은 펜티엄3 600MHz 정도였으며, 이때까지만 해도 모든 컴퓨터는 단일 CPU 코어를 사용했지만 1983년에 나온 MP로 최초로 병렬컴퓨팅이 이루어진다.
  • Cray-X: 1982년. 800 메가플롭스[13]
    Cray-1의 개량형으로 4코어 MP를 탑재했다. 기기의 성능은 800 MFLOPS에 달했다.

4.1.2. 1 기가플롭스 이상

  • Cray-2: 1985년. 1.9 기가플롭스[14]
    수랭을 도입했다가 고장으로 인해 제대로 팔지도 못했다. 그래도, 기가플롭스 성능을 달성하였다.
  • ETA10: 1987년. 10 기가플롭스
  • ETA30: 1989년. 30 기가플롭스[15]
  • CM-5: 1993년. 131 기가플롭스
    미국 로스 앨러모스 연구소에서 1024개의 프로세서를 연결하여 131 기가플롭스의 성능을 뽑아냈다.
  • 数値風洞 (Numerical wind tunnel): 1993년. 124.2 기가플롭스 → 1994년. 170 기가플롭스
    1993년 일본 국립항공우주연구소에서 140개의 벡터 프로세서를 채용하여 124.2 기가플롭스의 성능을 내는 컴퓨터를 제작하였다. 1994년 잠시 1위를 내줬다가 벡터프로세서를 167개로 업그레이드하며 170 기가플롭스로 다시 1위로 올라섰다.
  • Intel XP/S 140 Paragon: 1994년. 143.4 기가플롭스
    1994년 미국 샌디아 국립 연구소에서 3680개의 프로세서를 연결하여 143.4 기가플롭스를 달성하였다. 하지만, 업그레이드된 Numerical wind tunnel에게 다시 1위를 내주었다.
  • 히타치 SR2201: 1996년. 232.4 기가플롭스[16]
    1996년 일본 도쿄대학에서 1024개의 프로세서로 232.4 기가플롭스를 달성하였다.
  • CP-PACS: 1996년. 368.2 기가플롭스[17]
    1996년 일본 쓰쿠바대학에서는 2048개의 프로세서로 368.2 기가플롭스를 기록하였다.

4.1.3. 1 테라플롭스 이상

  • ASCI RED: 1997년. 1.07 테라플롭스[18]
    1997년 미국 샌디아 국립 연구소에서 7264개의 프로세서로 1.07 테라플롭스를 기록하며, 최초로 1 테라플롭스의 벽을 넘어섰다. 그리고 2000년까지 1위를 유지하였다.
  • ASCI WHITE: 2000년. 4.9 테라플롭스[19] → 7.2 테라플롭스
    2000년 미국 로렌스 리버모어 연구소에서 8192개의 프로세서로 4.9 테라플롭스를 달성하였다. 또한 업그레이드 후 7.2 테라플롭스까지 성능을 향상시켜 2001년까지 왕좌의 자리를 지켰다.
  • 地球シミュレータ(The Earth Simulator, 어스[지구] 시뮬레이터): 2002년. 35 테라플롭스[20]
    2002년 일본 NEC에서 만든 슈퍼컴퓨터로 당시 2위 컴퓨터의 7배의 성능인 35 테라플롭스를 기록하며, 2004년 IBM 블루진에게 1위를 내줄 때까지 3년간 왕좌의 자리를 지킨 일본의 자존심이었다. 또한, 마지막 벡터형 슈퍼컴퓨터이기도 하였다. 참고로, 이 이후에 등장하는 모든 슈퍼컴퓨터는 병렬형이다. TOP500정보
  • 블루진(Blue Gene): 2004년. 70 테라플롭스[21]
    블루진은 IBM의 슈퍼컴퓨터 솔루션 이름이자, 슈퍼컴퓨터의 이름이다. 미국 에너지부에서 사용 중인 블루진/L이 70 테라플롭스로 2004년 1위의 자리에 오른 뒤 업그레이드 하여 2007년까지 계속 1위 자리를 지켰다.

4.1.4. 1 페타플롭스 이상

  • 로드런너(Roadrunner): 2008년. 1 페타플롭스
    2008년 6월 공식적으로 최초의 1 페타플롭스 성능을 인증받은 슈퍼컴퓨터이다. 미국 에너지부에서 1페타플롭스 성능의 슈퍼컴퓨터를 업체들에게 요구하였는데, IBM 이 입찰하여 납품한 제품이 바로 로드런너이다. 당시 CPU로는 원하는 성능을 내기 힘들었기에, 플레이스테이션3에 사용되는 Cell 프로세서와 AMD 옵테론 프로세서를 조합하여 요구조건을 만족하였다. 허나 연산속도 대비 전력 사용량이 다른 슈퍼컴의 2배 정도인 저조한 성능비로 결국 2013년 해체되었다.
  • 재규어(Jaguar): 2008년. 1 페타플롭스 → 2009년. 1.7 페타플롭스
    사실 2008년 6월에 1페타플롭스 성능을 기록한 슈퍼컴퓨터는 또 한 대 있었는데, 역시 미국 Cray에서 만든 재규어이다. 하지만 약간 낮은 성능으로 2위를 기록하였고, 로드런너의 언플에 묻히며 주목받지 못하였다. 하지만, 2009년 11월 대대적인 업그레이드를 단행하며 1.7 페타플롭스로 1위로 올라섰다.
  • 天河-1A(톈허-1A, Tianhe-1A): 2010년. 2.5 페타플롭스
    2010년 11월 중국은 '톈허(天河)'[22]라는 이름의 슈퍼컴퓨터를 선보이고 랭킹 1위에 올리며, 미국의 자존심을 짓밟는다. 186,368개의 코어가 사용되었고, 2.5 페타플롭스의 성능을 기록하였다.
  • 京(케이-컴퓨터): 2011년. 8 페타플롭스 → 10 페타플롭스
    2011년 6월, 일본은 후지쯔와 국립기초과학연구소인 이화학연구소(RIKEN)의 주도로 개발되어 548,352 코어라는 어마어마한 물량 공세를 펼치며 8 페타플롭스라는 성능을 뽑아내는 케이 컴퓨터를 발표한다. 이름은 숫자 의 일본어 발음인 '케이'에서 따온 것이며 경 단위의 연산을 한다는 뜻이다. 이는 중국 톈허의 거의 3배 성능을 내는 엄청난 성능이었다. 케이 컴퓨터가 설치된 이화학연구소 계산과학연구기관에서 가까운 역의 이름도 아예 케이컴퓨터마에역으로 갈아버렸다. 추후 과거 어스 시뮬레이터의 영광을 이어가겠다는 강한 의지를 표명하며, 코어수를 705,024개로 업그레이드 시켰고, 최초로 10 페타플롭스 성능을 돌파해 버린다. 탄생 직후부터 응용 프로그램에 대한 실제 계산 성능을 측정해 가장 우수한 컴퓨터에 수여하는 Gordon Bell Award를 수상했고, 미국 에너지부 주최로 슈퍼컴퓨터의 성능 대비 효율성과 에너지 소비율을 겨루는 HPC Challenge에서 2011년부터 14년까지 4번 연속 수상한데다 순수하게 연산 속도만 따지는 Top 500 순위에서 상당히 밀려난 이후에도 전성비를 따지는 Green 500 순위와 빅데이터 제작 및 해석 능력을 따지는 Graph 500 부문에서 2018년 11월까지도 1위 자리를 지켰다. 2019년 8월에 해체되고 일본 최초의 엑사 스케일 슈퍼 컴퓨터 ' 후가쿠'(富岳)로 대체되었다. 이 문서 아래쪽에 사진이 있다.
  • 세쿼이어(Sequoia): 2012년. 16.3 페타플롭스
    2012년 6월 중국과 일본에 연이어 순위가 밀린 미국에서 무려 1,572,864 코어짜리 슈퍼컴퓨터를 뽑아내었다. 16.3 페타플롭스.
  • 타이탄(Titan): 2012년. 17.6 페타플롭스
    코어의 성능을 높이는 전략을 사용하여 세쿼이어의 1/3 밖에 안되는 56만 코어로 해당 성능을 기록한다. NVIDIA TESLA[23]를 병렬 조합하여 주 전산기를 구성하고 256코어의 IBM POWER 프로세서로 주 전산기를 관리하는 방식을 사용한다. 크레이 사가 만들었다.
  • 天河-2(톈허-2, Tianhe-2): 2013년. 33.9 페타플롭스 → 2018년. 61 페타플롭스
    중국도 거금을 투자하여 만든 3,120,000 코어짜리 슈퍼컴퓨터로 33.862 페타플롭스의 성능을 기록한다. 대략 수치상으로 세쿼이어 2대를 합쳐놓은 성능으로 보인다. 2016년 6월까지 3년간 1위 자리를 지켰다.
    참고로 2018년 4,981,760코어로 업그레이드 하고 이름도 텐허-2A로 변경하였다. 성능은 거의 2배에 가까운 61 페타플롭스를 기록했다. (이론치는 100페타플롭스) 이는 2018년 6월 기준 4위에 해당하는 성능이다.
  • 神威太湖之光(Sunway TaihuLight):2016년. 93 페타플롭스
    자체 개발 프로세서인 SW26010[24]을 40,960개를 합쳐 총 10,649,600 코어이며, 이론상 125 PFLOPS, 실성능 93 PFLOPS톈허-2의 2.8배의 연산 성능을 기록했다. 현존하는 설계 방식이 아닌 전혀 다른 새로운 설계 방식이다. top500.org의 추정으로는 완전 자체 개발이 아니라 DEC 알파 아키텍처에 기반한 프로세서라고 한다. 미국에서 실수요자가 없어서 떨이해버린 알파 아키텍처를 사다가 개조한 것으로 보인다. 관련 기사 이례적인 방식이라 범용성이 좀 떨어지는 단점이 지적되긴 하지만, 그 성능까지 거짓은 아니다. 대략적인 설명은 이곳을 참고. 게다가 소비 전력은 15,371 KW로 톈허-2보다 2,437 KW가 낮아 효율 면에서 3위를 차지하기까지 했다.
  • 서밋(summit) 2018년. 122 페타플롭스 → 143 페타플롭스 → 2020년. 148 페타플롭스
    IBM에서 개발한 이 컴퓨터의 하드웨어는 22코어 파워9 CPU와 엔비디아 테슬라 V100 GPU, 멜라녹스 EDR 인피니밴드 등으로 구성되었다. 서밋은 수년전부터 개발돼 왔으며 2개의 22코어 IBM파워9 칩과 6대의 엔비디아 테슬라 V100칩을 사용하는 IBM 서버 4608대로 구성됐다. IBM에 따르면 이 시스템에 사용되는 GPU는 총 2만7648개에 이르며, 스토리지 용량은 250페타(25경)바이트에 이른다. 엔비디아 GPU가 들어간다는 점을 감안할 때 이 슈퍼컴은 머신러닝과 딥러닝은 물론 오크리지 연구소에서 수행될 에너지 및 첨단 소재 연구용으로 사용될 것으로 예상된다. 서밋의 성능 이론치는 187페타플롭스이며, 린팩 실측 성능은 122페타플롭스를 기록했다. 2018년말에 업그레이드하여 린팩 실측 성능을 143페타플롭스까지 향상시켰다. 2020년 6월 기준으로는 더 업그레이드되어 이론치 200페타플롭스. 실성능 148페타플롭스까지 향상시켰다.

    참고로 서밋은 IBM이 에너지부에 공급하기 위해 제작 중인 2종의 차세대 슈퍼컴 가운데 하나다. 또 다른 슈퍼컴은 시에라(Sierra)로서 로렌스 리버모어 국립연구소에 설치되었다. 시에라는 서밋보다 다소 낮은 119페타플롭스이며, 린팩 실측 성능은 71페타플롭스를 기록해, 서밋, Sunway TaihuLight 에 이어 3위에 순위를 올렸다. 그리고, 2018년 말 업그레이드를 해서, 린팩 실측 성능 94페타플롭스를 기록하며 2위로 순위를 끌어 올렸다.
  • 후가쿠(Fugaku,富岳) 2020년. 416 페타플롭스 → 442 페타플롭스
    일본 국립 이화학연구소(RIKEN)와 전자기업 후지쯔가 공동개발한 슈퍼컴퓨터로, 일본이 2011년 케이(Kei,京)로 1위를 한지 9년만에 다시 1등을 차지하게 되었다. 후가쿠의 성능 이론치는 513페타플롭스, 실성능은 416페타플롭스에 달해, 기존 1등이었던 서밋을 이론치로는 2.5배, 실성능으로는 2.8배로 뛰어넘었다. 관련기사 이번 평가에서 후가쿠는 계산 속도 뿐만 아니라, 산업 이용 등의 처리 능력을 평가하는 HPCG 부문[25]과 빅데이터 능력을 평가하는 Graph 500, AI 성능을 측정하는 HPL-AI 4부문 모두에서 1위를 차지하였고, 이는 사상 처음이다. 후가쿠 개발에는 국비만 약 1,100억 엔(1조 2,443억 원)이 투입되었다.
    후가쿠는 2020년 11월 업그레이드를 하며 이론치 537페타플롭스, 실성능 442페타플롭스를 달성했다. Arm A64FX 용량을 7,299,072 코어에서 7,630,848 코어로 늘려 1 위를 유지했다. 이 기록은 2020년 11월 기준 2위인 IBM의 서밋(summit)의 3배 정도이다. 일본 고베의 RIKEN 컴퓨터 과학 센터 (R-CCS)에 설치되었다.

4.1.5. 1 엑사플롭스 이상

  • 프론티어 (Frontier) 2022년. 1.1 엑사플롭스 → 1.2 엑사플롭스 → 1.3 엑사플롭스
    미국 오크리지 국립연구소에 설치된 세계 최초의 엑사플롭스급 슈퍼컴퓨터이며, 린팩 실성능 기준 1.1 엑사플롭스를 자랑한다. 대부분의 미국제 슈퍼컴퓨터가 그렇듯 개발 주체는 크레이[26]이며, AMD의 3세대 EPYC 64코어 CPU와 MI250X 가속기를 사용했다. 총 코어 수는 CPU와 가속기를 합쳐 8,730,112개.[27] 효율성 면에서도 개선이 있었는데, 후가쿠보다 적은 전력으로 두 배 이상의 성능을 달성하여 후가쿠의 3.5배의 전성비를 자랑한다.[28] 슈퍼컴퓨터 전성비 순위에서는 2등으로 기록되긴 했지만, 1등이 프론티어의 축소판인 프론티어 TDS[29]이어서 사실상 전성비 세계 1위가 되었다. 추가로 최적화가 진행된 것인지, 2024년에는 1.206 엑사플롭스로 성능이 향상되었으며, 동년 11월에는 코어 9,066,176개로 업그레이드 후 1.353 엑사플롭스를 달성했다.
    여담이지만 프론티어를 주문한 미국 에너지부는 이미 2022년 내에 2엑사플롭스급 슈퍼컴퓨터인 오로라의 조달 계약을 했기 때문에 프론티어는 23년이 지나지 않아 1위 자리에서 내려올 가능성이 높아 보였다. 하지만, 오로라가 더 많은 코어를 탑재했고 이론 성능치도 높았지만, 실측 성능 1.01 엑사플롭스를 기록함에 따라#, 프론티어가 1위 자리를 계속 유지하게 되었다. AMD 와 INTEL 의 싸움에서 AMD 가 승리했다.
  • 엘 캐피탄 (El Capitan) 2024년. 1.7 엑사플롭스
    미국 핵안보국 산하 로렌스 리버모어 연구소에서 도입한 엑사플롭스급 슈퍼컴퓨터. 린팩 실성능으로 1.742 엑사플롭스를 달성한 이 컴퓨터 역시 프론티어와 동일하게 크레이의 시스템을 사용하며, CPU와 GPU를 하나로 통합하는 AMD Instinct MI300A APU로 구성되어 있다. 총 코어수는 무려 11,039,616개. #[30] NVIDIA의 호퍼 아키텍처를 사용하는 가속기들이 압도적인 전성비를 달성하면서 전성비 순위에서는 18위에 머물렀지만, 58.89 GFLOPS/W를 달성하며 프런티어 대비 발전한 모습을 보였다.

4.2. 대한민국의 슈퍼컴퓨터 도입

4.2.1. 기상청

슈퍼컴퓨터는 일반적으로 사용하는 컴퓨터보다 연산 속도가 빠르고 거대 용량의 컴퓨터를 말한다. 일기예보를 위한 슈퍼컴퓨터는 수치예보모델을 사용해 기상정보를 빠르게 생산하기 위해 존재한다. 전 지구를 대상으로 현재의 기상현상을 분석하고 미래의 날씨를 예측하는 컴퓨터 프로그램을 수치예보모델이라고 한다. 수치예보모델을 만들기 위해서는 기온과 바람, 구름의 양의 날씨 현상을 정해진 시간 내에 빠르게 계산하는 것이 필수적이므로 슈퍼컴퓨터가 사용된다.
대한민국 기상청 소개 문구
  • 기상청 슈퍼컴퓨터 1호기: 1999년. 200 기가플롭스

    • 1999년 6월 일본 NEC 사에서 SX-5 시스템을 도입하여, 2005년 12월까지 사용하였다. 이론 성능은 약 200 기가플롭스.
      운용이 끝난 이후 2대 중 1대는 폐기처분, 1대는 전시용으로 보관 중이다.
  • 기상청 슈퍼컴퓨터 2호기: 2005년. 18.5 테라플롭스

    • 2005년 미국 크레이사에서 크레이 X1E 시스템을 도입하여 운영하였다. 2010년까지 일기 예측을 위한 현역/백업으로 운용하였으며, 기후 시나리오 작성을 위해서 2012년까지 사용하고 폐기하였다.
      이론 성능 18.5 테라플롭스
  • 기상청 슈퍼컴퓨터 3호기(해담, 해온): 2010년. 316 테라플롭스

    • 2010년 미국 크레이사의 Cray XE6 시스템을 도입하여 사용하였다. 2015년까지 운용하다가, 2016년에 가동중단하였다. '해온(Haeon)'과 '해담(Haedam)' 이라는 2대의 시스템으로 분리되어 한대는 현역, 한대는 백업으로 동작하도록 되어 있다. 이론 성능은 758 테라플롭스라고 하는데, 이는 2대를 합친 성능이다. 각각의 린팩 실측 성능은 316 테라플롭스를 기록했다.
      가동중단된 3호기는 재활용하여 사용할 인수처를 찾았으나, 매년 60억원 가량이 드는 어마어마한 유지비 때문에 헐값에 넘기려 해도 인수하려는 곳이 없었다. 일부 시스템만 고등과학원에서 사용하기로 했으며, 나머지는 결국 고철 신세가 되었다.[31] 관련 기사
  • 기상청 슈퍼컴퓨터 4호기(누리, 미리): 2015년. 2.4 페타플롭스

    • 2015년 미국 크레이사의 Cray XC40 시스템을 도입하여 사용 중이다. 도입 비용은 약 600억 원이 사용되었다. '누리(Nuri)'와 '미리(Miri)' 라는 이름이 붙어 있으며, 3호기와 마찬가지로 현역/백업으로 나뉘어 동작한다. 각각 69,600 코어이다. 이론 성능은 5.8 페타플롭스라고 하는데, 이 역시 2대를 합친 성능이다. 각각의 린팩 실측 성능은 2.4 페타플롭스를 기록했으며, 도입 당시 (2015년 11월 기준)에 각각 28위/29위를 기록했다. 참고로, 2014년에는 '우리(Uri)'라는 이름의 프로토타입이 도입된 바 있는데, 1년간 시험 운용한 뒤, 누리/미리(둘중 하나)로 업그레이드 된 것으로 보인다.
      4호기에 대해서는 피치원에서 '기상청 혈세낭비, 유착의혹'이라며 보도기사를 냈는데, 이는 오보였다. 결국 정정보도를 내며 해프닝으로 끝났다. 관련기사
  • 기상청 슈퍼컴퓨터 5호기(마루, 그루): 2021년. 16.7 페타플롭스

    • 인텔 제온 3세대 아이스레이크 모델. 2021년 기준 도입되어 사용중이며, 마루(Maru), 그루(Guru)라는 이름이 부여되었다. 각각 30만코어에 실성능 16.7페타플롭스이며, 2022년 6월 기준 TOP500 31위와 32위에 등재되었다.
      여담으로 마루와 그루는 Lenovo에서 공급했는데 이는 공공기관에서 국내 최초의 중국산 슈퍼컴퓨터 도입으로 여러가지로 화제가 되었다.
기상청 자료 출처 - 기상청, top500 #1 top500 #2 Guru Maru

4.2.2. 한국과학기술정보연구원

한국과학기술정보연구원(KISTI)은 기상청과 더불어 국가적으로 슈퍼컴퓨터를 질러대는 양대산맥이다.

2018년 5월 한국과학기술정보연구원 슈퍼컴퓨터 5호기가 설치되어 운용 중이다. 관련기사 도입에 약 908억원이 사용되었다고 하며, '누리온(Nurion)'이란 이름이 붙어 있다. 570,020코어에 실측 성능 13.9페타플롭스를 기록하여 설치 당시 세계 11위의 성능을 냈다. 2021년 11월 기준 세계 38위이다. TOP500 정보 누리온은 운용 시점에서 이미 시장에서 NVIDIA와 AMD 등의 GPGPU에 밀려 도태된 인텔의 제온 파이가 주를 이루고 있었다. 한국과학기술정보연구원은 제온 파이 프로토타입 개발 시점이었던 2010년대 초반 나이츠 페리 시기에 다른 슈퍼컴퓨터 센터와 함께 인텔과 협력하고 있었다.# 도입이 시작된 2015년#에는 제온 파이 나이츠 코너가 시장에 나와 있었고, 이 때까지는 성공이나 실패를 가늠하기 힘들었다. 그러나 슈퍼컴퓨터 도입 확정 시점인 2017년에 제온 파이는 시장에서 실패했고, 운용 시작 시점인 2018년에는 인텔에서 이 슈퍼컴퓨터에 들어간 나이츠 랜딩의 생산을 중단하였다. 슈퍼컴퓨터는 주로 상용 시뮬레이션 패키지들의 이용이 그 주된 사용 목적인데, 다수의 시뮬레이션 패키지들이 GPGPU에 맞추어 최적화가 이루어져있어 제온 파이가 지원되지 않는 경우도 많고, 지원이 되더라도 그 속도가 느리며 지속적인 업데이트도 보장되지 않는다. 이러한 지적이 계속되자 한국과학기술정보연구원은 서둘러 GPGPU 기반의 '뉴론(NEURON)'을 도입하였지만 이미 대다수의 예산이 누리온에 사용된 후여서 뉴론은 그 규모가 누리온에 비해 크게 작아질 수 밖에 없었다.

2008년 도입된 이전 시스템에는 타키온(Tachyon)[32]이란 이름이 붙어 있었고, 후계기에는 '타키온-2'라는 이름을 사용하였다. 그 외 가이아(GAIA), 신바람(SINBARAM) 같은 이름이 붙어 있는 시스템도 운영한 바 있다.

한국과학기술정보연구원 슈퍼컴퓨터 정보: 누리온, 뉴론, 퇴역장비

파일:CC-white.svg 이 문단의 내용 중 전체 또는 일부는 문서의 r111에서 가져왔습니다. 이전 역사 보러 가기
파일:CC-white.svg 이 문단의 내용 중 전체 또는 일부는 다른 문서에서 가져왔습니다.
[ 펼치기 · 접기 ]
문서의 r111 (이전 역사)
문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

4.2.3. 한국핵융합에너지연구원

한국핵융합에너지연구원에서 2020년 8월 페타플롭스급 슈퍼컴퓨터 '카이로스(KAIROS)’를 구축하여 본격적인 운영을 시작하였다. 관련기사

'카이로스(KAIROS)'라는 이름은 공모전을 통해 선정하였으며, 고대 그리스어로 '시간'을 가리키는 단어로서 '결정적 순간'이라는 뜻을 내포하고 있어 핵융합에너지 실현을 위한 결정적 순간을 갖게 될 것을 의미한다고 한다. 이론 성능 1.56 페타플롭스로 2021년 11월 기준으로 한국에서 7번째로 높은 성능의 슈퍼컴퓨터이며, 특정 연구 분야 전용의 슈퍼컴퓨터로는 국내 최대 규모이다. 다만 0.09페타플롭스 차이로 슈퍼컴퓨터 500위안에 등재되지는 못했다.
참고로 카이로스 구축 이전에는 2011년 도입한 60 테라플롭스급[33] 중소형 슈퍼컴퓨터를 이용하였다.

4.2.4. 기업체

  • 삼성전자는 2021년에 20만 코어에 실측 성능 25페타플롭스를 내는 SSC-21을 도입하여 운용중이다. 도입 당시인 2021년 6월 기준 11위에 오를 만한 고스펙의 슈퍼컴퓨터이다.
  • SK텔레콤은 2022년에 타이탄(Titan)이란 이름의 슈퍼컴퓨터를 도입하였다. 최초 설치시 56,544 코어, 린팩 실측 성능 6.29 페타플롭스를 기록했다. 2023년 대대적으로 업그레이드 하여 128,960코어가 되었으며, 14 페타플롭스를 기록했다. 관련기사 Top500 정보
  • 네이버는 2020년에 언어 모델 개발용으로 700페타플롭스 성능의 슈퍼컴퓨터를 도입한다고 밝혔다. 단, FP64나 FP32가 아닌 INT 8기준으로 700페타플롭스이며, FP64, FP32 연산성능은 훨씬 떨어진다.# 2023년 도입된 이 컴퓨터는 '세종'이란 이름이 부여되었고, 277,760 코어로 구성되었으며, 린팩 실측 성능 33 페타플롭스를 기록했다. Top500 정보
  • KT는 2023년에 98,208 코어에 10 페타플롭스 성능의 슈퍼컴퓨터를 도입했다. Top500 정보
  • 카카오는 2024년 16만코어에 21 페타플롭스 성능을 가진 kakaocloud 를 도입하였다. 또한, 11만코어에 15.9 페타플롭스 장비도 같이 등재되었다. Top500 정보 #

5. 대상

5.1. 개인용

파일:attachment/Cray-CX1.jpg

크레이의 CX1

크레이는 정말 개인용 데스크탑 슈퍼컴퓨터라는 것을 만들어 판 적이 있다. Cray CX1이라는 제품이며, 크기도 정말 일반 데스크탑 컴퓨터보다 조금 더 큰 수준이다. 저 작은 크기에도 불구하고, 8개의 블레이드가 장착될 수 있으며, 블레이드당 쿼드코어 제온 CPU를 2개 장착할 수 있으니, 최대 64코어짜리 시스템[34]이 만들어질 수 있다. 다만 성능에 비해서 가격이 지나치게 비쌌다. 2008년 당시 기본 구성이 2500만 원, 풀 옵션은 1억 원에 달했다. 저걸 잘 써먹을 데가 별로 없다 보니 많이 팔리지는 못했고 2012년에 단종되었다.

2021년 기준 전문가용 소프트웨어들이 대부분 GPGPU를 지원하기 때문에 저렇게 CPU에 무식하게 쏟아부은 슈퍼컴퓨터보다는 AMD RYZEN Threadripper 같은 게 장착된 워크스테이션을 사서 GPU에 예산을 쏟아붓는 식으로 맞추거나, 아니면 Amazon Web ServicesMicrosoft Azure 같은 클라우드 컴퓨팅 서비스를 이용하는 추세다.

5.2. 소호용

파일:external/gigglehd.com/sgi_octane_iii.jpg

IRIX라는 유닉스 운영체제로 알려진 SGI의 개인용(?) 슈퍼컴퓨터.

사실 HW만 본다면, 그냥 PC 메인보드를 블레이드 형태로 차곡차곡 쌓아 놓은 것과 크게 다르지 않다. 인터커넥트에 이더넷을 쓰니까 그냥 클러스터 컴퓨팅 정도의 성능만 나온다. 참고로 이정도 규모라면 1000 코어쯤 되는 구성이 가능하다. 16코어 옵테론 듀얼CPU로 블레이드를 구성하면, 32개 블레이드로 1000코어[35]가 만들어진다. 이런 데 사용되는 OS는 일반 리눅스윈도우가 아니며, 병렬 컴퓨팅용으로 특화된 HPC 버전(리눅스 HPC 버전이나 윈도우 HPC 버전)이 필요하다.

파일:beowulf_cluster.jpg
베오울프 클러스터 예시[36]

사실 이 정도 규모는 능력만 된다면 일반 컴퓨터 몇십 대 사다가 직접 만들 수도 있고, 중고 PC를 싹 긁어모은 뒤에 선반만 짜서 배치해도 그럴듯하게 만들 수 있다. 이런식으로 구성하는 것을 베오울프 클러스터 라고 한다.# 학교 연구소 등에서 중고 블레이드 서버 몇 개와 랙으로 자작해서 쓰는 경우도 흔히 있다. 그래도 유의미한 수준으로 만들기 위해서 1000코어쯤 구성하겠다면, 32개의 블레이드(일반 PC 라면 대략 수십 대)는 필요하고 쿨링 시스템도 고려해야 하기에, 개인이 감당하긴 힘들다. 만에 하나 구성한다고 하더라도, 월 전기세만 백만 단위를 찍는 기적을 볼 수 있다. 그래서 클라우드 컴퓨팅이 각광받기 시작한 이후로는 AWS, Microsoft Azure 같은 클라우드 컴퓨팅 서비스로 대체되는 추세다.

5.3. 기업용

파일:external/www.cray.com/products_xk_photo.jpg

크레이의 XK7

위의 소호용은 1U 블레이드가 10개 장착되는 랙을 사용하지만, 이 수준부터는 2U 블레이드 22개가 실장되는 풀사이즈 랙을 사용하게 된다. 위 사진의 경우 그런 랙 16개를 묶어 한 세트가 된다. 동급의 블레이드를 사용한다고 가정할 때, 단순한 계산으로도 위의 소호용에 비해서 35배의 코어수를 가지게 된다. 실제로는 블레이드의 크기가 더 크니까 집적도가 훨씬 더 높다. 대략 수천~수만 코어급 수준이며, 이것은 구성을 어떻게 하느냐, 서버의 랙(rack)은 몇개를 쓰느냐, 돈이 얼마나 있느냐에 따라 천차 만별이다.

5.4. 국가 기관용

파일:external/lh3.googleusercontent.com/k-computer-fujitsu.jpg

일본의 케이(京) 컴퓨터

기업용과 기관용은 기기의 아키텍처도 같고 만들어주는 기업도 같지만, 규모 차이만 있다. 주로 과학이나 기술 단체에 설치되어 연구에 사용하거나 기상업무 등에 사용된다. 국가 차원에서 관련 사업에 국비지원이 들어간다면 정말로 큰 규모로 구축을 하는 경우가 많다. 다만, 최근 기업들의 슈퍼컴퓨터 활용도가 높아지면서, 내로라 하는 기업들도 엄청난 규모의 슈퍼컴퓨터를 보유하는 경우가 많아지고 있다. 사진속의 케이 컴퓨터는 대충 세어 보아도 랙의 수가 수백 단위이며, 실제로 50만코어 짜리이다. 이 수준에서는 대략 수만 코어 이상부터 수백만 코어까지이며, 그 규모는 해당 국가의 예산에 달려 있다.

참고로 대한민국 기상청에서 쓰는 마루, 구루는 각각 306,432코어이고, 한 세대 이전의 미리, 누리는 각각 69,600코어 짜리이다.

그리고, 2016년 1위를 기록한 중국의 神威太湖之光(Sunway TaihuLight)는 무려 1000만 코어로 구성되어 있다. 대륙의 기상

6. 용도

대용량 병렬처리를 요구하는 모든 분야라 할 수 있다.
  • 군사 - 이지스함
    다수의 목표물에 대한 동시교전 능력과 무기 관제, 탄도 계산 등을 위해 함마다 슈퍼컴퓨터가 들어간다.[37] 동시교전 능력은 보통 24개이며 CIWS가 1~3개 정도 추가로 커버한다.
  • 동영상의 상업용 인코딩
    개인이 개인 동영상 인코딩 하는 용도라면 정말 무쓸모한 돈지랄이지만 구글은 이미 하고 있다. 유튜브 같이 1초에 몇 시간 분량의 동영상이 올라오는 동영상 서비스나 구글 드라이브 같이 테라바이트급 동영상에 대한 미리보기를 제공하는 클라우드 서비스를 운영하려면 슈퍼컴퓨터급 연산량이 필요하다.
    다만 FHD 이상으로 처리하는 프로덕션이나 방송국은 아래 3D 랜더링과 같이 무시하지 못할 부분을 차지할 정도로 연산량이 많아 대개는 GPGPU로 돌아가는 슈퍼컴을 사용해 인코딩한다. 그 외에, Proxy Media를 추출해 따로 저장할 때도 마찬가지. 그래서 대형 방송국에는 '인제스트실'이라는 영상을 자신들의 전산 시스템 내부로 들이는 특별한 시설을 갖춘다. 다양한 종류의 영상을 받아 슈퍼컴급의 컴퓨터로 고속 인코딩해 프로덕션 시스템으로 올리는 일만 전문적으로 하는 곳이다.[38]
  • 3D 렌더링
    대형 CG나 애니메이션, VFX 제작사들은 제작사는 렌더팜을 하나씩 갖고 있다. 렌더링의 경우 화면의 영역을 쪼개거나 서로 다른 프레임을 각 코어들이 분담하면 되니까 슈퍼컴퓨터에서 병렬처리 하기 쉽다. 다만 현장의 작업자들은 이걸 슈퍼컴퓨터라고 딱히 생각하지는 않는 듯 하다. 요즘에는 클라우드 기반 렌더팜 또한 사용하고 있다. 대표적인 회사가 피터 잭슨 감독이 운영하는 뉴질랜드 소재의 웨타 디지털 스튜디오.
  • 시뮬레이션
    • 핵무기: 주로 가상 핵실험.
      전략무기감축협정(START)이 체결되고 냉전 종식으로 평화 무드가 형성되자, 미국과 구 소련(러시아)는 더 이상 핵실험을 하기 힘들어졌고, 이때부터 슈퍼컴퓨터를 이용한 가상 핵실험이 대세가 되었다. 그래서 현재 미국의 최고성능 슈퍼컴퓨터들은 모두 핵무기를 개발하는 국가연구소들에 몰려있다. 문제는 핵분열이 고온과 고압을 동반하는 데다가, 핵폭발 이후 피해까지도 예측하려면 반경 수십 km의 영역을 시뮬레이션해야 한다는 것이다. 당연히 시뮬레이션이 잘 맞을 리가 없고, 지금도 계속 미국이 슈퍼컴퓨터에 돈을 꾸역꾸역 밀어넣고 있는 이유.
    • 비말 감염 시뮬레이션: 2020년 코로나바이러스감염증-19로 인하여 각광받기 시작했다. 2020년 6월부터 시범가동에 들어간 후가쿠를 사용한 사례가 유명한데, 비말 감염 방지 대책을 수립하기 위해 마스크 착용/미착용시, 페이스 실드 사용시, 책상 가림막 사용시 교실에서의 비말감염 가능성 여부 등, 여러가지 상황에서 비말이 어떤식으로 확산되는가를 시뮬레이션한다. 관련 사진은 후가쿠(컴퓨터) 문서를 참조 바람.
    • 워게임
  • 과학 연산
    • 지구과학: 대규모 시뮬레이션(우주, 지구)
    • 천문학: 전파 망원경 신호 처리, 대규모 은하 시뮬레이션 혹은 우주 거대 구조 시뮬레이션
    • 생물학: 단백질, DNA 등 고분자 분석, 뉴런과 뇌 신경망 시뮬레이션, 세포 시뮬레이션, 생태 시뮬레이션
    • 화학: 고분자 분석, 화학물질 가상 합성
    • 물리학: 대규모 물리연산(대표적으로 제일원리 계산과 전산유체역학(CFD))
    • 수학: 대규모 연산, 경우의 수, 암호 해독 등. 수학의 난제를 가능한 모든 경우의 수를 검증하는 방식으로 증명해낸 경우도 여럿 존재한다.
  • 날씨 예측
    상술한 지구과학 / 물리학 / 수학 등 모든 분야를 망라한 미분방정식(나비에-스토크스 방정식 등)을 천만 개 이상의 격자점에서 계산한다. 한국과 전 세계의 기상청과 민간 기상예보업체에서 이를 위한 슈퍼컴퓨터를 사용하고 있다.
  • 주가 예측
  • 기술 시연 - 이는 슈퍼 컴퓨터의 원래 목적은 아니다. (볼펜을 돌리는 게 볼펜의 원래 목적은 아니지만 구경거리가 되듯이) 슈퍼 컴퓨터 또는 인공지능 프로그램의 성능을 대중에게 알리기 위한 프로젝트이다.
    • 체스 게임 - IBM에서 만든 '딥 블루(Deep blue)'라는 이름의 슈퍼컴퓨터가 체스 세계 챔피언에게 도전하여, 3번째 도전[39]만에 승리하였다. 가리 카스파로프 문서 참고. 하지만 딥 블루가 나온지 18년 후 나온 스마트폰인 갤럭시 S6가 더 연산능력이 뛰어나다(...)
    • 퀴즈 풀이 - IBM에서 만든 '왓슨(Watson)'이라는 이름의 슈퍼컴퓨터가 퀴즈쇼 프로그램 제퍼디!(Jeopardy!)에 출연하였다. 기존 우승자 중 최고의 성적을 기록한 2명의 챔피언을 상대하였고, 큰 점수차로 승리하였다. 관련기사
    • 바둑 - 구글에서 만든 알파고라는 인공지능 바둑 프로그램이 이세돌 九단과 대결을 펼쳐 승리를 거두었고, 커제 九단과의 대결에서도 완승하였다. 자세한 내용은 알파고, 구글 딥마인드 챌린지 매치, 바둑의 미래 서밋 참조. 참고로, 딥 블루나 왓슨의 경우는 당시 최고 성능의 슈퍼컴퓨터와 견줄 만한 상당한 고성능 컴퓨터가 사용되었지만, 2016년의 알파고는 CPU 1920개에 GPU 280개를 사용해서, 당시 슈퍼컴퓨터 랭킹 500위-700위권의 수준에 불과했다.

그 외에도 여러 가지가 있다. 단, 같은 대용량 병렬 처리라도 온라인 게임 같이 다수의 사용자에게 빠른 응답을 제공할 목적에는 쓰이지 않는다. 이런 용도로 만들어진 건 IDC(인터넷데이터센터)이다. 실제 물리적 구성은 IDC나 슈퍼컴퓨터나 비슷한데 결정적으로 차이나는 게 바로 이 외부 네트워크 대역폭. 슈퍼컴퓨터는 단 하나의 과제를 처리하기 위해 모든 컴퓨터가 협동하는 방식(협업)으로 동작하지만 IDC는 수많은 과제를 수많은 컴퓨터가 나눠하는 방식(분업)으로 동작한다. 단 한 사람만을 위한 온라인게임 같은 겜판소스러운 게임이 아닌 한에야 슈퍼 컴퓨터로 게임 서버를 올리겠다는 발상은 그야말로 정신나간 짓. PC방 전좌석 전세 내놓고 딱 한자리만 쓰고 있는 거나 다름없다. 이렇게 슈퍼컴퓨터는 보통 연구, 기상 예측 등에 많이 이용되기 때문에 슈퍼 컴퓨터의 성능이 곧 국가 자금 기술력 수준의 척도로 볼 수 있다.

7. 써보고 싶다면

7.1. 계산 클라우드

아마존닷컴 EC2, 구글 앱 엔진, Microsoft Azure 같은 계산 클라우드를 이용하는 게 가장 쉽고 저렴하게 슈퍼컴퓨팅을 맛볼 수 있는 방법이다. 다만 슈퍼컴퓨터는 진짜 신나게 빠르기 때문에 PC로는 한 달이고 두 달이고 돌려도 끝이 안 보이는 과제가 아니면 이용료가 아까울 것이다. 실제로 앞에 열거된 클라우드 서비스의 견적 내기에서 CPU 등의 성능을 계속 올려보면 예상 과금이 눈 돌아가게 올라가는 걸 볼 수 있다.(...) 논문을 쓰는 학자나 시뮬레이션을 빡세게 해야 하는 산업체 정도나 돼야 써볼 마음이 생길 것이다. 실제로 KISTI의 주 고객은 산업체다. 하지만 정말 필요할 때엔 이거처럼 유용한 도구도 없다. 일반 슈퍼컴퓨터에 비해 홍보 자료가 많이 올라오는 클라우드 쪽의 사례들을 보면 처리에 몇 년이 걸릴 작업을 이걸로 15분 만에 끝났다던가 하는 거짓말같은 이야기들이 전해지기도 한다.[40] 비트코인 채굴은 하지 말자.[41][42]

7.2. 독립형 시스템 구축

2008년 출시된 크레이의 CX1처럼 데스크탑에 최대한의 성능을 뽑아내도록 구성하여 사용해 볼 수 있다. 2020년 기준 GPU를 이용하는 방법은 사양세이지만 엔비디아 3090을 SLI로 연결하여 극강의 성능을 뽑아내는 세팅을 해 볼 수 있다. #

2018년 3월 엔비디아에서는 딥러닝에 특화된 장비이긴 하지만, 데스크탑 PC 정도의 크기에서 2.4페타급의 성능을 내는 기업용 컴퓨터 DGX-2를 출시했다. # 참고로, 이는 8년 전 2010년에 슈퍼컴퓨터 1위였던 天河-1A에 맞먹는 성능을 내는 것이다. 2020년에는 후속모델인 DGX A100을 출시 했다. #

8. 단점

당연하겠지만 크고 비싸다. 예를 들어 대한민국 기상청에서 도입한 슈퍼컴퓨터 3호기 해담, 해온의 가격은 500억 원이 넘고, 4호기도 600억 원쯤 들었다. 그리고, 이 슈퍼컴퓨터를 설치하기 위해서 아예 건물을 새로 지어야 했다. 또한, 전기를 무지하게 사용한다. 컴퓨터 수십만 대를 구동하는 것이니 당연한데, 거기에다 방진, 방수, 방음, 항온항습장치 등 공조설비에도 상당한 비용이 투입된다.[43] 전기를 많이 쓴다는 것은 다시 말해 운용 유지비가 비싸다는 말과 동일하다. 또한, 엄청 비싼 몸이니 고장이 날 경우 그만큼 수리 비용도 상당하다.

그리고, 1위 계보를 보면 알겠지만 성능 향상이 상당히 빠르다. 2002년 1위였던 어스 시뮬레이터의 경우 실성능이 36테라플롭스 정도였는데 10년이 지난 뒤에 1위는 그보다 천 배쯤 빠른 33페타플롭스이고, 다시 10년이 지난 2022년에는 엑사플롭스를 돌파했다. 단일 프로세서가 아니고 병렬 프로세서 처리가 효율이 높아지자 CPU 수의 증가를 통해서[44] 지속적인 성능 향상이 이루어지고 있고 이 속도는 상용 CPU의 발전 속도에 비해서도 훨씬 더 빠르다. 비싼 돈 들여서 구축해놨더니 몇년 지나서 애물단지가 되는 상황이 발생하는 것. 실제로 기상청에서 2004년 500억을 들여서 TOP 16위에 드는 슈퍼컴퓨터 2호기를 도입했지만 8년이 지난 후에는 고철 값을 받고 팔아야 하는 처지가 되기도 하였다.# 이와 비슷하게 기상청 슈퍼컴퓨터 3호기 역시 같은 운명이 되었다. #

일본도 같은 고민에 처했는데, 2011년 성능으로 세계 최고 슈퍼컴퓨터였던 '케이'는, 개발비로 793억 엔이 들었지만 2019년에는 노후화된 장비 및 매년 100억 엔이 드는 유지비용으로 골치아프게 됐다고 한다. 기판과 CPU조차 전용으로 설계되어 다른 일반 컴퓨터에도 이용이 불가능해서 일부는 과학 박물관에, 나머지는 고철 신세가 될 예정.#

게다가 고성능 컴퓨팅의 패러다임이 빠르게 바뀌는 시대라는 점도 슈퍼 컴퓨터의 단점 중 하나이다. 이를테면 패러다임이 CPU에서 GPGPU, 심지어 FPGA까지 동원되기 시작하면서 매해 성능 향상과 전력 효율 향상폭이 올라가는 추세라 기존 슈퍼 컴퓨터 솔루션이 무의미해지는 시기가 점점 앞당겨지고 있다. 또한 특화된 컴퓨터는 비싸기 마련이지만, 잘 설계된 분산 시스템 위에서는 저렴한 일반 컴퓨터[45] 여러 대를 묶어 컴퓨팅하는 게 대체로 가성비가 좋고 인프라 역시 재사용하기 쉽다. 구글이나 아마존, MS 등 클라우드 컴퓨팅 서비스가 주로 취하는 전략. 이 쪽은 규모의 경제를 취하기 때문에 데이터 센터를 훨씬 효율적으로 운영할 수 있다는 점 역시 이점. 또한 슈퍼컴퓨터의 성능을 PC나 모바일 기기가 따라잡는 시간도 점점 짧아지고 있어서 머지않아 덩치 큰 슈퍼컴퓨터의 시대는 막을 내릴수도 있다.

9. 가상의 슈퍼컴퓨터

'슈퍼'라는 수식어가 마음에 들었는지 뭔가 말도 안되고 터무니없이 굉장한 것으로 나오는 경우가 많다. 인공지능에 각성하여 인류를 지배하거나 파괴하려 드는 악당이나 최종보스로 등장하는 경우도 부지기수. 실제로 작품에 등장하는 대부분의 슈퍼컴퓨터는 인공지능이다. 하지만, 인공지능이 반드시 슈퍼컴퓨터인 것은 아닌데, 그것이 아무리 고성능이라고 하여도, 규모가 거대하지 않다면 슈퍼컴퓨터라고 부르지는 않는다. 예를 들어 영화 터미네이터에 등장하는 스카이넷은 인공지능이자 동시에 슈퍼컴퓨터이지만, T-800은 인공지능이기는 해도, 슈퍼컴퓨터라 부르지는 않는다. 그리고, 추가로 양자컴퓨터일 가능성도 높다.

[1] 스마트폰 자체가 아니라 그 작은 유심 말하는거 맞다![2] 참고로 이 발언에서 슈퍼컴퓨터와 비교된 기기는 2010년에 출시된 아이폰 4인데, 2019년 출시된 에어팟 2세대/에어팟 프로 1세대와 동급의 프로세서(A4=H1)이다.[3] 벤치마크 수행을 위해서는 슈퍼컴퓨터 상의 다른 모든 작업을 중지해야 하며, 성능 측정 중에는 막대한 전력을 소모한다. 또한 LINPACK 벤치마크는 유저들이 시스템에 맞게 최적화 및 문제 스케일 조정을 할 수 있도록 되어 있어 이 과정에도 비용이 소모된다. 벤치마크 숫자 하나 찍자고 슈퍼컴퓨터를 구입한 게 아닌 만큼 이런 비용을 감수할 의지가 없는 경우가 더러 있다.[4] 64비트 부동소수점[5] 현시점 성능 세계 1위인 프론티어가 약 21MW를 사용한다. 얼마나 큰 숫자인지 체감이 안 온다면 시속 574.8 km/h를 기록한 TGV POS #4402편성의 출력이 약 19.6MW였다.[6] 실제로 요새 슈퍼컴퓨터는 처음의 구입 비용도 엄청나지만, 이후에 몇년 지나지 않아서 전기세와 수리비의 합계가 구입 비용을 넘어서게 된다.[7] 일반적으로 한번 계산을 시작하면 슈퍼컴퓨터에서도 1달 이상, 크게는 몇 년이 걸리기도 하며 RAM 사용량만도 수 TB는 우습게 넘기 때문에 일반 컴퓨터는 실행조차 불가능하다.[8] 단 이 비교에는 일부 어폐가 있는데, 현대(2020년대) 소비자용 그래픽카드의 연산성능은 FP32 기준으로 측정되는 반면 LINPACK 벤치마크는 FP64 연산성능을 측정하기 때문이다. 그래픽 처리에서는 FP32를 초과하는 정밀도의 연산 빈도가 떨어지기에 소비자용 그래픽카드는 아키텍처 수준에서 FP64 성능을 희생해서 다른 성능을 확보하며, 이에 따라 FP64 성능이 FP32 성능의 16분의 1 ~ 64분의 1에 불과한 경우가 많다. 이하 내용을 읽을 때에도 이를 감안해서 볼 것.[9] 네이버데이터센터 각에서 보유하고 있다.#[10] 일본 ZEUS, 모뉴엘. 신문기사[11] PC 기준으로는 10MHz CPU가 달린 IBM PC XT의 성능과 비슷하다.[12] PC 기준으로는 75MHz 펜티엄 정도의 성능이다.[13] 펜티엄 4 프레스캇 3GHz와 성능이 유사하다.[14] 퀄컴 스냅드래곤 S1 QSD8250에 들어간 Adreno 200은 2.1 기가플롭스의 성능을 갖고 있다. 갤럭시 S에 사용된 엑시노스 3110 SoC는 ARM Cortex-A8을 사용하고 있으며 3.5 기가플롭스 정도의 성능을 갖는다.[15] 2009년 출시된 저성능 그래픽카드 GeForce G210의 연산 성능은 최소 36.4 기가플롭스에 달한다.[16] 삼성 엑시노스 8890에 탑재된 Mali-T880 MP12의 성능은 265.2기가플롭스 정도다.[17] 2016년 출시된 저가형 그래픽카드 (당시 3~5만원)인 GeForce GT 710은 366기가플롭스, 인텔 Iris 내장그래픽은 401 기가플롭스, 퀄컴 스냅드래곤 835에 탑재된 Adreno 540의 성능은 567기가플롭스다.[18] 2014년 출시된 GeForce GTX 750과 GeForce GTX 660의 연산성능이 각각 1.2 테라플롭스와 1.88 테라플롭스 정도다.[19] 2013년 5월 출시된 GTX 780이 4.1 테라플롭스. 2015년 100만원 가량에 출시된 그래픽카드인 GeForce GTX TITAN X의 연산능력은 6.6 테라플롭스이다. 메인스트림으로는 GTX 1650이 2.8 테라플롭스다. GPGPU에 긍정적인 반응을 보이는 라데온 PRO DUO (2017.1 출시)는 16 테라플롭스를 돌파했다.[20] 2018년 AI 스타트업에서는 600~1,000만원대의 워크스테이션으로 TITAN Xp 4장으로 FP32 약 40TFLOPS까지 확보가 가능했다. 2020년 9월에 등장한 RTX 3090의 경우 단일 그래픽카드로 FP32 36 테라플롭스를 낼 수 있다.[21] 2022년 등장한 RTX 4090은 단일 그래픽카드로 FP32 82.6 테라플롭스를 낼 수 있다.[22] 하늘의 강, 즉 은하수를 뜻한다.[23] NVIDIA Geforce 8 시리즈 그래픽카드에 쓰인 것과 같은 계열의 칩셋이다.[24] 64bit RISC 아키텍처, 260코어, 클럭 1.45GHz, 3TFLOPS, 32GB 메모리[25] 13.4페타플롭스로, 서밋의 4.5배[26] 2019년에 휴렛팩커드 엔터프라이즈가 크레이를 인수해서, 프론티어와 그 이후의 슈퍼컴퓨터들은 크레이 대신 HPE가 개발사로 언급되기도 하는데 실제로는 모두 크레이를 지칭한다고 보면 된다.[27] CPU 1개당 가속기 4개를 장착한, CPU 코어 64개 + 가속기 1개당 컴퓨팅 유닛 220개 × 가속기 4개 = 944코어짜리 단위 시스템이 9,248기 있는 것으로 추정된다.[28] 후가쿠 연산성능 442.01 PFLOPS 및 전력 사용량 29.899 MW로 14.78 GFLOPS/W, 프론티어 연산성능 1,102.00 PFLOPS 및 전력 사용량 21.100 MW로 52.23 GFLOPS/W.[29] Test & Development System. 코어 수 120,832개로 언급되는 것으로 보아 앞서 언급한 944코어 단위 시스템 128기 64개 블레이드, 단일 랙으로 추정된다.[30] MI300A APU는 Zen4 코어 24개와 CDNA3 컴퓨팅 유닛 38 × 6개를 탑재하고 있으며, 엘 캐피탄은 이 가속기를 4개씩 탑재한 노드 11,136개로 구성되어 있다. # 다만 계산기를 두드려 보면 그렇게 산출되는 코어 개수는 Top500에 표시된 것보다 노드 184개어치가 많은데, 이건 백업으로 추정.[31] 컴퓨터는 5년이면 성능 향상이 크게 이루어지기 때문에 전성비만 따지면 그냥 새로 사는 게 훨씬 저렴한 것으로 보일 수 도 있으나 신규 도입 비용, 유지보수비 등 다양한 측면을 고려하면 신규 도입이 항상 경제적이지는 않다.[32] SUN Microsystems에서 제작, 2008년 8월부터 정식으로 가동하였다. 한국과학기술정보연구원 슈퍼컴퓨팅서비스센터의 공지사항에 따르면 2016년 4월 30일 18시에 서비스가 종료되었다. 자세한 스펙은 사용자 지침서(pdf)를 참조.[33] 2023년 현재 RTX4090 1기보다 낮은 성능이다..[34] 이후에 출시된 헥사코어 제온도 장착이 가능했기에, 최대 96코어 짜리를 만드는 것도 가능했다고 한다.[35] 16 x 2 x 32 = 1024 코어[36] 사진에 보이는 것만 PC 63대 인데, PC 1대당 16코어 짜리 Ryzen 7950X 가 장착되었다고 치면, 1008 코어짜리 컴퓨터가 만들어진다. 그리고, 이것은 GPU 는 전혀 고려하지 않은 계산이다. 참고로 RTX 4090 그래픽 카드에는 CUDA 코어가 16,384 개 들어 있다.[37] 다르게 얘기하면 해당 군함과 운명을 같이 한다는 거다.[38] 참고로 비디오 인코딩에 OpenCL 또는 CUDA 가속을 켜면 굉장히 빨라진다.[39] 이전 모델인 'Deep thought' 포함하여 3번[40] 그리고 아마존 EC2 노드 ex.large 풀옵을 16개 1시간 빌리는덴 2000원 남짓. 머리만 잘 굴리면 얼마든지 싸게 할 수 있다. 언급한 아마존 EC2는 KISTI보다 가성비가 훨씬 좋은 편. Microsoft Azure드림스파크 프로그램의 일환으로 학생에게 일부 기능을 제외하고 무료로 제공되니 관심이 있다면 각 문서를 참고하자.[41] 효율이 낮아 애꿎은 Azure 크레딧만 날린다며 30불짜리 USB 장치를 사는 게 10만 배 더 빠르다고 한다.[42] 비트코인은 X86이나 GPU보다 ASIC 같은 반칙에 가까운 수단을 쓰는 것이 압도적인 전성비를 달성할 수 있는 것으로 알려져 있다. 크립토코인 마이닝이 수익을 얻으려면 투입되는 전기세보다 채굴되는 코인이 많아야 가능한데 이 방면의 선수들이 수도 없이 달라붙은 요즘 같은 때엔 어지간한 전기세 절약으로는 본전도 못 찾는다. X86 기반 일반 클라우드 서비스를 이용해 채굴을 하면 극한의 최적화에도 눈덩이처럼 불어나는 적자밖엔 볼 것이 없다.[43] 슈퍼컴퓨터 센터는 온도 관리도 중요하기에 공공기관 실내 온도 제한같은 건 적용되지 않는다.[44] 암달의 법칙에서 보듯 단순히 CPU 숫자가 늘어난다고 해서 성능 증가가 있는 것은 아니다. 즉 제반 기술 또한 뒷받침이 되어야 한다.[45] 물론 기업 입장에서.[46] 에이언즈가 되기 이전에는 성체 컴퓨터였다. 소위 말하면 별을 관측하고 이를 연구하는 슈퍼컴퓨터인 셈.[47] 터미네이터: 다크 페이트에서 나오는 슈퍼컴퓨터이다.