최근 수정 시각 : 2017-11-22 15:41:23

슈퍼컴퓨터

파일:나무위키프로젝트.png
이 문서는 나무위키 컴퓨터 프로젝트에서 다루는 문서입니다.
해당 프로젝트 문서를 방문하여 도움이 필요한 문서에 기여하여 주세요!


파일:나무위키+유도.png   슈퍼마켓 컴퓨터에 대해서는 POS기 문서를 참조하십시오.

파일:external/www.top500.org/titan1_800x600-0x600.jpg

1. 개요2. 상세3. 국가별4. 역사
4.1. 가장 빠른 슈퍼컴퓨터 연혁
5. 대상
5.1. 개인용5.2. 소호용5.3. 기업용5.4. 국가 기관용
6. 용도7. 써보고 싶다면8. 단점9. 가상의 슈퍼컴퓨터

1. 개요

일반적인 컴퓨터에 비해 월등한 연산 능력을 보유한 컴퓨터를 말한다.

어느정도 연산 능력을 가져야 슈퍼컴퓨터라고 불릴 수 있는지는 논란의 여지가 많다. 연산량의 증가 속도가 매우 빠른지라 10년 전 세계 최고 수준의 컴퓨터라도 현재에는 명함도 못 내밀기 때문이다. 당장 현재 스마트폰의 연산 성능은 80년대 가장 빠른 컴퓨터보다 빠르다. 이를 위해 top500에서 매년 두 차례씩 LINPACK 밴치마크를 통한 슈퍼컴퓨터 순위를 제공하며, 슈퍼컴퓨터에 대한 가장 주요한 통계 자료로 사용된다.[1] 다만 보안이나 아키텍처 문제[2] 심지어는 운영하는 단체에서 그냥 의미없다고 판단해서 참여하지 않아서 충분한 성능이 있더라도 집계되지 않는 경우가 있다.

2. 상세

'슈퍼컴퓨터'란 대규모의 연산을 초고속으로 수행하기 위해 만들어진 컴퓨터로, 요즘의 컴퓨터가 인터넷 단말기 + 게임기 + 사무용 기계에 가까워지고 있는 반면 이건 진짜 계산만을 위해 만들어진 컴퓨터이다.

과거 슈퍼컴퓨터는 계산에 특화된 특수 아키텍처와 통신 매커니즘을 가지고 전용 CPU를 사용했다. '크레이'등이 이 업계에서 이름을 날릴 때는 이 구조를 사용했다. 하지만, 하나의 CPU에 성능을 집적하는 것에는 제약이 있어 금방 한계에 도달했다. 실제로 2005년부터 단일 CPU 코어의 성능은 정체기에 도달했다. 이는 PC 시장에서도 '4GHz의 벽'라는 용어가 생겨났다.

하나의 CPU만으로는 한계가 있다면, CPU를 여러 개를 쓰면 된다는 생각으로 '병렬처리'에 눈을 돌린다. 코어수가 많을수록 더 계산 능력이 좋아질 거라는 단순한 생각에, 더 좋은 슈퍼컴퓨터를 만들기 위해서 코어의 수를 미친듯이 늘리는 방향으로 발전한다. CPU 위주로 구성된 슈퍼컴퓨터의 코어 숫자가 이제 수십만개는 우습게 넘어서는 수준이 되었다. 예를 들어 2016년 11월 기준 슈퍼컴퓨터 랭킹 4위인 미국의 Sequia는 CPU 코어가 156만개 짜리이며, 랭킹 1위인 중국의 Sunway TaihuLight는 무려 1000만개라는 정신나간 숫자의 코어로 구성되어 있다. 또한, 물량으로 밀어 붙이는데 굳이 비싼 전용 CPU를 쓸 필요가 없다는 생각에, 인텔이나 AMD 등에서 제조하는 서버용 마이크로프로세서를 많이 사용한다. 다만 계산만 빨리 하면 하드웨어는 뭘 써도 상관이 없기 때문에 PowerPCARM 코어를 이용할 수도 있다.

그러나 코어의 수가 늘어나면서 다른 문제가 발생하기 시작했다. '코어가 많다. = 전기를 많이 쓴다.'와 동일하기에, 코어를 많이 탑재한 슈퍼컴퓨터는 어마어마한 전기를 사용하게 되었다. 게다가 발열문제도 심각해졌고, 이를 해결하기 위해서 에어콘도 미친듯이 돌려야 하는데, 에어콘도 전기를 많이 사용하는 냉방장치이다. 이렇듯 전력소모와 발열이 감당할 수 없는 수준이 되어버리면서, 결국 저전력 CPU를 사용하게 되고, 여기에 예산 문제까지 고려하게 되면 저렴한 서버용 CPU를 이용해서 구성하게 된다.[3] 일명 그린컴퓨팅이 중요한 이슈가 된다.

또한, CPU만으로는 성능을 뽑아내는데 한계가 있다고 생각한 슈퍼컴퓨터 설계자들은 이제 GPGPUSoC 병렬 주전산기 등으로 눈을 돌렸다. 연산은 GPU 같은 계산용 프로세서들이 하고, 이 계산을 통제ㆍ관리하는 것은 CPU가 담당하는 구조이다. 랭킹 3위인 타이탄의 경우 NVIDIA TESLA를 이용하여 막대한 계산 성능을 뽑아내는 구조로 만들어졌다. 참고로, 2016년 전세계에 이름을 알린 알파고 역시, GPU의 병렬 처리를 이용한 극대화된 계산 능력을 활용하는 구조이다. 다만, CPU가 아닌 프로세서들은 프로그래밍이 어렵다는 문제가 있기 때문에, 아직까지는 적용분야가 기계학습같은 분야로 한정되어 있다. 이 구조는 비트코인 채굴하는 데 좋다고 한다. 물론 다른 전자화폐도 이러한 방식을 따르는 경우가 있다. 이더리움이라던가…

요즘 떠오르고 있는 클라우드 컴퓨팅 분야 중 계산 클라우드를 이용한 방법도 제시되고 있다. 계산을 클라우드 컴퓨팅에게 떠 넘기는 것인데, 일종의 그리드 컴퓨팅과 같다. 결과적으로 슈퍼컴퓨터와 유사한 용도로 사용할 수 있긴 하지만, 계산 클라우드는 통상 슈퍼컴퓨터라 부르지 않는다. 이는 계산 클라우드가 고전적 슈퍼컴퓨터와는 운영 방식이 다르기 때문이다. 슈퍼컴퓨터는 소수의 사용자가 매우 복잡한 연산을 처리하는 것을 주 목적으로 하고, 계산 클라우드는 많은 인원이 비교적 강도가 낮은 연산을 하는 것을 주 목적으로 한다. 즉, 계산 클라우드의 경우에는 단순한 연산 데이터가 많이 모여 빅 데이터를 이루는 데 반해, 슈퍼컴퓨터의 경우에는 한 계산에서 처리하는 데이터가 크고 계산 부하 또한 크다.

과거에는 외부로 나가는 네트워크마저 제대로 구성되어 있지 않았기에 서버로 사용하기에도 곤란한 시절도 있었다. 이 또한 현재는 고성능 네트워크를 이용한 클러스터 구성이 기본이며, 그래서 네트워크가 부실한 슈퍼컴퓨터란건 존재하지 않는다. 단지, 보안 문제로 외부에서 접속하는 것을 철저하게 차단할 뿐이다.

일반적으로 슈퍼컴퓨터는 사용자와의 상호작용성(User Interaction)이 일반적인 PC 환경과는 매우 다르다. 현재의 슈퍼컴퓨터는 슈퍼라는 이름에 걸맞는 그래픽 칩셋도 탑재하니, 연산결과를 실시간 초고해상도 VR로 뽑아내는 것이 충분히 가능하다. 하지만 하드웨어가 충분해도 소프트웨어가 없으면 게임을 할 수 없다. 슈퍼컴퓨터에서 돌아가는 게임이라고는 전쟁 시뮬레이션인 워게임이나 기술 시연을 위한 체스/바둑/퀴즈게임 정도밖에 없다. 일반인을 위한 게임은 하나도 없다. [4]

페타는 1015, 즉 1초에 10.51 × 1015번 계산할 수 있는 것이며, 쉽게 말해 초당 1000번의 계산을 하는 것이다. 위의 텐허-2는 초당 3경3862조번의 연산능력을 가지고 있는 것.

오늘날 슈퍼컴퓨터 속도와 비교를 하자면 여러분 PC에 꼽힌 CPU 한 개가 빨라봐야 300~400 기가플롭스 정도[5]이고 따라서 Titan은 여러분 PC 8만 대를 모아놓은 것과 똑같다.

2017년에는 스위스의 피즈 다인트라는 컴퓨터까지 가세하여 타이탄은 4위로 밀렸다. 미국 노메달.

2015년 6월 미국은 1위 재탈환을 위해 2025년까지 텐허-2보다 빠른 컴퓨터 개발에 나섰다. 한국기사 영문기사 목표로 하는 계산 능력은 천조국 답게 텐허-2의 20배가 넘는 1 엑사플롭스로,[6] 인간 두뇌 속 뉴런 네트워크의 능력을 넘어서는 것이 목표이다.[7]

슈퍼컴퓨터의 속도가 빠르다 하더라도 아키텍처를 바꿀 때는 고민할 필요가 있다. 단순히 계산 능력만 고려해서 기존 CPU 위주 체계를 벗어난 설계를 할 경우, 막상 이 슈퍼컴퓨터들을 사용해야 할 과학자들이 외부 라이브러리를 사용할 수 없는 데다가 프로그래밍도 할 수 없다는 문제가 생긴다.

슈퍼컴퓨터를 사용하는 과학자들의 대부분은 FORTRAN이나 C/C++과 같은 언어로 프로그래밍을 한 경험은 많다고 해도, 컴퓨터공학과 하드웨어에 대한 지식 자체는 학부 전공생보다도 못한 경우가 많다. 그런데 완전히 새로운 아키텍처는 필연적으로 새로운 프로그래밍 언어를 요구하게 되고, 대부분의 경우 FORTRAN과 C/C++보다 배우기가 훨씬 어렵다! 관련 지식이 없으면 더더욱.

새로운 아키텍처에서는 기존에 사용하던 외부 라이브러리를 쓸 수 없게 될 가능성이 높다. 과학계산 프로그램들은 수학이나 병렬연산 라이브러리를 사용하곤 하는데, 이러한 라이브러리들은 수십년의 기간동안 많은 사람들이 개발하고 테스트해온 산물이다. 결국 하드웨어가 있어도 누군가 필요한 라이브러리를 개발해줄 때까지 손가락만 빨고 있어야 하는 셈.

3. 국가별

http://www.top500.org 일부 시스템이 포함되어 있지 않지만 대략적인 순위를 알 수 있다.

현재 중국이 미쳐 날뛰고 있는 분야 중 하나다. 2001년 ‘탑 500’순위에 중국의 슈퍼컴퓨터가 한 대도 포함되지 않았었는데, 2016년에는 수량에서도 미국을 제친데다가 1, 2위조차 모두 중국 것이라는 점을 생각하면 어마어마한 성장 속도다. 2017년에는 마침내 중국이 탑 500 중 162대라는 경이로운 기록을 보유 중이다. 탑 10 중 1,2위 중국, 3위는 스위스, 4,9,10위는 일본에서 보유하고 있다. 미국은 5,6,7,8위에 랭킹을 올리며 겨우 체면치례하고 있다. 한국은 기상청의 2대를 50위 권에 올려 놓은 상태이다.

슈퍼컴퓨터 세계 500위 안에서 가장 많은 수를 보유하고 있는 나라는 슈퍼컴퓨터라는 개념이 탄생한 이래로 미국이었지만 2016년에는 중국이 미국을 추월했다. 2016년 6월 기준 500대 중 연산속도에서 압도적으로 1위인 선웨이를 포함해 167대가 중국에 있다. 2위인 미국은 165대, 일본이 29대로 3위를 기록했다. #

우리나라의 경우 2001년 11월에 16대로 절정을 이뤘고, 2016년에는 대한민국 기상청이 보유하고 있는 미리(36위)와 누리(37위)를 포함해 총 7대가 Top 500 안에 들고 있다. # 2011년 12월에 국가슈퍼컴퓨팅육성법이 발효되고 2012년에 국가초고성능컴퓨팅 위원회를 발족하여 국산 슈퍼컴퓨터 개발에 착수하고 있지만 4년간 위원회는 잉여였다. 2016년 슈퍼컴퓨터 국산화사업에 성균관대 컨소시엄이 선정되었다. 개발 프로젝트는 2020년까지 1페타플롭(PF) 이상의 슈퍼컴퓨터를 2021∼2025년에는 30PF 이상인 슈퍼컴퓨터를 개발할 계획이다. 2016년 KISTI는 슈퍼컴퓨터 서버용 보드를 국산화했다. 2025년까지 연산속도 초당 30페타플롭스의 성능을 가진 슈퍼컴퓨터를 국산화하더라도 이 정도 성능은 2016년 현재 1위인 선웨이의 절반의 절반 수준인 성능이라 계획대로 달성한다 해도 시기상 매우 늦다고 볼 수 있다. 연혁을 봐도 알 수 있는 부분이지만 10년이면 수백배 가까운 성능 향상이 이루어지기 때문.

Top500에서는 순수하게 연산속도만을 측정하는 Top 500 list 뿐만 아니라 1와트 소모당 성능비(전성비)를 측정하는 Green 500과 슈퍼컴퓨터의 범용성을 알 수 있게 해주는 빅데이터 제작, 해석능력을 평가하는 Graph 500 순위를 함께 집계하는데, 두 순위 모두 2016년 6월을 기준으로 일본의 K-컴퓨터가 5년 연속 1위를 차지하고 있다. ### 2017년 6월을 기준으로도 Green 500의 상위 10개 슈퍼컴 중 1위부터 4위, 7위, 8위가 전부 일본의 것이고 Graph 500에서도 여전히 일본의 K Computer가 1위를 차지하고 있어 효율성 면에서는 일본이 압도적으로 앞서나가고 있다.

2017년 11월 기준 3위는 스위스의 피즈 다인트, 4위는 일본의 Gyoukou라는 컴퓨터인데, 둘다 19 페타 플롭스 정도의 성능을 냈다. 그러나 설계 이념은 전혀 다른데, 피즈 다인트는 '36만 코어'만 사용되었지만, Gyoukou는 무려 '2000만 코어'가 사용되었다. 즉 코어 1개당 성능이 55배나 차이가 난다. 고가의 고성능 코어를 적게 사용하여 성능을 뽑아내느냐, 저가의 저성능 코어를 압도적인 물량으로 때려 넣어 성능을 뽑아 내느냐의 차이.

4. 역사

크레이는 CDC 6600부터 Cray-2까지 세계 최고 성능의 슈퍼컴퓨터를 만들었다. 하지만 1993년에 나온 Cray-3는 팔 곳이 사라져 버려서 회사가 파산해버리게 된다. 이렇게 된 이유는 주된 수요처였던 미 국방부가 냉전이 끝나면서 예산 감축 및 핵무기 실험을 할 필요가 없어졌기 때문이다. 참고로, 마지막에 나온 Cray-3는 16코어로 돌렸으며 성능은 인텔 샌디브릿지 i7 정도의 성능이었고, 이후에 나올 Cray-4는 64 코어에 세계 최초로 1 GHz를 돌파한 CPU를 채용할 제품이었다. 크레이는 병렬 컴퓨팅을 이용한 슈퍼컴퓨터는 프로그래밍 기술의 미발달로 인해 그가 죽기 전엔 진보할 수 없을 것이라 예측했는데, 아이러니하게도 1996년 그가 교통사고로 사망하자마자 병렬 구조 슈퍼컴퓨팅이 초고속으로 발전하면서 그의 말을 입증시켰다.(…)

현재 Cray 사는 인터코넥트 사업을 인텔에 넘기고 인텔과 파트너십을 강화하는 한편, 인텔의 Xeon Phi이나 NVidia의 GPU를 이용한 가속기를 통해 뽕을 뽑아내려는 추가하는 추세에 적극 발 맞춰나가고 있다. 독자적인 CPU를 생산하던 업체는 다 망하고 지금은 인텔 제온이나 AMD 옵테론 및 GPGPU를 이용해서 만드는 슈퍼컴퓨터가 거의 장악한 상태다. 아직까지 현용 슈퍼컴퓨터 분야에서 버티고 있는 독자 CPU는 IBMPOWER 아키텍쳐오라클의 SPARC 정도이다. 두 회사 모두 기업/정부 시장의 베테랑에 메인프레임급 이상 하드웨어 분야의 끝판왕이라고 할 수 있지만 결국 X86이 이 시장까지 치고 올라오며 이 두 회사의 독자 아키텍쳐도 전망이 밝다고는 하기 힘든 실정이다.

현대 슈퍼컴퓨터는 이미 수백만개 이상의 코어를 탑재하고 있으며 시간이 지날수록 이 숫자는 폭발적으로 증가할 것으로 예상된다.

일부 컴퓨터 애호가 중에서는 최신형 하드웨어를 장착한 고가의 PC를 슈퍼컴퓨터라고 지칭하는 경우가 있다. 물론 컴덕 앞에서 이런 말을 했다간 무식하다고 욕먹기 딱 좋을 것이다. 개인용 컴퓨터는 20년 정도의 시간차를 두고 슈퍼컴퓨터를 따라잡는다. 이를테면 1996년 체스 세계챔피언에게 승리한 딥 블루는 나름 슈퍼컴퓨터라고 자칭하던 물건이었지만 현재는 그 정도 ELO의 소프트웨어를 스마트폰에서 작동시키고 있다. GPU의 경우 2002년에 나온 어스시뮬레이터의 성능을 GTX 1080TI 3장으로 구현할 수 있다.

4.1. 가장 빠른 슈퍼컴퓨터 연혁

TOP500 사이트에 올라온 정보를 바탕으로 작성.
  • ENIAC: 1946년. 500FLOPS.
  • 1946~1961년: 추가바람
  • IBM 7030: 1961년. 400~600KFLOPS[8]
  • CDC 6600: 1964년. 1MFLOPS.
    x86 호환 컴퓨터 10 MHz 정도의 성능. 생산된 100여대 대부분이 핵실험에 쓰였다. 크레이가 CDC에서 일하던 시절 만들었다.
  • CDC 7600: 1969년. 10MFLOPS.
    펜티엄 75MHz 정도의 성능. 점점 밀집화되는 내부 구조로 인해 본격적으로 쿨링시스템이 장착되기 시작한 최초의 컴퓨터이기도 하다.
  • Cray-1. 1975년.
    CDC 7600 이후로, CDC는 또 다시 10배 성능을 올린 슈퍼컴퓨터를 기획했으나 발전 방향이 다르다고 생각한 크레이는 퇴직하고 후에 슈퍼컴퓨터의 대명사가 된 크레이社를 세운다. Cray-1은 시장에서 대 히트를 칠 수 있었다. 최초로 나온 제품의 성능은 펜티엄3 600MHz 정도였으며, 이때까지만 해도 모든 컴퓨터는 단일 CPU 코어를 사용했지만 1983년에 나온 MP로 최초로 병렬컴퓨팅이 이루어진다. 마지막에 나온 4코어 MP 모델의 성능은 800 MFLOPS로 펜티엄 4 프레스캇 3GHz 급에 달했다.
  • Cray-2: 1985년, 1.9 기가플롭스 [9]
    수냉을 도입했다가 고장으로 인해 제대로 팔지도 못했다.
  • ETA-10
    1987년, 10 기가플롭스[10]
  • CM-5
    1993년 미국 로스 앨러모스 연구소에서 1024개의 프로세서를 연결하여 59.7 기가플롭스의 성능을 뽑아냈다.
  • 数値風洞 (Numerical wind tunnel)
    1993년 일본 국립항공우주연구소에서 140개의 벡터 프로세서를 채용하여 124.2 기가플롭스의 성능을 내는 컴퓨터를 제작하였다. 1994년 잠시 1위를 내줬다가 벡터프로세서를 167개로 업그레이드하며 170 기가플롭스로 다시 1위로 올라섰다.
  • Intel XP/S 140 Paragon
    1994년 미국 샌디아 국립 연구소에서 3680개의 프로세서를 연결하여 143.40 기가플롭스를 달성하였다. 하지만, 업그레이드된 Numerical wind tunnel에게 다시 1위를 내주었다.
  • 히타치 SR2201
    1996년 일본 도쿄대학에서 1024개의 프로세서로 232.4 기가플롭스를 달성하였다.
  • CP-PACS
    1996년 일본 츠쿠바대학에서는 2048개의 프로세서로 368.20 기가플롭스를 기록하였다.[11]
  • ASCI RED
    1997년 미국 샌디아 국립 연구소에서 7264개의 프로세서로 1.068 테라플롭스[12]를 기록하며, 최초로 1 테라플롭스의 벽을 넘어 섰다. 그리고 2000년까지 1위를 유지하였다.
  • ASCI WHITE
    2000년 미국 로렌스 리버모어 연구소에서 8192개의 프로세서로 4.9 테라플롭스를 달성하였다. 또한 업그레이드 후 7.2 테라플롭스까지 성능을 향상시켜 2001년까지 왕좌의 자리를 지켰다.[13]
  • 地球シミュレータ(The Earth Simulator, 어스[지구] 시뮬레이터)
    2002년 일본 NEC에서 만든 슈퍼컴퓨터로 당시 2위컴퓨터의 7배의 성능인 35 테라플롭스를 기록하며, 2004년 IBM 블루진에게 1위를 내줄 때까지 3년간 왕좌의 자리를 지킨 일본의 자존심이었다. 또한, 마지막 벡터형 슈퍼컴퓨터이기도 하였다. 참고로, 이 이후에 등장하는 모든 슈퍼컴퓨터는 병렬형이다. TOP500정보
  • 블루진(Blue Gene)
    블루진은 IBM의 슈퍼컴퓨터 솔루션 이름이자, 슈퍼컴퓨터의 이름이다. 미국 에너지부에서 사용중인 블루진이 2004년 1위의 자리에 오른 뒤 업그레이드 하여 2007년까지 계속 1위 자리를 지켰다.
  • 로드런너(Roadrunner)
    2008년 6월 공식적으로 최초의 1 페타플롭스 성능을 인증받은 슈퍼컴퓨터이다. 미국 에너지부에서 1페타플롭스 성능의 슈퍼컴퓨터를 업체들에게 요구하였는데, IBM 이 입찰하여 납품한 제품이 바로 로드런너이다. 당시 CPU로는 원하는 성능을 내기 힘들었기에, 플레이스테이션3에 사용되는 Cell 프로세서와 AMD 옵테론 프로세서를 조합하여 요구조건을 만족하였다. 허나 연산속도 대비 전력 사용량이 다른 슈퍼컴의 2배정도인 안습한 성능비로 결국 2013년 해체되었다.
  • 재규어(Jaguar)
    사실 2008년 6월에 1페타플롭스 성능을 기록한 슈퍼컴퓨터는 또 한 대 있었는데, 역시 미국 Cray에서 만든 재규어이다. 하지만, 약간 낮은 성능으로 2위를 기록하였고, 로드런너의 언플에 묻히며 주목받지 못하였다. 하지만, 2009년 11월 대대적인 업그레이드를 단행하며, 1.7 페타플롭스로 1위로 올라섰다.
  • 天河-1A(텐허-1A, Tianhe-1A)
    2010년 11월 중국은 '텐허(天河)'[14]라는 이름의 슈퍼컴퓨터를 선보이고 랭킹 1위에 올리며, 미국의 자존심을 짓밟는다. 186,368개의 코어가 사용되었고, 2.5 페타플롭스의 성능을 기록하였다.
  • 京(K-컴퓨터)
    2011년 6월, 일본은 후지쯔와 국립기초과학연구소인 이화학 연구소(RIKEN)의 주도로 개발되어 548,352 코어라는 어마어마한 물량공세를 펼치며 8 페타플롭스라는 성능을 뽑아내는 K-컴퓨터[15]를 발표한다. 이는 중국 텐허의 거의 3배 성능을 내는 엄청난 성능이었다. 추후 과거 어스시뮬레이터의 영광을 이어가겠다는 강한 의지를 표명하며, 코어수를 705,024개로 업그레이드시켰고, 최초로 10 페타플롭스 성능을 돌파해버린다. 탄생 직후부터 응용프로그램에 대한 실제 계산 성능을 측정해 가장 우수한 컴퓨터에 수여하는 Gordon Bell Award를 수상했고, 미국 에너지부 주최로 슈퍼컴퓨터의 성능 대비 효율성과 에너지 소비율을 겨루는 HPC Challenge에서 2011년부터 14년까지 4번 연속 수상한데다 순수하게 연산속도만 따지는 Top 500 순위에서 상당히 밀려난 이후에도 전성비를 따지는 Green 500 순위에서 2016년 6월까지 1위를 지켰고 빅데이터 제작 및 해석능력을 따지는 Graph 500 부문에서는 2017년 6월을 기준으로 1위 자리를 지키고 있다. 이 문서 아래쪽에 사진이 있다.
  • 세쿼이어(Sequoia)
    2012년 6월 중국과 일본에 연이어 자존심을 구긴 미국은 쇼미더머니를 쳐갈기며 무려 1,572,864 코어짜리 슈퍼컴퓨터를 뽑아내었다. 16.324 페타플롭스.
  • 타이탄(Titan): 2012.11
    미국은 17.59 페타플롭스 성능의 슈퍼컴퓨터를 하나 더 장만한다. 이것은 코어의 성능을 높이는 전략을 사용하여 세쿼이어의 1/3 밖에 안되는 56만 코어로 해당 성능을 기록한다. NVIDIA TESLA[16]를 병렬 조합하여 주 전산기를 구성하고 256코어의 IBM POWER 프로세서로 주 전산기를 관리하는 방식을 사용한다. 이 문서의 최상단에 사진이 있다. 크레이 사가 만들었다.
  • 天河-2(텐허-2, Tianhe-2): 2013.6
    중국도 쇼미더머니 신공에 동참하며, 3,120,000 코어짜리를 뽑아내면서 33.862 페타플롭스의 성능을 기록한다. 대략 수치상으로 세쿼이어 2대를 합쳐 놓은 성능으로 보인다. 2016년 6월까지 3년간 1위 자리를 지켰다.
  • 神威太湖之光(Sunway TaihuLight): 2016.6
    자체개발 프로세서인 SW26010[17]을 40,960개를 합쳐 총 10,649,600 코어이며, 이론상 125 PFLOPS, 실성능 93 PFLOPS텐허-2의 2.8배의 연산 성능을 기록했다. 현존하는 설계 방식이 아닌 전혀 다른 새로운 설계 방식이다. top500.org의 추정으로는 완전 자체개발이 아니라 DEC 알파 아키텍처에 기반한 프로세서라고 한다. 미국에서 실수요자가 없어서 떨이해버린 알파 아키텍처를 사다가 개조한 것으로 보인다. 관련기사 이례적인 방식이라 범용성이 좀 떨어지는 단점이 지적되긴 하지만, 그 성능까지 거짓은 아니다.[18] 게다가 소비 전력은 15,371 KW로 텐허-2보다 2,437 KW가 낮아 효율 면에서 3위를 차지하기까지 했다.

5. 대상

5.1. 개인용

파일:attachment/Cray-CX1.jpg

크레이의 CX1

크레이는 정말 개인용 데스크탑 슈퍼컴퓨터라는 것을 만들어 판 적이 있다. Cray CX1이라는 제품이며, 크기도 정말 일반 데스크탑 컴퓨터보다 조금 더 큰 수준이다. 저 작은 크기에도 불구하고, 8개의 블레이드가 장착될 수 있으며, 블레이드당 쿼드코어 제온 CPU를 2개 장착할 수 있으니, 최대 64코어짜리 시스템[19]이 만들어 질 수 있다. 다만 성능에 비해서 가격이 지나치게 비쌌다. 2008년 당시 기본 구성이 2500만원, 풀 옵션은 1억원에 달했다.(…) 저걸 잘 써먹을 데가 별로 없다 보니 게임용 많이 팔리지는 못했고 2012년에 단종되었다.

5.2. 소호용

파일:external/gigglehd.com/sgi_octane_iii.jpg

IRIX라는 유닉스 운영체제로 알려진 SGI의 개인용(?) 슈퍼컴퓨터.

사실 HW만 본다면, 그냥 PC 메인보드를 블레이드 형태로 곱게 쌓아 놓은 것과 크게 다르지 않다. 인터커넥트에 이더넷을 쓰니까 그냥 클러스터 컴퓨팅 정도의 성능만 나온다. 참고로 이정도 규모라면 1000 코어쯤 되는 구성이 가능하다. 16코어 옵테론 듀얼CPU로 블레이드를 구성하면, 32개 블레이드로 1000코어가 만들어진다. 이런데 사용되는 OS는 일반 리눅스윈도우가 아니며, 병렬 컴퓨팅용으로 특화된 HPC 버전(리눅스 HPC 버전이나 윈도우 HPC 버전)이 필요하다.

사실 이정도 규모는 능력만 된다면 일반 컴퓨터 몇십 대 사다가 직접 만들 수도 있고, 중고 PC를 싹 긁어모은 뒤에 케이스만 자작해도 그럴듯하게 만들 수 있다. 학교 연구소 등에서 중고 블레이드 서버 몇 개와 랙으로 자작해서 쓰는 경우도 흔히 있다. 그래도 유의미한 수준으로 만들기 위해서 1000코어쯤 구성하겠다면, 32개의 블레이드(일반 PC 라면 대략 수십대)는 필요하고 쿨링시스템도 고려해야 하기에, 개인이 감당하긴 힘들다. 만에 하나 구성한다고 하더라도, 월 전기세만 백만 단위를 찍는 기적을 볼 수 있다.

5.3. 기업용

파일:external/www.cray.com/products_xk_photo.jpg

크레이의 XK7

위의 소호용은 1U 블레이드가 10개 장착되는 랙을 사용하지만, 이 수준 부터는 2U 블레이드 22개가 실장되는 풀사이즈 랙을 사용하게 된다. 위 사진의 경우 그런 랙 16개를 묶어 한세트가 된다. 동급의 블레이드를 사용한다고 가정할 때, 단순한 계산으로도 위의 소호용에 비해서 35배의 성능을 가지게 된다. 실제로는 블레이드의 크기가 더 크니깐 집적도가 훨씬 더 높다. 대략 수천~수만 코어급 수준이며, 이것은 구성을 어떻게 하느냐, 랙은 몇개를 쓰느냐, 돈이 얼마나 있느냐에 따라 천차 만별이다.

5.4. 국가 기관용

파일:external/lh3.googleusercontent.com/k-computer-fujitsu.jpg

일본의 K 컴퓨터

기업용과 기관용은 기기의 아키텍처도 같고 만들어주는 기업도 같지만, 규모 차이만 있다. 실제로, 국가에서 다루는 돈의 규모는 일개 기업 수준에 견줄 바가 아니다. 사진속의 K 컴퓨터는 대충 세어 보아도 랙의 수가 수백 단위이며, 실제로 50만코어 짜리이다. 이 수준에서는 대략 수만 코어 이상부터 수백만 코어까지이며, 그 규모는 해당 국가의 예산에 달려 있다.

참고로 우리나라 대한민국 기상청에서 쓰는 미리, 누리는 각각 69,600코어이고[20], 한 세대 이전의 해담, 해온은 각각 45,120코어 짜리이다.

그리고, 2016년 1위를 기록한 중국의 神威太湖之光(Sunway TaihuLight)는 무려 1000만 코어로 구성되어 있다.

6. 용도

대용량 병렬처리를 요구하는 모든 분야라 할 수 있다.
  • 군사 - 이지스함
    다수의 목표물에 대한 동시교전 능력과 무기관제, 탄도계산 등을 위해 함마다 슈퍼컴퓨터가 들어간다. 동시교전 능력은 보통 24개이며 CIWS가 1~3개 정도 추가로 커버한다.
  • 동영상 인코딩[21][22]
  • 3D 렌더링[23]
  • 시뮬레이션
  • 과학 연산
    • 지구과학 (대규모 시뮬레이션(우주, 지구) 및 신호 처리(천문))
    • 생물학 (단백질, DNA 등 고분자 분석, 세포 시뮬레이션, 생태 시뮬레이션)
    • 화학 (고분자 분석, 화학물질 가상 합성)
    • 물리학 (대규모 물리연산(대표적으로 전산유체역학(CFD))
    • 수학 (대규모 연산, 경우의 수, 암호 해독 등)
  • 날씨 예측
    상술한 지구과학 / 물리학 / 수학 등 모든 분야를 망라한 미분방정식(나비에-스토크스 방정식 등)을 천만개 이상의 격자점에서 계산한다.
  • 주가 예측
  • 기술 시연 - 이는 슈퍼컴퓨터의 원래 목적은 아니다. 슈퍼컴퓨터 또는 인공지능 프로그램의 성능을 대중에게 알리기 위한 프로젝트이다.

그 외에도 여러가지가 있다. 단, 같은 대용량 병렬처리라도 온라인 게임같이 다수의 사용자에게 빠른 응답을 제공할 목적에는 쓰이지 않는다. 이런 용도로 만들어진 건 IDC(인터넷데이터센터)이다. 실제 물리적 구성은 IDC나 슈퍼컴퓨터나 비슷한데 결정적으로 차이나는 게 바로 이 외부 네트워크 대역폭. 슈퍼컴퓨터는 단 하나의 과제를 처리하기 위해 모든 컴퓨터가 협동하는 방식(협업)으로 동작하지만 IDC는 수많은 과제를 수많은 컴퓨터가 나눠하는 방식(분업)으로 동작한다. 단 한사람만을 위한 온라인게임 같은 겜판소스러운 게임이 아닌 한에야 슈퍼컴퓨터로 게임서버를 올리겠다는 발상은 그야말로 정신나간 짓. PC방 전좌석 전세내놓고 딱 한자리만 쓰고 있는 거나 다름없다. 이렇게 슈퍼컴퓨터는 보통 연구, 기상예측 등에 많이 이용되기 때문에 슈퍼컴퓨터의 성능이 곧 국가 자금 기술력 수준의 척도로 볼 수 있다.

7. 써보고 싶다면

아마존 EC2, 구글 앱 엔진, Microsoft Azure같은 계산 클라우드를 이용하는 게 가장 쉽고 저렴하게 슈퍼컴퓨팅을 맛볼 수 있는 방법이다. 다만 슈퍼컴퓨터는 진짜 신나게 빠르기 때문에 PC로는 한달이고 두달이고 돌려도 끝이 안 보이는 과제가 아니면 이용료가 아까울 것이다. 실제로 앞에 열거된 클라우드 서비스의 견적내기에서 CPU 등의 성능을 계속 올려보면 예상 과금이 눈 돌아가게 올라가는걸 볼 수 있다.(…) 논문을 쓰는 학자나 시뮬레이션을 빡세게 해야 하는 산업체 정도나 돼야 써볼 마음이 생길 것이다. 실제로 KISTI의 주 고객은 산업체이다. 하지만 정말 필요할 때엔 이거처럼 유용한 도구도 없다. 일반 슈퍼컴퓨터에 비해 홍보 자료가 많이 올라오는 클라우드 쪽의 사례들을 보면 처리에 몇 년이 걸릴 작업을 이걸로 15분(!)만에 끝났다던가 하는 거짓말같은 이야기들이 전해지기도 한다.[26] 비트코인 채굴은 하지말자.[27][28]

8. 단점

당연하겠지만 크고 비싸다. 예를 들어 대한민국 기상청에서 도입한 슈퍼컴퓨터 3호기 해담, 해온의 가격은 500억원이 넘는다. 그리고, 이 슈퍼컴퓨터를 설치하기 위해서 아예 건물을 새로 지어야 했다. 또한, 전기를 무지하게 사용한다. 컴퓨터 수십만대를 구동하는 것이니 당연한데, 거기에다 방진, 항온항습장치 등 공조설비에도 상당한 비용이 투입된다.[29] 전기를 많이 쓴다는 것은 다시 말해 운용 유지비가 비싸다는 말과 동일하다. 또한, 엄청 비싼 몸이니 그만큼 수리 비용도 상당하다.

그리고, 1위 계보를 보면 알겠지만 성능 향상이 상당히 빠르다. 2002년 1위였던 어스 시뮬레이터의 경우 실성능이 36테라플롭 정도였는데 10년이 지난 뒤에 1위는 그보다 천배쯤 빠른 33페타플롭이다. 단일프로세서가 아니고 병렬프로세서 처리가 효율이 높아지자 CPU 수의 증가를 통해서[30] 지속적인 성능향상이 이루어지고 있고 이 속도는 상용 CPU의 발전속도에 비해서도 훨씬 더 빠르다. 비싼 돈 들여서 구축해놨더니 몇년 지나서 애물단지가 되는 상황이 발생하는 것. 실제로 기상청에서 2004년 500억을 들여서 TOP 16위에 드는 슈퍼컴퓨터를 도입했지만 8년이 지난후에는 고철값을 받고 팔아야 하는 처지가 되기도 한다. #

기상청에서 구입한 슈퍼컴퓨터는 몇 년 지나면 처분에 골치를 썩이고 있다는 기사처럼, 현역으로써 수명이 지나면 단순한 고철 덩어리가 되는 문제가 있다. #

게다가 고성능 컴퓨팅의 패러다임이 빠르게 바뀌는 시대라는 점도 슈퍼 컴퓨터의 단점 중 하나이다. 이를테면 패러다임이 CPU에서 GPGPU, 심지어 FPGA까지 동원되기 시작하면서 매해 성능 향상과 전력 효율 향상폭이 올라가는 추세라 기존 슈퍼 컴퓨터 솔루션이 무의미해지는 시기가 점점 앞당겨지고 있다. 또한 특화된 컴퓨터는 비싸기 마련이지만, 잘 설계된 분산 시스템 위에서는 저렴한 일반 컴퓨터[31] 여러 대를 묶어 컴퓨팅하는게 대체로 가성비가 좋고 인프라 역시 재사용하기 쉽다. 구글이나 아마존, MS 등 클라우드 컴퓨팅 서비스가 주로 취하는 전략. 이 쪽은 규모의 경제를 취하기 때문에 데이터 센터를 훨씬 효율적으로 운영할 수 있다는 점 역시 이점.

9. 가상의 슈퍼컴퓨터

'슈퍼'라는 수식어가 마음에 들었는지 뭔가 말도 안되고 터무니없이 굉장한 것으로 나오는 경우가 많다. 인공지능에 각성하여 인류를 지배하거나 파괴하려 드는 악당이나 최종보스로 등장하는 경우도 부지기수.(…) 실제로 등장하는 대부분의 슈퍼컴퓨터는 인공지능이다. 하지만, 인공지능이 반드시 슈퍼컴퓨터인 것은 아닌데, 그것이 아무리 고성능이라고 하여도, 규모가 거대하지 않다면 슈퍼컴퓨터라고 부르지는 않는다. 예를 들어 영화 터미네이터에 등장하는 스카이넷은 인공지능이자 동시에 슈퍼컴퓨터이지만, T-800은 인공지능이기는 해도, 슈퍼컴퓨터라 부르지는 않는다. 그리고, 추가로 양자컴퓨터일 가능성도 높다.


[1] 국가기상슈퍼컴퓨터센터나 몇몇 국내 정보사이트, 서적 등에선 심플하게 저 홈페이지에 수록된 머신을 슈퍼컴퓨터라고 정의하고 있고, 순위에서 밀려나는 것을 슈퍼컴의 수명이 다 한 것으로 본다.[2] LINPACK 벤치마크를 수행하기 힘들다든지 그런 경우는 거의 없지만 반대로 LINPACK 벤치마크 특화라서 심사 기준에 맞지 않는다든지.[3] 실제로 요새 슈퍼컴퓨터는 처음의 구입 비용도 엄청나지만, 이후에 몇 년 지나지 않아서 전기료(!)와 수리비의 합계가 구입 비용을 넘어서게 된다.[4] 2017년 기준으로도 게임에서도 듀얼코어, 잘해야 쿼드코어를 겨우 지원하는 수준이다. 수천~수백만 코어를 상정하고 만들어진 게임은 없다.[5] 그래픽카드인 GeForce GTX 750은 1테라플롭스 정도이고, 이게 곧 하이엔드 데스크탑 CPU인 i7-5960X의 속도다. GTX 750이 10만원 내외의 싼 그래픽카드라는 걸 생각해보라.[6] 1 엑사플롭스 = 1000 페타플롭스[7] 당연히 단순한 계산만큼은 인간 두뇌가 컴퓨터의 상대가 되지 않지만, 사실 인간 두뇌는 단순 계산보다는 시각과 청각 정보 처리, 추론 능력, 창의력에 맞추어 진화되어 있으며, 우리가 너무 쉽게 생각하는 이 기능들을 위해 무려 1 엑사플롭스의 계산 능력을 가진다고 추정하고 있다.[8] 수정바람[9] 갤럭시 S에 사용된 엑시노스 3110 SoC는 ARM Cortex-A8을 사용하고 있으며 3.5기가플롭스 정도의 성능을 갖는다.[10] 2만원대의 저렴한 가격을 자랑하는 보급형 그래픽카드 GeForce G210의 연산성능은 최소 36.4기가플롭스.[11] 보급형 그래픽카드인 GeForce GT710은 366기가플롭스. 이게 5만원대의 싼 그래픽카드다.[12] 참고로 중급형 그래픽카드인 GeForce GTX 750의 연산능력이 1.2 테라플롭스 정도다.[13] 참고로 하이엔드 그래픽카드인 GeForce GTX TITAN X의 연산능력은 6.6 테라플롭스. GeForce GTX 1080은 9테라플롭스로 업그레이드 전의 ASCI WHITE의 1.7배 정도. GTX 1070은 7테라플롭스로 업그레이드한 ASCI WHITE와 비슷하다. GPGPU에 긍정적인 반응을 보이는 라데온 PRO DUO는 16테라플롭스를 돌파했다.[14] 하늘의 강, 즉 은하수를 의미한다. 코어가 은하의 별만큼 박혀있다는건가.[15] 숫자 의 일본어 발음인 '케이'에서 딴 이름이며 경단위의 연산을 한다는 뜻이다.[16] NVIDIA Geforce 8 시리즈 그래픽카드에 쓰인 것과 같은 계열의 칩셋이다.[17] 64bit RISC 아키텍처, 260코어, 클럭 1.45GHz, 3TFLOPS, 32GB 메모리[18] 대략적인 설명은 이곳을 참조. http://drmola.com/etc_column/51004[19] 이후에 출시된 헥사코어 제온도 장착이 가능했기에, 최대 96코어 짜리를 만드는 것도 가능했다고 한다.[20] 프로토타입으로 도입된 10,752코어짜리 '우리'라는 이름의 컴퓨터도 있다.[21] 개인이 개인 동영상 인코딩 하는 용도라면 정말 무쓸모한 돈지랄이지만 만약 여러분이 유튜브같이 1초에 몇시간 분량의 동영상이 올라오는 동영상 서비스를 운영한다던가 구글 드라이브 같이 테라바이트급 동영상에 대한 미리보기를 제공하는 클라우드 서비스를 운영한다면 슈퍼컴퓨터급 연산량이 분명히 필요해진다. 그리고 구글은 이미 하고 있기도 하고. 다만 FHD 이상으로 처리하는 프로덕션이나 방송국은 아래 3D 랜더링과 같이 무시하지 못할 부분을 차지할 정도로 연산량이 많아 대개는 GPGPU로 돌아가는 슈퍼컴을 사용해 인코딩한다. 그 외에, Proxy Media를 추출해 따로 저장할 때도 마찬가지. 그래서 대형방송국에는 영상을 자신들의 전산시스템 내부로 들이는 특별한 시설을 갖춘다. 인제스트실이 그것인데, 다양한종류의 영상을 받아 슈퍼컴급의 컴퓨터로 고속 인코딩해 프로덕션 시스템으로 올리는 일만 전문적으로 하는곳.[22] 참고로 비디오 인코딩에 OpenCL 또는 CUDA 가속을 키면 굉장히 빨라진다.[23] 렌더팜이라 하여 대형 애니메이션 제작사는 하나씩 갖고있다. 요즘에는 클라우드 기반 렌더팜이 인기있는듯. 대표적인 회사가 뉴질랜드 소재의 웨타 디지털 스튜디오.[24] 특히 핵물리 시뮬레이션. 냉전이 끝나고 군축(특히 전략무기감축협정(START)) 무드가 형성되자 미국도 1990년대 이후 더 이상 핵무기 실험을 할 수가 없게 되었고, 현재는 완전히 시뮬레이션에 의존하고 있다. 그래서 현재 미국의 최고성능 슈퍼컴퓨터들은 모두 핵무기를 개발하는 국가연구소들에 몰려있다. 문제는 핵분열이 정신나간 수준의 고온과 고압을 동반하는 데다가, 핵폭발 이후 피해까지도 예측하려면 반경 수십 km의 영역을 시뮬레이션해야 한다는 것이다. 당연히 시뮬레이션이 잘 맞을리가 없고, 지금도 계속 천조국이 슈퍼컴퓨터에 돈을 꾸역꾸역 밀어넣고 있는 이유.[25] 딥 블루나 왓슨의 경우는 당시 최고성능의 슈퍼컴퓨터와 견줄만한 상당한 고성능 컴퓨터가 사용되었다. 하지만, 2016년의 알파고는 CPU 1920개에 GPU 280개를 사용해서, 당시 슈퍼컴퓨터 랭킹 500위-700위권의 수준에 불과했다.[26] 그리고 아마존 EC2 노드 ex.large 풀옵을 16개 1시간 빌리는덴 2000원 남짓. 머리만 잘 굴리면 얼마든지 싸게 할 수 있다. 언급한 아마존 EC2는 KISTI보다 가성비가 훨씬 좋은 편. Microsoft Azure드림스파크 프로그램의 일환으로 학생에게 일부기능을 제외하고 무료로 제공되니 관심이 있다면 각 문서를 참고하자.[27] 효율이 낮아 애꿎은 Azure 크레딧만 날린다며 30불짜리 USB 장치를 사는게 10만 배 더 빠르다고 한다.[28] 비트코인은 X86이나 GPU보다 ASIC같은 반칙에 가까운 수단을 쓰는 것이 압도적인 전성비를 달성할 수 있는 것으로 알려져있다. 크립토코인 마이닝이 수익을 얻으려면 투입되는 전기세보다 채굴되는 코인이 많아야 가능한데 이 방면의 선수들이 수도 없이 달라붙은 요즘 같은 때엔 어지간한 전기세 절약으로는 본전도 못 찾는다. X86 기반 일반 클라우드 서비스를 이용해 채굴을 하면 극한의 최적화에도 눈덩이처럼 불어나는 적자 밖엔 볼 것이 없다.[29] 슈퍼컴퓨터 센터는 온도 관리도 중요하기에 공공기관 실내 온도 제한 같은 건 적용되지 않는다.[30] 암달의 법칙에서 보듯 단순히 CPU숫자가 늘어난다고 해서 성능 증가가 있는 것은 아니다. 즉 제반기술 또한 뒷받침이 되어야 한다.[31] 물론 기업 입장에서.[32] 이 컴퓨터는 감자 배터리로 동작할 정도로 우수하다! 그렇게 된 순간 슈퍼컴퓨터가 아니게 되지만. 게다가 본체는 마지막 손가락의 손톱 크기 정도로 작으며, 그것만으로도 엄청난 인공지능을 가지는데 보조장치 높이만 km단위로 추정된다.[33] 60년대에 나온 어쩌면 이게 시초격일지도.

분류