1. 개요
구글 브레인 연구진이 2017년에 발표한 인공지능 신경망.2. 상세
Attention Is All You Need(2017) |
2017년 구글 브레인(현 구글 딥마인드)에서 연구하던 연구원 8명[1]이 attention mechanism이라는 방식을 토대로 훗날 거대언어모델 (LLM)의 토대가 될 구글 트랜스포머의 이론을 개발한다. 병렬처리가 어려워 학습 속도가 느리던 RNN의 한계를 극복함에 따라 자연어 처리 분야에서 엄청난 수준의 퍼포먼스를 보여주었으며, 기존에는 자연어 처리 분야에서만 사용되었으나 이후 컴퓨터 비전 분야까지 확장됐으며 현재는 인공지능의 가장 중요한 분야 중 하나로 채택되고 있다.
과거 특징을 전달하는(transduction) 모델은 주로 복잡한 순환 신경망이나 인코더-디코더같은 합성곱 신경망 방식이 우세했지만, 구글은 어텐션을 사용한 '트랜스포머'라는 간단한 모델을 제안하게 된다. 연구원들은 두 가지의 기계 번역 문제에 대해 실험했고, 학습 시간이 매우 적어야 한다는 것과 병렬적이여야 한다는 조건 하에서 상기된 모델이 질적으로 우수했으며, 결론적으로 한정된 학습 데이터와 방대한 학습 데이터와 함께 다국어 파싱(parsing)에 성공적으로 어텐션 방식을 적용함으로써 트랜스포머가 다른 문제들에도 이를 일반화한 것을 보였다. 즉, 질적으로 우수한 대규모 언어 학습 및 적용이 가능해졌다.
3. 구조
트랜스포머의 구조는 크게 위치 인코딩, 멀티헤드 어텐션, FFN으로 이루어져있다.
위치 인코딩은 위치 정보를 구분해해줄 벡터를 생성하고 이를 임베딩 벡터에 더해주며, 멀티헤드 어텐션은 토큰 과의 연관성을 여러 헤드에서 각각 도출하고, 그 결과를 피드 포워드 네트워크 FFN에서 멀티 헤드 어텐션 결과들을 토큰 단위로 point-wise로 종합하여 결과를 다음 트랜스포머 레이어로 출력하는 구조를 갖는다. 학습을 진행하게 되면 FFN (feed-forward network) 뿐만 아니라 attention 연산 직전에 입력 임베딩을 Query, Key, Value로 변환 해주기 위해 weight를 곱해주게 되는데 해당 weight가 학습이 된다.
4. 작동 원리
자세한 내용은 Attention Is All You Need 문서 참고하십시오.5. 파급력
트랜스포머 모델 Inference 전용 비즈니스인 HuggingFace가 생길 정도로 큰 파급력을 미쳤다.관련 업계 및 커뮤니티에서는 '일단 트랜스포머를 박으면 성능이 올라간다'는 말이 공공연히 돌 정도로 인공지능계의 무안단물 취급을 받으며 승승장구하고있다.
BERT, GPT-3, AlphaFold 2 등이 Transformer 기반으로 만들어졌다.
6. 한계
기업과 연구기관별로 트랜스포머를 활용하는 방식이 제 각각이며 2020년대에 들어서는 그 방식에 한계에 도달했다는 의견이 존재한다. 예시로 GPT-4의 상세 정보가 외부에 공개되진 않았지만, ChatGPT의 기반인 GPT-3.5와 매개변수 차이가 월등하게 나는데도 그것에 비례적인 성능 향상이 체감되지 않았다. 또한 모델의 성능을 비교하는 것 조차 여전히 Elo 레이팅으로 진행한다는 것 또한 비판 받는 부분이다.조지 호츠라는 해커의 주장에 따르면 2,200억 개의 파라미터를 분야별로 8개의 모델에 나누어 훈련시키고 게이트를 통해 가중치를 조정하는 방식의 MoE(Mixture of Experts)라는 구조로 파라미터가 1조 개인 척 트릭을 썼다고 주장한다. 그의 말이 사실이라면, GPT-3와 GPT-4의 차이는 파라미터 개수가 아니라 MoE 구조의 유무 차이므로 트랜스포머 방식의 한계가 점차 드러나는 상황이라는 것을 유추해 볼 수 있다.#
실제로 2023년 7월부터 제기된 ChatGPT의 성능 저하가 MoE 구조로 인해 벌어진 게 아니냐는 의견이 나타나기 시작했다.#
7. 연관 문서
Attention Is All You Need[1] Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia