#!wiki class="element"
[[AirPods|[[파일:AirPods Pro 심볼.svg|width=45&theme=light]][[파일:AirPods Pro 심볼 화이트.svg|width=45&theme=dark]][br]{{{#333,#ddd AirPods}}}]]
#!wiki class="element"
[[Apple TV|[[파일:Apple TV 4K 3rd 심볼.svg|width=42&theme=light]][[파일:Apple TV 심볼 다크.svg|width=42&theme=dark]][br]{{{#333,#ddd TV}}}]]
#!wiki class="element"
[[HomePod|[[파일:HomePod 2세대 심볼.svg|width=60&theme=light]][[파일:HomePod 2세대 심볼 화이트.svg|width=60&theme=dark]][br]{{{#333,#ddd HomePod}}}]]
[include(틀:Apple의 소프트웨어 ,이름=Apple Foundation Models ,아이콘=Apple Foundation Models 아이콘.png ,출시일=2024년 6월 10일 ,유형링크1=파운데이션 모델 ,유형텍스트1=파운데이션 모델 제품군 ,T4제목=실행 환경 ,T4내용=온디바이스 · 비공개 클라우드 컴퓨팅 ,T4꼬리말=모델에 따라 Apple Silicon 기기 내부 또는 비공개 클라우드 컴퓨팅에서 실행됩니다. ,링크1URL=https://machinelearning.apple.com/research/introducing-apple-foundation-models ,링크1텍스트=Apple Machine Learning Research ,링크2URL=https://developer.apple.com/documentation/foundationmodels ,링크2텍스트=Apple Developer )]
Apple Foundation Models는 Apple Intelligence의 여러 기능을 구동하기 위해 Apple이 개발한 생성형 파운데이션 모델 제품군이다. 하나의 거대한 모델로 모든 요청을 처리하는 대신, 기기 내부에서 빠르고 사적으로 작동하는 온디바이스 모델과 보다 복잡한 작업을 처리하는 비공개 클라우드 컴퓨팅 서버 모델을 용도에 따라 사용한다.
일반 사용자는 Siri, Writing Tools, 알림 및 메시지 요약, 받아쓰기, 음성 합성, Image Playground, Genmoji, 사진 편집 등의 기능을 통해 이를 접할 수 있다. 다만 Apple은 모든 기능이 어떤 개별 모델을 사용하는지 공개하지 않았으며, 기능별로 전용 어댑터나 별도의 이미지 모델이 함께 사용되기도 한다.
Apple은 모델을 운영체제와 Apple Silicon에 맞춰 직접 최적화한다. 이를 통해 비교적 단순한 요청은 기기 내부에서 처리하고, 더 큰 모델이 필요한 요청은 개인정보 보호용 서버 인프라인 비공개 클라우드 컴퓨팅에서 처리하는 구조를 취한다.
Apple은 WWDC24에서 Apple Intelligence와 이를 구동하는 온디바이스 및 서버 Foundation Model을 공개했다. 당시 공개된 핵심 언어 모델은 3B 크기의 온디바이스 모델과 Apple Silicon 기반 비공개 클라우드 컴퓨팅에서 실행되는 대형 서버 모델이었다.
온디바이스 모델은 Writing Tools, 이메일·메시지·알림 요약 등 기능에 맞춰 전용 LoRA 어댑터를 동적으로 불러올 수 있도록 설계됐다. Apple은 이 모델을 iPhone 15 Pro에서 초당 약 30토큰으로 실행했다고 밝혔다. 다만 이는 2024년 모델의 자체 측정값이며 이후 세대에 그대로 적용되는 수치는 아니다.
Apple은 언어 모델 이외에도 Xcode용 코딩 모델과 메시지 등의 이미지 생성에 사용되는 확산 모델이 더 큰 생성형 모델 제품군에 포함된다고 설명했다.
Apple은 WWDC25에서 이미지와 텍스트를 이해하는 새로운 온디바이스 및 서버 Foundation Language Model을 발표했다. 온디바이스 모델은 약 3B 크기를 유지하면서 KV 캐시 공유, 2비트 Quantization Aware Training 등의 최적화를 적용했다.
서버 모델에는 Parallel-Track Mixture-of-Experts, 약칭 PT-MoE 구조가 도입됐다. 여러 개의 작은 Transformer 트랙이 독립적으로 토큰을 처리하고 트랙 블록의 경계에서만 동기화하는 방식으로, 서버 노드 사이의 통신 부담을 줄이도록 설계됐다.
또한 개발자가 Apple Intelligence의 온디바이스 언어 모델을 이용할 수 있는 Foundation Models framework가 공개됐다. 이 프레임워크는 Guided Generation, Tool Calling, 스트리밍 응답, 전용 LoRA 어댑터 등을 지원한다.
Apple은 2026년6월 8일 두 개의 온디바이스 모델과 세 개의 서버 모델로 구성된 3세대 Apple Foundation Models를 발표했다. 3세대 모델은 Google과의 협력을 통해 개발됐으며, Apple은 Google의 Gemini 모델군에 사용된 기술을 활용했다고 밝혔다.
다만 세간에서 흔히 오해하는 것과는 달리 Apple Intelligence가 Gemini 모델로 구동된다는 뜻은 아니다. AFM 3는 Apple이 설계·학습하고 Apple Intelligence 기능에 맞게 최적화한 자체 모델 제품군이다. Apple AI 부문 부사장 아마르 수브라마냐는 AFM 3 Cloud Pro를 제외한 나머지 네 개의 모델을 자체 데이터와 강화 학습법으로 학습시킨 후, 결과물을 다듬는 과정에서 Gemini Frontier 모델의 기술이 활용된 것이고, AFM 3 Cloud Pro의 품질이 Gemini Frontier 모델과 유사하다고 밝혔다. 그리고 크레이그 페더리기 역시 Gemini 모델, Google의 클라이언트 측 코드, Google 검색 인프라 데이터 중 어떤 것도 Apple Intelligence의 기반이 아니라고 밝혔다. 이처럼 Apple은 Apple Intelligence가 Gemini 자체와 연관이 없음을 분명히 했다. 그러므로 'Apple Intelligence가 Gemini 모델로 구동된다'는 것은 잘못된 사실이며, 'Apple이 자체 모델을 만들며 결과물을 다듬는 과정에서 Google의 도움을 받았다' 정도가 올바른 요약이 될 것이다.
3세대에서는 총 20B 크기를 갖춘 희소 활성화 온디바이스 모델인 AFM 3 Core Advanced가 추가됐으며, 이미지 생성·편집 전용 ADM 3 Cloud와 복잡한 추론용 AFM 3 Cloud Pro도 공개됐다.
Apple Foundation Models는 실행 환경과 작업의 성격에 따라 서로 다른 구조를 사용한다. 온디바이스 모델은 제한된 메모리와 전력 안에서 빠르게 작동하도록 최적화되고, 서버 모델은 보다 큰 규모와 높은 정확도를 확보하도록 설계된다.
Dense 모델은 요청 내용과 관계없이 모델의 모든 주요 파라미터를 사용한다. 구조가 비교적 단순하지만 모델이 커질수록 전체 가중치를 메모리에 올려야 하는 부담도 함께 증가한다.
희소 활성화 모델은 전체 파라미터 가운데 입력 처리에 필요한 일부만 선택적으로 사용한다. 일반적인 MoE는 각 토큰을 처리할 때 라우터가 적절한 전문가를 선택하지만, AFM 3 Core Advanced는 NAND와 DRAM 사이의 대역폭 제약을 고려해 프롬프트 단위로 전문가 집합을 선택한다.
Apple이 공개한 AFM 3 Core Advanced의 모델 아키텍처. 전체 전문가 가중치는 NAND 플래시 메모리에 저장되며, 요청에 따라 선택된 일부 전문가 가중치가 DRAM으로 불러와져 공유 정적 가중치와 결합한다.
AFM 3 Core Advanced는 Apple의 Instruction-Following Pruning[2] 연구를 기반으로 한다.
전체 모델 가중치는 NAND 플래시 메모리에 저장된다. 모델 파라미터 대부분은 적층형 Transformer의 FN 블록에 속한 전문가 가중치이며, Attention 블록 자체를 희소화하는 Sparse Attention 구조는 아니다.
사용자 요청이 입력되면 경량 Dense 블록이 초기 처리에 사용할 전문가 집합을 선택한다. 선택된 Routed Expert는 NAND에서 DRAM으로 불러와지며, DRAM에 상주하는 Shared·Static Weight와 결합해 하나의 Dense 모델을 구성한다.
NAND에서 DRAM으로 가중치를 토큰마다 교체하기에는 대역폭이 충분하지 않으므로 라우팅 결정은 기본적으로 프롬프트 단위로 이루어진다. 다만 처음 선택된 전문가가 응답이 끝날 때까지 완전히 고정되는 것은 아니며, 토큰 생성 과정에서 전문가 집합을 주기적으로 다시 선택하고 갱신한다.
1~4B 라는 수치는 모델 전체 크기나 실제 RAM 사용량이 아니라 한 번에 활성화되는 파라미터의 규모를 뜻한다. 실제 메모리에는 모델 가중치 외에도 KV 캐시와 실행 상태 등이 존재하므로 활성 파라미터 수와 전체 메모리 점유량을 동일시할 수 없다.
Apple Intelligence 요청의 실제 내부 라우팅 규칙은 전부 공개되지 않았다. 공개 자료를 기준으로 단순화하면 다음과 같다.
1. 사용자가 Siri 또는 Apple Intelligence 기능에 요청을 입력한다. 2. 운영체제와 해당 기능이 온디바이스 모델로 처리할지 서버 연산이 필요한지를 결정한다. 3. 온디바이스에서 처리할 수 있는 요청은 기기 내부 모델을 이용한다. 4. AFM 3 Core Advanced가 사용되는 경우 요청에 맞는 전문가 가중치를 NAND에서 DRAM으로 불러온다. 5. 더 큰 서버 모델이 필요한 경우 요청과 필요한 추론 설정이 암호화되어 비공개 클라우드 컴퓨팅 노드로 전송될 수 있다. 6. PCC 노드는 요청을 처리한 뒤 결과를 기기로 반환하며, Apple의 설명에 따르면 요청 데이터는 응답 반환 후 보존되지 않는다.
다만 어떤 요청이 AFM 3 Core와 Core Advanced 중 어느 모델로 전달되는지, 어떤 기준으로 PCC를 선택하는지에 대한 구체적인 정책은 공개되지 않았다.
Apple은 Foundation Model 학습에 공개 정보, 라이선스 또는 구매한 데이터, 오픈소스 데이터, 전용 연구를 통해 수집한 데이터 및 합성 데이터를 혼합해 사용한다고 밝혔다.
Apple Foundation Models의 개발 과정. 데이터 수집과 전처리, 사전 학습, 사후 학습 및 하드웨어 최적화를 거쳐 기본 모델과 기능별 어댑터가 만들어진다.
웹 데이터의 일부는 AppleBot을 통해 수집되며, 웹 게시자는 robots.txt 및 Apple의 데이터 사용 제어를 통해 생성형 모델 학습에서 제외되도록 설정할 수 있다. Apple은 공개된 데이터에서도 주민등록번호나 신용카드 번호 등 특정 개인정보를 제거하기 위한 필터를 적용한다고 설명한다.
Apple은 사용자의 비공개 개인 데이터나 Apple Intelligence와의 상호작용을 Foundation Model 학습에 사용하지 않는다고 밝히고 있다. 이는 모델 학습 정책에 관한 설명이며, 사용자가 요청을 수행하기 위해 기기나 PCC에서 데이터를 일시적으로 처리하는 문제와는 구분된다.
3세대 모델은 공통된 초기 Foundation Model에서 시작한 뒤 각 아키텍처와 용도에 맞게 특화됐다. 사전 학습 이후 지도 미세조정과 다단계 강화학습을 거쳤으며, 오디오·이미지 이해·긴 문맥 추론·이미지 생성 능력이 추가됐다.
Apple은 최신 클라우드 TPU를 이용해 3세대 모델의 사전 학습 규모를 확장했다. AFM 3 Core, Core Advanced, Cloud와 ADM 3 Cloud는 Apple Silicon에 맞게 최적화됐고, Cloud Pro는 NVIDIA GPU에 맞게 최적화됐다. 모델 압축에는 Quantization Aware Training이 사용됐다.
Apple Foundation Models를 기반으로 작동하는 새로운 Siri의 화면. Siri 외에도 Writing Tools, 받아쓰기, 음성 합성 및 이미지 생성 기능에 Apple의 Foundation Model 제품군이 활용된다.
Apple Foundation Models는 Apple Intelligence의 기반 모델이다. Apple Intelligence에는 Foundation Model 이외에도 기능별 어댑터, 안전 필터, 앱 도구, 개인 문맥 처리 및 비공개 클라우드 컴퓨팅 인프라 등이 포함된다.
다만 Apple은 Siri의 개별 요청이나 각 Apple Intelligence 기능이 어떤 모델을 사용하는지 모두 공개하지 않았다.