1. 개요
홈페이지Microsoft의 인하우스 AI모델 개발부서. 주로 이름을 줄인 MAI 라고 통칭되며 이 통칭은 자체 모델의 이름으로도 쓰인다.
원래 OpenAI의 모델을 받아쓰던 MS가 자체적인 LLM구축에 투자하면서 개발 중인 MAI 모델을 만들고 있다. MAI모델이 목표하는 바는 기존 OpenAI의 모델을 대체하기 보다는 더 저렴한 연산비용으로 자사 AI 서비스를 보조하는 것을 목표로 개발되고 있다고 한다.
기존에 MS에서 개발하던 Phi하고는 전혀 연관성이 없는데 Phi는 Azure AI파운더리 팀이 주관하는 프로젝트이기 때문이다. 때문에 오픈소스인 Phi하고는 다르게 클로즈드 소스로 개발되는 프로젝트다.
LLM제작을 하지만 규모가 매우 작다는 점을 주요 자랑 포인트로 삼는데 LLM모델 제작에 인원이 10명 내외로 굴러감을 자랑으로 할 정도.
2. 모델
2.1. MAI 1
소개2.2. MAI Thinking 1
소개3. 코딩
3.1. MAI Code 1 Flash
소개Claude Haiku 4.5 보다 훨씬 뛰어난 성능과 가성비를 목표로 한 모델로, 해당 소개글에 등장하는 모든 벤치마크 테스트에서 압도적인 성능과 가성비를 지니고 있음을 증명했다.
GitHub Copilot에서 자유롭게 사용해볼 수 있다. Haiku 4.5 보다 훨씬 더 긴 Context를 가지고 있으며, Copilot 내에서 사용하는 크레딧 소모량도 훨씬 더 적다.
4. 이미지
4.1. MAI Image 1
소개Bing의 이미지 생성 서비스에서 사용이 가능하며 자체적으로는 "현실적/역동적"이미지 생성으로 분류하고 있다.
4.2. MAI Image 2
소개차세대 이미지 생성 모델.
생성 효율성에 집중한 2e 모델이 별도로 생겼고 Bing에서도 개발이 중단된 DALL-E를 대체하기 위해 해당 모델로 이미지생성을 서비스하기 시작했다.
4.3. MAI Image 2.5
소개GPT-Image 2 처럼 강력한 일관성과 높은 수준의 이미지 편집 능력을 부여했다. 그 결과, Arena에서 GPT-Image 1.5와 Nano Banana Pro를 완전히 꺾어놓는 선호도를 보여주고 있으며, Nano Banana 2와 엎치락 뒤치락 하는 수준에 도달했다.
5. TTS
5.1. MAI Voice 1
copilot aduio expression최소한의 GPU모델만으로 빠른 속도로 음성을 생성하는 것을 목표로 한 모델이다.
5.2. MAI Voice 2
소개6. STT
6.1. MAI Transcribe 1
소개25가지 언어를 지원하며, 출시 당시 SOTA로 칭송받던 Gemini 3.1 Flash, Scribe v2, GPT-4o-Transcribe 보다 2.5배 빠른 속도로 처리할 수 있다는점과 타사 모델 대비 낮은 오류율을 강점으로 내새웠다.
6.2. MAI Transcribe 1.5
소개43가지 언어를 지원하며, 모델 출시 당시 SOTA로 칭송받던 Gemini 3.1, Scribe v2, GPT-4o-Transcribe 보다 5배 빠른 속도로 인식이 가능하고, 타사 모델 대비 압도적으로 적은 인식 오류율을 보여주는 모델이다. 거의 15초만에 1시간 분량 오디오를 처리할 수 있다고 한다. 그리고 타 모델들이 분당 요금을 책정하는 반면, 이 모델의 경우 시간당 요금을 책정했다.