최근 수정 시각 : 2026-06-23 17:50:20

Perso Dubbing


<rowcolor=#fff> Perso Dubbing
perso.ai
운영사 이스트소프트 (ESTsoft)
구 명칭 Perso AI Dubbing
분류 AI 더빙 / 영상 번역 SaaS
출시 2024년
지원 언어 99개 이상 (감지·지원)
누적 가입자 50만 명 이상 (2026년 기준, 해외 비중 약 90%)
파트너 ElevenLabs
관련 링크 파일:홈페이지 아이콘.svg

1. 개요2. 주요 기능3. 지원 언어4. 지원 파일 형식5. 기술적 특징6. 요금제
6.1. Free6.2. Starter6.3. Creator6.4. PRO6.5. Enterprise
7. 주요 기사8. 관련 문서9. 외부 링크


Perso Dubbing[1]이스트소프트가 운영하는 AI 기반 영상 더빙 및 다국어 번역 SaaS 플랫폼이다. 영상 속 음성을 자동으로 인식·번역하고 화자의 목소리 특성을 유지한 채 99개 이상의 언어로 재생성하는 것을 핵심 기능으로 한다.

1. 개요

Perso Dubbing은 이스트소프트가 서비스하는 글로벌 영상 현지화 자동화 플랫폼이다. 기존 수작업 더빙 및 자막 제작 대비 작업 시간을 98% 이상 단축하며, 영상 한 편을 수 분 내에 번역·더빙할 수 있다. 1인 창작자부터 글로벌 엔터프라이즈까지 폭넓게 활용된다.

2026년 기준 누적 가입자 50만 명을 돌파했으며, 80개국 이상에서 사용되고 있다. 가입자의 약 90%가 해외에서 발생하는 등 사실상 글로벌 서비스로 자리잡았다. 초창기에는 한국어-영어 더빙 수요가 주를 이뤘으나, 현재는 영어-프랑스어, 영어-스페인어 등 다국어 간 더빙 수요가 큰 비중을 차지한다.[2]

자체 기술 지표로 음성 일치율(Voice Match) 98.5%, 정밀 립싱크를 내세우고 있으며, AI 음성 합성 분야의 글로벌 기업 ElevenLabs와 전략적 파트너십을 맺고 차세대 립싱크 및 음성 복제 기술을 공동 개발하고 있다.

2. 주요 기능

2.1. AI 더빙

영상 속 음성을 자동으로 인식하고 번역하여, 화자의 고유한 음색·감정·억양을 유지한 채 다른 언어로 더빙된 음성을 생성한다. 최대 10명까지 다중 화자(Multi-Speaker)를 자동 감지하여 대담, 인터뷰, 팟캐스트 등 복수의 발화자가 등장하는 콘텐츠에도 적용 가능하다. 1분 미만 숏폼(틱톡·릴스·쇼츠)부터 최대 30~60분 장편 콘텐츠까지 지원한다.

2.2. 자동 영상 번역

영상 파일(MP4, MOV, WebM) 또는 YouTube·TikTok·Google Drive URL을 입력하면 AI가 자동으로 음성 인식, 번역, 더빙까지 일괄 처리한다. 완성된 영상은 립싱크가 적용된 MP4 파일과 자막 SRT 파일로 동시에 다운로드할 수 있다.

2.3. AI 립싱크

번역된 음성에 맞춰 영상 속 입 모양을 정밀하게 보정하는 기술이다. 토킹헤드(talking-head) 형식의 영상, 웨비나, 교육 콘텐츠 등에서 시청자의 이질감을 최소화한다. 2026년부터 '더빙'과 '립 더빙(Lip Dubbing)'이 별도 기능으로 분리되었다.

2.4. 음성 복제

화자의 목소리 특성, 억양, 톤을 AI가 학습하여 번역된 언어에서도 동일한 화자처럼 들리도록 음성을 생성한다.

2.5. 음성 텍스트 변환(STT)

2026년 출시된 신규 기능. AI 음성 인식 기술을 활용하여 영상·오디오 속 대화를 텍스트로 변환한다. 자동 구두점, 화자 감지, AI 요약(Summary), 액션 아이템(Action Items) 추출 기능을 포함하며, 변환된 텍스트는 즉시 다국어 번역으로 연결된다. 단어 단위 타임스탬프(JSON), SRT·VTT 자막, XLSX 스크립트로 내보낼 수 있다.

2.6. 오디오 분리(Audio Separation)

2025년 1월 추가된 기능. 영상·오디오에서 음성 트랙과 배경음(BGM)을 분리하는 기능이다. 원본 음성, 배경음 분리 음성, 화자별 음성, 혼합 음성 등 다양한 출력 옵션을 WAV 형식으로 지원한다. 더빙 시 배경음을 보존해 영상 품질과 생산성을 높이는 데 활용된다.

2.7. 영상 텍스트 변환 · 영상 스크립트 추출

영상 파일을 업로드하면 발화 내용을 타임스탬프 기반 스크립트 형태로 자동 추출한다. 강의, 인터뷰, 영상 회의 등의 아카이빙 용도로 활용된다.

2.8. 음성 번역기

오디오 및 영상 파일의 음성을 99개 이상의 언어로 번역하고, 원본 화자의 목소리 특성을 유지한 채 새로운 언어로 재생성한다.

2.9. 자막·스크립트 편집기

AI가 생성한 번역 결과를 사용자가 직접 수정할 수 있는 문장 단위 편집 인터페이스를 제공한다. 스크립트 편집 시 더빙 음성, 립싱크, 자막이 즉시 동기화되어 업데이트되며, 사용자 정의 용어 사전(Custom Glossary)을 적용할 수 있다.

2.10. Dubbing API

개발자용 더빙 API(developers.perso.ai)를 통해 외부 서비스에 더빙·번역 기능을 연동할 수 있다.

3. 지원 언어

99개 이상의 언어 감지·지원을 표방하며, 주요 지원 언어는 한국어, 영어, 일본어, 중국어, 스페인어, 브라질 포르투갈어, 프랑스어, 독일어, 힌디어, 아랍어, 인도네시아어, 베트남어 등이다. 2026년 동남아시아 시장 공략을 위해 베트남어 등이 추가되었다.

4. 지원 파일 형식

<rowcolor=#fff> 구분 지원 형식
입력 영상 MP4, MOV, WebM
입력 오디오 MP3, WAV
외부 URL YouTube, TikTok, Google Drive
출력 영상 MP4 (립싱크 포함)
출력 오디오 WAV, TAR(화자별)
출력 자막 SRT, VTT
출력 스크립트 XLSX, JSON(타임스탬프)

5. 기술적 특징

Perso Dubbing은 단순 텍스트 번역을 넘어 언어별 뉘앙스, 감정, 문화적 표현을 고려한 현지화 번역을 제공한다. 자체적으로 '문화 지능 엔진(Cultural Intelligence Engine)'을 내세우며, 다중 화자 분리, 배경음 보존, 타임스탬프 동기화 등의 기술을 결합하여 번역 후에도 원본 영상의 자연스러운 흐름이 유지되도록 설계되어 있다.

작업 목적에 따라 '고속 생성 모드'와 '정밀(저속) 생성 모드'를 선택할 수 있으며, 음성 일치율 98.5%·정밀 립싱크를 핵심 품질 지표로 제시한다. 2025년 11월에는 자연어처리 분야 국제 학회 EMNLP 2025에서 AI 자동 더빙 관련 연구 성과를 발표했다.

2025년 10월에는 Perso AI의 기술력을 실증하기 위해 스탠드업 코미디 공연 '페르쇼(PERSHOW)'를 진행했다. 공연 영상은 Perso Dubbing으로 다국어 더빙 콘텐츠로 재편집되어 공개되었으며, 코미디 장르 특유의 문화적 맥락과 감정 표현까지 구현함으로써 AI 더빙 기술의 확장 가능성을 보여준 사례로 평가된다.
▲ Perso Dubbing - PERSHOW

6. 요금제

월간 결제와 연간 결제(최대 26% 할인)를 지원하며, 사용한 초 단위만큼 차감되는 크레딧 기반 모델을 채택하고 있다. 플랜은 Free·Starter·Creator·PRO·Enterprise 5단계로 구성된다.[3]
<rowcolor=#fff> 항목 Free Starter Creator PRO Enterprise
월정가(월간) $0 $6.99 $29 $99 맞춤 협의
월정가(연간 환산) 월간 전용 $21 $73 맞춤 협의
월 크레딧 최초 1회 무료 900 1,800 6,000 맞춤
더빙 15분/월 30분/월 100분/월 맞춤
립 더빙 5분/월 10분/월 33분/월 맞춤
음성 텍스트 변환(STT) 75분/월 150분/월 500분/월 맞춤
오디오 분리 30분/월 60분/월 200분/월 맞춤
저속(정밀) 더빙 제공 제공 무제한(크레딧 미차감) 무제한(크레딧 미차감) 맞춤
1회 최대 영상 길이 1분 5분 15분 30분 60분
동시 생성 1 1 1 2 맞춤
대기열 1 1 2 3 맞춤
최대 내보내기 화질 720p 1080p 1080p 4K 4K
프로젝트 보관 30일 무제한 무제한 무제한 무제한
워터마크 포함 제거 제거 제거 제거
지원 CS팀 CS팀 CS팀 CS팀 전담 성공 매니저

6.1. Free

신규 가입자가 AI 더빙 기능을 무료로 체험할 수 있는 플랜이다. 최초 1회 무료 생성 크레딧이 제공되며, 1회 최대 1분 영상까지 처리할 수 있다. 내보내기 영상에 워터마크가 포함되고, 프로젝트는 30일간 보관된다.

6.2. Starter

부담 없이 시작하는 기본 플랜으로, 월 $6.99에 제공된다. 월 900 크레딧과 1회 최대 5분 영상 처리를 지원하며, 워터마크 없이 최대 1080p로 내보낼 수 있다. 립 더빙, 스크립트 편집, 용어 사전, 무제한 보관이 포함된다.

6.3. Creator

개인 콘텐츠 크리에이터를 위한 플랜으로, 월 $29(연간 결제 시 월 $21)에 제공된다. 월 1,800 크레딧에 더해 저속(정밀) 더빙을 크레딧 차감 없이 무제한 사용할 수 있으며, 1회 최대 15분 영상을 처리할 수 있다.

6.4. PRO

전문가 및 높은 작업량이 필요한 사용자를 위한 플랜으로, 월 $99(연간 결제 시 월 $73)에 제공된다. 월 6,000 크레딧, 1회 최대 30분 영상 처리, 동시 생성 2개·대기열 3개, 최대 4K 화질 내보내기 등 가장 높은 사양을 제공한다.

6.5. Enterprise

대규모 작업량을 위한 맞춤형 플랜이다. 전용 엔터프라이즈 서버, 1회 최대 60분 영상 처리, 맞춤 크레딧, 전담 성공 매니저(1:1)를 제공하며 가격은 별도 협의로 책정된다.

7. 주요 기사

8. 관련 문서

9. 외부 링크


[1] 출시 당시 명칭은 Perso AI Dubbing이었으나 이후 'Perso Dubbing'으로 명칭이 변경되었다.[2] 이스트소프트는 2026년 2월 가입자 46만 명 돌파를 공식 발표했으며, 이후 50만 명 마일스톤을 달성했다.[3] 가격은 USD 기준이며 별도 프로모션(예: 첫 달 50% 할인)이 수시로 적용된다. 아래 표는 정가 기준이다.