대화형 음성 인공지능

1. 개요2. 구성 요소

2.1. 음성 인식2.2. 자연어 처리2.3. 대화 관리2.4. 자연어 생성2.5. 음성 합성

3. 관련 문서

1. 개요

Conversational Voice AI.

사람과 자연스럽게 대화할 수 있도록 설계된 대화형 인공지능 시스템이다. 이 시스템은 음성 인식을 통해 사용자의 말을 이해하고, 자연어 처리 기술을 사용해 그 의미를 해석한 후, 적절한 응답을 음성으로 제공하는 방식으로 작동한다.

2. 구성 요소

2.1. 음성 인식

ASR, Automatic Speech Recognition.

컴퓨터가 음성 언어를 이해하도록 만드는 기술. 대표적인 예로 Siri.

음성 인식 분야에서 Speech Recognition과 Speech-to-text (STT)는 살짝 구분되는데, Speech Recognition이 컴퓨터가 인간의 음성 언어를 이해하는 것까지 목표로 삼는다면, STT는 인간의 음성 언어를 문자 언어로 변환시키는 것 만을 목표로 삼는다. 즉, Siri가 Speech Recognition 시스템이라면, 청각 장애인을 위하여 소리를 글자로 화면에 표시해주는 기술은 STT.

유명한 오류

음성	It's hard to recognize speech.
STT	It's hard to wreck a nice beach.

2.2. 자연어 처리

NLP, Natural Language Processing

텍스트로 변환된 사용자의 말을 분석하고 이해한다.

2.3. 대화 관리

Dialog Management

대화의 맥락을 유지하고 적절한 응답을 생성한다.

2.4. 자연어 생성

NLG, Natural Language Generation

응답할 내용을 텍스트로 작성한다.

2.5. 음성 합성

TTS, Text to Speech

생성된 텍스트 응답을 다시 음성으로 변환한다.