인공지능 스피커에서 나오는 목소리는 어떻게 만든걸까요?

ai-speaker-showing-the-time

성우가 필요하신가요?

타입캐스트의 400개가 넘는 캐릭터 중 내 콘텐츠에 가장 잘 어울리는 목소리와 가상 연기자를 선택해 보세요.

추천 글

요즘 인공지능스피커에서 흘러나오는 목소리는 마치 사람이 말하는 것처럼 자연스럽습니다. 게다가 나의 취향에 맞는 캐릭터로 설정하면 곧바로 여러 가지 목소리로 출력값을 바꿀 수도 있는데요.

어떤 문장이든 사람처럼 말할 수 있는 이 목소리의 원리가 궁금하지 않나요?

이번 포스트에서는 ai 인공지능의 목소리 원리인 ‘음성합성기술’에 대해 알아볼게요.

텍스트를 음성으로 내보내는 TTS 기술

IT 업계 용어로는 ‘음성합성기술’을 ‘TTS(Text to Speech)’라고 말합니다. 말 그대로 텍스트를 입력하면 해당 데이터에 알맞은 사운드로 출력하는 방식이지요. 그래서 이 기술이 원활하게 구현되려면 풍부한 음성DB, 그리고 텍스트와 사운드 간 매치 정확성을 높이는 게 관건인데요. 과거와 현재의 음성 서비스를 비교해 보면 이 기술이 얼마나 고도화되었는지 느끼실 수 있을 거예요.

과거의 음성 서비스

ARS 서비스만 떠올려보아도 음성합성기술은 꽤 오래 전부터 활용되었다는 걸 알 수 있는데요. 하지만 과거에는 고정된 문장에 일부 단어만 바꿀 수 있는 ‘편집 합성 방식’이 주로 사용되었기 때문에 다소 인위적이고 말할 수 있는 문장은 제한적이었습니다. 

쉽게 생각해 ARS 서비스에서 “예약하신 날짜는 12월 1일입니다.”라고 말할 경우, 전체 문장과 날짜에 해당하는 1부터 31까지의 숫자를 전부 녹음해둔 후, 해당 데이터를 편집해 송출하는 방식이었지요.

a-steering-wheel-with-a-phone-right-next-to-it
출처: Unsplash – Samuel Foster

자연스러운 음성 변환 서비스의 시작

현재의 음성합성기술은 인공지능 기술 발전과 함께 매우 고도화되었습니다.

이제는 자음과 모음, 숫자 등 모든 음성 데이터의 음편을 조합하는 방식이기 때문에 어떤 문장이든 말할 수 있으며, 각 음가의 길이와 높낮이를 세부적으로 다르게 적용해 자연스러운 운율감까지 표현할 수 있는데요.

덕분에 번역기, 시각장애인을 위한 소리책, 타입캐스트 더빙 서비스 등 누구나 쉽게 인공지능 스피커의 목소리를 이용할 수 있게 되었답니다. 

음성 서비스를 지원하는 구글번역서비스 (출처: Google Translate)

음성 합성 기술로 더빙을 제작할 수 있는 타입캐스트 TTS 서비스

한때는 인공지능 로봇에서만 활용되던 TTS 기술이 이제는 우리의 일상을 편리하게 해 주는 서비스로 활용되고 있습니다.

특히 타입캐스트에서는 다양한 언어와 목소리의 TTS 서비스는 물론, 인공지능 활용 캐릭터도 지원하고 있으니 영상 콘텐츠를 제작할 때 활용해 보세요.  

세상에서 가장 쉬운 콘텐츠 제작 툴 타입캐스트

간단하게 텍스트만 입력하면 누구나 쉽게 AI 보이스 생성과 영상 콘텐츠 제작이 가능해요!