
보이스 클로닝, 들어보셨나요? 음성 몇 초만 있으면 그 사람 목소리를 닮은 AI를 만들 수 있어요. 이미 여러 서비스에서 쓰이고 있죠.
타입캐스트는 웹 에디터에서 보이스 클로닝을 제공하고 있는데요, 드디어 API에서도 보이스 클로닝을 활용하실 있어요. 바로 퀵클로닝 기능입니다. 이제 몇초 분량의 짧은 오디오 샘플 하나로 목소리를 복제(클로닝)할 수 있어, 콘텐츠 자동화, 서비스 연동에 자유롭게 활용할 수 있어요.
말로 들으면 조금 어렵게 느껴지죠. 그래서 이 기능이 정확히 뭔지, 복제한 목소리로 뭘 만들 수 있는지, How to guide까지 차례로 안내드릴게요.
이런 분들에게 추천드립니다
✅ 콘텐츠 자동화 파이프라인을 운영하며 매번 녹음·성우 섭외가 병목인 팀
✅ 챗봇·튜터·컴패니언 등 자사 서비스에 우리만의 고유한 목소리를 입히려는 빌더
✅ 재현해야 할 특정 인물·브랜드 목소리가 있어 기성 AI 보이스로는 안 되는 분
퀵클로닝이 뭔가요?
흔히 말하는 보이스 클로닝을, 긴 녹음 없이 5초에서 150초 사이의 짧은 음성 샘플만으로 할 수 있게 한 기능이 퀵클로닝입니다. 짧은 음성을 업로드해 커스텀 보이스를 한 번 만들어 두면 이후 TTS API로 호출해서 기본 캐릭터처럼 그대로 쓸 수 있어요.
🎧 직접 들어보세요 — 원본 목소리 vs 클론 목소리
이 글을 쓴 타입캐스트 마케터가 26초짜리 음성을 직접 녹음해 퀵클로닝을 진행해봤어요.
① 원본 — 실제 녹음한 제 목소리
② 클론 — 그 목소리를 학습한 API가 원본에 없던 새 문장을 읽음
WAV 또는 MP3 파일(5~150초, 최대 25MB)을 업로드하면, 커스텀 보이스 ID(voice_id)를 돌려줍니다. 사용할 수 있는 캐릭터 목록에 내 목소리가 하나 추가되는 거죠.
💡 참고 — 웹 에디터와 API는 제공하는 클로닝이 달라요
타입캐스트 웹 에디터에서는 보이스 클로닝을 두 가지(프리미엄 클로닝, 퀵클로닝)로 제공하고 있어요. API에서는 현재 퀵클로닝 기능만 제공합니다. 웹과 API는 슬롯도 따로 운영되기 때문에, 한쪽에서 만든 목소리를 다른 쪽에서 쓰기 어렵습니다.
그럼 이렇게 만든 voice_id로 실제로 뭘 만들 수 있을까요?
복제한 목소리, API에서 어떻게 활용하나요?
복제한 voice_id로는 크게 세 가지를 만들 수 있어요. 콘텐츠 자동화, 서비스 연동, 다국어 확장입니다. 웹에디터에서는 한 문장씩 사람이 직접 만드는 데서 끝나지만, API는 그 목소리를 시스템 안에 넣어 자동으로 불러오기 때문에 가능한 일이죠.
내 목소리가 곧 브랜드라, 자동화가 어려웠던 분들께
유튜브부터 팟캐스트까지, 목소리가 채널의 정체성이면 아무 AI 음성으로 대체할 수 없습니다. 그래 매번 직접 녹음하는 과정이 자동화의 병목이 되죠. 내 목소리를 클로닝하고, n8n·Make 같은 파이프라인에 연결하면 녹음 없이 간편하게 콘텐츠 제작이 가능합니다.
우리 서비스만의 목소리를, 실시간으로
챗봇·AI 튜터·컴패니언·게임 NPC까지. 특정 인물이나 페르소나의 목소리를 복제하여 서비스에 연동해보세요.그 목소리가 서비스만의 정체성이 됩니다.
내 목소리 그대로, 37개 언어로 더빙
글로벌 콘텐츠를 만들 때 성우 녹음을 하는 경우에는 언어마다 목소리가 달라집니다. API에서 클로닝 기능을 활용하면, 번역한 대본을 넣어 일관된 목소리로 영어·일본어·스페인어 등 다국어 내레이션을 만들 수 있습니다.
복제한 목소리, 이런 것까지 가능합니다
복제한 목소리는 단순히 텍스트를 읽어주는 데서 끝나지 않아요. 기본 캐릭터를 사용하실 때와 마찬가지로 감정 조절까지 자유롭게 가능합니다.
복제한 목소리에 슬픔·기쁨 감정을 입히세요
단순히 텍스트를 읽는 데서 끝나지 않아요. SSFM 3.0의 스마트 이모션이 문맥을 읽어 감정을 자동으로 입히고, 7가지 프리셋(happy·sad·angry·whisper 등)으로 직접 조절할 수도 있습니다.
타입캐스트 API에서 간편한 사용
복제한 목소리는 일반 TTS는 물론, 실시간 대화용 스트리밍과 자막용 타임스탬프 API까지 그대로 동작합니다. 새로운 캐릭터를 추가하듯 클로닝한 목소리를 간편하게 활용하세요.
생성도 5초 만에, 삭제도 자유롭게
5초 분량의 음성이면 보이스가 만들어집니다. 슬롯은 플랜에 따라 다르고, 필요 없어진 목소리는 삭제하고 다시 만드는 데 제한이 없어요.
퀵클로닝, API에서 어떻게 시작하나요?
이제 직접 만들어볼 차례예요. 음성 파일을 보내 voice_id를 받고, 그 ID로 음성을 만들면 됩니다. 세 단계면 끝나요.
STEP 1복제할 목소리 파일을 준비합니다
복제하고 싶은 목소리가 담긴 음성 파일을 준비하세요. 최소 5초면 충분합니다(WAV·MP3, 최대 150초·25MB). 긴 녹음은 필요 없어요. 단일 화자가 깨끗하게 녹음된 파일일수록 결과가 좋습니다.
STEP 2파일을 업로드하고, 나만의 voice_id를 받습니다
STEP 1의 파일을 클로닝 API에 올립니다. file=@ 뒤에 그 음성 파일 경로를 넣고, 이름·모델만 함께 보내면 끝이에요. 응답으로 복제된 목소리의 voice_id가 돌아옵니다.
curl -X POST 'https://api.typecast.ai/v1/voices/clone' \
-H 'X-API-KEY: <api-key>' \
-F 'file=@내_목소리.wav' \
-F 'name=my-voice' \
-F 'model=ssfm-v30'
# 응답 ↓
{ "voice_id": "uc_6a2...", "name": "my-voice", "model": "ssfm-v30" }
반환된 voice_id는 uc_로 시작합니다. 이게 곧 내 커스텀 목소리예요. Python·JavaScript 예제는 문서에 그대로 있어요.
STEP 3그 voice_id로 음성을 만듭니다
이제 보이스 클로닝이 끝났어요. STEP 2에서 받은 voice_id를 일반 TTS 호출에 넣고 읽을 텍스트만 적으면, 그 목소리로 합성된 음성 파일이 돌아옵니다. 기존 캐릭터로 만들 때와 똑같고, voice_id만 바꾼 거예요.
curl -X POST 'https://api.typecast.ai/v1/text-to-speech' \
-H 'X-API-KEY: <api-key>' \
-H 'Content-Type: application/json' \
-d '{ "voice_id": "uc_6a2...", "text": "제 목소리로 말합니다.", "model": "ssfm-v30" }' \
--output result.mp3 # ← 내 목소리로 합성된 음성 파일
자주 묻는 질문 (FAQ)
Q. 보이스 클로닝 API는 어떤 플랜에서 쓸 수 있나요? +
라이트·플러스 플랜에서 사용할 수 있습니다. 무료 플랜에서는 제공되지 않습니다. 동시에 보유할 수 있는 보이스 슬롯 수는 플랜에 따라 다릅니다.
Q. 음성 파일은 어떤 조건이어야 하나요? +
WAV 또는 MP3, 5~150초 길이, 최대 25MB입니다. 깨끗하게 녹음된 단일 화자 음성일수록 결과가 좋습니다.
Q. 복제한 보이스도 감정 조절이나 세부 설정이 되나요? +
네. 일반 캐릭터와 동일하게 스마트 이모션과 7가지 감정 프리셋, 속도·피치 조절을 그대로 사용할 수 있습니다. 복제한 목소리라고 해서 표현력이 제한되지 않습니다.
Q. 만든 voice_id를 스트리밍이나 타임스탬프 API에서도 쓸 수 있나요? +
네. 한 번 생성한 voice_id는 일반 TTS, 타임스탬프 API, 스트리밍 API 어디에서나 동일하게 사용할 수 있습니다.
Q. 웹에서 만든 클로닝 목소리를 API에서 쓸 수 있나요? +
아니요. API 클로닝은 웹의 보이스 클로닝과 별도로 운영되며 슬롯도 공유하지 않습니다. API에서 쓸 목소리는 API로 생성해야 합니다.
Q. 슬롯이 가득 차면 어떻게 하나요? +
필요 없어진 목소리를 삭제(DELETE /v1/voices/{voice_id})해 슬롯을 비우면 됩니다. 삭제·재생성에는 제한이 없습니다.






