타임스탬프 TTS API는 어떤 모델과 언어를 지원하나요?

SSFM 3.0과 SSFN 2.1 모델 모두 타임스탬프를 지원합니다. 37개 언어를 지원하며, 띄어쓰기가 없는 언어는 문자 단위(char) 타임스탬프로 정밀하게 처리합니다.

SRT나 VTT 파일로 바로 출력되나요?

API는 각 단어·문자의 start·end 시간이 포함된 JSON으로 응답합니다. SRT·VTT 포맷 변환은 클라이언트 측에서 처리해야 합니다.

일반 TTS API와 크레딧 차감 방식이 다른가요?

동일합니다. 타임스탬프 엔드포인트도 일반 TTS 엔드포인트와 동일하게 글자 수 기준으로 크레딧이 차감됩니다.

타임스탬프 TTS API가 특히 유용한 서비스는 무엇인가요?

영상 자막 생성, 노래방식 가사 싱크, 전자책 텍스트 하이라이팅, 접근성 자막 서비스에 특히 적합합니다.

홈 » 유튜브 자막 자동화, 타임스탬프 TTS API로 끝냈습니다

유튜브 자막 자동화, 타임스탬프 TTS API로 끝냈습니다

Q: 문자 단위 타임스탬프도 받을 수 있나요?

네. granularity 파라미터를 'char'로 설정하면 문자 단위, 'word'로 설정하면 단어 단위로 타임스탬프를 받을 수 있습니다.

Heeju Choi

5월 22, 2026

AI목소리가 필요하신가요?

타입캐스트의 700개가 넘는 캐릭터 중 내 콘텐츠에 가장 잘 어울리는 목소리를 선택해 보세요.

타입캐스트 바로가기

영상 자막 자동화, 제가 직접 해봤어요! (with 타임스탬프 TTS API)

블로그 글, 숏폼 영상, 광고 카피까지. 콘텐츠 제작은 이제 대부분 자동화로 만들어집니다. 특히 영상 쪽은 n8n만 검색해도 영상 자동화 튜토리얼이 수백 개 나올 정도죠. 그런데 막상 파이프라인을 직접 운영해보면, 가장 오래 걸리는 단계가 의외로 자막입니다.

스크립트로 음성을 만들고(TTS) → 음성에서 단어별 타임스탬프를 인식해 자막으로 추출하고(STT) → 원본 대본과 대조해 오인식 검수까지 하면 영상 한 편에 7~12분이 듭니다.

타입캐스트 콘텐츠팀도 매주 영상을 만들면서 같은 고민을 해왔습니다. 그래서 이번에 출시된 타입캐스트의 타임스탬프 TTS API를 영상 제작에 적용해보고, 기존 방식(TTS + STT)과 얼마나 달라지는지 직접 측정해봤어요. 오늘은 두 API의 기능 비교부터 직접 써보고 달라진 변화 3가지까지 정리해드릴게요.

오늘 아티클, 이런 분들에게 추천드립니다

✅ 영상 자동화 파이프라인을 운영하는 콘텐츠팀·미디어 운영팀

✅ TTS 합성 후 STT로 자막을 다시 추출하는 워크플로우를 쓰는 분

✅ 영문 약어·숫자 표기·고유명사 오인식 검수에 시간이 빠지는 팀

타임스탬프 TTS API 무료로 시작하기

일반 TTS API와 무엇이 다른가요?

결론부터 말씀드리면, 타임스탬프 TTS API는 한 번 호출만으로 약 5초 안에 오디오와 자막을 함께 생성할 수 있습니다. 기존 방식과 어떻게 달라지는지 Before/After 워크플로우로 한눈에 비교해볼게요.

BEFORE 기존 TTS + STT 방식

텍스트 → TTS 합성 → 오디오 → STT 인식 → 오인식 검수 → 자막 7~12분

AFTER 타임스탬프 TTS API

텍스트 → 타임스탬프 TTS API → 오디오 + 자막 약 5초

이런 차이가 왜 발생할까요? 이름은 비슷해 보이지만 반환 데이터가 근본적으로 다르기 때문입니다.

일반 TTS API는 합성된 오디오 파일만 돌려줍니다. 타임스탬프가 필요하면 그 음성을 별도 STT로 다시 인식해야 하죠. 반면 타임스탬프 TTS API는 합성과 동시에 단어·문자 단위 타이밍 정보를 함께 반환하기 때문에, 인식 단계 자체가 사라집니다.

항목	일반 TTS API	타임스탬프 TTS API
엔드포인트	`/v1/text-to-speech`	`/v1/text-to-speech/with-timestamps`
반환 형식	바이너리 오디오	JSON (오디오 base64 + words + characters)
타임스탬프	없음	단어별·문자별 start/end (밀리초 단위)
자막 생성 방법	STT 별도 호출 필요	단일 호출로 동시 반환
오인식 발생	있음 (2차 음성 인식)	없음 (원본 텍스트 그대로)
적합한 작업	음성 출력·나레이션만 필요한 경우	영상 자막·캡션·자동화 파이프라인

아직은 어렵게 느껴지신다고요? 그래서 콘텐츠팀이 똑같은 대본으로 두 방식을 직접 써보고 자막을 만들어봤습니다. 어떤 부분이 어떻게 달라졌는지, 측정 결과로 자세히 설명해드릴게요.

타임스탬프 TTS API 문서 보기

타입캐스트 콘텐츠팀이 직접 측정해봤습니다

한 줄 요약 | 자막 제작 과정, 어떻게 달라질까요?

콘텐츠팀이 숏폼 영상 한 편의 나레이션(159자)으로 측정해보니, 자막 정확도는 100%로 유지되고 자막 생성 속도는 22배 빨라졌습니다.

자막 생성 단계

4단계단축

기존 5단계 → 1단계

자막 생성 시간

22배단축

기존 115초 → 5초

자막 정확도

100%달성

기존 방식 대비 19.4%p ↑

(타입캐스트 콘텐츠팀 내부 측정, 2026.05)

어떻게 이런 차이가 났는지, 실제 사례로 풀어드릴게요.

변화 1자막 제작 과정: 5단계 → 1단계로 축소

콘텐츠팀이 운영하던 영상 자동화 스킬에서 자막을 만들려면 다섯 단계가 필요했습니다.

Before 기존(TTS + STT) 자막 제작 단계

단계	작업 내용	소요
1. 발음 교정	TTS가 정확히 읽도록 영문 약어·숫자를 한글 음차로 교정 (AI → 에이아이, F-15 → 에프십오, 2024년 → 이천이십사년)	~2분
2. TTS 합성	교정한 텍스트로 음성 생성	~30초
3. STT 전사	합성된 음성을 다시 듣고 단어별 자막·타임스탬프 추출	2~3분
4. 자동 검증	원본 텍스트와 단어 단위 대조해 어긋난 부분 자동 수정	~30초
5. 수동 검수	자동 수정으로 잡지 못한 오인식(고유명사 등)을 사람이 직접 편집	2~6분

자막만 만들려고 합쳐 7~12분이 들었고, 절반 이상이 사람이 끼어야 하는 검수 시간이었습니다. 게다가 가끔 STT가 무음 구간에서 특정 문자를 무한 반복하거나, 발음 교정본이 원본 스크립트를 덮어쓰는 사고도 종종 있었습니다.

타임스탬프 TTS API를 활용하면 이 과정이 어떻게 바뀔까요?

After 타임스탬프 TTS API 자막 제작 단계

단계	작업 내용	소요
1. 타임스탬프 TTS API 호출	텍스트 입력 → 오디오 + 단어별 자막을 한 번에 반환	~5초

결론적으로 5단계의 자막 제작 과정이 1단계로 끝납니다. STT로 다시 인식하거나 오인식을 검수할 일이 없어, 사람이 작업해야 하는 시간도 0이 됩니다.

변화 2처리 시간: 115초 → 5초 (22배 단축)

159자 한국어 나레이션을 똑같이 두 방식에 넣고 시간을 측정해봤습니다.

Before 일반 TTS API + STT

115.77초100%

After 타임스탬프 TTS API → 22배 빠름

5.07초4.4%

(타입캐스트 콘텐츠팀 내부 측정, 2026.05)

결론적으로 자막 한 편을 5초에 생성할 수 있어, 약 22배 생산성이 올랐습니다. 단계별로 시간을 쪼개보면 차이가 어디서 났는지 더 명확합니다.

	Before 일반 TTS + STT	After 타임스탬프 TTS API
API 호출 시간	4.12초 (음성만)	5.07초 (음성 + 자막)
STT 시간	111.65초	—
총 소요 시간	115.77초	5.07초

변화 1에서 본 것처럼 STT 인식·검수 단계가 통째로 사라진 덕분이죠. 사람 검수 시간(2~6분)까지 포함하는 실제 운영에선 차이가 더 크게 벌어집니다.

변화 3자막 정확도: 80.6% → 100%

자막은 한 글자만 어긋나도 시청자 눈에 바로 띕니다. 정확도가 결국 영상 품질을 좌우한다는 뜻이죠.

문제는 자막을 만드는 흐름 자체에 있습니다. 기존 방식은 TTS로 합성한 음성을 STT에 다시 넣어 단어를 받아쓰는 구조인데, 이 “음성을 다시 듣는” 단계에서 원본과 다르게 인식되는 단어가 생기거든요.

반면 타임스탬프 TTS API는 합성과 동시에 텍스트 정보를 그대로 돌려주기 때문에, 원본 텍스트가 그대로 자막에 입력됩니다. 같은 159자 나레이션으로 측정해본 결과, 타임스탬프 TTS API 사용 시, 36개 단어 모두 원본과 동일한 자막이 생성되었습니다.

#	오인식 유형	입력	After 자막	Before 자막	오인식 상세 내용
1	어휘 분리	가트너는	입력값과 동일 ✅	같은 + 언은 ❌	한 단어가 다른 두 단어로 쪼개짐
2	숫자 표기 변형	5,000억	입력값과 동일 ✅	5천억 ❌	콤마 표기가 한자어 표기로 변형, 자막 표기 일관성 깨짐
3	모델명 토큰 분리	F-15	입력값과 동일 ✅	F + -15 ❌	군용 장비·기계 모델명에서 반복 발생
4	소수점 토큰 분리	1.8배	입력값과 동일 ✅	1 + .8배 ❌	모든 소수에서 일관되게 발생
5	기호 토큰 분리	200%	입력값과 동일 ✅	200 + % ❌	퍼센트·달러·앤드 기호 모두 분리됨
6	구두점 손실	투자했고,	입력값과 동일 ✅	투자했고 ❌	자막 줄바꿈에 영향, 절 구분자 누락

여섯 항목의 원인은 모두 이미 시스템이 알고 있는 정보를 음성으로 바꿨다가 다시 텍스트로 인식하면서 생기는 손실입니다. 타임스탬프 TTS API는 합성 시점에 어떤 단어가 몇 초에 발화될지 시스템이 이미 가지고 있는 정보를 그대로 돌려주기 때문에 이런 손실이 원천적으로 발생하지 않습니다.

우선 직접 테스트해보세요, 무료로요

타임스탬프 TTS API로 자막 작업을 효율화해보세요.
이미 타입캐스트 API를 사용하는 고객이라면 엔드포인트만 바꾸면 됩니다.

# 기존 — 음성만 받음
POST /v1/text-to-speech                    → 바이너리 오디오

# 신규 — 음성 + 단어별 타임스탬프
POST /v1/text-to-speech/with-timestamps    → JSON (audio + words + characters)

카드 등록 없이 월 30,000 크레딧으로 시작할 수 있습니다.

API 무료로 시작하기 → 타임스탬프 TTS API 문서 보기 →

FAQ. 자주 묻는 질문

Q. 어떤 모델·언어에서 동작하나요? ＋

ssfm 3.0과 ssfm 2.1 모델 모두 타임스탬프를 지원합니다. 일본어·중국어처럼 띄어쓰기가 없는 언어는 쿼리 파라미터 granularity를 char로 지정해 문자 단위 타임스탬프를 받으실 수 있습니다.

Q. 단어 단위 외에 문자 단위 타임스탬프도 받을 수 있나요? ＋

네, granularity 파라미터로 word(단어별)이나 char(문자별)를 선택할 수 있고, 생략하면 둘 다 함께 돌려줍니다. 한국어·영어 자막에는 단어 단위가 일반적이고, 일본어·중국어처럼 띄어쓰기가 없는 언어나 한 글자씩 등장하는 자막 효과(타이핑 애니메이션 등)에는 문자 단위가 적합합니다.

Q. SRT·VTT 자막 파일로 바로 출력되나요? ＋

API 자체는 단어/문자 단위 start·end만 JSON으로 돌려줍니다. SRT·VTT 변환은 응답의 words 배열을 사용자 코드에서 처리해야 합니다.

Q. 일반 TTS API와 비용 차이가 있나요? ＋

크레딧은 글자 수 기준으로 차감되며 두 엔드포인트 모두 동일하게 적용됩니다.

Q. 타임스탬프 TTS API는 어떤 작업에 잘 어울리나요? ＋

영상 자막·캡션 자동화, 노래방 가사 동기화(Karaoke), e-book의 단어별 음성 읽기, 학습 콘텐츠의 발음 학습, 청각장애인용 접근성 자막 등 음성과 텍스트의 정확한 타이밍 매칭이 필요한 작업에 적합합니다. 반대로 자막이 필요 없는 단순 음성 출력(챗봇 응답, 알림 음성 등)에는 일반 TTS API가 더 가볍습니다.

Post Views: 156

유튜브 자막 자동화, 타임스탬프 TTS API로 끝냈습니다

AI목소리가 필요하신가요?

추천 글

타입캐스트 요금제 개편 및 8월 1일 서비스 점검 안내

비즈니스 플랜 고객을 위한 타입캐스트 요금제 개편 공지(2026)

다국어 AI 보이스 생성 서비스는 어디? 여러 언어 지원 툴 비교 (2026)

🎙️ 수백 개 AI 음성 중 뭘 골라야 할까? — 문장으로 찾아주는 보이스 추천 API

영상 자막 자동화, 제가 직접 해봤어요! (with 타임스탬프 TTS API)

일반 TTS API와 무엇이 다른가요?

타입캐스트 콘텐츠팀이 직접 측정해봤습니다

변화 1자막 제작 과정: 5단계 → 1단계로 축소

변화 2처리 시간: 115초 → 5초 (22배 단축)

변화 3자막 정확도: 80.6% → 100%

우선 직접 테스트해보세요, 무료로요

FAQ. 자주 묻는 질문

세상에서 가장 쉬운 콘텐츠 제작 툴 타입캐스트

간단하게 텍스트만 입력하면 누구나 쉽게 AI 보이스 생성과 영상 콘텐츠 제작이 가능해요!

관련 글

🎙️ 수백 개 AI 음성 중 뭘 골라야 할까? — 문장으로 찾아주는 보이스 추천 API

🎙️자연스러운 한국어 음성 에이전트(콜봇) 만들기 — Pipecat, 타입캐스트 연동

🎬 쇼츠 나레이션, 코딩 없이 자동화하는 법 — 타입캐스트 CLI

📺 홈쇼핑·커머스 방송 AI 음성 도입 사례 — KT알파쇼핑은 이렇게 씁니다