
영상 자막 자동화, 제가 직접 해봤어요! (with 타임스탬프 TTS API)
블로그 글, 숏폼 영상, 광고 카피까지. 콘텐츠 제작은 이제 대부분 자동화로 만들어집니다. 특히 영상 쪽은 n8n만 검색해도 영상 자동화 튜토리얼이 수백 개 나올 정도죠. 그런데 막상 파이프라인을 직접 운영해보면, 가장 오래 걸리는 단계가 의외로 자막입니다.
스크립트로 음성을 만들고(TTS) → 음성에서 단어별 타임스탬프를 인식해 자막으로 추출하고(STT) → 원본 대본과 대조해 오인식 검수까지 하면 영상 한 편에 7~12분이 듭니다.
타입캐스트 콘텐츠팀도 매주 영상을 만들면서 같은 고민을 해왔습니다. 그래서 이번에 출시된 타입캐스트의 타임스탬프 TTS API를 영상 제작에 적용해보고, 기존 방식(TTS + STT)과 얼마나 달라지는지 직접 측정해봤어요. 오늘은 두 API의 기능 비교부터 직접 써보고 달라진 변화 3가지까지 정리해드릴게요.
오늘 아티클, 이런 분들에게 추천드립니다
✅ 영상 자동화 파이프라인을 운영하는 콘텐츠팀·미디어 운영팀
✅ TTS 합성 후 STT로 자막을 다시 추출하는 워크플로우를 쓰는 분
✅ 영문 약어·숫자 표기·고유명사 오인식 검수에 시간이 빠지는 팀
일반 TTS API와 무엇이 다른가요?
결론부터 말씀드리면, 타임스탬프 TTS API는 한 번 호출만으로 약 5초 안에 오디오와 자막을 함께 생성할 수 있습니다. 기존 방식과 어떻게 달라지는지 Before/After 워크플로우로 한눈에 비교해볼게요.
이런 차이가 왜 발생할까요? 이름은 비슷해 보이지만 반환 데이터가 근본적으로 다르기 때문입니다.
일반 TTS API는 합성된 오디오 파일만 돌려줍니다. 타임스탬프가 필요하면 그 음성을 별도 STT로 다시 인식해야 하죠. 반면 타임스탬프 TTS API는 합성과 동시에 단어·문자 단위 타이밍 정보를 함께 반환하기 때문에, 인식 단계 자체가 사라집니다.
| 항목 | 일반 TTS API | 타임스탬프 TTS API |
|---|---|---|
| 엔드포인트 | /v1/text-to-speech |
/v1/text-to-speech/with-timestamps |
| 반환 형식 | 바이너리 오디오 | JSON (오디오 base64 + words + characters) |
| 타임스탬프 | 없음 | 단어별·문자별 start/end (밀리초 단위) |
| 자막 생성 방법 | STT 별도 호출 필요 | 단일 호출로 동시 반환 |
| 오인식 발생 | 있음 (2차 음성 인식) | 없음 (원본 텍스트 그대로) |
| 적합한 작업 | 음성 출력·나레이션만 필요한 경우 | 영상 자막·캡션·자동화 파이프라인 |
아직은 어렵게 느껴지신다고요? 그래서 콘텐츠팀이 똑같은 대본으로 두 방식을 직접 써보고 자막을 만들어봤습니다. 어떤 부분이 어떻게 달라졌는지, 측정 결과로 자세히 설명해드릴게요.
타입캐스트 콘텐츠팀이 직접 측정해봤습니다
한 줄 요악 | 자막 제작 과정, 어떻게 달라질까요?
콘텐츠팀이 숏폼 영상 한 편의 나레이션(159자)으로 측정해보니, 자막 정확도는 100%로 유지되고 자막 생성 속도는 22배 빨라졌습니다.
자막 생성 단계
4단계단축
기존 5단계 → 1단계
자막 생성 시간
22배단축
기존 115초 → 5초
자막 정확도
100%달성
기존 방식 대비 19.4%p ↑
(타입캐스트 콘텐츠팀 내부 측정, 2026.05)
어떻게 이런 차이가 났는지, 실제 사례로 풀어드릴게요.
변화 1자막 제작 과정: 5단계 → 1단계로 축소
콘텐츠팀이 운영하던 영상 자동화 스킬에서 자막을 만들려면 다섯 단계가 필요했습니다.
Before 기존(TTS + STT) 자막 제작 단계
| 단계 | 작업 내용 | 소요 |
|---|---|---|
| 1. 발음 교정 | TTS가 정확히 읽도록 영문 약어·숫자를 한글 음차로 교정 (AI → 에이아이, F-15 → 에프십오, 2024년 → 이천이십사년) | ~2분 |
| 2. TTS 합성 | 교정한 텍스트로 음성 생성 | ~30초 |
| 3. STT 전사 | 합성된 음성을 다시 듣고 단어별 자막·타임스탬프 추출 | 2~3분 |
| 4. 자동 검증 | 원본 텍스트와 단어 단위 대조해 어긋난 부분 자동 수정 | ~30초 |
| 5. 수동 검수 | 자동 수정으로 잡지 못한 오인식(고유명사 등)을 사람이 직접 편집 | 2~6분 |
자막만 만들려고 합쳐 7~12분이 들었고, 절반 이상이 사람이 끼어야 하는 검수 시간이었습니다. 게다가 가끔 STT가 무음 구간에서 특정 문자를 무한 반복하거나, 발음 교정본이 원본 스크립트를 덮어쓰는 사고도 종종 있었습니다.
타임스탬프 TTS API를 활용하면 이 과정이 어떻게 바뀔까요?
After 타임스탬프 TTS API 자막 제작 단계
| 단계 | 작업 내용 | 소요 |
|---|---|---|
| 1. 타임스탬프 TTS API 호출 | 텍스트 입력 → 오디오 + 단어별 자막을 한 번에 반환 | ~5초 |
결론적으로 5단계의 자막 제작 과정이 1단계로 끝납니다. STT로 다시 인식하거나 오인식을 검수할 일이 없어, 사람이 작업해야 하는 시간도 0이 됩니다.
변화 2처리 시간: 115초 → 5초 (22배 단축)
159자 한국어 나레이션을 똑같이 두 방식에 넣고 시간을 측정해봤습니다.
Before 일반 TTS API + STT
After 타임스탬프 TTS API → 22배 빠름
(타입캐스트 콘텐츠팀 내부 측정, 2026.05)
결론적으로 자막 한 편을 5초에 생성할 수 있어, 약 22배 생산성이 올랐습니다. 단계별로 시간을 쪼개보면 차이가 어디서 났는지 더 명확합니다.
|
Before
일반 TTS + STT
|
After
타임스탬프 TTS API
|
|
|---|---|---|
| API 호출 시간 | 4.12초 (음성만) | 5.07초 (음성 + 자막) |
| STT 시간 | 111.65초 | — |
| 총 소요 시간 | 115.77초 | 5.07초 |
변화 1에서 본 것처럼 STT 인식·검수 단계가 통째로 사라진 덕분이죠. 사람 검수 시간(2~6분)까지 포함하는 실제 운영에선 차이가 더 크게 벌어집니다.
변화 3자막 정확도: 80.6% → 100%
자막은 한 글자만 어긋나도 시청자 눈에 바로 띕니다. 정확도가 결국 영상 품질을 좌우한다는 뜻이죠.
문제는 자막을 만드는 흐름 자체에 있습니다. 기존 방식은 TTS로 합성한 음성을 STT에 다시 넣어 단어를 받아쓰는 구조인데, 이 “음성을 다시 듣는” 단계에서 원본과 다르게 인식되는 단어가 생기거든요.
반면 타임스탬프 TTS API는 합성과 동시에 텍스트 정보를 그대로 돌려주기 때문에, 원본 텍스트가 그대로 자막에 입력됩니다. 같은 159자 나레이션으로 측정해본 결과, 타임스탬프 TTS API 사용 시, 36개 단어 모두 원본과 동일한 자막이 생성되었습니다.
| # | 오인식 유형 | 입력 | After 자막 | Before 자막 | 오인식 상세 내용 |
|---|---|---|---|---|---|
| 1 | 어휘 분리 | 가트너는 | 입력값과 동일 ✅ | 같은 + 언은 ❌ | 한 단어가 다른 두 단어로 쪼개짐 |
| 2 | 숫자 표기 변형 | 5,000억 | 입력값과 동일 ✅ | 5천억 ❌ | 콤마 표기가 한자어 표기로 변형, 자막 표기 일관성 깨짐 |
| 3 | 모델명 토큰 분리 | F-15 | 입력값과 동일 ✅ | F + -15 ❌ | 군용 장비·기계 모델명에서 반복 발생 |
| 4 | 소수점 토큰 분리 | 1.8배 | 입력값과 동일 ✅ | 1 + .8배 ❌ | 모든 소수에서 일관되게 발생 |
| 5 | 기호 토큰 분리 | 200% | 입력값과 동일 ✅ | 200 + % ❌ | 퍼센트·달러·앤드 기호 모두 분리됨 |
| 6 | 구두점 손실 | 투자했고, | 입력값과 동일 ✅ | 투자했고 ❌ | 자막 줄바꿈에 영향, 절 구분자 누락 |
여섯 항목의 원인은 모두 이미 시스템이 알고 있는 정보를 음성으로 바꿨다가 다시 텍스트로 인식하면서 생기는 손실입니다. 타임스탬프 TTS API는 합성 시점에 어떤 단어가 몇 초에 발화될지 시스템이 이미 가지고 있는 정보를 그대로 돌려주기 때문에 이런 손실이 원천적으로 발생하지 않습니다.
우선 직접 테스트해보세요, 무료로요
타임스탬프 TTS API로 자막 작업을 효율화해보세요.
이미 타입캐스트 API를 사용하는 고객이라면 엔드포인트만 바꾸면 됩니다.
# 기존 — 음성만 받음
POST /v1/text-to-speech → 바이너리 오디오
# 신규 — 음성 + 단어별 타임스탬프
POST /v1/text-to-speech/with-timestamps → JSON (audio + words + characters)
카드 등록 없이 월 30,000 크레딧으로 시작할 수 있습니다.
FAQ. 자주 묻는 질문
Q. 어떤 모델·언어에서 동작하나요? +
ssfm 3.0과 ssfm 2.1 모델 모두 타임스탬프를 지원합니다. 일본어·중국어처럼 띄어쓰기가 없는 언어는 쿼리 파라미터 granularity를 char로 지정해 문자 단위 타임스탬프를 받으실 수 있습니다.
Q. 단어 단위 외에 문자 단위 타임스탬프도 받을 수 있나요? +
네, granularity 파라미터로 word(단어별)이나 char(문자별)를 선택할 수 있고, 생략하면 둘 다 함께 돌려줍니다. 한국어·영어 자막에는 단어 단위가 일반적이고, 일본어·중국어처럼 띄어쓰기가 없는 언어나 한 글자씩 등장하는 자막 효과(타이핑 애니메이션 등)에는 문자 단위가 적합합니다.
Q. SRT·VTT 자막 파일로 바로 출력되나요? +
API 자체는 단어/문자 단위 start·end만 JSON으로 돌려줍니다. SRT·VTT 변환은 응답의 words 배열을 사용자 코드에서 처리해야 합니다.
Q. 일반 TTS API와 비용 차이가 있나요? +
크레딧은 글자 수 기준으로 차감되며 두 엔드포인트 모두 동일하게 적용됩니다.
Q. 타임스탬프 TTS API는 어떤 작업에 잘 어울리나요? +
영상 자막·캡션 자동화, 노래방 가사 동기화(Karaoke), e-book의 단어별 음성 읽기, 학습 콘텐츠의 발음 학습, 청각장애인용 접근성 자막 등 음성과 텍스트의 정확한 타이밍 매칭이 필요한 작업에 적합합니다. 반대로 자막이 필요 없는 단순 음성 출력(챗봇 응답, 알림 음성 등)에는 일반 TTS API가 더 가볍습니다.





