텍스트로부터 음성을 생성하면서 단어·문자 단위 타임스탬프를 함께 반환합니다. 자막 싱크, 문자 단위 하이라이트 애니메이션, 발화 구간 시각화 등에 활용할 수 있습니다.
요청 본문은 표준 /v1/text-to-speech 엔드포인트와 동일합니다(voice_id, text, model, language, prompt, output, seed). 응답은 바이너리 오디오가 아닌 JSON 이며, base64 로 인코딩된 오디오와 함께 words / characters 배열을 포함합니다.
필요에 따라 granularity 쿼리 파라미터로 단어 단위 또는 문자 단위 중 한쪽만 받아 응답 크기를 줄일 수 있습니다.
언어 주의. 일본어(
jpn), 중국어(zho) 처럼 단어 사이에 공백이 없는 언어는 word 단위 정렬이 문장 전체를 하나의 “단어” 로 묶어 버립니다. 이런 언어에서는 항상granularity=char를 지정해 문자 단위 타임스탬프를 받으세요.
사용 가능한 캐릭터 목록은 캐릭터 목록 조회 를 참조하세요.
Documentation Index
Fetch the complete documentation index at: https://typecast.ai/docs/llms.txt
Use this file to discover all available pages before exploring further.
인증을 위한 API 키. 타입캐스트 API 콘솔에서 API 키를 생성할 수 있습니다.
반환할 타임스탬프 배열을 선택합니다.
words 와 characters 모두 반환word: words 만 반환 (characters 는 null)char: characters 만 반환 (words 는 null)공백 없는 언어(예: jpn, zho): word 정렬은 문장 전체를 하나의 구간으로 반환하므로, 의미 있는 타임스탬프를 얻으려면 char 를 사용하세요.
word, char TTSRequestWith-timestamps parameters
음성으로 변환할 텍스트. 최소 1자, 최대 2000자. 텍스트 길이에 따라 크레딧이 소비됩니다. 영어, 한국어, 일본어, 중국어를 포함한 여러 언어를 지원합니다. 특수 문자와 구두점은 자동으로 처리됩니다.
1 - 2000"모든 것이 너무나 완벽해서 마치 꿈을 꾸는 것 같습니다."
음성 합성에 사용할 캐릭터 모델.
ssfm-v30, ssfm-v21 "ssfm-v30"
ISO 639-3 표준을 따르는 언어 코드. 대소문자 구분 안 함("KOR"과 "kor" 모두 허용). 제공하지 않으면 텍스트 내용을 기반으로 자동 감지됩니다.
| 코드 | 언어 | 코드 | 언어 | 코드 | 언어 |
|---|---|---|---|---|---|
| ARA | 아랍어 | IND | 인도네시아어 | POR | 포르투갈어 |
| BEN | 벵골어 | ITA | 이탈리아어 | RON | 루마니아어 |
| BUL | 불가리아어 | JPN | 일본어 | RUS | 러시아어 |
| CES | 체코어 | KOR | 한국어 | SLK | 슬로바키아어 |
| DAN | 덴마크어 | MSA | 말레이어 | SPA | 스페인어 |
| DEU | 독일어 | NAN | 민남어 | SWE | 스웨덴어 |
| ELL | 그리스어 | NLD | 네덜란드어 | TAM | 타밀어 |
| ENG | 영어 | NOR | 노르웨이어 | TGL | 타갈로그어 |
| FIN | 핀란드어 | PAN | 펀자브어 | THA | 태국어 |
| FRA | 프랑스어 | POL | 폴란드어 | TUR | 터키어 |
| HIN | 힌디어 | UKR | 우크라이나어 | VIE | 베트남어 |
| HRV | 크로아티아어 | YUE | 광둥어 | ZHO | 중국어 |
| HUN | 헝가리어 |
| 코드 | 언어 | 코드 | 언어 | 코드 | 언어 |
|---|---|---|---|---|---|
| ARA | 아랍어 | IND | 인도네시아어 | RON | 루마니아어 |
| BUL | 불가리아어 | ITA | 이탈리아어 | RUS | 러시아어 |
| CES | 체코어 | JPN | 일본어 | SLK | 슬로바키아어 |
| DAN | 덴마크어 | KOR | 한국어 | SPA | 스페인어 |
| DEU | 독일어 | MSA | 말레이어 | SWE | 스웨덴어 |
| ELL | 그리스어 | NLD | 네덜란드어 | TAM | 타밀어 |
| ENG | 영어 | POL | 폴란드어 | TGL | 타갈로그어 |
| FIN | 핀란드어 | POR | 포르투갈어 | UKR | 우크라이나어 |
| FRA | 프랑스어 | HRV | 크로아티아어 | ZHO | 중국어 |
타임스탬프 엔드포인트 주의. 일본어(
jpn) · 중국어(zho) 처럼 단어 사이에 공백이 없는 언어는 word 단위 정렬이 문장 전체를 하나의 구간으로 묶어 버립니다. 이런 언어에서는 항상granularity=char를 함께 지정해 문자 단위 타임스탬프를 받으세요.
"kor"
생성된 음성의 감정 및 스타일 설정.
{
"emotion_type": "smart",
"previous_text": "I feel like I'm walking on air and I just want to scream with joy!",
"next_text": "I am literally bursting with happiness and I never want this feeling to end!"
}볼륨(0-200), 피치(-12~+12 반음), 템포(0.5배~2.0배), 형식(wav/mp3)을 포함한 오디오 출력 설정으로 최종 오디오 특성을 제어합니다
재현 가능한 음성 생성을 위한 부호 없는 정수 시드. 동일한 시드와 동일한 입력 파라미터로 항상 같은 오디오 결과를 생성합니다.
0 <= x <= 429496729542
Success - Returns base64 audio and timestamps
TTS 생성 + 타임스탬프 정렬 통합 응답.
base64 로 인코딩된 오디오 바이트. audio_format 확장자로 디코딩해 파일로 저장할 수 있습니다.
audio 필드의 오디오 인코딩 포맷 — wav 또는 mp3 (요청의 output.audio_format 에 따라 결정).
wav, mp3 생성된 오디오의 길이(초).
단어 단위 타임스탬프(문장부호 포함). 요청이 granularity=char 일 때는 null.
문자 단위 타임스탬프(문장부호와 공백 포함). 요청이 granularity=word 일 때는 null.