실시간 스트리밍을 사용하여 텍스트에서 음성을 생성합니다. 전체 합성이 완료되기 전에 오디오 재생을 시작할 수 있습니다.
이 엔드포인트는 오디오 데이터를 청크 단위로 스트리밍하여 즉각적인 피드백이 필요한 애플리케이션에서 낮은 지연 시간의 오디오 재생을 가능하게 합니다.
스트리밍 형식:
사용 사례:
요청 파라미터:
표준 TTS 엔드포인트와 동일한 TTSRequest 스키마를 사용합니다. output.audio_format을 “wav” 또는 “mp3”로 설정하여 스트리밍 형식을 제어합니다.
인증을 위한 API 키. 타입캐스트 API 콘솔에서 API 키를 생성할 수 있습니다.
스트리밍 텍스트 음성 변환 요청 파라미터
음성으로 변환할 텍스트. 최소 1자, 최대 2000자. 텍스트 길이에 따라 크레딧이 소비됩니다. 영어, 한국어, 일본어, 중국어를 포함한 여러 언어를 지원합니다. 특수 문자와 구두점은 자동으로 처리됩니다.
1 - 2000"모든 것이 너무나 완벽해서 마치 꿈을 꾸는 것 같습니다."
음성 합성에 사용할 캐릭터 모델.
ssfm-v30, ssfm-v21 "ssfm-v30"
ISO 639-3 표준을 따르는 언어 코드. 대소문자 구분 안 함("KOR"과 "kor" 모두 허용). 제공하지 않으면 텍스트 내용을 기반으로 자동 감지됩니다.
| 코드 | 언어 | 코드 | 언어 | 코드 | 언어 |
|---|---|---|---|---|---|
| ARA | 아랍어 | IND | 인도네시아어 | POR | 포르투갈어 |
| BEN | 벵골어 | ITA | 이탈리아어 | RON | 루마니아어 |
| BUL | 불가리아어 | JPN | 일본어 | RUS | 러시아어 |
| CES | 체코어 | KOR | 한국어 | SLK | 슬로바키아어 |
| DAN | 덴마크어 | MSA | 말레이어 | SPA | 스페인어 |
| DEU | 독일어 | NAN | 민남어 | SWE | 스웨덴어 |
| ELL | 그리스어 | NLD | 네덜란드어 | TAM | 타밀어 |
| ENG | 영어 | NOR | 노르웨이어 | TGL | 타갈로그어 |
| FIN | 핀란드어 | PAN | 펀자브어 | THA | 태국어 |
| FRA | 프랑스어 | POL | 폴란드어 | TUR | 터키어 |
| HIN | 힌디어 | UKR | 우크라이나어 | VIE | 베트남어 |
| HRV | 크로아티아어 | YUE | 광둥어 | ZHO | 중국어 |
| HUN | 헝가리어 |
| 코드 | 언어 | 코드 | 언어 | 코드 | 언어 |
|---|---|---|---|---|---|
| ARA | 아랍어 | IND | 인도네시아어 | RON | 루마니아어 |
| BUL | 불가리아어 | ITA | 이탈리아어 | RUS | 러시아어 |
| CES | 체코어 | JPN | 일본어 | SLK | 슬로바키아어 |
| DAN | 덴마크어 | KOR | 한국어 | SPA | 스페인어 |
| DEU | 독일어 | MSA | 말레이어 | SWE | 스웨덴어 |
| ELL | 그리스어 | NLD | 네덜란드어 | TAM | 타밀어 |
| ENG | 영어 | POL | 폴란드어 | TGL | 타갈로그어 |
| FIN | 핀란드어 | POR | 포르투갈어 | UKR | 우크라이나어 |
| FRA | 프랑스어 | HRV | 크로아티아어 | ZHO | 중국어 |
"kor"
생성된 음성의 감정 및 스타일 설정.
{
"emotion_type": "smart",
"previous_text": "I feel like I'm walking on air and I just want to scream with joy!",
"next_text": "I am literally bursting with happiness and I never want this feeling to end!"
}피치(-12 ~ +12 반음), 속도(0.5x ~ 2.0x), 형식(wav/mp3) 등 오디오 출력 설정. 참고: 스트리밍 모드에서는 volume과 target_lufs를 사용할 수 없습니다.
재현 가능한 음성 생성을 위한 부호 없는 정수 시드. 동일한 시드와 동일한 입력 파라미터로 항상 같은 오디오 결과를 생성합니다.
x >= 042
Success - Returns streaming audio data in chunks
청크 단위 WAV 오디오 스트림(16비트, 모노, 32000 Hz). 첫 번째 청크에는 size 0xFFFFFFFF(스트리밍 표시)의 WAV 헤더와 원시 PCM 데이터가 포함됩니다. 이후 청크에는 PCM 데이터만 포함됩니다.