본문 바로가기

tts4

Llama-OuteTTS-1.0-1B – 다국어 음성합성을 지원하는 TTS 모델 안녕하세요.오늘은 Hugging Face에서 공개된 최신 음성 합성 모델 OuteAI Llama-OuteTTS-1.0-1B에 대해 자세히 소개드립니다. 이 모델은 다국어 텍스트를 고품질 음성으로 변환하고, 짧은 음성 샘플만으로도 음성을 복제할 수 있는 최첨단 기능을 제공합니다. 한국어 지원까지 가능하기 때문에 TTS 를 활용하는 어플리케이션에 활용도가 높을 것으로 보입니다. 라이센스는 CC-BY-NC-SA 4.0 으로 비상업적 사용 가능합니다. Llama-OuteTTS-1.0-1B 란?📌 Llama-OuteTTS-1.0-1B 소개OuteAI에서 개발한 Llama-OuteTTS-1.0-1B는 총 12억 5천만 개의 파라미터를 가진 다국어 음성 합성(Text-to-Speech, TTS) 모델입니다. Ll.. 2025. 4. 16.

인간처럼 대화하는 AI 기술 CSM(Conversational Speech Model) 소개 안녕하세요.오늘은 인간처럼 자연스러운 대화를 실현하기 위한 음성 인공지능 기술, Sesame에서 개발한 CSM(Conversational Speech Model)에 대해 소개드립니다. 이 기술은 Transformer 기반의 멀티모달 구조를 사용해, 텍스트와 오디오를 함께 학습하여 문맥, 감정, 대화 흐름을 함께 고려하여 더 사람 같은 말하기가 가능한 기술입니다. CSM: 기존 TTS 모델을 개선한 새로운 대화형 음성 생성 모델⚠️ 전통적 TTS 모델의 한계기존의 TTS(Text-to-Speech) 모델은 문장을 읽는 데는 능숙하지만, 문맥과 감정을 파악하는 데는 한계가 있습니다. 같은 문장도 상황에 따라 다르게 말해야 하지만, 기존 모델은 이 다양성을 반영하지 못했습니다.⚙️ 디지털 음성 비서의 한계.. 2025. 3. 25.

[AI 오픈소스] Audiblez v4: 전자책을 고품질 오디오북으로 변환하는 방법 (TTS) 안녕하세요 앨런입니다.오늘은 전자책을 오디오 북으로 변환하는 도구인 Audiblez v4를 소개해드립니다.Audiblez v4가 신규 버전으로 업데이트 되면서 전자책을 오디오북으로 더욱 자연스럽게 변환할 수 있습니다. 해당 신규 버전은 CUDA 지원, 새로운 GUI, 그리고 다양한 언어를 지원하여 더욱 편리하게 사용할 수 있습니다. 버전 업데이트가 되면서 다양한 언어를 지원하지만 현재 한국어는 지원되지 않습니다.Apache 라이센스로 전차책 (.epub) 을 오디오북(.m4b) 으로 변환하는 어플리케이션에 활용가능해 보입니다.TTS 모델Kokoro-82M은 최근 공개된 텍스트-음성 변환(TTS) 모델로, 단 8,200만 개의 파라미터로 매우 자연스러운 음성을 생성합니다.이 모델은 Apache 라이선스로 .. 2025. 2. 20.

[AI 오픈소스] Zonos-v0.1: 다중 언어 지원의 고품질 텍스트-투-스피치 (TTS) 모델 안녕하세요. 앨런입니다.오늘은 오픈스소로 공개된 멀티 언어를 지원하는 텍스트-투-스피치(TTS) 모델인 Zonos-v0.1을 소개드리려고 합니다. 오픈소스로 공개되어 TTS 를 활용한 다양한 언어 기반의 어플리케이션에 적용이 가능할 것으로 보입니다. Zonos-v0.1Zonos-v0.1은 20만 시간 이상의 다양한 다국어 음성을 학습한 오픈 웨이트 텍스트-투-스피치(TTS) 모델로, 최고의 TTS 제공업체와 동등하거나 그 이상의 표현력과 품질을 제공합니다. 이 모델은 텍스트 프롬프트로부터 자연스러운 음성을 생성할 수 있으며, 몇 초의 참조 클립을 제공하면 음성 클로닝도 정확하게 수행할 수 있습니다. 또한, 말하는 속도, 음조 변화, 오디오 품질, 행복, 두려움, 슬픔, 분노와 같은 감정에 대한 세밀한 제.. 2025. 2. 16.

이전 1 다음

티스토리툴바