안녕하세요.
오늘은 인간처럼 자연스러운 대화를 실현하기 위한 음성 인공지능 기술, Sesame에서 개발한 CSM(Conversational Speech Model)에 대해 소개드립니다. 이 기술은 Transformer 기반의 멀티모달 구조를 사용해, 텍스트와 오디오를 함께 학습하여 문맥, 감정, 대화 흐름을 함께 고려하여 더 사람 같은 말하기가 가능한 기술입니다.

CSM: 기존 TTS 모델을 개선한 새로운 대화형 음성 생성 모델
⚠️ 전통적 TTS 모델의 한계
기존의 TTS(Text-to-Speech) 모델은 문장을 읽는 데는 능숙하지만, 문맥과 감정을 파악하는 데는 한계가 있습니다. 같은 문장도 상황에 따라 다르게 말해야 하지만, 기존 모델은 이 다양성을 반영하지 못했습니다.
⚙️ 디지털 음성 비서의 한계
오늘날의 AI 음성 비서는 정보 제공이나 간단한 명령 수행에는 유용하지만, 감정이나 맥락을 이해하는 능력이 부족합니다. 이로 인해 장기적인 사용에는 피로감이 쌓이고, 사용자와의 정서적 연결이 약해지는 문제가 발생합니다.
🚀 한계를 극복하기 위한 CSM의 구조
CSM(Conversational Speech Model)은 Transformer 기반의 멀티모달 구조를 사용해, 텍스트와 오디오를 함께 학습합니다. 이를 통해 문맥, 감정, 대화 흐름을 함께 고려하여 더 사람 같은 말하기가 가능합니다.
CSM 모델 구성 및 학습 전략

🧩 멀티모달 아키텍처: 백본과 오디오 디코더
CSM은 텍스트와 오디오 토큰을 동시에 입력으로 받아 처리하는 백본(Backbone)과, 오디오의 세부 요소를 복원하는 디코더(Decoder)로 구성됩니다. 이 구조는 낮은 지연 시간과 높은 음성 품질을 동시에 달성합니다.
⚡ 자동회귀 생성과 저지연 설계
AI가 한 단어씩 순차적으로 말하는 자동회귀 구조를 통해 자연스럽고 맥락 있는 발화를 생성합니다. 디코더는 백본보다 작아 빠르게 작동하면서도 고품질 음성을 출력합니다.
🧠 학습 최적화: Compute Amortization
모델이 학습할 때 발생하는 메모리 부담을 줄이기 위해, CSM은 일부 프레임만 선택적으로 학습하는 전략을 사용합니다. 이 방식은 학습 효율성을 높이면서도 음성 품질을 유지하는 데 성공했습니다.
📊 데이터셋 규모 및 모델 크기 (Tiny ~ Medium)
Sesame은 약 100만 시간 분량의 공개 음성 데이터를 기반으로 다양한 크기의 모델을 학습시켰습니다. 모델 크기는 Tiny(1B)부터 Medium(8B)까지 존재하며, 모델이 클수록 성능도 향상됩니다.
RVQ 기반 음성 생성의 기술적 원리
📦 RVQ(Residual Vector Quantization)란 무엇인가요?
RVQ는 음성 데이터를 압축하고 표현하는 데 사용되는 기술로, 복잡한 소리 정보를 여러 단계로 나누어 효율적으로 표현할 수 있도록 도와줍니다. 복잡한 음성 파형을 그대로 처리하기에는 AI가 처리해야 할 정보량이 너무 많습니다. 그래서 이 파형을 수많은 숫자들의 벡터(예: 음의 높낮이, 소리의 질감 등)로 바꾸고, 이 벡터를 ‘단계별로 요약’해서 저장하는 방식이 바로 RVQ입니다. RVQ는 다음과 같은 방식으로 작동합니다:
- 먼저, 전체 소리를 요약한 첫 번째 "대표 벡터"를 선택합니다.
- 그 대표 벡터와 실제 음성 데이터 사이의 차이를 계산합니다(이걸 잔차(Residual)라고 부릅니다).
- 그 잔차를 다시 대표 벡터로 요약합니다. 그리고 또 잔차를 계산합니다.
- 이 과정을 여러 단계에 걸쳐 반복하면서, 점점 더 세밀하게 원래 음성을 재현할 수 있게 됩니다.
이러한 다단계 압축 방식은 일반적인 벡터 양자화보다 훨씬 정교하며, 사람의 말소리처럼 자연스럽고 복잡한 소리를 잘 표현할 수 있습니다. CSM 모델은 이 RVQ 방식을 기반으로 음성의 자연스러움과 정밀함을 유지하면서도 빠르게 생성할 수 있도록 설계되었습니다. 또한, 여러 단계로 나뉘어 처리되기 때문에 실시간 대화에서도 낮은 지연(latency)으로 반응할 수 있습니다.
🎙️ 의미 토큰 vs. 음향 토큰
CSM은 두 가지 종류의 오디오 토큰을 사용합니다. 의미 토큰은 말의 의미와 문맥을 표현하고, 음향 토큰은 말투와 소리의 세부 요소를 담아냅니다. 이 두 가지를 조합함으로써 고품질의 음성 합성이 가능해집니다.
⏳ 지연 생성 방식의 문제와 해결
기존 모델은 음성을 생성하는 데 시간이 오래 걸리는 문제가 있었지만, CSM은 다단계 예측 방식을 도입해 응답 지연을 최소화했습니다. 이는 실시간 대화에 매우 중요한 요소입니다.
CSM의 성능 평가
📉 단어 오류율(WER) 및 발음 일관성 (객관적 평가)

객관적 평가는 단어 오류율(WER)과 발음 일관성을 기준으로 진행되었습니다. Sesame의 모델은 기존 음성 모델보다 더욱 정밀하고 일관된 발음을 구현했습니다.
🧏 청취자 평가 기반 CMOS 분석 (주관적 평가)

사람들이 직접 듣고 평가하는 CMOS(Comparative Mean Opinion Score) 분석에서는 인간 음성과 CSM 생성 음성 사이에서 큰 차이를 느끼지 못했다는 결과도 있었습니다. 특히 문맥이 주어지지 않은 경우 사람과 거의 구별되지 않을 정도로 자연스러웠습니다.
CSM의 한계점과 향후 방향
🧓 문맥 있을 때: 인간이 여전히 우위
대화의 흐름, 감정, 정서까지 포함한 문맥이 주어질 경우, 아직은 인간의 발화가 더 자연스럽고 적절하다는 평가도 존재합니다. 이는 앞으로 해결해야 할 중요한 과제입니다.
🌍 다국어 기능 부족
현재는 주로 영어 데이터 기반으로 학습되어 있어, 다국어 처리 능력은 제한적입니다. 향후 20개 이상의 언어로 확장할 계획이 있으며, 보다 다양한 사용자와의 소통을 가능하게 할 예정입니다.
🛠️ 프리트레인 언어모델 활용 계획
현재는 프리트레인 언어 모델의 내부 지식을 충분히 활용하지 못하고 있으나, 앞으로는 이를 결합한 대형 멀티모달 모델로의 확장을 계획 중입니다.
결론: 인간다운 음성을 향한 여정
🌈 기술과 감성의 접점
CSM은 단순한 음성 생성이 아닌, 인간처럼 느껴지는 음성을 만들기 위한 여정을 보여줍니다. AI와 사람이 더 깊이 소통하기 위한 토대를 마련하게 되었습니다.
출처
https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
Crossing the uncanny valley of conversational voice
At Sesame, our goal is to achieve “voice presence”—the magical quality that makes spoken interactions feel real, understood, and valued.
www.sesame.com
https://github.com/SesameAILabs/csm?tab=readme-ov-file
GitHub - SesameAILabs/csm: A Conversational Speech Generation Model
A Conversational Speech Generation Model. Contribute to SesameAILabs/csm development by creating an account on GitHub.
github.com
'AI 오픈소스' 카테고리의 다른 글
DeepSeek-V3-0324 – 오픈소스 LLM의 새로운 기준 (0) | 2025.03.25 |
---|---|
Qwen2.5-VL-32B : 경량화된 멀티모달 AI 소개 (1) | 2025.03.25 |
Orpheus TTS (Text-To-Speech) : 인간 수준 음성 합성 모델 소개 (0) | 2025.03.24 |
텐센트 Hunyuan-T1: Mamba 기반 초대형 AI 추론 모델 (0) | 2025.03.23 |
Unity MCP로 LLM을 연결하여 개발 생산성 높이기 (0) | 2025.03.23 |