본문 바로가기
AI 논문

TTT-Video-DiT: Test-Time Training으로 동영상 생성의 한계를 넘다

by 앨런튜링1 2025. 4. 9.
반응형

안녕하세요.

오늘은 딥러닝과 인공지능 분야에서 주목받고 있는 TTT-Video-DiT (논문 제목 : One-Minute Video Generation with Test-Time Training) 에 대해 소개드립니다. 해당 연구는 Test-Time Training(TTT) 기법과 Diffusion Transformer를 결합하여, 기존보다 훨씬 긴 동영상 생성 및 스타일 전환이 가능한 모델을 구축하고자 하는 연구입니다. GitHub에 공개된 이 저장소를 통해 최신 연구 흐름과 실제 구현 방법까지 자세히 살펴보겠습니다. 


TTT-Video-DiT 란? 

TTT-Video-DiT는 텍스트를 기반으로 스타일을 바꾼 동영상을 생성하고, 기존보다 긴 시퀀스를 처리할 수 있도록 설계된 딥러닝 모델입니다. 이 프로젝트는 다음과 같은 주요 목표를 가지고 있습니다:

  • 3초 길이의 사전 학습된 동영상 모델을 기반으로 더 긴 문맥 처리 가능
  • Test-Time Training을 활용하여 추론 중에도 모델 최적화
  • 기존 CogVideoX 5B 모델에 TTT Layer를 추가하여 효율적인 스타일 변환 및 문맥 확장 구현

🧠 Test-Time Training (TTT)이란?

TTT는 사전 훈련된 Diffusion Transformer에 TTT Layer를 추가하여 텍스트 스토리보드에서 1분 비디오를 생성하는 방법을 제시합니다. 테스트 단계에서 학습을 수행하여 Test-Time Training 이라고 부릅니다. 이를 통해 입력 데이터에 더 잘 적응하도록 만들어 성능을 향상시킬 수 있습니다.

💡 Diffusion Transformer 모델이란?

이 모델은 노이즈를 점차 제거해가며 고품질 이미지를 생성하는 Diffusion 모델과 텍스트-비디오 간 관계를 잘 학습할 수 있는 Transformer를 결합한 형태입니다.


TTT-Video-DiT 아키텍처 설명

🔁 3초 세그먼트와 로컬 어텐션 처리

사전 학습된 모델은 기본적으로 3초 길이의 비디오 세그먼트를 생성할 수 있습니다. 이때, 해당 세그먼트와 연관된 텍스트는 Local Attention 메커니즘을 통해 처리됩니다.

🔗 글로벌 문맥 확장을 위한 TTT 레이어

기존 모델의 한계를 극복하기 위해 TTT 레이어를 추가하여 전체 시퀀스를 전역적으로 학습합니다. 전방 및 역방향 시퀀스를 모두 처리한 후, 잔차 연결을 통해 원래 출력에 합칩니다.

🧩 텍스트와 비디오 임베딩의 상호작용

각 비디오 세그먼트는 텍스트와 번갈아가며 구성되어 있으며, 이는 문맥 정보를 강화하는 데 사용됩니다.


반응형

TTT-Video-DiT의 학습 단계 

🧪 모델 전체 Fine-tuning

먼저 사전 학습된 3초 세그먼트 모델에 TTT 레이어를 추가하여 스타일 변환 학습 (Fine-tuning) 을 수행합니다. 모델이 더 긴 컨텍스트를 처리하고 특정 도메인에 적응하도록 학습합니다. 이때는 전체 네트워크 파라미터 (TTT 레이어 포함)를 조정합니다. 

⏩ 점진적 컨텍스트 확장 기법

이후 다음과 같은 순서로 점진적인 길이 확장을 통해 모델을 학습합니다:

  1. 9초
  2. 18초
  3. 30초
  4. 63초

TTT-Video-DiT의 영상 추론 단계 (생성 과정)

1. 테스트 시퀀스 입력

모델은 텍스트 설명이나 storyboard와 같은 입력 시퀀스를 받습니다. 이 입력 시퀀스는 모델이 생성할 비디오의 내용에 대한 정보를 담고 있습니다.

2. TTT 레이어의 Test-Time Training

TTT 레이어는 테스트 단계에서 입력 시퀀스를 처리하면서 동시에 학습을 진행합니다. 이는 새로운 비디오의 특징에 맞춰 히든 스테이트를 조정하여 더 나은 품질의 비디오 생성할수 있도록 합니다. 이 과정에서는 각 입력 토큰에 대해 self-supervised learning을 수행하여 TTT 레이어 내부의 히든 스테이트 (신경망) 을 업데이트합니다. 이 과정에서 TTT 레이어는 입력 시퀀스의 특징을 파악하고, 비디오 생성에 필요한 정보를 추출합니다. 

 

3. 비디오 생성

TTT 레이어를 통해 업데이트된 히든 스테이트를 기반으로 비디오를 생성합니다. Diffusion Transformer와 같은 비디오 생성 모델은 TTT 레이어에서 추출된 정보를 활용하여 각 프레임을 생성하고, 이를 연결하여 최종 비디오를 만들어냅니다.

 

4. 반복적인 과정

위의 과정은 비디오의 각 프레임 또는 짧은 세그먼트마다 반복될 수 있습니다. TTT 레이어는 각 세그먼트를 처리하면서 학습하고, 그 결과를 바탕으로 다음 세그먼트를 생성합니다. 이러한 반복적인 과정을 통해 모델은 비디오 전체에 걸쳐 일관성을 유지하고, 입력 시퀀스에 더욱 잘 부합하는 비디오를 생성할 수 있습니다. 단점은 생성 시간이 오래 걸릴 수 있습니다. 


설치 및 셋업 가이드

🛠 Conda 환경 설정

conda env create -f environment.yaml
conda activate ttt-video

📦 Pip 설치 방법

pip install -e .

 

🧾 TTT-MLP 커널 설치

git submodule update --init --recursive
(cd ttt-tk && python setup.py install)

⚠️ 필수 시스템 요건

  • CUDA Toolkit 12.3 이상
  • GCC 11 이상
  • H100 GPU (TTT-MLP 커널은 H100에서만 지원)

실제 응용 사례

🎥 유튜버 및 크리에이터 사례

짧은 영상을 길게 이어 붙이고, 스타일을 자유롭게 변형하여 콘텐츠 품질 향상

🧾 교육 콘텐츠 자동화

텍스트 기반 영상 자동 생성으로 교육 자료 제작 자동화 가능

🎨 크리에이티브 콘텐츠 제작

스타일 전환 기능을 활용하여 예술적 영상 제작 가능

📈 자동 광고 영상 생성

다양한 문장을 기반으로 브랜드에 맞춘 자동 콘텐츠 생성 가능


결론 및 향후 방향

🔮 미래 가능성

TTT 기법은 점점 더 많은 생성 AI 분야에서 채택될 것으로 예상되며, 특히 동영상 생성의 한계를 넘어서는 데 큰 역할을 할 것입니다.


출처

https://github.com/test-time-training/ttt-video-dit

 

GitHub - test-time-training/ttt-video-dit

Contribute to test-time-training/ttt-video-dit development by creating an account on GitHub.

github.com

 

https://arxiv.org/abs/2504.05298

 

One-Minute Video Generation with Test-Time Training

Transformers today still struggle to generate one-minute videos because self-attention layers are inefficient for long context. Alternatives such as Mamba layers struggle with complex multi-scene stories because their hidden states are less expressive. We

arxiv.org

 

반응형