Learning
토픽 62 / 172·생성형 AI와 LLM 활용

World Model / 비디오 생성 AI

World Model / 비디오 생성 AI

물리 세계의 시공간적 인과관계를 학습하여 미래 상태를 예측·생성하는 AI 모델로, 텍스트·이미지에서 시간적 일관성을 갖춘 비디오를 생성

특징: 시공간 일관성(프레임 간 연속성), 물리 법칙 학습(중력·충돌·유체), 텍스트→비디오 생성, 시뮬레이션 활용(자율주행·로봇)

주요 모델

  • Sora(OpenAI): Diffusion Transformer 기반, 최대 1분 비디오, 물리 시뮬레이션 수준
  • Runway Gen-3: 상업화 선도, 실시간 생성, 크리에이티브 도구
  • Kling(Kuaishou): 고품질, 긴 비디오, 물리 시뮬레이션
  • 자율주행 시뮬레이터: GAIA-1, 주행 시나리오 예측
  • 로봇 사전학습: 물리 세계 이해 기반 로봇 행동 계획

핵심 기술: Spatial-Temporal Attention(시공간 어텐션), Video Diffusion(비디오 확산), Latent Video Model(잠재 공간 비디오), 3D-aware Generation(3D 인식 생성)

비교: 이미지 생성(Diffusion/정적/단일프레임) vs 비디오 생성(World Model/동적/시공간일관성) vs 3D 생성(NeRF·3DGS/공간구조/뷰합성)

연관: Diffusion Model, Transformer, 생성형 AI, 자율주행, 로봇공학