토픽 62 / 172·생성형 AI와 LLM 활용
World Model / 비디오 생성 AI
World Model / 비디오 생성 AI
물리 세계의 시공간적 인과관계를 학습하여 미래 상태를 예측·생성하는 AI 모델로, 텍스트·이미지에서 시간적 일관성을 갖춘 비디오를 생성
특징: 시공간 일관성(프레임 간 연속성), 물리 법칙 학습(중력·충돌·유체), 텍스트→비디오 생성, 시뮬레이션 활용(자율주행·로봇)
주요 모델
- •Sora(OpenAI): Diffusion Transformer 기반, 최대 1분 비디오, 물리 시뮬레이션 수준
- •Runway Gen-3: 상업화 선도, 실시간 생성, 크리에이티브 도구
- •Kling(Kuaishou): 고품질, 긴 비디오, 물리 시뮬레이션
- •자율주행 시뮬레이터: GAIA-1, 주행 시나리오 예측
- •로봇 사전학습: 물리 세계 이해 기반 로봇 행동 계획
핵심 기술: Spatial-Temporal Attention(시공간 어텐션), Video Diffusion(비디오 확산), Latent Video Model(잠재 공간 비디오), 3D-aware Generation(3D 인식 생성)
비교: 이미지 생성(Diffusion/정적/단일프레임) vs 비디오 생성(World Model/동적/시공간일관성) vs 3D 생성(NeRF·3DGS/공간구조/뷰합성)
연관: Diffusion Model, Transformer, 생성형 AI, 자율주행, 로봇공학