토픽 62 / 172·생성형 AI와 LLM 활용

World Model / 비디오 생성 AI

물리 세계의 시공간적 인과관계를 학습하여 미래 상태를 예측·생성하는 AI 모델로, 텍스트·이미지에서 시간적 일관성을 갖춘 비디오를 생성

특징: 시공간 일관성(프레임 간 연속성), 물리 법칙 학습(중력·충돌·유체), 텍스트→비디오 생성, 시뮬레이션 활용(자율주행·로봇)

주요 모델

핵심 기술: Spatial-Temporal Attention(시공간 어텐션), Video Diffusion(비디오 확산), Latent Video Model(잠재 공간 비디오), 3D-aware Generation(3D 인식 생성)

비교: 이미지 생성(Diffusion/정적/단일프레임) vs 비디오 생성(World Model/동적/시공간일관성) vs 3D 생성(NeRF·3DGS/공간구조/뷰합성)

연관: Diffusion Model, Transformer, 생성형 AI, 자율주행, 로봇공학