Learning
토픽 188 / 201·학습 패러다임과 특수 모델

Model Collapse (모델 붕괴)

Model Collapse (모델 붕괴)

AI가 생성한 합성 데이터로 반복 학습 시 출력 다양성이 감소하고 품질이 급격히 저하되는 현상

특징

  • 분포 축소: 세대 반복할수록 tail(저빈도) 분포 소실
  • 2024 Nature 논문: "AI models collapse when trained on recursively generated data" 공식 명명
  • LLM/이미지 생성 모두 해당: 텍스트, 이미지 등 생성 모델 공통 문제
  • 웹 데이터 오염: AI 생성 콘텐츠가 웹에 축적되며 학습 데이터 품질 저하

동작원리

비교: Model Collapse(합성 데이터 반복/분포 축소) vs Catastrophic Forgetting(새 태스크 시 이전 지식 손실) vs Mode Collapse(GAN 다양성 감소)

적용사례: LLM 웹 데이터 오염(AI 생성 텍스트 축적), 이미지 생성 모델(합성 이미지 재학습), 데이터셋 큐레이션(합성 데이터 비율 관리)

연관: 합성 데이터, LLM 학습, 데이터 품질, Catastrophic Forgetting, 데이터 큐레이션