토픽 87 / 172·컴퓨터 비전과 NLP

멀티모달 AI

텍스트·이미지·음성·비디오 등 여러 종류의 데이터를 동시에 처리하고 통합하여 이해·생성하는 AI 기술로, 모달리티 간 상호작용을 학습

특징: 다중 모달리티 입력, 크로스모달 정렬, 통합 표현 학습

핵심기술: CLIP(텍스트-이미지매칭: 대조학습 기반 정렬), GPT-4V(텍스트+이미지 이해), Flamingo(Few-shot 멀티모달), DALL-E(텍스트→이미지 생성)

적용사례: 이미지캡셔닝, VQA(시각질의응답), 텍스트→이미지생성, 비디오이해

장점: 풍부한이해, 실세계반영, 강건성

비교: 단일모달AI(텍스트만·제한적이해) vs 멀티모달AI(다중입력·풍부한이해·높은비용)

연관: CLIP, GPT-4, DALL-E, Vision Transformer