토픽 116 / 172·고급 학습 기법
Multimodal LLM
Multimodal LLM
텍스트·이미지·오디오·비디오 등 여러 모달리티를 이해·생성하는 대규모 언어모델
특징: 다중 모달 입출력, 크로스모달 정렬(Alignment), 제로샷 일반화
구성요소: 비전 인코더(ViT/CLIP), 오디오 인코더(Whisper), LLM(GPT/LLaMA), 모달리티 어댑터(Projection/Q-Former)
아키텍처: Fusion(이미지→Projection→LLM 토큰), Q-Former(BLIP-2), Adapter(사전학습 고정/효율)
학습 3단계: 사전학습(이미지-텍스트 쌍/Contrastive Loss) → 지시 튜닝(Visual QA/SFT) → 정렬(RLHF)
대표 모델: GPT-4V(OCR/차트), Gemini(네이티브 멀티모달), LLaVA(오픈소스), BLIP-2(Q-Former), Flamingo(Few-Shot)
태스크: Visual QA, Image Captioning, OCR, 차트 분석, 비디오 요약, 멀티모달 추론
장점: 통합 이해, 실세계 정보 처리, 크로스모달 추론
단점: 학습 비용, 모달리티 불균형, 환각(이미지), 대규모 데이터 필요
적용사례: 의료(CT+리포트), 자율주행, 교육(문제 풀이), 접근성(이미지→음성)
연관: Vision Transformer, CLIP, LLM, Cross-Modal Learning