토픽 116 / 172·고급 학습 기법

Multimodal LLM

텍스트·이미지·오디오·비디오 등 여러 모달리티를 이해·생성하는 대규모 언어모델

특징: 다중 모달 입출력, 크로스모달 정렬(Alignment), 제로샷 일반화

구성요소: 비전 인코더(ViT/CLIP), 오디오 인코더(Whisper), LLM(GPT/LLaMA), 모달리티 어댑터(Projection/Q-Former)

아키텍처: Fusion(이미지→Projection→LLM 토큰), Q-Former(BLIP-2), Adapter(사전학습 고정/효율)

학습 3단계: 사전학습(이미지-텍스트 쌍/Contrastive Loss) → 지시 튜닝(Visual QA/SFT) → 정렬(RLHF)

대표 모델: GPT-4V(OCR/차트), Gemini(네이티브 멀티모달), LLaVA(오픈소스), BLIP-2(Q-Former), Flamingo(Few-Shot)

태스크: Visual QA, Image Captioning, OCR, 차트 분석, 비디오 요약, 멀티모달 추론

장점: 통합 이해, 실세계 정보 처리, 크로스모달 추론

단점: 학습 비용, 모달리티 불균형, 환각(이미지), 대규모 데이터 필요

적용사례: 의료(CT+리포트), 자율주행, 교육(문제 풀이), 접근성(이미지→음성)

연관: Vision Transformer, CLIP, LLM, Cross-Modal Learning