Learning
토픽 25 / 172·머신러닝 기초

결정트리 / 랜덤포레스트

결정트리 / 랜덤포레스트

결정트리는 트리 구조 규칙 기반 분류·회귀, 랜덤포레스트는 다수 결정트리 앙상블로 성능 향상

결정트리 분할기준: 엔트로피/정보이득(ID3), 정보이득비(C4.5), 지니불순도(CART)

CART vs ID3 vs C4.5: ID3(다분할/연속불가/가지치기없음) vs C4.5(다분할/연속가능/사후가지치기) vs CART(이진분할/분류+회귀/비용복잡도)

가지치기: 사전(max_depth/min_samples) vs 사후(검증 데이터 기반 제거) vs 비용복잡도(α 패널티)

결정트리 장단점: 해석 용이, 비선형 처리, 전처리 최소 / 과적합, 불안정(소변화에 구조변화)

랜덤포레스트: 배깅+무작위 특징 선택, N개 트리 독립학습→투표/평균, 과적합방지, 특징중요도 제공

RF 파라미터: n_estimators(트리수), max_depth(깊이), max_features(특징수)

비교: Decision Tree(단일/해석용이/과적합) vs Random Forest(앙상블/고성능/블랙박스)

적용사례: 신용평가, 고객이탈예측, 의료진단

연관: 앙상블학습, 배깅, 부스팅, XGBoost, 지니불순도