토픽 5 / 172·통계/수학 기초
회귀분석 (Regression Analysis)
회귀분석 (Regression Analysis)
독립변수(X)와 종속변수(Y)의 관계를 수학적 함수로 모델링하여 예측 및 인과관계를 분석하는 통계 기법으로, 최소제곱법(OLS)을 통해 오차를 최소화하는 회귀식을 추정
특징: 예측 가능, 인과관계 분석, 변수 간 관계 정량화, 가정 검증 필요
단순 회귀(Simple Linear Regression)
- •모형: Y = β₀ + β₁X + ε
- •β₁(기울기): X 1단위 증가 시 Y의 변화량
- •β₀(절편): X=0일 때 Y의 기대값
- •추정: 최소제곱법(OLS), Σ(yᵢ - ŷᵢ)² 최소화
다중 회귀(Multiple Linear Regression)
- •모형: Y = β₀ + β₁X₁ + β₂X₂ + ... + βₖXₖ + ε
- •다중공선성(Multicollinearity): 독립변수 간 높은 상관, VIF > 10이면 문제
- •변수 선택: 전진(Forward), 후진(Backward), 단계별(Stepwise)
로지스틱 회귀(Logistic Regression)
- •이진 분류, P(Y=1) = 1/(1+e^-(β₀+β₁X)), 시그모이드 함수
- •오즈비(Odds Ratio): 결과 해석, exp(β)
모형 평가
- •결정계수(R²): 설명력, 0~1, 1에 가까울수록 우수
- •수정된 R²: 변수 수 보정, 다중회귀에서 사용
- •F검정: 모형 전체 유의성
- •t검정: 개별 계수 유의성
- •잔차 분석: 정규성, 등분산, 독립성 확인
가정: 선형성, 독립성, 등분산성, 정규성(잔차)
비교: 단순회귀(X 1개) vs 다중회귀(X 여러 개) vs 로지스틱(분류)
연관: 상관분석, 분산분석, 머신러닝, 예측 모델링