오늘 공부한 내용
03 _ 회귀분석
__1. 회귀분석 개요
__2. 단순선형회귀분석
__3. 다중선형회귀분석
__4. 최적 회귀방정식
__5. 고급 회귀분석
__핵심문제
공부한 내용 정리
회귀분석이란? 하나 이상의 독립변수들이 종속변수에 얼마나 영향을 미치는지 추정하는 통계기법
회귀분석의 종류: 단순회귀, 다중회귀, 다항회귀, 비선형회귀
회귀분석의 가정:
- 선형성
- 독립성
- 등분산성
회귀분석 모형의 적합성
- 회귀분석의 통계적 유의 검증
- 회귀계수의 유의성 검증
- 모형의 설명력
회귀분석 결과의 해석
- intercept: y절편
- Estimate: 기울기, 회귀계수
- std.error: 표준편차
- pr(>|t|): p값
- 회귀 방정식: 회귀계수*변수+y절편
F값과 P값
- 회귀계수의 영향력이 크면 F값도 크다. 두 집단 사이에 유의미한 인과관계가 있다.
- F검정은 두 집단의 분산 차이를 확인할 때 사용
- P값은 F값이 0에서 얼마나 가까운지 확률적으로 측정한 값
- P값이 낮다면 F값이 크다.
- F값과 P값은 서로 반비례
P값 정리
p < 0.05 | |
F값 | F값이 크다=집단 간 분산의 차이가 크다. |
회귀 추세선 | 기울기가 가파르다. =회귀계수가 양(음)으로 크다. |
기각역 | 기각역 안에 있다. =귀무가설 기각 =대립가설 채택 |
독립변수 | 그 독립변수는 종속변수에 영향을 미친다. |
우연히 발생할 확률 | 우연히 발생했다고 보기 어렵다. |
인과관계 | 유의미한 인과관계가 있다. |
모형의 설명력 검정 = 인과관계가 얼마나 강한가?
- 회귀 설명력은 $R^{2}$(결정계수)를 보고 판단한다.
- 회귀계수와 결정계수는 다르다.
- 회귀계수는 추세선의 기울기, 결정계수는 이 추세선을 따라 데이터의 분포가 얼마나 잘 모아져 있는지 나타냄
결정계수 공식
$R^{2}$ = SSR/SST
SSE = Sum of Square Error: 회귀식과 실제값의 차이
SSR = Sum of Regression: 회귀식과 평균값의 차이
SST = Sum of Sqare Total: 편차의 제곱합, (실제 예측값의 차이 + 실제 평균값의 차이)를 제곱한 값
SST = SSE + SSR
다중선형최귀분석
독립변수가 2개 이상, 종속변수가 하나일 때 사용 가능한 회귀 분석
다중공선성
회귀분석에서 독립변수 간에 강한 상관관계가 나타나는 분석
회귀분석의 기본적 가정인 독립성에 위배
다중공선성의 진단
$R^{2}$의 값은 크지만 각 독립변수의 p-value값이 커서 개별인자가 유의하지 않은 경우 다중 공선성을 의심한다.
독립변수 간의 상관계수를 구한다.
분산팽창요인(VIF)를 구해 이 값이 10을 넘는다면, 다중 공선성이 있다고 판단한다.
$VIF= \frac{1}{1- R^{2} } $
다중공선성의 해결법
- 다중공선성의 문제가 발생하는 변수를 제거
- 주성분분석(PCA)을 통해 차원을 축소한다.(데이터를 축소)
- R에서 스크리 산점도를 사용해서 주성분 개수를 선택한다.
- LDA(선형 판별 분석)으로 차원을 축소, LDA는 지도학습으로 데이터의 분포를 학습하여 결정경계를 만들어 데이터를 분류
- t-분포 확률적 임베딩(t-SNE)으로 차원을 축소한다.
- 특이값 분해(SVD)로 차원을 축소, PCA와 유사한 생렬 분해 기법을 사용하지만 PCA와 달리 행과 열의 크기를 다른 어떤 행렬에도 적용가능하다는 이점이 있다.
최적 회귀방정식
종속변수에 유의미한 영향을 미칠것으로 예상되는 독립변수를 선택하는 과정
최적 회귀방정식 도출 과정
- 변수 선택법: 부분집합법, 단계적 변수선택법
- 부분 집합법: 모든 가능한 모델을 고려하여 가장 좋은 모델을 선정, 임베디드 기법(라쏘, 릿지, 엘라스틱 넷)
- 단계적 변수 선택법: 전진선택, 후진제거, 단계선택법, Wrapper(래퍼) 방법: 정확도가 높으나, 과적합, 비용 문제 발생
변수선택에 사용되는 성능지표
벌점화 방식의 AIC, BIC: 벌점이 작을수록 회귀모형이 좋아짐
- AIC: 모델 성능의 지표, MSE에 변수 수만큼 페널티를 주는 지표, 일반적인 모델 선택에 사용
- BIC: AIC의 단점인 표본이 커질 때 부정확하다는 단점 개선, 표본이 커질수록 더 정확한 결과가 나옴, 변수의 개수가 적다면 우선적으로 BIC를 사용
- 멜로우 cp:
- cp값은 최소 자승법으로 추정된 회귀모형의 적합성 판단
- cp값은 수정된 결정계수, AIC와 밀접한 관련이 있다.
- cp값은 모든 변수가 다 포함될 때 p값과 같아진다.
- 좋은 모델은 cp값이 p값보다 작을 때이다.
단계적 변수 선택법
- 전진선택법
모든 독립 변수 가운데 기준 통계치에 가장 큰 영향을 줄 것으로 판단되는 변수부터 하나씩 추가하면서 모형을 선택
- 후진제거법
독립변수를 모두 포함하여 가장 적은 영향을 주는 변수부터 하나씩 제거
- 단계적 방법
전진선택법+후진제거법
고급회귀분석
정규화와 선형회귀
1. 과적합과 과소적합
- 과적합: 모델이 학습데이터를 과하게 학습
- 과소적합: 모델이 너무 단순해서 학습 데이터조차 예측 못하는 경우
2. 정규화 선형회귀:
회귀 분석에서 과적합하게 되면 계수의 크기도 과도하게 증가하는 경향
이를 방지하기 위해 계수의 크기를 제한함=정규화 선형회귀
3. 정규화 선형회귀의 종류:
- 라쏘
L1 규제, 가중치들의 절댓값의 값을 최소화하는 것을 제약조건으로 추가하는 방법
- 릿지
L2 규제, 가중치들의 제곱합을 최소화하는 것을 제약조건으로 추가하는 방법
- 엘라스틱 넷
라쏘 + 릿지
일반화 선형회귀(GLM)
종속변수가 범주형이거나 정규성을 만족하지 못하는 경우, 그 종속변수를 적절한 함수로 지정한 다음 이 함수와 독립변수를 선형 결합하여 회귀분석을 수행
일반화 선형 회귀의 종류:
1. 로지스틱 회귀:
- 종속변수가 범주형 변수인 경우로, 주로 의학 연구에 사용
- 독립 변수에 의해 종속변수의 범주로 분류한다는 측면은 '분류분석' 방법으로 분류
2. 포아송 회귀:
- 종속변수가 특정 시간 동안 발생한 건 수에 대한 도수 자료(Count data)인 경우이면서, 정규분포를 따르지 않거나 등분산성을 만족하지 못하는 경우 포아송 회귀분석이 사용된다.
- 선형회귀모델은 최소제곱법으로 모수를 추정한다면 포아송 회귀모형은 최대 가능도 추정(MLE)을 통해 모수를 추정한다.
더빈-왓슨 검정
- 오차항의 상관관계: 대부분 시계열 분석에서 발생, 자기 상관성(하나의 잔차항의 크기가 이웃하는 잔차항의 크기가 서로 연관)
- 회귀분석에서는 오차항의 연관관계가 없어야 한다.
- 회귀분석에서 오차항의 공분산은 '0'이다.
- 회귀분석에서 자기 상관성이 존재하는지 검정하는 방법이 '더빈-왓슨 검정'이다.
- '더빈-왓슨 검정' 통계량이 2에 가까울수록 오차항의 자기 상관관계가 없다는 의미
- 0에 가깝다면 양의 상관관계가 4에 가깝다면 음의 상관관계가 있다고 판단한다.
- 저자
- 전용문, 박현민
- 출판
- 위키북스
- 출판일
- 2023.01.16
※ 해당 책으로 공부한 내용입니다.