오늘 공부한 내용
02 _ 분류분석
__1. 로지스틱 회귀분석
__2. 의사결정나무
__3. 앙상블분석
공부한 내용 정리
02 분류분석
1. 로지스틱 회귀분석
(1) 로지스틱 회귀분석 개요
① 로지스틱스 회귀분석
- 회귀분석을 분류에 이용한 방법
- 독립변수의 선형결합을 이용해 사건의 발생 가능성을 예측하는 분석 방법으로 종속변수가 범주형 변수일 때 사용 가능하다.
★★★② 로지스틱스 회귀분석의 변수
- 종속변수가 속할 수 있는 집단이 두 개로 이진 분류가 기본, 세 개 이상의 집단을 분류하는 경우 '다중 로지스틱 회귀분석'이라고 한다.
- 독립변수가 연속형이면서 종속변수가 범주형일 때 가능하다. 만약 독립변수가 범주형일 경우에는 그 범주형 독립변수를 더미변수로 변환하면 가능하다.
★★★(2) 로지스틱 회귀분석의 알고리즘
① 오즈(Odds)
- 성공할 확률이 실패할 확률의 몇 배인지 나타내는 값
- 각 범주(집단)에 분류될 확률 값을 정함
② 로짓변환
- 오즈의 단점: 음수를 가질 수 없다, 확률값과 오즈의 그래프는 비대칭성을 띤다.
- 오즈의 한계 극복→로짓변환
- 오즈에 로그값을 취함, 오즈의 범위가 무한대로 확장
- 확률과 로짓값의 그래프는 성공확률 0.5를 기준으로 대칭 형태를 띠게 됨
③ 시그모이드 함수
- 로지스틱 회귀분석과 인공신경망 분석에서 활성화 함수로 활용되는 대표적인 함수 중 하나
- 시그모이드 함수는 로짓 함수와 역함수 관계
(3) 로지스틱 회귀분석 예시
2. 의사결정나무
(1) 의사결정나무 개요
① 의사결정나무: 자료를 학습하여 특정 분리 규칙을 찾아내고, 그에 따라 몇 개의 소집단으로 분류하는 분석 방법
② 의사결정나무 구성요소
- 뿌리마디
- 자식마디
- 부모마디
- 끝마디
- 중간마디
- 가지
- 깊이: 뿌리마디를 제외한 중간마디 수
③ 의사결정나무의 활용
- 세분화
- 분류
- 예측
- 차원 축소 및 변수 선택
- 교호작용
★★★④ 의사결정나무의 특징
장점 | 단점 |
모델이 직관적이고 해설이 용이 | 독립변수들 사이의 중요도를 판단하기 쉽지 않다. |
데이터 정규화 및 단위 변환이 필요하지 않다. | 분류 경계선 근처의 자료에 대해 오차가 크다. |
다른기법에 비해 전처리 작업이 어렵지 않다. | 과적합 발생 가능성이 높다. |
이산형 변수, 연속형 변수 모두에 적용 가능하다. | |
데이터의 선형성, 정규성 등의 가정이 불필요하다. | |
이상값에 민감하지 않다. |
★★★(2) 의사결정나무 분석과정
① 성장
- 성장 단계:
- 분리기준:
- 정지규칙:
의사결정나무 분리 기준
- 종속변수가 범주형일 때 분류트리(카이제곱검정, 지니 지수, 엔트로피 지수)
- 종속변수가 연속형일 때 회귀트리(분산분석에서의 F통계량, 분산의 감소량)
- 지니지수는 불순도를 나타내는 값이므로 낮을수록 좋으며, 반대로 엔트로피 지수는 순수도를 나타내는 값이므로 높을수록 좋다.
② 가지치기
③ 타당성 평가
④ 해석 및 예측
★★★(3) 의사결정나무 예시
3. 앙상블 분석
(1) 앙상블 분석 개요
- 여러 개의 모형을 생성 및 조합하여 예측력이 높은 모형을 만드는 것
★★★(2) 앙상블 분석의 종류
① 배깅:
- 여러 개의 붓스트랩을 집계하는 알고리즘
② 부스팅:
- 배깅은 각 분류기(모델)가 독립적인데 반해, 부스팅은 독립적이지 않다.
- 잘못 분류된 데이터에 더 큰 가중치를 주어 붓스트랩을 구성→약한 모델들을 결합하여 나감으로써 점차적으로 강한 분류기를 만듦
- 에이다부스팅(AdaBoosting), Gradient Boost, XGBoost, Light GBM
③ 랜덤 포레스트
- 서로 상관성 없는 나무들로 이루어진 숲
- 배깅과 유사하나 배깅에 더 많은 무작위성을 주는 분석 방법
- 큰 분산을 갖고 있다는 의사결정나무의 단점을 보완하여 분산을 감소시키고 모든 분류들이 높은 비상관성을 갖기 때문에 일반화의 성능을 향상할 수 있다.
- 의사결정나무의 특징을 물려받아 이상값에 민감하지 않다는 장점도 있다.
☞ Out of Bag(OOB) Score
- 하나의 트리를 구성하기 위한 붓스트랩을 생성할 때 선택되지 않은 데이터를 의미
- Out of Bag Score는 붓스트랩에 의해 구성된 트리를 Out of Bag 데이터로 몇 개가 올바르게 분류되었는지 파악하고 랜덤 포레스트 작업이 종료된 이후 올바르게 분류한 비율을 나타낸 값이다. 즉, 평가용 데이터로 부터 모델을 평가하는 것과는 유사하지만 활용 데이터가 다르다는 것이 특징
2023 이지패스 ADsP 데이터분석 준전문가
2023년 ADsP 시험 합격을 위한 최신 기출문제 완벽 분석! 총 860문항 압도적 문제 수 + 수험서 앱(16회차 기출 및 모의고사 수록) 제공!
- 저자
- 전용문, 박현민
- 출판
- 위키북스
- 출판일
- 2023.01.16
※ 해당 책으로 공부한 내용입니다.