오늘 공부한 내용
02 _ 분류분석
__4. 인공신경망 분석
__5. 나이브베이즈 분류
__6. k-NN 알고리즘
__7. 서포트벡터머신
__8. 분류 모형 성과 평가
__핵심문제
공부한 내용 정리
4. 인공신경망 분석
(1) 인공신경망 개요: 인간의 뇌를 모방하여 만들어진 학습 및 추론 모형
인공신경망의 분석의 장단점
장점
|
잡음에 민감하게 반응하지 않는다.
비선형적인 문제를 분석하는데 유용하다.
패턴인식, 분류, 예측 등의 문제에 효과적이다.
스스로 가중치를 학습하므로 다양하고 많은 데이터에 효과적이다.
|
|
단점
|
모형이 복잡할 경우 학습에 오랜 시간이 소요된다.
초기 가중치에 따라 전역해가 아닌 지역 해로 수렴할 수 있다.
추정한 가중치의 신뢰도가 낮다.
결과에 대한 해석이 쉽지 않다.
은닉층의 수와 은닉 노드의 수를 결정하기가 어렵다.
|
(2) 인공신경망의 알고리즘
- 활성함수
- Step 함수: 기본적인 활성함수, 0 또는 1을 반환하는 이진 함수
- Sigmoid 함수: 로지스틱 회귀분석의 확률 값을 구하기 위한 계산식과 유사, 0과 1사이의 값을 반환. 많이 사용되는 활성화 함수
- Sign 함수: 기본적인 활성화 함수, -1 또는 1을 반환하는 이진 함수
- tahn 함수: 확장된 시 그 몸이 드 함수, 중심값은 0이며, -1과 1사이의 값을 반환
- ReLU 함수: 최근 딥러닝에서 가장 많이 사용되는 함수, 입력값과 0 중에서 큰 값을 반환
- Softmax 함수: 표준화 지수 함수, 출력값이 다 범주인 경우 사용, 로지스틱 회귀분석과 마찬가지로 각 범주에 속할 확률 값을 반환
- 인공신경망의 계층 구조
- 인공신경망 학습(역전파 알고리즘): 가중치 값의 결정은 순전파, 오차를 줄이고자 가중치 업데이트는 역전파
(3) 인공신경망 종류
- 단층 신경망(단층 퍼셉트론)
- 다층 신경망(다층 퍼셉트론): 은닉층의 수가 적으면 복잡한 의사결정 경계를 구축할 수 없고, 은닉층 노드의 수가 너무 많으면 일반화가 어렵다.
다양한 인공신경망 구조
- RNN: 순환 신경망 은닉층의 결괏값이 다음 입력 데이터가 입력될 때 자기 자신에게 영향을 주는 신경망, 언어 모델링, 음성 인식에 강점
- CNN: 합성곱 신경망, 이미지 분류 강점
- YOLO: 이미지 속에서 물체를 탐지하는 알고리즘
- GAN: 생산적 적대 신경망, 페이스북의 딥 페이스
5. 나이브 베이즈 분류
(1) 베이즈 이론
- 베이즈 이론(베이지안 확률): 베이지란 확률은 주관적으로 확률을 해석, 분석자의 사전 지식(이미 알려진 사실 혹은 분석자의 주관)까지 포함해 분석하는 방법, 주장 혹은 믿음의 신뢰도. '두 확률변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리'
(2) 나이브 베이즈 분류
- 나이브 베이즈 개념: 베이즈 정리를 기반으로 한 지도학습, 스팸메일 필터링, 텍스트 분류
- 나이브 베이즈 알고리즘:
- 이진 분류 데이터가 주어졌을 때 베이즈 이론을 통해 범주 a, b가 될 확률을 구하고, 더 큰 확률 값이 나오는 범주에 데이터를 할당
6. k-NN 알고리즘
k-NN 알고리즘의 개요: 지도학습 분류 분석, 군집의 특성도 가짐. 준-지도학습
k-NN 알고리즘 원리:
- 정답 라벨이 없는 새로운 데이터를 받았을 때 그 데이터로부터 가장 가까이에 있는 데이터의 정답 라벨을 확인하여 새로운 데이터의 정답 라벨을 결정
- 최적의 k 값을 찾기 위해 총 데이터의 제곱근 값을 이용한다.
- 모든 계산이 분류될 때까지 연기되는 인스턴스 기반 학습, '게으른 학습'
- 가장 간단한 기계학습 알고리즘
7. 서포트 벡터 머신(SVM)
서포트 벡터 머신 알고리즘:
지도학습, 분류 성능이 뛰어남
- 초평면을 이용하여 카테고리를 나눈 뒤, 빈 확률적 이진 선형모델을 만든다.
- 분류할 때 가장 높은 마진을 가져가는 방향으로 분류한다.
- 분류 또는 회귀분석에 사용 가능한 초평면 또는 초평 면들의 집합으로 구성되어 있다.
- 초평면이 가장 가까운 데이터와 큰 차이를 가진다면 오차가 작아지기 때문에
- 좋은 분류를 위해서는 어떤 분류된 점에 대해서 가장 가까운 학습 데이터와 가장 먼 거리를 가지는 초평면을 찾아야 한다.
초평면 f(x)
8. 분류 모형 성과 평가
(1) 성과 평가 개요
(2) 오분류표와 평가 지표
= 교차표, 혼동 행렬
오분류표 & 평가지표
|
예측 집단
|
합계
|
||
|
Positive
1(True)
|
Negative
0(False)
|
||
실제 집단
|
Positive
1(True)
|
TP
(Correct)
|
FN
(Incorrect)
|
민감도(재현율)
|
Negative
0(False)
|
FP
(Incorrect)
|
TN
(Correct)
|
특이도
|
|
오분류율
|
정밀도
|
정밀도
|
정분류율(정확도)
|
정분류율=정확도: 전체 관측치 중 올바르게 예측한 비율
오 분류율: 전체 관측치 중 잘못 예측한 비율
민감도(재현율): TPR
실제 True 중 올바르게 True를 찾아낸 비율.
민감도와 동일한 지표로 모형의 안정성을 평가하는 지표
특이도: 실제 False 중 올바르게 False를 찾아낸 비율
정밀도: 예측 True 중 올바르게 True를 찾아낸 비율
F1 Score:
정밀도와 재현율의 조화 평균값.
정밀도의 재현율은 높은 확률로 높은 음의 상관관계를 가질 수 있는 효과를 보정하기 위한 지표.
높을수록 좋다.
거짓 긍정률(FPR: False Positive Rate): 실제 Negative인 값 중 Positive로 잘못 분류한 비율
(3) ROC 커브
- 분류 분석 모형의 평가를 쉽게 비교할 수 있도록 시각화한 그래프
- x축은 FPR(1-특이도), y 축은 TPR(민감도)
- 이진 분류(0 또는 1) 모형의 성능 평가
- ROC 커브의 아래 면적(AUROC) 값이 1에 가까울수록 모형의 성능이 우수
- 0.5에 가까울수록 무작위로 예측하는 랜덤 모델
(4) 이익도표(Lift Chart)
- 이득 곡선(Gain Curve), 이득 도표(Gain Chart)
- 모델의 성능을 판단하기 위해 작성한 표
- 목표 범주에 속할 확률을 내림차순으로 정렬하여 몇 개의 구간으로 나눔
- 각 구간에서의 성능을 판단
- 랜덤 모델보다 얼마나 더 뛰어난 성능을 보이는지 판단
- 일반적으로 0.5에서 cut-off, 1.0이 가장 높은 기준
랜덤 모델의 예측력 = (목표 범주 그룹 1에 속한 데이터 개수)/(전체 데이터 개수)
향상도 = (반응률)/(랜덤 모델의 예측력)
(5) 향상도 곡선(Lift Curve)
랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지 구간별로 파악하기 위한 그래프
좋은 모델일수록 큰 값에서 시작하여 급격히 감소
향상도 = (반응률)/(랜덤 모델의 예측력)
- 저자
- 전용문, 박현민
- 출판
- 위키북스
- 출판일
- 2023.01.16
해당 책으로 공부한 내용입니다.