본문 바로가기
자격증/ADsP

ADsP #16

by 카너먼 2023. 2. 20.

오늘 공부한 내용

02 _ 분류분석

__4. 인공신경망 분석

__5. 나이브베이즈 분류

__6. k-NN 알고리즘

__7. 서포트벡터머신

__8. 분류 모형 성과 평가

__핵심문제

 


공부한 내용 정리

4. 인공신경망 분석

(1) 인공신경망 개요: 인간의 뇌를 모방하여 만들어진 학습 및 추론 모형

인공신경망의 분석의 장단점

장점
잡음에 민감하게 반응하지 않는다.
비선형적인 문제를 분석하는데 유용하다.
패턴인식, 분류, 예측 등의 문제에 효과적이다.
스스로 가중치를 학습하므로 다양하고 많은 데이터에 효과적이다.
단점
모형이 복잡할 경우 학습에 오랜 시간이 소요된다.
초기 가중치에 따라 전역해가 아닌 지역 해로 수렴할 수 있다.
추정한 가중치의 신뢰도가 낮다.
결과에 대한 해석이 쉽지 않다.
은닉층의 수와 은닉 노드의 수를 결정하기가 어렵다.

 

(2) 인공신경망의 알고리즘

  1. 활성함수
    1. Step 함수: 기본적인 활성함수, 0 또는 1을 반환하는 이진 함수
    2. Sigmoid 함수: 로지스틱 회귀분석의 확률 값을 구하기 위한 계산식과 유사, 0과 1사이의 값을 반환. 많이 사용되는 활성화 함수
    3. Sign 함수: 기본적인 활성화 함수, -1 또는 1을 반환하는 이진 함수
    4. tahn 함수: 확장된 시 그 몸이 드 함수, 중심값은 0이며, -1과 1사이의 값을 반환
    5. ReLU 함수: 최근 딥러닝에서 가장 많이 사용되는 함수, 입력값과 0 중에서 큰 값을 반환
    6. Softmax 함수: 표준화 지수 함수, 출력값이 다 범주인 경우 사용, 로지스틱 회귀분석과 마찬가지로 각 범주에 속할 확률 값을 반환
  1. 인공신경망의 계층 구조
  2. 인공신경망 학습(역전파 알고리즘): 가중치 값의 결정은 순전파, 오차를 줄이고자 가중치 업데이트는 역전파

(3) 인공신경망 종류

  1. 단층 신경망(단층 퍼셉트론)
  2. 다층 신경망(다층 퍼셉트론): 은닉층의 수가 적으면 복잡한 의사결정 경계를 구축할 수 없고, 은닉층 노드의 수가 너무 많으면 일반화가 어렵다.

다양한 인공신경망 구조

  1. RNN: 순환 신경망 은닉층의 결괏값이 다음 입력 데이터가 입력될 때 자기 자신에게 영향을 주는 신경망, 언어 모델링, 음성 인식에 강점
  2. CNN: 합성곱 신경망, 이미지 분류 강점
  3. YOLO: 이미지 속에서 물체를 탐지하는 알고리즘
  4. GAN: 생산적 적대 신경망, 페이스북의 딥 페이스

5. 나이브 베이즈 분류

(1) 베이즈 이론

  1. 베이즈 이론(베이지안 확률): 베이지란 확률은 주관적으로 확률을 해석, 분석자의 사전 지식(이미 알려진 사실 혹은 분석자의 주관)까지 포함해 분석하는 방법, 주장 혹은 믿음의 신뢰도. '두 확률변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리'

(2) 나이브 베이즈 분류

  1. 나이브 베이즈 개념: 베이즈 정리를 기반으로 한 지도학습, 스팸메일 필터링, 텍스트 분류
  2. 나이브 베이즈 알고리즘:
  3. 이진 분류 데이터가 주어졌을 때 베이즈 이론을 통해 범주 a, b가 될 확률을 구하고, 더 큰 확률 값이 나오는 범주에 데이터를 할당

6. k-NN 알고리즘

k-NN 알고리즘의 개요: 지도학습 분류 분석, 군집의 특성도 가짐. 준-지도학습

k-NN 알고리즘 원리:

  • 정답 라벨이 없는 새로운 데이터를 받았을 때 그 데이터로부터 가장 가까이에 있는 데이터의 정답 라벨을 확인하여 새로운 데이터의 정답 라벨을 결정
  • 최적의 k 값을 찾기 위해 총 데이터의 제곱근 값을 이용한다.
  • 모든 계산이 분류될 때까지 연기되는 인스턴스 기반 학습, '게으른 학습'
  • 가장 간단한 기계학습 알고리즘

7. 서포트 벡터 머신(SVM)

서포트 벡터 머신 알고리즘:

지도학습, 분류 성능이 뛰어남

  • 초평면을 이용하여 카테고리를 나눈 뒤, 빈 확률적 이진 선형모델을 만든다.
  • 분류할 때 가장 높은 마진을 가져가는 방향으로 분류한다.
  • 분류 또는 회귀분석에 사용 가능한 초평면 또는 초평 면들의 집합으로 구성되어 있다.
  • 초평면이 가장 가까운 데이터와 큰 차이를 가진다면 오차가 작아지기 때문에
  • 좋은 분류를 위해서는 어떤 분류된 점에 대해서 가장 가까운 학습 데이터와 가장 먼 거리를 가지는 초평면을 찾아야 한다.

초평면 f(x)

$wTx+b=0$wTx+b=0​

8. 분류 모형 성과 평가

(1) 성과 평가 개요

(2) 오분류표와 평가 지표

= 교차표, 혼동 행렬

오분류표 & 평가지표

예측 집단
합계
Positive
1(True)
Negative
0(False)
실제 집단
Positive
1(True)
TP
(Correct)
FN
(Incorrect)
민감도(재현율)
Negative
0(False)
FP
(Incorrect)
TN
(Correct)
특이도
오분류율
정밀도
정밀도
정분류율(정확도)

정분류율=정확도: 전체 관측치 중 올바르게 예측한 비율

$\frac{TP+TN}{TP+FN+FP+TN}$TP+TNTP+FN+FP+TN​​

오 분류율: 전체 관측치 중 잘못 예측한 비율

$\frac{FN+FP}{TP+FN+FP+TN}$FN+FPTP+FN+FP+TN​​

민감도(재현율): TPR 

실제 True 중 올바르게 True를 찾아낸 비율. 

민감도와 동일한 지표로 모형의 안정성을 평가하는 지표

$\frac{TP}{TP+FN}$TPTP+FN​​

특이도: 실제 False 중 올바르게 False를 찾아낸 비율

$\frac{TN}{FP+TN}$TNFP+TN​​

정밀도: 예측 True 중 올바르게 True를 찾아낸 비율

$\frac{TP}{TP+FP}$TPTP+FP​​

F1 Score: 

정밀도와 재현율의 조화 평균값. 

정밀도의 재현율은 높은 확률로 높은 음의 상관관계를 가질 수 있는 효과를 보정하기 위한 지표. 

높을수록 좋다.

$\frac{2\times \normal{0}{\Pr esicsion\times }Recall}{\normal{0}{\Pr esicsion\times }Recall}$2×Presicsion×RecallPresicsion×Recall​​

거짓 긍정률(FPR: False Positive Rate): 실제 Negative인 값 중 Positive로 잘못 분류한 비율

$1-\frac{TN}{FP+TN}=\frac{FP}{FP+TN}$1−TNFP+TN​=FPFP+TN
​​

(3) ROC 커브

  • 분류 분석 모형의 평가를 쉽게 비교할 수 있도록 시각화한 그래프
  • x축은 FPR(1-특이도), y 축은 TPR(민감도)
  • 이진 분류(0 또는 1) 모형의 성능 평가
  • ROC 커브의 아래 면적(AUROC) 값이 1에 가까울수록 모형의 성능이 우수
  • 0.5에 가까울수록 무작위로 예측하는 랜덤 모델

(4) 이익도표(Lift Chart)

 

  • 이득 곡선(Gain Curve), 이득 도표(Gain Chart)
  • 모델의 성능을 판단하기 위해 작성한 표
  • 목표 범주에 속할 확률을 내림차순으로 정렬하여 몇 개의 구간으로 나눔
  • 각 구간에서의 성능을 판단
  • 랜덤 모델보다 얼마나 더 뛰어난 성능을 보이는지 판단
  • 일반적으로 0.5에서 cut-off, 1.0이 가장 높은 기준

랜덤 모델의 예측력 = (목표 범주 그룹 1에 속한 데이터 개수)/(전체 데이터 개수)

향상도 = (반응률)/(랜덤 모델의 예측력)

(5) 향상도 곡선(Lift Curve)

랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지 구간별로 파악하기 위한 그래프

좋은 모델일수록 큰 값에서 시작하여 급격히 감소

향상도 = (반응률)/(랜덤 모델의 예측력)


 

 
2023 이지패스 ADsP 데이터분석 준전문가
2023년 ADsP 시험 합격을 위한 최신 기출문제 완벽 분석! 총 860문항 압도적 문제 수 + 수험서 앱(16회차 기출 및 모의고사 수록) 제공! ◎ 빠르고 효율적인 공부를 위한 ADsP 수험서 방대한 데이터 분석 콘텐츠를 ADsP 출제 경향에 맞게 컴팩트하게 정리하여 시간에 쫓기는 수험생들에게 최대한 공부 효율을 높일 수 있도록 구성했습니다. ◎ 초심자, 비전공자들을 위해 이해하기 쉽게 풀어 쓴 ADsP 수험서 데이터 분석을 처음 접하는 초심자나 비전공자들이 이해하기 쉽도록 용어와 문장을 다듬었습니다. 아울러 초심자 비전공자를 위한 ‘EASY BOX’, 출제 경향과 중요도를 안내하는 ‘TIP-BOX’, 풍부한 설명을 담은 ‘참고-BOX’와 그래프, 표 등을 활용하여 이해하기 쉽도록 구성했습니다. ◎ 풍부한 R 실습 예제로 충분히 이해할 수 있도록 구성 R을 활용한 분석 실습 예제로 실제 적용 과정을 이해할 수 있어, 무작정 외우는 공부가 아닌 이해하는 공부가 될 수 있도록 구성했습니다. ◎ 총 860문항에 달하는 압도적인 문제편 각 절마다 등장하는 핵심문제, 기출 유형 문제, 예상문제, 주관식문제, 모의고사 3회분, 기출 변형 문제 3회분 등 총 860문항에 달하는 방대한 문제를 수록하여 문제를 통한 반복 훈련에 부족함이 없도록 구성했습니다. ◎ 핵심 서브노트 주관식 110제 전 과목 공부를 마치면, 하루 안에 중요한 핵심 개념들을 총정리할 수 있는 ‘핵심 서브노트 주관식 110제’를 제공합니다. 시험을 보기 1~2일 전 핵심 서브노트로 활용한다면 효과가 극대화될 것입니다. ◎ 자투리 시간 활용을 위한 수험용 앱 제공 자투리 시간을 활용해 틈틈이 학습할 수 있는 수험용 앱을 제공합니다. 수험용 앱에서는 총 16회차의 모의고사 및 기출문제를 수록하고 있으며, 자동으로 채점해주는 기능과 오답노트 기능이 있어 효율적으로 학습할 수 있습니다. ◎ 독자의 궁금증을 해결해주는 Q&A 커뮤니티 운영 저자가 직접 답변해주는 Q&A 게시판과 온라인 스터디가 진행되는 커뮤티니를 운영합니다. 궁금한 점을 해결하고, 책에 수록되지 않은 정보와 최신 자료를 얻을 수 있습니다. ★ 이 책에서 다루는 내용 ★ ◎ 1과목 〈데이터의 이해〉 - 데이터 이해, 데이터의 가치와 미래 ◎ 2과목 〈데이터 분석 기획〉 - 데이터 분석 기획의 이해, 분석 마스터플랜 ◎ 3과목 〈데이터 분석〉 - R 기초와 데이터 마트, 통계 분석, 정형 데이터 마이닝
저자
전용문, 박현민
출판
위키북스
출판일
2023.01.16

해당 책으로 공부한 내용입니다.

'자격증 > ADsP' 카테고리의 다른 글

ADsP #18  (0) 2023.02.23
ADsP #17  (0) 2023.02.21
ADsP #15  (0) 2023.02.17
ADsP #14  (0) 2023.02.16
ADsP #13  (0) 2023.02.15