본문 바로가기
자격증/ADsP

ADsP #12

by 카너먼 2023. 2. 14.

오늘 공부한 내용

04 _ 다변량 분석

__1. 다차원 척도법

__2. 주성분분석(PCA)

__핵심문제


공부한 내용 정리

 

다변량 분석

다차원 척도법(MDS):

  • 객체 간의 근접성을 시각화하는 통계분석, 군집분석과 유사하다
  • 다차원 척도법은 데이터를 축소하는 목적
  • 데이터들의 유사성 혹은 비유사성과 같은 데이터들의 정보 속성을 파악하기 위한 수단으로 활용

다차원 척도법의 척도

  • 개체의 실제 거리와 모형에 의해 추정된 거리 사이의 적합도를 측정하기 위해 Stress 척도를 사용한다

$stress= \sqrt{ \frac{\sum(실제거리-추정거리)^{2}}{ \sum실제거리^{2} } }$

  • stress 값은 0~1 사이의 값을 가지며 값이 낮을수록 적합도가 높다고 판단한다. 보통 0.5 이내면 적합도가 좋다고 판단한다.

다차원 척도법의 종류

계량적 MDS 비계량적 MDS
구간척도, 비율척도 서열척도
유클라디안 거리 행렬 서열척도를 거리 속성 값으로 변환
R에서 'cmdscale' 함수 사용 R에서 'isoMDS' 함수 사용

주성분 분석(PCA)

 

1. 주성분 분석이란? 여러개의 변수 중 서로 상관성이 높은 변수들의 선형 결합으로 새로운 변수(주성분)를 만들어 기존 변수를 요약 및 축소하는 방법

 

2. 주성분 분석의 목적

  • 변수를 축소화하여 모형의 설명력을 높임
  • 다중공선성 문제를 해결
  • 군집분석 시 모형의 성능을 높일 수 있음
  • 주성분 분석 시 선형 변환이 필요
  • ex) IoT 센서 데이터 분석 후 스마트 팩토리에 활용

3. 주성분 분석 방법

  • 데이터를 가장 잘 표현하는 직교 상의 데이터 벡터들을 찾아서 데이터를 압축한다. 속성들을 선택하고 조합하여 다른 작은 집합들을 생성한다.
  • 계산이 간단하며 데이터 부족이나 일률적 데이터 혹은 정렬되지 않은 속성을 가진 데이터도 처리할 수 있다는 장점이 있다.

4. scree plot(스크리 산점도)

  • x축을 성분의 개수, y축을 교윳값으로 하는 그래프
  • 일반적으로 교윳값이 1근처로 가는 값을 통해 주성분 분석의 수를 정할 수 있다.
  • 또는 그래프가 수평을 이루기 전 단계를 주성분의 수로 선택할 수 있다.

5. biplot

  • 첫번째 주성분과 두번째 주성분을 축으로 하는 그래프
  • biplot 그래프는 다차원 척도법과 같이 주성분의 결과로 데이터가 얼마나 퍼져 있는지 시각화가 가능하다.

 
2023 이지패스 ADsP 데이터분석 준전문가
2023년 ADsP 시험 합격을 위한 최신 기출문제 완벽 분석! 총 860문항 압도적 문제 수 + 수험서 앱(16회차 기출 및 모의고사 수록) 제공!
저자
전용문, 박현민
출판
위키북스
출판일
2023.01.16

※ 해당 책으로 공부한 내용입니다.

'자격증 > ADsP' 카테고리의 다른 글

ADsP #14  (0) 2023.02.16
ADsP #13  (0) 2023.02.15
ADsP #11  (0) 2023.02.13
ADsP #10  (0) 2023.02.11
ADsP #9  (0) 2023.02.10