오늘 공부한 내용
04 _ 다변량 분석
__1. 다차원 척도법
__2. 주성분분석(PCA)
__핵심문제
공부한 내용 정리
다변량 분석
다차원 척도법(MDS):
- 객체 간의 근접성을 시각화하는 통계분석, 군집분석과 유사하다
- 다차원 척도법은 데이터를 축소하는 목적
- 데이터들의 유사성 혹은 비유사성과 같은 데이터들의 정보 속성을 파악하기 위한 수단으로 활용
다차원 척도법의 척도
- 개체의 실제 거리와 모형에 의해 추정된 거리 사이의 적합도를 측정하기 위해 Stress 척도를 사용한다
$stress= \sqrt{ \frac{\sum(실제거리-추정거리)^{2}}{ \sum실제거리^{2} } }$
- stress 값은 0~1 사이의 값을 가지며 값이 낮을수록 적합도가 높다고 판단한다. 보통 0.5 이내면 적합도가 좋다고 판단한다.
다차원 척도법의 종류
계량적 MDS | 비계량적 MDS |
구간척도, 비율척도 | 서열척도 |
유클라디안 거리 행렬 | 서열척도를 거리 속성 값으로 변환 |
R에서 'cmdscale' 함수 사용 | R에서 'isoMDS' 함수 사용 |
주성분 분석(PCA)
1. 주성분 분석이란? 여러개의 변수 중 서로 상관성이 높은 변수들의 선형 결합으로 새로운 변수(주성분)를 만들어 기존 변수를 요약 및 축소하는 방법
2. 주성분 분석의 목적
- 변수를 축소화하여 모형의 설명력을 높임
- 다중공선성 문제를 해결
- 군집분석 시 모형의 성능을 높일 수 있음
- 주성분 분석 시 선형 변환이 필요
- ex) IoT 센서 데이터 분석 후 스마트 팩토리에 활용
3. 주성분 분석 방법
- 데이터를 가장 잘 표현하는 직교 상의 데이터 벡터들을 찾아서 데이터를 압축한다. 속성들을 선택하고 조합하여 다른 작은 집합들을 생성한다.
- 계산이 간단하며 데이터 부족이나 일률적 데이터 혹은 정렬되지 않은 속성을 가진 데이터도 처리할 수 있다는 장점이 있다.
4. scree plot(스크리 산점도)
- x축을 성분의 개수, y축을 교윳값으로 하는 그래프
- 일반적으로 교윳값이 1근처로 가는 값을 통해 주성분 분석의 수를 정할 수 있다.
- 또는 그래프가 수평을 이루기 전 단계를 주성분의 수로 선택할 수 있다.
5. biplot
- 첫번째 주성분과 두번째 주성분을 축으로 하는 그래프
- biplot 그래프는 다차원 척도법과 같이 주성분의 결과로 데이터가 얼마나 퍼져 있는지 시각화가 가능하다.
2023 이지패스 ADsP 데이터분석 준전문가
2023년 ADsP 시험 합격을 위한 최신 기출문제 완벽 분석! 총 860문항 압도적 문제 수 + 수험서 앱(16회차 기출 및 모의고사 수록) 제공!
- 저자
- 전용문, 박현민
- 출판
- 위키북스
- 출판일
- 2023.01.16
※ 해당 책으로 공부한 내용입니다.