본문 바로가기
자격증/ADsP

ADsP #8

by 카너먼 2023. 2. 9.

오늘 공부한 내용

03과목 데이터 분석

02 _ 데이터 마트

__1. 데이터 마트의 이해

__2. 데이터 마트 개발을 위한 R 패키지 활용

__핵심문제

03 _ 데이터 탐색

__1. 탐색적 데이터 분석(EDA)

__2. 결측값

__3. 이상값

__핵심문제

 

공부한 내용 정리

 

★데이터 마트: 데이터 웨어 하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 작은 규모의 데이터 웨어 하우스, reshape, sqldf, plyr 사용

데이터 웨어하우스와 데이터 마트

데이터 전처리

-데이터를 정제(Cleaning): 결측치, 이상치 처리

-변수를 처리: 변수 선택, 차원 축소, 파생변수 생성, 변수 변환, 불균형 데이터 처리


 

데이터 마트 개발을 위한 R패키지

rshape

 -melt: 데이터의 특정변수를 기준으로 녹여서 나머지 변수에 대한 세분화된 데이터를 만들 수 있다. 모든 데이터를 표준 형식으로 전환한다.

-cast: melt에 의해 녹은 데이터를 요약을 위해 새롭게 가공

pylr

-apply 함수를 기반으로 데이터를 분리, 결합하는 필수 데이터 처리 기능 제공

sqldf

-sql 문장을 활용하여 R 데이터 프레임을 다루는 것을 가능하게 함

data.table

-특정 주소값을 갖는 인덱스를 생산하여 연산 및 검색을 빠르게 할 수 있게 하는 데이터 구조, 데이터 프레임보다 빠르다.

 

탐색적 데이터 분석(EDA)

-데이터를 시각화하고 의미있는 관계를 찾아내기 위해 데이터의 통계값이나 분포 등을 시각화하고 분석하는 것.

 

결측값

-존재하지 않는 데이터, NA로 표현, 환경에 따라 NULL, 공백, -1 등 다양하게 표현


 

★★결측값 대치 방법

 

단순 대치법

-결측값이 존재하는 데이터를 삭제, 결측값이 많으면 대량의 데이터 손실

-complete, cases

 

평균 확률 대치법

-평균 또는 중앙값으로 결측값을 대치

-비조건부 평균 대치법(평균값으로), 조건부 평균 대치법(회귀분석)

-DMwr2 패키지의 centrallmputation

 

단순 확률 대치법

-평균 대치법에서 추정량 표준 오차의 과소 추정 문제를 보완하고자 고안된 방법

-K-Nearest Neighbor  방법(k 근접 이웃 알고리즘으로 주변 k개의 데이터 중 가장 많은 데이터로 대치)

 

다중 대치법

-여러 번의 대치를 통해 n개의 임의 완전 자료를 만드는 방법

-결측값 대치->분석->결합, 세 단계로 구성 


 

이상값: 다른 데이터와 비교했을 때 극단적으로 크거나 극단적으로 작은값

 

★★★이상값 판단: ESD(표준편차의 3만큼 떨어진 값을 이상값으로 인식, 전체 데이터의 0.3 퍼센트를 이상값으로 구분)

 

4분위 수

-가장 작은 하한 4분위 Q1, 가장 큰 상한 4분위 수 Q3

-4분위의 정상 범위 IQR=Q1~Q3

-4분위 정상 범위에서 1.5범위를 벗어나는 경우 이상치로 판단

 

이상값 판단


 
2023 이지패스 ADsP 데이터분석 준전문가
2023년 ADsP 시험 합격을 위한 최신 기출문제 완벽 분석! 총 860문항 압도적 문제 수 + 수험서 앱(16회차 기출 및 모의고사 수록) 제공!
저자
전용문, 박현민
출판
위키북스
출판일
2023.01.16

※ 해당 책으로 공부한 내용입니다.

'자격증 > ADsP' 카테고리의 다른 글

ADsP #10  (0) 2023.02.11
ADsP #9  (0) 2023.02.10
ADsP #7  (0) 2023.02.08
ADsP #6  (0) 2023.02.07
ADsP #5  (0) 2023.02.06