오늘 공부한 내용
03과목 데이터 분석
02 _ 데이터 마트
__1. 데이터 마트의 이해
__2. 데이터 마트 개발을 위한 R 패키지 활용
__핵심문제
03 _ 데이터 탐색
__1. 탐색적 데이터 분석(EDA)
__2. 결측값
__3. 이상값
__핵심문제
공부한 내용 정리
★데이터 마트: 데이터 웨어 하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 작은 규모의 데이터 웨어 하우스, reshape, sqldf, plyr 사용
데이터 전처리
-데이터를 정제(Cleaning): 결측치, 이상치 처리
-변수를 처리: 변수 선택, 차원 축소, 파생변수 생성, 변수 변환, 불균형 데이터 처리
데이터 마트 개발을 위한 R패키지
rshape
-melt: 데이터의 특정변수를 기준으로 녹여서 나머지 변수에 대한 세분화된 데이터를 만들 수 있다. 모든 데이터를 표준 형식으로 전환한다.
-cast: melt에 의해 녹은 데이터를 요약을 위해 새롭게 가공
pylr
-apply 함수를 기반으로 데이터를 분리, 결합하는 필수 데이터 처리 기능 제공
sqldf
-sql 문장을 활용하여 R 데이터 프레임을 다루는 것을 가능하게 함
data.table
-특정 주소값을 갖는 인덱스를 생산하여 연산 및 검색을 빠르게 할 수 있게 하는 데이터 구조, 데이터 프레임보다 빠르다.
탐색적 데이터 분석(EDA)
-데이터를 시각화하고 의미있는 관계를 찾아내기 위해 데이터의 통계값이나 분포 등을 시각화하고 분석하는 것.
결측값
-존재하지 않는 데이터, NA로 표현, 환경에 따라 NULL, 공백, -1 등 다양하게 표현
★★결측값 대치 방법
단순 대치법
-결측값이 존재하는 데이터를 삭제, 결측값이 많으면 대량의 데이터 손실
-complete, cases
평균 확률 대치법
-평균 또는 중앙값으로 결측값을 대치
-비조건부 평균 대치법(평균값으로), 조건부 평균 대치법(회귀분석)
-DMwr2 패키지의 centrallmputation
단순 확률 대치법
-평균 대치법에서 추정량 표준 오차의 과소 추정 문제를 보완하고자 고안된 방법
-K-Nearest Neighbor 방법(k 근접 이웃 알고리즘으로 주변 k개의 데이터 중 가장 많은 데이터로 대치)
다중 대치법
-여러 번의 대치를 통해 n개의 임의 완전 자료를 만드는 방법
-결측값 대치->분석->결합, 세 단계로 구성
이상값: 다른 데이터와 비교했을 때 극단적으로 크거나 극단적으로 작은값
★★★이상값 판단: ESD(표준편차의 3만큼 떨어진 값을 이상값으로 인식, 전체 데이터의 0.3 퍼센트를 이상값으로 구분)
4분위 수:
-가장 작은 하한 4분위 Q1, 가장 큰 상한 4분위 수 Q3
-4분위의 정상 범위 IQR=Q1~Q3
-4분위 정상 범위에서 1.5범위를 벗어나는 경우 이상치로 판단
- 저자
- 전용문, 박현민
- 출판
- 위키북스
- 출판일
- 2023.01.16
※ 해당 책으로 공부한 내용입니다.