오늘 공부한 내용
03과목 데이터 분석
▣ 01장: R 기초와 데이터 마트
01 _ R 기초
__1. R 설치 및 기본 사용법
__2. R 기본 문법
__핵심문제
공부한 내용 정리
R 데이터구조★
백터
- 타입이 같은 여러 데이터를 하나의 행으로 저장(1차원)
- 'c'를 써서 묶을 수 있다.
행렬
- 2차원 구조를 가진 백터
- 벡터의 성질을 가지고 있으므로 행렬에 저장된 데이터는 모두 같은 데이터 타입이다.
- 자동으로 타입이 변환된다.
- 'matrix'를 사용하여 행렬을 만들 경우 'nrow'를 사용하여 행의 수를 결정하거나, 'ncol'을 사용하여 열의 수를 결정할 수 있다.
- 'byrow' 옵션에 T(TRUE)를 지정하면 열이 아닌 행으로 저장된다.
- 'dim' 함수를 이용하여 행렬로 변환 가능, 주어진 행렬이 몇 개의 열과 행으로 구성되어 있는지 행렬의 크기를 나타냄
배열
- 3차원 이상의 구조를 가지는 벡터
- array를 사용해 배열을 만들 수 있으나, 몇 차원의 구조를 가지는지 dim 옵션에 명시해야 한다.
리스트
- 데이터의 타입, 구조에 상관 없이 모든 것을 저장할 수 있는 자료 구조
데이터 프레임
- 데이터 분석을 위한 2차원 구조를 가지는 관계형 데이터 구조
- 행렬과 같은 모양이지만, 여러 개의 백터로 구성되어 각 열은 다른 데이터 타입이다.
통계 함수★
sum: 합계
mean: 평균
median: 중앙값
var: 표본 분산
sd: 표본 표준편차
max, min: 최댓값, 최솟값
range: 최대값과 최소값
summary: 요약값
Skeness: 왜도
Kurtosis: 첨도
데이터 결합
- 벡터와 벡터 결합 시에는 재사용 규칙으로 부족한 데이터를 앞에서 채우며 오류가 발생
숫자 연산
sqrt: 제곱근
abs: 절댓값
celling: 올림
floor: 내림
문자 연산
tolower: 소문자 변환
toupper: 대문자 변환
nchar: 문자열의 길이
substr: 문자열 일부분 추출
grepl: 문자열에 주어진 문자가 있는지 확인
벡터 연산
length: 길이
paste: 벡터를 구분자를 기준으로 결합
cov: 공분산
cor: 상관계수
table: 데이터의 개수
order: 데이터의 순서
행렬 연산
t: 전치 행렬
diag: 대각 행렬
%*%: 두 행렬을 곱한다.
데이터 탐색
- head: 데이터의 앞 부분을 보여 준다.
- tail: 데이터의 뒷 부분을 보여 준다.
- quantile: 수치 벡터의 4분위 수를 보여준다.
데이터 전처리
- subset: 조건식에 맞는 데이터 추출
- merge: 두 데이터를 공통된 영을 기준으로 병합
- apply: 데이터에 열(행)별로 주어진 함수를 적용
정규 분포
- dnorm: 정규분포의 주어진 값에서 함수 값을 취한다.
- rnorm: 정규분포의 주어진 개수만큼 표본을 구한다.
- pnorm: 정규분포의 주어진 값보다 작을 확률 값을 구한다.
- qnorm: 정규분포의 주어진 넓이 값을 갖는 수 x를 구한다.
표본 추출
- runif: 균일 분포에서 주어진 개수만큼 표본을 추출한다.
- sample: 주어진 데이터에서 주어진 개수만큼 표본을 추출한다.
날짜
- as.POSIXct: 타임스탬르를 날짜 및 시간으로 변환
산점도
- plot: 산점도를 그림
- abline: 산점도에 추가 직선
파일 읽고, 쓰기
- read.CSV
- write.CSV
- saveRDS
- readRDS
기타
- getwd: 작업 디렉터리 확인
- setwd: 작업 디렉터리 설정
- 저자
- 전용문, 박현민
- 출판
- 위키북스
- 출판일
- 2023.01.16
※ 해당 책으로 공부한 내용입니다.