오늘 공부한 내용
02 _ 기초통계
__1. t-검정
__2. 분산 분석(ANOVA)
__3. 교차분석
__4. 상관분석
__핵심문제
공부한 내용 정리
일 표본 t-검정
하나의 모집단의 평균(n) 값을 특정값과 비교하는 경우
일 표본 단측 t-검정:
~보다 크다, ~보다 작다 처럼 한쪽으로의 방향성
일 표본 양측 t-검정:
~이다, ~가(이) 아니다 처럼 방향성이 없는 경우
★★이(독립) 표본 t-검정
독립적인 두 개의 집단에 대하여 모평균의 값이 같은지 검정
등분산성(분산이 같음)을 만족해야 함
이 표본 단측 t-검정:
~이(가) ~보다 크다, ~이(가) ~보다 작다 처럼 두 집단 사이의 대소
이 표본 양측 t-검정:
두 집단이 같다, 두 집단이 다르다 처럼 대소가 차이가 있는지 검정
★★대응 표본 t-검정(paired t-test)
동일 대상에 대한 두 관측치를 비교하여 차이가 있는지 검정
실험 전후 효과를 비교
★★분산분석(anova) 개요
세 개 이상의 모집단이 있을 때 여러 집단 사이의 평균을 비교하는 검정
귀무가설은 '항상 모든 집단 간 평균은 같다'
정규성(정규분포), 등분산성(동일한 분산), 독립성(서로에게 영향이 없다)을 따라야 함
귀무가설 기각 시 어느 집단 간 평균이 같은지, 집단 간의 평균이 얼마나 다른지 알 수 없음
사후 검정이 필요하다
독립변수는 범주형 데이터, 종속변수는 연속형 데이터
F-value(집단 간 분산/ 집단 내 분산) 사용
★★일원분산분석
셋 이상의 집단 간 평균을 비교하는 상황에서 독립변수, 종속변수 모두 한 개 일 때
'aov()' 사용
★★이원분산분석
일원분산분석 수행 시 독립변수의 수가 두 개 이상일 때
독립변수 간 교호작용이 있다면 반복이 있는 실험, 교호작용이 없다면 반복이 없는 실험
종속변수가 2개 이상이라면 '다변량분산분석, 다원분산분석'
교차분석
범주형 자료 간의 서열 관계를 파악
카이제곱 통계량을 이용한다.
적합도 검정, 독립성 검정, 동질성 검정에 사용
★★적합도 검정
관측값이 예상값과 일치하는지 여부를 검정
실험 데이터 = 관측도수, 예측값 = 기대도수
귀무가설 '실제 분포와 예측 분포 간에 차이가 없다'
★★독립성 검정
모집단이 두 개의 변수에 의해 범주화됐을 때, 두 변수들 사이의 관계가 독립인지 검정
독립이라면 변수들 사이에 유의한 관계가 없다.
관계가 있는지/없는지만 나타낼 뿐, 관계의 강도를 말해주지는 않는다.
★★동질성 검정
관측값들이 정해진 범주 내에서 서로 비슷하게 나타나고 있는지 검정
두 집단의 분포가 동일한 모집단에서 추출한 것인지 검정
★★상관분석
두 변수 간의 선형적 관계가 존재하는지 알아보는 분석 방법, 상관계수를 활용
-1~1 사이의 값
상관관계는 있지만, 인과관계는 없을 수도 있음
귀무가설 '두 변수는 아무 상관관계가 없다.'
★★피어슨 상관분석(선형적 상관관계)
두 변수가 모두 정규 분포를 따른다.
★★스피어만 상관분석(비선형적 상관관계)
두 변수가 서열 척도일 때 사용
'cor.test' 사용
- 저자
- 전용문, 박현민
- 출판
- 위키북스
- 출판일
- 2023.01.16
※ 해당 책으로 공부한 내용입니다.