오늘 공부한 내용
▣ 02장: 통계 분석
01 _ 통계의 이해
__1. 통계 개요
__2. 확률과 확률분포
__3. 추정과 가설검정
__핵심문제
공부한 내용 정리
★★표본조사:
모집단들 대표할 수 있는 표본집단을 선별하여 표본조사를 실시
표본의 대표성을 신뢰할 수 있어야 통계 분석 결과 또한 신뢰할 수 있음
★신뢰조사:
신뢰 수준 95% = 100번 조사했을 때 오차 범위 내에서 동일한 결과가 95번 발생
★오차범위: 오차범위 +-3%
★★표본추출 방법:
- 단순 랜덤 추출법: N개의 모집단에서 n개의 데이터를 무작위로 추출, 사다리 타기, 제비 뽑기
- 계통 추출법: 일정 간격을 두고 데이터를 추출하는 방법
- 집락, 군집 추출법: 데이터를 여러 집락으로 구현한 뒤, 단순 랜덤 추출법으로 선택된 집락의 데이터를 표본으로 사용, 각 집락은 동질적, 집락 내 데이터는 이질적
- 층화 추출법: 데이터를 여러 집락으로 구분하지만, 각 집락은 이질적, 집락 내 데이터는 동질적
- 비례 층화 추출법: 전체 데이터의 분포를 반영하여 군집별 추출
- 불비례 층화 추출법: 전체 데이터의 분포를 반영하지 않고 각 군집 내에서 원하는 데이터 추출
★★★측정과 척도:
측정: 추출된 원소, 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것
척도: 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나게 일정한 규칙을 정하여 바꾸는 도구
질적 척도(명도 척도): 측정 대상이 집단에 속하는지 나타내는 자료(성별, 지역)
질적 척도(순서 척도): 측정 대상이 명목 척도이면서 서열 관계를 갖는 지료(신용도, 학년)
양적 척도(구간,등척 척도):
측정의 양을 측정할 수 있으며,
두 구간 사이에 의미가 있는 자료
양적 척도(비율 척도):
측정 대상이 구간 척도이면서,
절대적 기준인 0이 존재하며,
사칙연산이 가능한 자료(키, 몸무게, 가격, 점수)
★★기술통계와 추리통계
기술통계:
자료 자체의 속성이나 특징을 파악하는데 중점
자료 요약, 조직화, 단순화 목적
모집단의 특성을 유추하는데 사용
추리통계(추론통계):
수집한 데이터를 바탕으로 추론 및 예측
가설을 검증하거나 확률적인 가능성을 파악->예측
★★확률기초
확률:
발생가능한 모든 사건 중에서 사건 A가 발생할 확률
0~1 사이의 값
모든 사건의 합은 항상 1
조건부확률:
특정사건 A가 발생했다는 것이 사실이라는 전제하에 또 다른 사건 B가 발생할 확률
0~1 사이의 값
$P(B|A)= \frac{P(B \cap A)}{P(A)}$
★★★독립사건: 서로에게 영향을 주지않는 사건
$P(B|A)=P(B)$
따라서 두 사건 A와 B와 독립이라면 아래 식이 성립한다.
$P(B \cap A)=P(A)P(B)$
★★★배반사건:
두 사건 A와 B에 대하여 교집합이 없는 경우, 동시에 일어날 수 없는 사건 ($A \cap B= \phi $)
★★★확률변수: 특정 확률로 발생하는 각각의 결과를 수치적으로 값으로 표현하는 변수(이산확률변수, 연속확률변수)
★★★확률분포: 확률 변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하는지 설명
★★★확률함수:
확률변수에 의해 정의된 실수를 확률에 대응시키는 함수
이산확률분포의 확률함수=확률질량함수
연속확률분포의 확률함수=확률밀도함수
★★★이산확률분포:
베르누이 분포:
확률변수 X가 취할 수 있는 값이 2개인 경우
성공과 실패
이항분포:
n번의 베르누이 시행에서 k번 성공할 확률의 분포
하나의 동전을 던져서 앞면이 2번 나올 확률
기하분포:
성공 확률이 P인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포
동전을 던져서 3번째에 앞면이 나올 확률, 주사위를 던져서 4번째에 1이 나올 확률
다항분포:
이항 분포의 확장, n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포
포아송분포:
단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생횟수에 대한 확률분포
6시간 동안 3번의 장난전화가 왔을때 1시간 동안 장난전화가 5번 올 확률
이산확률변수:
확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 이산확률변수라 한다.
이산확률변수는 셀 수 있는 실수 값을 취한다.
서로 배반인 사건들의 합집합의 확률은 각 사건의 확률의 합이다.
★★★연속확률분포
균일분포:
연속형 확률변수인 X가 취할 수 있는 값에 대하여 같은 확률
100ml 물에 들어가 있는 물의 양
정규분포:
평균이 u이고 표준편차가 $\sigma$인 분포
1학년의 수학 점수, 남성의 키
낮은 종 모양
표준 정규 분포:
평균이 0, 포준편차가 1인 정규분포
t-분포:
자유도가 n인 t분포, 표준정규분포와 같이 평균이 0, 표준편차가 1이지만, 정규분포보다 더 두꺼운 모양의 꼬리 모양
자유도가 커지면 커질수록 표준정규분포에 가까워진다.
카이제곱분포:
표준 정규분포를 따르는 확률변수의 제곱의 합은 자유도가 n인 카이 제곱 분포를 따른다.
카이 제곱 분포는 모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용된다.
동질성 검정: 두 개 집단의 구성비를 비교
F분포:
서로 독립인 두 카이제곱 분포를 따르는 확률변수 $v_{1}$,$v_{2}$를 각각의 자유도로 나누었을 때 서로의 비율 X는 자유도가 $k_{1}$ , $k_{2}$ 인 F분포를 따른다.
F분포는 등분산 검정 및 분산 분석을 위해 활용된다.
등분산 검정: 두 모집단에 대하여 분산이 다른지 같은지 검정하는 방법
연속확률변수:
확률변수가 취할 수 있는 실수 값이 어떤 특정 구간 전체에 해당하여 그 수를 셀 수 없는 변수를 연속확률변수라 한다.
연속확률변수에서는 확률밀도함수의 아래 면적을 의미한다.
ex) 신생아의 몸무게, 태풍으로 내린 강우량, 심장발작 이후의 생존기간
★★★기댓값, 분산, 표준편차
기댓값:
특정 사건이 시행됐을때 확률변수 x가 취할 수 있는 평균
확률변수 x의 값과 그 x가 발생할 확률의 곱들의 합
모평균은 통계분석에서 중요한 추론의 대상
분산:
데이터들이 중심에서 얼마나 떨어져 있는지 알아보기 위한 척도
차이값 제곱의 평균이다.
표준편차:
자료의 산포도를 나타내는 수치
값이 클수록 기댓값으로부터 멀리 떨어져 있다는 의미
표준편차의 사용목적은 단위 통일
분산의 루트값이다. $sd(X)= \sqrt{Var(x)} $
꼭 알아야하는 통계 개념
첨도:
확률분포의 뾰족한 정도를 나타내는 측도
3에 가까울수록 정규분포에 가까운 모양
왜도:
확률분포의 비대칭 척도를 나타내는 측도
왜도=0이면 평균=중앙값=최빈값
왜도<0이면 평균 < 중앙값 < 최빈값
왜도>0이면 평균 > 중앙값 > 최빈값
공분산:
두 확률변수 x, y의 상관 정도를 나타내는 값
양수값을 가질 때 분포가 어느 정도의 선형성을 갖는지 알 수 없음
상관계수:
공분산의 문제를 해결한 값
-1~1 사이의 값
공분산을 x의 표준편차와 y의 표준편차 모두로 나눈 값
추청:
통계적 방법론에서 알고 싶은 것
모평균, 모분산과 같은 모수
표본조사를 실시하여 모수 추정
-점추정
-구간 추정
가설검정:
모집단의 특성에 대한 주장, 가설을 세우고 표본에서 얻은 정보를 이용해 옳은지 판단하는 과정, 귀무가설 vs 대립가설
귀무가설:
어떠한 특징을 지닐 것으로 여겨지는 가설
차이가 없다, 같다 기호를 사용하여 나타낼 수 있는 가설
실험, 연구를 통해 기각하고자 하는 가설
기각을 통해 입증하고자 하는 주장을 관철
대립가설:
귀무가설이 틀렸다고 판단될 경우 채택되는 가설
실험, 연구를 통해 증명하고자 하는 새로운 아이디어, 가설
검정 통계량: 표본들로부터 얻을 수 있는 값
기각역:
귀무가설을 기각하게 될 검정통계량의 영역
검정통계량이 기각역 내에 있으면 귀무가설을 기각
기각역의 경곗값 = 임곗값
유의 수준:
귀무가설이 참인데 이를 기각하는 오류를 범할 확률의 최대 허용 한계
제1종 오류와 제2종오류는 반비례
제1종 오류를 허용할 수 있는 최대 확률 유의 수준을 설정하여 가설검정 수행
유의확률:
귀무가설을 지지하는 정도
$p$-value가 유의 수준 $a$보다 작으면 귀무가설을 기각하고 대립가설 채택
★★★제1종 오류:
귀무가설이 사실인데, 귀무가설이 틀렸다고 가정
★★★제2종 오류:
귀무가설이 거짓인데, 귀무가설이 맞았다고 가정
$H_{0}$가설 채택 ($H_{1}$ 기각) | $H_{0}$가설 기각 ($H_{1}$ 채택) | |
$H_{0}$ 사실 | 옳바른 결정 | 제 1종 오류 |
$H_{0}$ 거짓 | 제 2종 오류 | 옳바른 결정 |
★★★가설 검정 절차:
★★모수검정과 비모수검정 차이:
모수 검정:
표본이 정규성을 갖는다는 모수적 특성을 이용하는 통계 방법이다.
따라서 표본의 정규성이 반드시 확보되어야 한다.
비모수 검정:
정규성 검정에서 정규분포를 따르지 않는다고 증명
이상치로부터 중앙값이 더 바람직
표본의 크기가 작음
서수 데이터
모수 검정 | 비모수 검정 |
등간척도, 비율척도 | 명목척도, 서열척도 |
평균 | 중앙값 |
피어슨 상관계수 | 스피어만 상관계수 |
one sample t-test, two sample t-test, paired sample t-test, one way anova |
부호검정, willcoxon 부호 순위 검정, Mann-Whitney 검정, Kruskal Wallis 검정 |
- 저자
- 전용문, 박현민
- 출판
- 위키북스
- 출판일
- 2023.01.16
※ 해당 책으로 공부한 내용입니다.