본문 바로가기
자격증/ADsP

ADsP #9

by 카너먼 2023. 2. 10.

오늘 공부한 내용

▣ 02장: 통계 분석

01 _ 통계의 이해

__1. 통계 개요

__2. 확률과 확률분포

__3. 추정과 가설검정

__핵심문제

 

공부한 내용 정리

표본조사:

모집단들 대표할 수 있는 표본집단을 선별하여 표본조사를 실시

표본의 대표성을 신뢰할 수 있어야 통계 분석 결과 또한 신뢰할 수 있음

 

신뢰조사: 

신뢰 수준 95% = 100번 조사했을 때 오차 범위 내에서 동일한 결과가 95번 발생

 

오차범위: 오차범위 +-3%

 

표본추출 방법:

  • 단순 랜덤 추출법: N개의 모집단에서 n개의 데이터를 무작위로 추출, 사다리 타기, 제비 뽑기
  • 계통 추출법: 일정 간격을 두고 데이터를 추출하는 방법
  • 집락, 군집 추출법: 데이터를 여러 집락으로 구현한 뒤, 단순 랜덤 추출법으로 선택된 집락의 데이터를 표본으로 사용, 각 집락은 동질적, 집락 내 데이터는 이질적
  • 층화 추출법: 데이터를 여러 집락으로 구분하지만, 각 집락은 이질적, 집락 내 데이터는 동질적
    • 비례 층화 추출법: 전체 데이터의 분포를 반영하여 군집별 추출
    • 불비례 층화 추출법: 전체 데이터의 분포를 반영하지 않고 각 군집 내에서 원하는 데이터 추출

측정과 척도:

측정: 추출된 원소, 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것

척도: 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나게 일정한 규칙을 정하여 바꾸는 도구

 

질적 척도(명도 척도): 측정 대상이 집단에 속하는지 나타내는 자료(성별, 지역)

질적 척도(순서 척도): 측정 대상이 명목 척도이면서 서열 관계를 갖는 지료(신용도, 학년)

 

양적 척도(구간,등척 척도)

측정의 양을 측정할 수 있으며,

두 구간 사이에 의미가 있는 자료

 

양적 척도(비율 척도):

측정 대상이 구간 척도이면서,

절대적 기준인 0이 존재하며,

사칙연산이 가능한 자료(키, 몸무게, 가격, 점수)

 

기술통계와 추리통계

기술통계:

자료 자체의 속성이나 특징을 파악하는데 중점

자료 요약, 조직화, 단순화 목적

모집단의 특성을 유추하는데 사용

추리통계(추론통계):

수집한 데이터를 바탕으로 추론 및 예측

가설을 검증하거나 확률적인 가능성을 파악->예측

 

확률기초

 

확률:

발생가능한 모든 사건 중에서 사건 A가 발생할 확률

0~1 사이의 값

모든 사건의 합은 항상 1

 

조건부확률:

특정사건 A가 발생했다는 것이 사실이라는 전제하에 또 다른 사건 B가 발생할 확률

0~1 사이의 값

$P(B|A)= \frac{P(B \cap A)}{P(A)}$

 

독립사건: 서로에게 영향을 주지않는 사건

 

$P(B|A)=P(B)$

 

따라서 두 사건 A와 B와 독립이라면 아래 식이 성립한다.

 

$P(B \cap A)=P(A)P(B)$ 

 

배반사건:

두 사건 A와 B에 대하여 교집합이 없는 경우, 동시에 일어날 수 없는 사건 ($A \cap B= \phi $)

 

확률변수: 특정 확률로 발생하는 각각의 결과를 수치적으로 값으로 표현하는 변수(이산확률변수, 연속확률변수)

 

확률분포: 확률 변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하는지 설명

 

확률함수:

확률변수에 의해 정의된 실수를 확률에 대응시키는 함수

이산확률분포의 확률함수=확률질량함수

연속확률분포의 확률함수=확률밀도함수

 

이산확률분포:

베르누이 분포:

확률변수 X가 취할 수 있는 값이 2개인 경우

성공과 실패

 

이항분포:

n번의 베르누이 시행에서 k번 성공할 확률의 분포

하나의 동전을 던져서 앞면이 2번 나올 확률

 

기하분포:

성공 확률이 P인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포

동전을 던져서 3번째에 앞면이 나올 확률, 주사위를 던져서 4번째에 1이 나올 확률

 

다항분포:

이항 분포의 확장, n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포

 

포아송분포:

단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생횟수에 대한 확률분포

6시간 동안 3번의 장난전화가 왔을때 1시간 동안 장난전화가 5번 올 확률

 

이산확률변수:

확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 이산확률변수라 한다.

이산확률변수는 셀 수 있는 실수 값을 취한다.

서로 배반인 사건들의 합집합의 확률은 각 사건의 확률의 합이다.


★★★연속확률분포

 

균일분포:

연속형 확률변수인 X가 취할 수 있는 값에 대하여 같은 확률

100ml 물에 들어가 있는 물의 양

 

정규분포:

평균이 u이고 표준편차가 $\sigma$인 분포

1학년의 수학 점수, 남성의 키

낮은 종 모양

 

표준 정규 분포:

평균이 0, 포준편차가 1인 정규분포

 

t-분포:

자유도가 n인 t분포, 표준정규분포와 같이 평균이 0, 표준편차가 1이지만, 정규분포보다 더 두꺼운 모양의 꼬리 모양

자유도가 커지면 커질수록 표준정규분포에 가까워진다.

 

카이제곱분포:

표준 정규분포를 따르는 확률변수의 제곱의 합은 자유도가 n인 카이 제곱 분포를 따른다.

카이 제곱 분포는 모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용된다.

 

동질성 검정: 두 개 집단의 구성비를 비교

 

F분포:

서로 독립인 두 카이제곱 분포를 따르는 확률변수 $v_{1}$,$v_{2}$를 각각의 자유도로 나누었을 때 서로의 비율 X는 자유도가 $k_{1}$ , $k_{2}$ 인 F분포를 따른다.

F분포는 등분산 검정 및 분산 분석을 위해 활용된다.

 

등분산 검정: 두 모집단에 대하여 분산이 다른지 같은지 검정하는 방법

 

연속확률변수:

확률변수가 취할 수 있는 실수 값이 어떤 특정 구간 전체에 해당하여 그 수를 셀 수 없는 변수를 연속확률변수라 한다.

연속확률변수에서는 확률밀도함수의 아래 면적을 의미한다.

ex) 신생아의 몸무게, 태풍으로 내린 강우량, 심장발작 이후의 생존기간


★★★기댓값, 분산, 표준편차

 

기댓값: 

특정 사건이 시행됐을때 확률변수 x가 취할 수 있는 평균

확률변수 x의 값과 그 x가 발생할 확률의 곱들의 합

모평균은 통계분석에서 중요한 추론의 대상

 

분산:

데이터들이 중심에서 얼마나 떨어져 있는지 알아보기 위한 척도

차이값 제곱의 평균이다.

 

표준편차:

자료의 산포도를 나타내는 수치

값이 클수록 기댓값으로부터 멀리 떨어져 있다는 의미

표준편차의 사용목적은 단위 통일

분산의 루트값이다. $sd(X)= \sqrt{Var(x)} $

 

꼭 알아야하는 통계 개념

 

첨도: 

확률분포의 뾰족한 정도를 나타내는 측도

3에 가까울수록 정규분포에 가까운 모양

 

왜도:

확률분포의 비대칭 척도를 나타내는 측도

왜도=0이면 평균=중앙값=최빈값

왜도<0이면 평균 < 중앙값 < 최빈값

왜도>0이면 평균 > 중앙값 > 최빈값

 

공분산:

두 확률변수 x, y의 상관 정도를 나타내는 값

양수값을 가질 때 분포가 어느 정도의 선형성을 갖는지 알 수 없음

 

상관계수:

공분산의 문제를 해결한 값

-1~1 사이의 값

공분산을 x의 표준편차와 y의 표준편차 모두로 나눈 값

 

추청:

통계적 방법론에서 알고 싶은 것

모평균, 모분산과 같은 모수

표본조사를 실시하여 모수 추정

-점추정

-구간 추정

가설검정:

모집단의 특성에 대한 주장, 가설을 세우고 표본에서 얻은 정보를 이용해 옳은지 판단하는 과정, 귀무가설 vs 대립가설

 

귀무가설:

어떠한 특징을 지닐 것으로 여겨지는 가설

차이가 없다, 같다 기호를 사용하여 나타낼 수 있는 가설

실험, 연구를 통해 기각하고자 하는 가설

기각을 통해 입증하고자 하는 주장을 관철

 

대립가설:

귀무가설이 틀렸다고 판단될 경우 채택되는 가설

실험, 연구를 통해 증명하고자 하는 새로운 아이디어, 가설

 

검정 통계량: 표본들로부터 얻을 수 있는 값

 

기각역:

귀무가설을 기각하게 될 검정통계량의 영역

검정통계량이 기각역 내에 있으면 귀무가설을 기각

기각역의 경곗값 = 임곗값

 

유의 수준:

귀무가설이 참인데 이를 기각하는 오류를 범할 확률의 최대 허용 한계

제1종 오류와 제2종오류는 반비례

제1종 오류를 허용할 수 있는 최대 확률 유의 수준을 설정하여 가설검정 수행

 

유의확률:

귀무가설을 지지하는 정도

$p$-value가 유의 수준 $a$보다 작으면 귀무가설을 기각하고 대립가설 채택


★★★제1종 오류:

귀무가설이 사실인데, 귀무가설이 틀렸다고 가정

 

★★★제2종 오류:

귀무가설이 거짓인데, 귀무가설이 맞았다고 가정

 

  $H_{0}$가설 채택 ($H_{1}$ 기각)  $H_{0}$가설 기각 ($H_{1}$ 채택)
$H_{0}$ 사실 옳바른 결정 제 1종 오류
$H_{0}$ 거짓 제 2종 오류 옳바른 결정

가설 검정 절차:

 

 

★★모수검정과 비모수검정 차이:

 

모수 검정:

표본이 정규성을 갖는다는 모수적 특성을 이용하는 통계 방법이다.

따라서 표본의 정규성이 반드시 확보되어야 한다.

 

비모수 검정:

정규성 검정에서 정규분포를 따르지 않는다고 증명

이상치로부터 중앙값이 더 바람직

표본의 크기가 작음

서수 데이터

모수 검정 비모수 검정
등간척도, 비율척도 명목척도, 서열척도
평균 중앙값
피어슨 상관계수 스피어만 상관계수
one sample t-test, two sample t-test,
paired sample t-test, one way anova
부호검정, willcoxon 부호 순위 검정,
Mann-Whitney 검정, Kruskal Wallis 검정

 
2023 이지패스 ADsP 데이터분석 준전문가
2023년 ADsP 시험 합격을 위한 최신 기출문제 완벽 분석! 총 860문항 압도적 문제 수 + 수험서 앱(16회차 기출 및 모의고사 수록) 제공!
저자
전용문, 박현민
출판
위키북스
출판일
2023.01.16

※ 해당 책으로 공부한 내용입니다.

'자격증 > ADsP' 카테고리의 다른 글

ADsP #11  (0) 2023.02.13
ADsP #10  (0) 2023.02.11
ADsP #8  (0) 2023.02.09
ADsP #7  (0) 2023.02.08
ADsP #6  (0) 2023.02.07