본문 바로가기
자격증/ADsP

ADsP #18

by 카너먼 2023. 2. 23.

오늘 공부한 내용

 

04 _ 연관분석

__1. 연관분석의 개요 및 측도

__2. 연관분석의 알고리즘과 특징

__핵심문제

__기출유형문제

__예상문제


공부한 내용 정리

1. 연관분석의 개요 및 측도

(1) 연관분석의 개요

  • 장바구니 분석
  • 탐색적 기법의 일종
  • 비지도 학습
  • 사용이 편리하고 계산이 간편
  • 품목의 수가 증가하면 분석 계산이 기하급수적으로 증가

(2) 연관분석의 측도

  1. 지지도
    1. 전체 거래 중 A와 B라는 두 개의 품목이 동시에 포함된 거래의 비율로, 지지도가 높다는 것은 그 두개의 아이템이 같이 잘 팔린다는 것을 의미
  2. 신뢰도
    1. 어떤 하나의 품목이 구매되었을 때 다른 품목 하나가 구매될 확률로, 조건부 확률
    2. A가 구매되었을 때 B가 구매될 확률인 신뢰도(A→B)와, B가 구매되었을 때 A가 구매될 확률(B→A)의 신뢰도는 다르다.
  3. 향상도
    1. 품목 A가 주어지지 않았을 때 품목 B가 구매될 확률 대비, 품목 A가 구매될 때 품목 B가 구매될 확률을 나타낸 값이다.
    2. 신뢰도와 달리 향상도(A→B)와  (B→A)는 같다.

 

2. 연관분석의 알고리즘과 특징

(1) 연관분석의 알고리즘

  1. apriori 알고리즘
    1. 지지도를 사용해 빈발 아이템 집합을 판별하고 이를 통해 계산의 복잡도를 감소시키는 알고리즘
  2. apriori 알고리즘 절차
    1. 최소 지지도를 설정
    2. 최소 지지도보다 큰 지지도를 갖는 단일 품목을 선별
    3. 위 과정에 찾은 단일 품목으로 2가지 품목으로 생성되는 연관규칙 중 최소 지지도 이상의 연관규칙을 찾는다.
    4. 위 과정을 반복적으로 수행, 3가지 이상의 품목에 대한 연관규칙을 생성하면서 의미 있는 결과를 찾는다.
  3. FP-Growth 알고리즘
    1. 데이터셋이 큰 경우  모든 아이템셋을 하나씩 검사하는 것이 비효율적이라는 문제점에서 탄생.
    2. 지지도가 낮은 품목부터 지지도가 높은 품목 순으로 차츰 올라가면서
    3. 빈도 수가 높은 아이템 집합을 생성하는 상향식 알고리즘.
    4. apriori 알고리즘보다 속도가 빠르며, 연산비용이 저렴하다.

(2) 연관분석의 특징

장점 단점
결과가 단순하고 분명하다.
분석을 위한 계산이 간단하다.
목적변수가 없으므로 데이터 탐색을 위해 사용 가능하다.
품목 세분화에 어려움이 있다.
품목 수의 증가는 기하급수적인 계산량의 증가를 초래한다.
거래가 발생하지 않은 품목에 대해서는 분석이 불가능하다.

순차패턴: 연관분석+시간


 
2023 이지패스 ADsP 데이터분석 준전문가
2023년 ADsP 시험 합격을 위한 최신 기출문제 완벽 분석! 총 860문항 압도적 문제 수 + 수험서 앱(16회차 기출 및 모의고사 수록) 제공!
저자
전용문, 박현민
출판
위키북스
출판일
2023.01.16

※ 해당 책으로 공부한 내용입니다.

'자격증 > ADsP' 카테고리의 다른 글

ADsP #17  (0) 2023.02.21
ADsP #16  (0) 2023.02.20
ADsP #15  (0) 2023.02.17
ADsP #14  (0) 2023.02.16
ADsP #13  (0) 2023.02.15